diff --git "a/experiments/2022-12-19-fdf21cd1874b02afe17fee417ba59c79dadadd87f9b5944402c89d476acb4861/output.log" "b/experiments/2022-12-19-fdf21cd1874b02afe17fee417ba59c79dadadd87f9b5944402c89d476acb4861/output.log"
new file mode 100644--- /dev/null
+++ "b/experiments/2022-12-19-fdf21cd1874b02afe17fee417ba59c79dadadd87f9b5944402c89d476acb4861/output.log"
@@ -0,0 +1,9862 @@
+nohup: ignoring input
+[2022-12-18 10:53:56,268] [WARNING] [runner.py:179:fetch_hostfile] Unable to find hostfile, will proceed with training with local resources only.
+[2022-12-18 10:53:56,292] [INFO] [runner.py:508:main] cmd = /usr/bin/python3 -u -m deepspeed.launcher.launch --world_info=eyJsb2NhbGhvc3QiOiBbMCwgMV19 --master_addr=127.0.0.1 --master_port=29500 tune_gpt.py --deepspeed deepspeed.json --upload-model
+[2022-12-18 10:53:57,962] [INFO] [launch.py:142:main] WORLD INFO DICT: {'localhost': [0, 1]}
+[2022-12-18 10:53:57,962] [INFO] [launch.py:148:main] nnodes=1, num_local_procs=2, node_rank=0
+[2022-12-18 10:53:57,962] [INFO] [launch.py:161:main] global_rank_mapping=defaultdict(<class 'list'>, {'localhost': [0, 1]})
+[2022-12-18 10:53:57,962] [INFO] [launch.py:162:main] dist_world_size=2
+[2022-12-18 10:53:57,962] [INFO] [launch.py:164:main] Setting CUDA_VISIBLE_DEVICES=0,1
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+No config specified, defaulting to: apps/all
+No config specified, defaulting to: apps/all
+Found cached dataset apps (/home/user/.cache/huggingface/datasets/codeparrot___apps/all/0.0.0/04ac807715d07d6e5cc580f59cdc8213cd7dc4529d0bb819cca72c9f8e8c1aa5)
+Found cached dataset apps (/home/user/.cache/huggingface/datasets/codeparrot___apps/all/0.0.0/04ac807715d07d6e5cc580f59cdc8213cd7dc4529d0bb819cca72c9f8e8c1aa5)
+Max length: 2048
+Max length: 2048
+PyTorch: setting up devices
+PyTorch: setting up devices
+[2022-12-18 10:54:11,976] [INFO] [comm.py:654:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
+The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
+GPU memory occupied: 3404 MB.
+GPU memory occupied: 3404 MB.
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /home/user/.cache/torch_extensions/py38_cu116/cpu_adam/build.ninja...
+Building extension module cpu_adam...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+ninja: no work to do.
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.6207056045532227 seconds
+Loading extension module cpu_adam...
+Time to load cpu_adam op: 2.6935393810272217 seconds
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+Emitting ninja build file /home/user/.cache/torch_extensions/py38_cu116/utils/build.ninja...
+Building extension module utils...
+Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+ninja: no work to do.
+Loading extension module utils...
+Time to load utils op: 0.31526732444763184 seconds
+Loading extension module utils...
+Time to load utils op: 0.3027935028076172 seconds
+Rank: 0 partition count [2] and sizes[(62600064, False)] Rank: 1 partition count [2] and sizes[(62600064, False)] 
+
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+No modifications detected for re-loaded extension module utils, skipping build step...
+Loading extension module utils...
+Time to load utils op: 0.0005586147308349609 seconds
+Using /home/user/.cache/torch_extensions/py38_cu116 as PyTorch extensions root...
+No modifications detected for re-loaded extension module utils, skipping build step...
+Loading extension module utils...
+Time to load utils op: 0.00031638145446777344 seconds
+  0%|          | 0/48845 [00:00<?, ?it/s]  0%|          | 1/48845 [00:01<21:21:24,  1.57s/it]                                                    {'loss': 16.1503, 'learning_rate': 0.0, 'epoch': 0.0}
+  0%|          | 1/48845 [00:01<21:21:24,  1.57s/it]  0%|          | 2/48845 [00:03<20:17:53,  1.50s/it]  0%|          | 3/48845 [00:04<20:14:23,  1.49s/it]  0%|          | 4/48845 [00:05<19:59:37,  1.47s/it]  0%|          | 5/48845 [00:07<19:51:04,  1.46s/it]                                                    {'loss': 10.8391, 'learning_rate': 1.294882868674145e-05, 'epoch': 0.0}
+  0%|          | 5/48845 [00:07<19:51:04,  1.46s/it]  0%|          | 6/48845 [00:08<19:42:39,  1.45s/it]  0%|          | 7/48845 [00:10<19:35:43,  1.44s/it]  0%|          | 8/48845 [00:11<19:32:11,  1.44s/it]  0%|          | 9/48845 [00:13<19:39:07,  1.45s/it]  0%|          | 10/48845 [00:14<19:37:06,  1.45s/it]                                                     {'loss': 6.1107, 'learning_rate': 1.852558565662928e-05, 'epoch': 0.0}
+  0%|          | 10/48845 [00:14<19:37:06,  1.45s/it]  0%|          | 11/48845 [00:16<19:33:40,  1.44s/it]  0%|          | 12/48845 [00:17<18:44:27,  1.38s/it]  0%|          | 13/48845 [00:18<18:59:42,  1.40s/it]  0%|          | 14/48845 [00:20<19:11:49,  1.42s/it]  0%|          | 15/48845 [00:21<19:19:46,  1.43s/it]                                                     {'loss': 3.1555, 'learning_rate': 2.1232693098421452e-05, 'epoch': 0.0}
+  0%|          | 15/48845 [00:21<19:19:46,  1.43s/it]  0%|          | 16/48845 [00:23<19:26:19,  1.43s/it]  0%|          | 17/48845 [00:24<19:33:26,  1.44s/it]  0%|          | 18/48845 [00:25<19:34:06,  1.44s/it]  0%|          | 19/48845 [00:27<19:37:28,  1.45s/it]  0%|          | 20/48845 [00:28<19:40:34,  1.45s/it]                                                     {'loss': 1.8062, 'learning_rate': 2.3689659368174762e-05, 'epoch': 0.0}
+  0%|          | 20/48845 [00:28<19:40:34,  1.45s/it]  0%|          | 21/48845 [00:30<19:44:10,  1.46s/it]  0%|          | 22/48845 [00:31<19:41:46,  1.45s/it]  0%|          | 23/48845 [00:33<19:42:56,  1.45s/it]  0%|          | 24/48845 [00:34<19:39:46,  1.45s/it]  0%|          | 25/48845 [00:36<19:41:19,  1.45s/it]                                                     {'loss': 1.1921, 'learning_rate': 2.5569221582571013e-05, 'epoch': 0.0}
+  0%|          | 25/48845 [00:36<19:41:19,  1.45s/it]  0%|          | 26/48845 [00:37<19:39:45,  1.45s/it]  0%|          | 27/48845 [00:39<19:40:06,  1.45s/it]  0%|          | 28/48845 [00:40<19:42:40,  1.45s/it]  0%|          | 29/48845 [00:41<19:42:06,  1.45s/it]  0%|          | 30/48845 [00:43<19:46:41,  1.46s/it]                                                     {'loss': 0.9487, 'learning_rate': 2.709177937416027e-05, 'epoch': 0.0}
+  0%|          | 30/48845 [00:43<19:46:41,  1.46s/it]  0%|          | 31/48845 [00:44<19:42:34,  1.45s/it]  0%|          | 32/48845 [00:46<19:40:57,  1.45s/it]  0%|          | 33/48845 [00:47<19:38:30,  1.45s/it]  0%|          | 34/48845 [00:49<18:47:53,  1.39s/it]  0%|          | 35/48845 [00:50<19:03:57,  1.41s/it]                                                     {'loss': 0.7643, 'learning_rate': 2.81313600639934e-05, 'epoch': 0.0}
+  0%|          | 35/48845 [00:50<19:03:57,  1.41s/it]  0%|          | 36/48845 [00:51<19:11:24,  1.42s/it]  0%|          | 37/48845 [00:53<19:17:23,  1.42s/it]  0%|          | 38/48845 [00:54<19:20:09,  1.43s/it]  0%|          | 39/48845 [00:56<19:22:20,  1.43s/it]  0%|          | 40/48845 [00:57<19:25:56,  1.43s/it]                                                     {'loss': 0.6763, 'learning_rate': 2.9266416338062584e-05, 'epoch': 0.0}
+  0%|          | 40/48845 [00:57<19:25:56,  1.43s/it]  0%|          | 41/48845 [00:59<19:24:39,  1.43s/it]  0%|          | 42/48845 [01:00<19:30:21,  1.44s/it]  0%|          | 43/48845 [01:01<19:33:29,  1.44s/it]  0%|          | 44/48845 [01:03<19:37:21,  1.45s/it]  0%|          | 45/48845 [01:04<19:39:46,  1.45s/it]                                                     {'loss': 1.0021, 'learning_rate': 3.0260959791241562e-05, 'epoch': 0.0}
+  0%|          | 45/48845 [01:04<19:39:46,  1.45s/it]  0%|          | 46/48845 [01:06<18:49:55,  1.39s/it]  0%|          | 47/48845 [01:07<19:02:29,  1.40s/it]  0%|          | 48/48845 [01:09<19:12:31,  1.42s/it]  0%|          | 49/48845 [01:10<19:17:13,  1.42s/it]  0%|          | 50/48845 [01:11<19:22:42,  1.43s/it]                                                     {'loss': 0.7533, 'learning_rate': 3.097659209345446e-05, 'epoch': 0.01}
+  0%|          | 50/48845 [01:11<19:22:42,  1.43s/it]  0%|          | 51/48845 [01:13<19:29:33,  1.44s/it]  0%|          | 52/48845 [01:14<19:29:32,  1.44s/it]  0%|          | 53/48845 [01:16<19:30:54,  1.44s/it]  0%|          | 54/48845 [01:17<19:31:33,  1.44s/it]  0%|          | 55/48845 [01:19<19:34:57,  1.44s/it]                                                     {'loss': 0.8149, 'learning_rate': 3.178996692956872e-05, 'epoch': 0.01}
+  0%|          | 55/48845 [01:19<19:34:57,  1.44s/it]  0%|          | 56/48845 [01:20<19:37:59,  1.45s/it]  0%|          | 57/48845 [01:22<19:37:05,  1.45s/it]  0%|          | 58/48845 [01:23<19:35:30,  1.45s/it]  0%|          | 59/48845 [01:24<18:47:29,  1.39s/it]  0%|          | 60/48845 [01:26<19:01:37,  1.40s/it]                                                     {'loss': 0.8246, 'learning_rate': 3.2386207038197104e-05, 'epoch': 0.01}
+  0%|          | 60/48845 [01:26<19:01:37,  1.40s/it]  0%|          | 61/48845 [01:27<19:09:22,  1.41s/it]  0%|          | 62/48845 [01:29<19:18:24,  1.42s/it]  0%|          | 63/48845 [01:30<19:23:06,  1.43s/it]  0%|          | 64/48845 [01:31<19:24:24,  1.43s/it]  0%|          | 65/48845 [01:33<19:30:47,  1.44s/it]                                                     {'loss': 0.8406, 'learning_rate': 3.307428078382778e-05, 'epoch': 0.01}
+  0%|          | 65/48845 [01:33<19:30:47,  1.44s/it]  0%|          | 66/48845 [01:34<19:42:18,  1.45s/it]  0%|          | 67/48845 [01:36<19:41:10,  1.45s/it]  0%|          | 68/48845 [01:37<19:39:26,  1.45s/it]  0%|          | 69/48845 [01:39<19:37:06,  1.45s/it]  0%|          | 70/48845 [01:40<19:37:47,  1.45s/it]                                                     {'loss': 0.5465, 'learning_rate': 3.3708117033881226e-05, 'epoch': 0.01}
+  0%|          | 70/48845 [01:40<19:37:47,  1.45s/it]  0%|          | 71/48845 [01:42<19:44:26,  1.46s/it]  0%|          | 72/48845 [01:43<18:53:36,  1.39s/it]  0%|          | 73/48845 [01:44<19:19:05,  1.43s/it]  0%|          | 74/48845 [01:46<19:23:39,  1.43s/it]  0%|          | 75/48845 [01:47<19:27:25,  1.44s/it]                                                     {'loss': 0.717, 'learning_rate': 3.4181521785162905e-05, 'epoch': 0.01}
+  0%|          | 75/48845 [01:47<19:27:25,  1.44s/it]  0%|          | 76/48845 [01:49<19:28:33,  1.44s/it]  0%|          | 77/48845 [01:50<19:29:37,  1.44s/it]  0%|          | 78/48845 [01:52<19:29:52,  1.44s/it]  0%|          | 79/48845 [01:53<19:32:34,  1.44s/it]  0%|          | 80/48845 [01:54<18:44:13,  1.38s/it]                                                     {'loss': 0.6839, 'learning_rate': 3.462861233596465e-05, 'epoch': 0.01}
+  0%|          | 80/48845 [01:54<18:44:13,  1.38s/it]  0%|          | 81/48845 [01:56<19:03:13,  1.41s/it]  0%|          | 82/48845 [01:57<19:15:06,  1.42s/it]  0%|          | 83/48845 [01:59<19:23:33,  1.43s/it]  0%|          | 84/48845 [02:00<19:27:38,  1.44s/it]  0%|          | 85/48845 [02:02<19:28:16,  1.44s/it]                                                     {'loss': 0.7184, 'learning_rate': 3.505216063258843e-05, 'epoch': 0.01}
+  0%|          | 85/48845 [02:02<19:28:16,  1.44s/it]  0%|          | 86/48845 [02:03<19:32:03,  1.44s/it]  0%|          | 87/48845 [02:04<19:29:35,  1.44s/it]  0%|          | 88/48845 [02:06<19:33:09,  1.44s/it]  0%|          | 89/48845 [02:07<19:32:44,  1.44s/it]  0%|          | 90/48845 [02:09<19:30:45,  1.44s/it]                                                     {'loss': 0.5943, 'learning_rate': 3.5552045582073666e-05, 'epoch': 0.01}
+  0%|          | 90/48845 [02:09<19:30:45,  1.44s/it]  0%|          | 91/48845 [02:10<19:35:54,  1.45s/it]  0%|          | 92/48845 [02:12<19:35:44,  1.45s/it]  0%|          | 93/48845 [02:13<19:38:43,  1.45s/it]  0%|          | 94/48845 [02:15<19:40:15,  1.45s/it]  0%|          | 95/48845 [02:16<19:39:37,  1.45s/it]                                                     {'loss': 0.5905, 'learning_rate': 3.6022680300749336e-05, 'epoch': 0.01}
+  0%|          | 95/48845 [02:16<19:39:37,  1.45s/it]  0%|          | 96/48845 [02:17<18:50:25,  1.39s/it]  0%|          | 97/48845 [02:19<19:09:21,  1.41s/it]  0%|          | 98/48845 [02:20<19:19:42,  1.43s/it]  0%|          | 99/48845 [02:22<19:25:13,  1.43s/it]  0%|          | 100/48845 [02:23<18:39:30,  1.38s/it]                                                      {'loss': 0.9331, 'learning_rate': 3.6292389118326696e-05, 'epoch': 0.01}
+  0%|          | 100/48845 [02:23<18:39:30,  1.38s/it]  0%|          | 101/48845 [02:24<18:59:15,  1.40s/it]  0%|          | 102/48845 [02:26<19:13:23,  1.42s/it]  0%|          | 103/48845 [02:27<19:19:20,  1.43s/it]  0%|          | 104/48845 [02:29<19:28:30,  1.44s/it]  0%|          | 105/48845 [02:30<18:43:56,  1.38s/it]                                                      {'loss': 1.3817, 'learning_rate': 3.6638488054916214e-05, 'epoch': 0.01}
+  0%|          | 105/48845 [02:30<18:43:56,  1.38s/it]  0%|          | 106/48845 [02:32<19:04:52,  1.41s/it]  0%|          | 107/48845 [02:33<19:13:29,  1.42s/it]  0%|          | 108/48845 [02:34<18:32:32,  1.37s/it]  0%|          | 109/48845 [02:36<18:53:23,  1.40s/it]  0%|          | 110/48845 [02:37<19:07:07,  1.41s/it]                                                      {'loss': 1.7623, 'learning_rate': 3.6970310736900946e-05, 'epoch': 0.01}
+  0%|          | 110/48845 [02:37<19:07:07,  1.41s/it]  0%|          | 111/48845 [02:39<19:16:11,  1.42s/it]  0%|          | 112/48845 [02:40<19:22:50,  1.43s/it]  0%|          | 113/48845 [02:41<19:30:03,  1.44s/it]  0%|          | 114/48845 [02:43<18:42:50,  1.38s/it]  0%|          | 115/48845 [02:44<18:11:25,  1.34s/it]                                                      {'loss': 1.7463, 'learning_rate': 3.721049453189568e-05, 'epoch': 0.01}
+  0%|          | 115/48845 [02:44<18:11:25,  1.34s/it]  0%|          | 116/48845 [02:45<17:49:52,  1.32s/it]  0%|          | 117/48845 [02:47<18:23:17,  1.36s/it]  0%|          | 118/48845 [02:48<17:57:29,  1.33s/it]  0%|          | 119/48845 [02:49<18:29:09,  1.37s/it]  0%|          | 120/48845 [02:51<18:52:49,  1.39s/it]                                                      {'loss': 1.957, 'learning_rate': 3.7443715488182624e-05, 'epoch': 0.01}
+  0%|          | 120/48845 [02:51<18:52:49,  1.39s/it]  0%|          | 121/48845 [02:52<18:17:31,  1.35s/it]  0%|          | 122/48845 [02:53<18:19:37,  1.35s/it]  0%|          | 123/48845 [02:55<17:57:53,  1.33s/it]  0%|          | 124/48845 [02:56<18:29:21,  1.37s/it]  0%|          | 125/48845 [02:57<18:01:10,  1.33s/it]                                                      {'loss': 2.1111, 'learning_rate': 3.751997728783617e-05, 'epoch': 0.01}
+  0%|          | 125/48845 [02:57<18:01:10,  1.33s/it]  0%|          | 126/48845 [02:59<18:31:59,  1.37s/it]  0%|          | 127/48845 [03:00<18:02:00,  1.33s/it]  0%|          | 128/48845 [03:01<17:41:16,  1.31s/it]  0%|          | 129/48845 [03:03<18:17:49,  1.35s/it]  0%|          | 130/48845 [03:04<17:53:13,  1.32s/it]                                                      {'loss': 1.8427, 'learning_rate': 3.767036595849827e-05, 'epoch': 0.01}
+  0%|          | 130/48845 [03:04<17:53:13,  1.32s/it]  0%|          | 131/48845 [03:05<17:36:10,  1.30s/it]  0%|          | 132/48845 [03:07<17:25:34,  1.29s/it]  0%|          | 133/48845 [03:08<18:06:46,  1.34s/it]  0%|          | 134/48845 [03:09<17:45:46,  1.31s/it]  0%|          | 135/48845 [03:11<18:19:25,  1.35s/it]                                                      {'loss': 1.6616, 'learning_rate': 3.781799504771514e-05, 'epoch': 0.01}
+  0%|          | 135/48845 [03:11<18:19:25,  1.35s/it]  0%|          | 136/48845 [03:12<17:57:14,  1.33s/it]  0%|          | 137/48845 [03:13<17:39:44,  1.31s/it]  0%|          | 138/48845 [03:15<17:27:34,  1.29s/it]  0%|          | 139/48845 [03:16<17:18:56,  1.28s/it]  0%|          | 140/48845 [03:17<17:12:48,  1.27s/it]                                                      {'loss': 1.5656, 'learning_rate': 3.781799504771514e-05, 'epoch': 0.01}
+  0%|          | 140/48845 [03:17<17:12:48,  1.27s/it]  0%|          | 141/48845 [03:18<17:08:05,  1.27s/it]  0%|          | 142/48845 [03:20<17:05:25,  1.26s/it]  0%|          | 143/48845 [03:21<17:02:58,  1.26s/it]  0%|          | 144/48845 [03:22<17:02:01,  1.26s/it]  0%|          | 145/48845 [03:23<17:00:22,  1.26s/it]                                                      {'loss': 1.7339, 'learning_rate': 3.781799504771514e-05, 'epoch': 0.01}
+  0%|          | 145/48845 [03:23<17:00:22,  1.26s/it]  0%|          | 146/48845 [03:25<16:59:46,  1.26s/it]  0%|          | 147/48845 [03:26<16:59:40,  1.26s/it]  0%|          | 148/48845 [03:27<16:59:41,  1.26s/it]  0%|          | 149/48845 [03:29<17:39:48,  1.31s/it]  0%|          | 150/48845 [03:30<17:31:20,  1.30s/it]                                                      {'loss': 1.61, 'learning_rate': 3.781799504771514e-05, 'epoch': 0.02}
+  0%|          | 150/48845 [03:30<17:31:20,  1.30s/it]  0%|          | 151/48845 [03:31<18:10:53,  1.34s/it]  0%|          | 152/48845 [03:32<17:49:09,  1.32s/it]  0%|          | 153/48845 [03:34<17:35:05,  1.30s/it]  0%|          | 154/48845 [03:35<17:32:24,  1.30s/it]  0%|          | 155/48845 [03:36<17:22:32,  1.28s/it]                                                      {'loss': 1.9631, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 155/48845 [03:36<17:22:32,  1.28s/it]  0%|          | 156/48845 [03:38<17:17:56,  1.28s/it]  0%|          | 157/48845 [03:39<17:12:36,  1.27s/it]  0%|          | 158/48845 [03:40<17:12:48,  1.27s/it]  0%|          | 159/48845 [03:41<17:09:37,  1.27s/it]  0%|          | 160/48845 [03:43<17:07:52,  1.27s/it]                                                      {'loss': 1.61, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 160/48845 [03:43<17:07:52,  1.27s/it]  0%|          | 161/48845 [03:44<17:05:55,  1.26s/it]  0%|          | 162/48845 [03:45<17:03:46,  1.26s/it]  0%|          | 163/48845 [03:46<17:02:16,  1.26s/it]  0%|          | 164/48845 [03:48<17:02:02,  1.26s/it]  0%|          | 165/48845 [03:49<17:01:41,  1.26s/it]                                                      {'loss': 1.9293, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 165/48845 [03:49<17:01:41,  1.26s/it]  0%|          | 166/48845 [03:50<17:01:42,  1.26s/it]  0%|          | 167/48845 [03:51<17:01:42,  1.26s/it]  0%|          | 168/48845 [03:53<17:01:10,  1.26s/it]  0%|          | 169/48845 [03:54<17:00:48,  1.26s/it]  0%|          | 170/48845 [03:55<17:00:01,  1.26s/it]                                                      {'loss': 1.8173, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 170/48845 [03:55<17:00:01,  1.26s/it]  0%|          | 171/48845 [03:56<17:00:08,  1.26s/it]  0%|          | 172/48845 [03:58<17:00:18,  1.26s/it]  0%|          | 173/48845 [03:59<17:00:45,  1.26s/it]  0%|          | 174/48845 [04:00<16:59:59,  1.26s/it]  0%|          | 175/48845 [04:01<16:59:56,  1.26s/it]                                                      {'loss': 1.8913, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 175/48845 [04:01<16:59:56,  1.26s/it]  0%|          | 176/48845 [04:03<17:01:05,  1.26s/it]  0%|          | 177/48845 [04:04<17:00:06,  1.26s/it]  0%|          | 178/48845 [04:05<17:00:22,  1.26s/it]  0%|          | 179/48845 [04:07<17:00:12,  1.26s/it]  0%|          | 180/48845 [04:08<17:00:02,  1.26s/it]                                                      {'loss': 1.8073, 'learning_rate': 3.789080603898437e-05, 'epoch': 0.02}
+  0%|          | 180/48845 [04:08<17:00:02,  1.26s/it]  0%|          | 181/48845 [04:09<17:01:09,  1.26s/it]  0%|          | 182/48845 [04:10<17:00:18,  1.26s/it]  0%|          | 183/48845 [04:12<17:00:29,  1.26s/it]  0%|          | 184/48845 [04:13<17:50:09,  1.32s/it]  0%|          | 185/48845 [04:14<17:34:56,  1.30s/it]                                                      {'loss': 1.7359, 'learning_rate': 3.796296400808492e-05, 'epoch': 0.02}
+  0%|          | 185/48845 [04:14<17:34:56,  1.30s/it]  0%|          | 186/48845 [04:16<17:26:03,  1.29s/it]  0%|          | 187/48845 [04:17<17:17:20,  1.28s/it]  0%|          | 188/48845 [04:18<17:13:04,  1.27s/it]  0%|          | 189/48845 [04:19<17:08:20,  1.27s/it]  0%|          | 190/48845 [04:21<17:06:16,  1.27s/it]                                                      {'loss': 1.9812, 'learning_rate': 3.796296400808492e-05, 'epoch': 0.02}
+  0%|          | 190/48845 [04:21<17:06:16,  1.27s/it]  0%|          | 191/48845 [04:22<17:06:48,  1.27s/it]  0%|          | 192/48845 [04:23<17:05:05,  1.26s/it]  0%|          | 193/48845 [04:24<17:03:46,  1.26s/it]  0%|          | 194/48845 [04:26<17:02:42,  1.26s/it]  0%|          | 195/48845 [04:27<17:01:44,  1.26s/it]                                                      {'loss': 1.5778, 'learning_rate': 3.796296400808492e-05, 'epoch': 0.02}
+  0%|          | 195/48845 [04:27<17:01:44,  1.26s/it]  0%|          | 196/48845 [04:28<17:05:39,  1.26s/it]  0%|          | 197/48845 [04:29<17:03:36,  1.26s/it]  0%|          | 198/48845 [04:31<17:02:49,  1.26s/it]  0%|          | 199/48845 [04:32<17:01:16,  1.26s/it]  0%|          | 200/48845 [04:33<17:00:40,  1.26s/it]                                                      {'loss': 1.698, 'learning_rate': 3.796296400808492e-05, 'epoch': 0.02}
+  0%|          | 200/48845 [04:33<17:00:40,  1.26s/it]/home/user/.local/lib/python3.8/site-packages/torch/nn/modules/module.py:1432: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/home/user/.local/lib/python3.8/site-packages/torch/nn/modules/module.py:1432: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+  0%|          | 201/48845 [04:37<25:45:43,  1.91s/it]  0%|          | 202/48845 [04:38<23:08:28,  1.71s/it]  0%|          | 203/48845 [04:39<21:18:09,  1.58s/it]  0%|          | 204/48845 [04:40<20:00:09,  1.48s/it]  0%|          | 205/48845 [04:42<19:06:44,  1.41s/it]                                                      {'loss': 1.9286, 'learning_rate': 3.796296400808492e-05, 'epoch': 0.02}
+  0%|          | 205/48845 [04:42<19:06:44,  1.41s/it]  0%|          | 206/48845 [04:43<18:29:36,  1.37s/it]  0%|          | 207/48845 [04:44<18:03:04,  1.34s/it]  0%|          | 208/48845 [04:46<18:33:45,  1.37s/it]  0%|          | 209/48845 [04:47<18:04:18,  1.34s/it]  0%|          | 210/48845 [04:48<17:44:44,  1.31s/it]                                                      {'loss': 1.5296, 'learning_rate': 3.80344805645312e-05, 'epoch': 0.02}
+  0%|          | 210/48845 [04:48<17:44:44,  1.31s/it]  0%|          | 211/48845 [04:49<17:32:10,  1.30s/it]  0%|          | 212/48845 [04:51<17:22:14,  1.29s/it]  0%|          | 213/48845 [04:52<17:14:33,  1.28s/it]  0%|          | 214/48845 [04:53<17:09:21,  1.27s/it]  0%|          | 215/48845 [04:54<17:05:48,  1.27s/it]                                                      {'loss': 1.8602, 'learning_rate': 3.80344805645312e-05, 'epoch': 0.02}
+  0%|          | 215/48845 [04:54<17:05:48,  1.27s/it]  0%|          | 216/48845 [04:56<17:04:11,  1.26s/it]  0%|          | 217/48845 [04:57<17:03:45,  1.26s/it]  0%|          | 218/48845 [04:58<17:02:02,  1.26s/it]  0%|          | 219/48845 [04:59<17:01:13,  1.26s/it]  0%|          | 220/48845 [05:01<17:48:27,  1.32s/it]                                                      {'loss': 1.4698, 'learning_rate': 3.810536701097013e-05, 'epoch': 0.02}
+  0%|          | 220/48845 [05:01<17:48:27,  1.32s/it]  0%|          | 221/48845 [05:02<17:34:39,  1.30s/it]  0%|          | 222/48845 [05:03<17:23:16,  1.29s/it]  0%|          | 223/48845 [05:05<17:15:14,  1.28s/it]  0%|          | 224/48845 [05:06<17:10:21,  1.27s/it]  0%|          | 225/48845 [05:07<17:06:18,  1.27s/it]                                                      {'loss': 2.0684, 'learning_rate': 3.810536701097013e-05, 'epoch': 0.02}
+  0%|          | 225/48845 [05:07<17:06:18,  1.27s/it]  0%|          | 226/48845 [05:08<17:12:04,  1.27s/it]  0%|          | 227/48845 [05:10<17:08:11,  1.27s/it]  0%|          | 228/48845 [05:11<17:04:36,  1.26s/it]  0%|          | 229/48845 [05:12<17:04:22,  1.26s/it]  0%|          | 230/48845 [05:13<17:02:10,  1.26s/it]                                                      {'loss': 1.7616, 'learning_rate': 3.810536701097013e-05, 'epoch': 0.02}
+  0%|          | 230/48845 [05:13<17:02:10,  1.26s/it]  0%|          | 231/48845 [05:15<17:52:14,  1.32s/it]  0%|          | 232/48845 [05:16<17:36:19,  1.30s/it]  0%|          | 233/48845 [05:17<17:25:17,  1.29s/it]  0%|          | 234/48845 [05:19<17:17:48,  1.28s/it]  0%|          | 235/48845 [05:20<17:11:27,  1.27s/it]                                                      {'loss': 1.6441, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.02}
+  0%|          | 235/48845 [05:20<17:11:27,  1.27s/it]  0%|          | 236/48845 [05:21<17:07:49,  1.27s/it]  0%|          | 237/48845 [05:23<17:05:35,  1.27s/it]  0%|          | 238/48845 [05:24<17:03:06,  1.26s/it]  0%|          | 239/48845 [05:25<17:02:23,  1.26s/it]  0%|          | 240/48845 [05:26<17:02:33,  1.26s/it]                                                      {'loss': 1.9071, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.02}
+  0%|          | 240/48845 [05:26<17:02:33,  1.26s/it]  0%|          | 241/48845 [05:28<17:02:10,  1.26s/it]  0%|          | 242/48845 [05:29<17:22:27,  1.29s/it]  0%|          | 243/48845 [05:30<17:14:21,  1.28s/it]  0%|          | 244/48845 [05:31<17:09:14,  1.27s/it]  1%|          | 245/48845 [05:33<17:06:45,  1.27s/it]                                                      {'loss': 1.9579, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 245/48845 [05:33<17:06:45,  1.27s/it]  1%|          | 246/48845 [05:34<17:05:05,  1.27s/it]  1%|          | 247/48845 [05:35<17:02:54,  1.26s/it]  1%|          | 248/48845 [05:36<17:00:31,  1.26s/it]  1%|          | 249/48845 [05:38<16:58:44,  1.26s/it]  1%|          | 250/48845 [05:39<16:57:37,  1.26s/it]                                                      {'loss': 2.1372, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 250/48845 [05:39<16:57:37,  1.26s/it]  1%|          | 251/48845 [05:40<16:59:24,  1.26s/it]  1%|          | 252/48845 [05:41<16:58:37,  1.26s/it]  1%|          | 253/48845 [05:43<16:58:09,  1.26s/it]  1%|          | 254/48845 [05:44<16:57:01,  1.26s/it]  1%|          | 255/48845 [05:45<16:58:57,  1.26s/it]                                                      {'loss': 2.0335, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 255/48845 [05:45<16:58:57,  1.26s/it]  1%|          | 256/48845 [05:46<17:00:04,  1.26s/it]  1%|          | 257/48845 [05:48<17:00:46,  1.26s/it]  1%|          | 258/48845 [05:49<17:01:12,  1.26s/it]  1%|          | 259/48845 [05:50<16:59:37,  1.26s/it]  1%|          | 260/48845 [05:52<16:58:11,  1.26s/it]                                                      {'loss': 1.6881, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 260/48845 [05:52<16:58:11,  1.26s/it]  1%|          | 261/48845 [05:53<16:57:31,  1.26s/it]  1%|          | 262/48845 [05:54<16:57:54,  1.26s/it]  1%|          | 263/48845 [05:55<16:59:17,  1.26s/it]  1%|          | 264/48845 [05:57<16:58:33,  1.26s/it]  1%|          | 265/48845 [05:58<17:00:45,  1.26s/it]                                                      {'loss': 1.8762, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 265/48845 [05:58<17:00:45,  1.26s/it]  1%|          | 266/48845 [05:59<16:59:00,  1.26s/it]  1%|          | 267/48845 [06:00<16:58:26,  1.26s/it]  1%|          | 268/48845 [06:02<16:59:13,  1.26s/it]  1%|          | 269/48845 [06:03<17:02:09,  1.26s/it]  1%|          | 270/48845 [06:04<17:02:16,  1.26s/it]                                                      {'loss': 1.7872, 'learning_rate': 3.81756343539018e-05, 'epoch': 0.03}
+  1%|          | 270/48845 [06:04<17:02:16,  1.26s/it]  1%|          | 271/48845 [06:05<17:02:45,  1.26s/it]  1%|          | 272/48845 [06:07<17:01:37,  1.26s/it]  1%|          | 273/48845 [06:08<17:01:37,  1.26s/it]  1%|          | 274/48845 [06:09<17:00:26,  1.26s/it]  1%|          | 275/48845 [06:11<17:49:23,  1.32s/it]                                                      {'loss': 1.7149, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 275/48845 [06:11<17:49:23,  1.32s/it]  1%|          | 276/48845 [06:12<17:35:19,  1.30s/it]  1%|          | 277/48845 [06:13<17:24:53,  1.29s/it]  1%|          | 278/48845 [06:14<17:17:32,  1.28s/it]  1%|          | 279/48845 [06:16<17:12:30,  1.28s/it]  1%|          | 280/48845 [06:17<17:07:21,  1.27s/it]                                                      {'loss': 1.799, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 280/48845 [06:17<17:07:21,  1.27s/it]  1%|          | 281/48845 [06:18<17:06:18,  1.27s/it]  1%|          | 282/48845 [06:19<17:03:28,  1.26s/it]  1%|          | 283/48845 [06:21<17:01:58,  1.26s/it]  1%|          | 284/48845 [06:22<16:59:59,  1.26s/it]  1%|          | 285/48845 [06:23<17:00:25,  1.26s/it]                                                      {'loss': 1.7565, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 285/48845 [06:23<17:00:25,  1.26s/it]  1%|          | 286/48845 [06:25<17:01:33,  1.26s/it]  1%|          | 287/48845 [06:26<17:00:06,  1.26s/it]  1%|          | 288/48845 [06:27<16:59:38,  1.26s/it]  1%|          | 289/48845 [06:28<16:59:49,  1.26s/it]  1%|          | 290/48845 [06:30<16:59:18,  1.26s/it]                                                      {'loss': 1.6408, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 290/48845 [06:30<16:59:18,  1.26s/it]  1%|          | 291/48845 [06:31<16:59:26,  1.26s/it]  1%|          | 292/48845 [06:32<16:58:54,  1.26s/it]  1%|          | 293/48845 [06:33<16:58:25,  1.26s/it]  1%|          | 294/48845 [06:35<16:58:32,  1.26s/it]  1%|          | 295/48845 [06:36<16:58:33,  1.26s/it]                                                      {'loss': 1.8261, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 295/48845 [06:36<16:58:33,  1.26s/it]  1%|          | 296/48845 [06:37<16:59:07,  1.26s/it]  1%|          | 297/48845 [06:38<16:59:58,  1.26s/it]  1%|          | 298/48845 [06:40<16:59:22,  1.26s/it]  1%|          | 299/48845 [06:41<16:58:26,  1.26s/it]  1%|          | 300/48845 [06:42<16:58:34,  1.26s/it]                                                      {'loss': 1.8507, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 300/48845 [06:42<16:58:34,  1.26s/it]  1%|          | 301/48845 [06:44<17:39:00,  1.31s/it]  1%|          | 302/48845 [06:45<17:29:03,  1.30s/it]  1%|          | 303/48845 [06:46<17:20:20,  1.29s/it]  1%|          | 304/48845 [06:47<17:14:15,  1.28s/it]  1%|          | 305/48845 [06:49<17:10:22,  1.27s/it]                                                      {'loss': 1.8624, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 305/48845 [06:49<17:10:22,  1.27s/it]  1%|          | 306/48845 [06:50<17:07:42,  1.27s/it]  1%|          | 307/48845 [06:51<17:04:29,  1.27s/it]  1%|          | 308/48845 [06:52<17:03:27,  1.27s/it]  1%|          | 309/48845 [06:54<17:01:28,  1.26s/it]  1%|          | 310/48845 [06:55<17:00:30,  1.26s/it]                                                      {'loss': 1.671, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 310/48845 [06:55<17:00:30,  1.26s/it]  1%|          | 311/48845 [06:56<17:00:54,  1.26s/it]  1%|          | 312/48845 [06:57<16:59:30,  1.26s/it]  1%|          | 313/48845 [06:59<16:59:15,  1.26s/it]  1%|          | 314/48845 [07:00<16:58:36,  1.26s/it]  1%|          | 315/48845 [07:01<16:58:35,  1.26s/it]                                                      {'loss': 1.6797, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 315/48845 [07:01<16:58:35,  1.26s/it]  1%|          | 316/48845 [07:02<16:59:06,  1.26s/it]  1%|          | 317/48845 [07:04<16:58:35,  1.26s/it]  1%|          | 318/48845 [07:05<16:59:10,  1.26s/it]  1%|          | 319/48845 [07:06<16:58:59,  1.26s/it]  1%|          | 320/48845 [07:08<16:59:59,  1.26s/it]                                                      {'loss': 1.709, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 320/48845 [07:08<16:59:59,  1.26s/it]  1%|          | 321/48845 [07:09<17:01:08,  1.26s/it]  1%|          | 322/48845 [07:10<17:00:27,  1.26s/it]  1%|          | 323/48845 [07:11<17:01:40,  1.26s/it]  1%|          | 324/48845 [07:13<16:59:50,  1.26s/it]  1%|          | 325/48845 [07:14<16:59:29,  1.26s/it]                                                      {'loss': 1.6372, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 325/48845 [07:14<16:59:29,  1.26s/it]  1%|          | 326/48845 [07:15<17:00:35,  1.26s/it]  1%|          | 327/48845 [07:16<16:59:55,  1.26s/it]  1%|          | 328/48845 [07:18<16:58:36,  1.26s/it]  1%|          | 329/48845 [07:19<16:59:16,  1.26s/it]  1%|          | 330/48845 [07:20<16:58:43,  1.26s/it]                                                      {'loss': 1.8267, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 330/48845 [07:20<16:58:43,  1.26s/it]  1%|          | 331/48845 [07:21<16:59:51,  1.26s/it]  1%|          | 332/48845 [07:23<16:58:51,  1.26s/it]  1%|          | 333/48845 [07:24<16:59:37,  1.26s/it]  1%|          | 334/48845 [07:25<16:58:21,  1.26s/it]  1%|          | 335/48845 [07:26<16:57:52,  1.26s/it]                                                      {'loss': 1.6837, 'learning_rate': 3.8245293313935915e-05, 'epoch': 0.03}
+  1%|          | 335/48845 [07:26<16:57:52,  1.26s/it]  1%|          | 336/48845 [07:28<17:51:41,  1.33s/it]  1%|          | 337/48845 [07:29<17:35:50,  1.31s/it]  1%|          | 338/48845 [07:30<17:24:06,  1.29s/it]  1%|          | 339/48845 [07:32<17:18:19,  1.28s/it]  1%|          | 340/48845 [07:33<17:11:41,  1.28s/it]                                                      {'loss': 1.5316, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.03}
+  1%|          | 340/48845 [07:33<17:11:41,  1.28s/it]  1%|          | 341/48845 [07:34<17:08:19,  1.27s/it]  1%|          | 342/48845 [07:35<17:04:24,  1.27s/it]  1%|          | 343/48845 [07:37<17:02:15,  1.26s/it]  1%|          | 344/48845 [07:38<17:01:13,  1.26s/it]  1%|          | 345/48845 [07:39<16:59:49,  1.26s/it]                                                      {'loss': 1.843, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 345/48845 [07:39<16:59:49,  1.26s/it]  1%|          | 346/48845 [07:41<17:03:18,  1.27s/it]  1%|          | 347/48845 [07:42<17:05:11,  1.27s/it]  1%|          | 348/48845 [07:43<17:02:28,  1.26s/it]  1%|          | 349/48845 [07:44<17:01:23,  1.26s/it]  1%|          | 350/48845 [07:46<17:00:40,  1.26s/it]                                                      {'loss': 1.6858, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 350/48845 [07:46<17:00:40,  1.26s/it]  1%|          | 351/48845 [07:47<17:00:41,  1.26s/it]  1%|          | 352/48845 [07:48<16:59:42,  1.26s/it]  1%|          | 353/48845 [07:49<16:59:35,  1.26s/it]  1%|          | 354/48845 [07:51<16:59:43,  1.26s/it]  1%|          | 355/48845 [07:52<16:59:35,  1.26s/it]                                                      {'loss': 2.0163, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 355/48845 [07:52<16:59:35,  1.26s/it]  1%|          | 356/48845 [07:53<16:59:05,  1.26s/it]  1%|          | 357/48845 [07:54<16:58:17,  1.26s/it]  1%|          | 358/48845 [07:56<16:57:36,  1.26s/it]  1%|          | 359/48845 [07:57<16:57:24,  1.26s/it]  1%|          | 360/48845 [07:58<16:58:15,  1.26s/it]                                                      {'loss': 1.7624, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 360/48845 [07:58<16:58:15,  1.26s/it]  1%|          | 361/48845 [07:59<16:58:42,  1.26s/it]  1%|          | 362/48845 [08:01<16:58:22,  1.26s/it]  1%|          | 363/48845 [08:02<16:58:12,  1.26s/it]  1%|          | 364/48845 [08:03<16:57:20,  1.26s/it]  1%|          | 365/48845 [08:04<16:57:53,  1.26s/it]                                                      {'loss': 1.8135, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 365/48845 [08:04<16:57:53,  1.26s/it]  1%|          | 366/48845 [08:06<16:58:00,  1.26s/it]  1%|          | 367/48845 [08:07<16:59:07,  1.26s/it]  1%|          | 368/48845 [08:08<16:57:32,  1.26s/it]  1%|          | 369/48845 [08:09<16:56:42,  1.26s/it]  1%|          | 370/48845 [08:11<16:57:20,  1.26s/it]                                                      {'loss': 2.2034, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 370/48845 [08:11<16:57:20,  1.26s/it]  1%|          | 371/48845 [08:12<16:57:39,  1.26s/it]  1%|          | 372/48845 [08:13<16:57:38,  1.26s/it]  1%|          | 373/48845 [08:15<16:57:30,  1.26s/it]  1%|          | 374/48845 [08:16<16:57:50,  1.26s/it]  1%|          | 375/48845 [08:17<16:57:15,  1.26s/it]                                                      {'loss': 1.9199, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 375/48845 [08:17<16:57:15,  1.26s/it]  1%|          | 376/48845 [08:18<16:57:24,  1.26s/it]  1%|          | 377/48845 [08:20<16:57:22,  1.26s/it]  1%|          | 378/48845 [08:21<16:57:29,  1.26s/it]  1%|          | 379/48845 [08:22<16:57:25,  1.26s/it]  1%|          | 380/48845 [08:23<16:58:01,  1.26s/it]                                                      {'loss': 1.5486, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 380/48845 [08:23<16:58:01,  1.26s/it]  1%|          | 381/48845 [08:25<16:57:38,  1.26s/it]  1%|          | 382/48845 [08:26<16:57:48,  1.26s/it]  1%|          | 383/48845 [08:27<16:57:09,  1.26s/it]  1%|          | 384/48845 [08:29<17:36:08,  1.31s/it]  1%|          | 385/48845 [08:30<17:29:09,  1.30s/it]                                                      {'loss': 1.6461, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 385/48845 [08:30<17:29:09,  1.30s/it]  1%|          | 386/48845 [08:31<17:20:28,  1.29s/it]  1%|          | 387/48845 [08:32<17:14:06,  1.28s/it]  1%|          | 388/48845 [08:34<17:10:14,  1.28s/it]  1%|          | 389/48845 [08:35<17:08:15,  1.27s/it]  1%|          | 390/48845 [08:36<17:05:39,  1.27s/it]                                                      {'loss': 1.9002, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 390/48845 [08:36<17:05:39,  1.27s/it]  1%|          | 391/48845 [08:37<17:02:17,  1.27s/it]  1%|          | 392/48845 [08:39<17:00:56,  1.26s/it]  1%|          | 393/48845 [08:40<16:59:31,  1.26s/it]  1%|          | 394/48845 [08:41<16:58:52,  1.26s/it]  1%|          | 395/48845 [08:42<16:59:07,  1.26s/it]                                                      {'loss': 1.8374, 'learning_rate': 3.8314354335608156e-05, 'epoch': 0.04}
+  1%|          | 395/48845 [08:42<16:59:07,  1.26s/it]  1%|          | 396/48845 [08:44<16:58:09,  1.26s/it]  1%|          | 397/48845 [08:45<16:58:40,  1.26s/it]  1%|          | 398/48845 [08:46<16:57:58,  1.26s/it]  1%|          | 399/48845 [08:48<17:43:54,  1.32s/it]  1%|          | 400/48845 [08:49<17:29:48,  1.30s/it]                                                      {'loss': 1.6359, 'learning_rate': 3.838282759677863e-05, 'epoch': 0.04}
+  1%|          | 400/48845 [08:49<17:29:48,  1.30s/it]  1%|          | 401/48845 [08:53<26:42:48,  1.99s/it]  1%|          | 402/48845 [08:54<23:47:06,  1.77s/it]  1%|          | 403/48845 [08:55<21:44:12,  1.62s/it]  1%|          | 404/48845 [08:56<20:16:52,  1.51s/it]  1%|          | 405/48845 [08:58<19:16:44,  1.43s/it]                                                      {'loss': 1.3916, 'learning_rate': 3.838282759677863e-05, 'epoch': 0.04}
+  1%|          | 405/48845 [08:58<19:16:44,  1.43s/it]  1%|          | 406/48845 [08:59<18:34:33,  1.38s/it]  1%|          | 407/48845 [09:00<18:56:00,  1.41s/it]  1%|          | 408/48845 [09:02<18:19:49,  1.36s/it]  1%|          | 409/48845 [09:03<17:54:32,  1.33s/it]  1%|          | 410/48845 [09:04<17:36:37,  1.31s/it]                                                      {'loss': 1.7095, 'learning_rate': 3.845072301763395e-05, 'epoch': 0.04}
+  1%|          | 410/48845 [09:04<17:36:37,  1.31s/it]  1%|          | 411/48845 [09:06<18:14:28,  1.36s/it]  1%|          | 412/48845 [09:07<17:51:09,  1.33s/it]  1%|          | 413/48845 [09:08<17:34:46,  1.31s/it]  1%|          | 414/48845 [09:09<17:24:00,  1.29s/it]  1%|          | 415/48845 [09:11<17:15:26,  1.28s/it]                                                      {'loss': 1.5632, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.04}
+  1%|          | 415/48845 [09:11<17:15:26,  1.28s/it]  1%|          | 416/48845 [09:12<17:08:52,  1.27s/it]  1%|          | 417/48845 [09:13<17:06:05,  1.27s/it]  1%|          | 418/48845 [09:14<17:04:02,  1.27s/it]  1%|          | 419/48845 [09:16<16:59:57,  1.26s/it]  1%|          | 420/48845 [09:17<16:58:19,  1.26s/it]                                                      {'loss': 1.9243, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.04}
+  1%|          | 420/48845 [09:17<16:58:19,  1.26s/it]  1%|          | 421/48845 [09:18<16:57:30,  1.26s/it]  1%|          | 422/48845 [09:19<16:58:21,  1.26s/it]  1%|          | 423/48845 [09:21<16:58:23,  1.26s/it]  1%|          | 424/48845 [09:22<16:56:54,  1.26s/it]  1%|          | 425/48845 [09:23<16:57:35,  1.26s/it]                                                      {'loss': 1.8104, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.04}
+  1%|          | 425/48845 [09:23<16:57:35,  1.26s/it]  1%|          | 426/48845 [09:24<16:56:20,  1.26s/it]  1%|          | 427/48845 [09:26<16:56:02,  1.26s/it]  1%|          | 428/48845 [09:27<16:56:42,  1.26s/it]  1%|          | 429/48845 [09:28<16:56:13,  1.26s/it]  1%|          | 430/48845 [09:29<16:56:11,  1.26s/it]                                                      {'loss': 1.8561, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.04}
+  1%|          | 430/48845 [09:29<16:56:11,  1.26s/it]  1%|          | 431/48845 [09:31<16:56:07,  1.26s/it]  1%|          | 432/48845 [09:32<16:56:26,  1.26s/it]  1%|          | 433/48845 [09:33<16:56:07,  1.26s/it]  1%|          | 434/48845 [09:34<16:56:00,  1.26s/it]  1%|          | 435/48845 [09:36<16:55:42,  1.26s/it]                                                      {'loss': 1.988, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.04}
+  1%|          | 435/48845 [09:36<16:55:42,  1.26s/it]  1%|          | 436/48845 [09:37<16:56:24,  1.26s/it]  1%|          | 437/48845 [09:38<16:56:40,  1.26s/it]  1%|          | 438/48845 [09:40<16:58:57,  1.26s/it]  1%|          | 439/48845 [09:41<16:58:50,  1.26s/it]  1%|          | 440/48845 [09:42<16:57:25,  1.26s/it]                                                      {'loss': 1.8707, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 440/48845 [09:42<16:57:25,  1.26s/it]  1%|          | 441/48845 [09:43<16:56:29,  1.26s/it]  1%|          | 442/48845 [09:45<16:54:52,  1.26s/it]  1%|          | 443/48845 [09:46<16:55:39,  1.26s/it]  1%|          | 444/48845 [09:47<16:55:13,  1.26s/it]  1%|          | 445/48845 [09:48<16:56:30,  1.26s/it]                                                      {'loss': 1.7514, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 445/48845 [09:48<16:56:30,  1.26s/it]  1%|          | 446/48845 [09:50<16:59:38,  1.26s/it]  1%|          | 447/48845 [09:51<16:58:35,  1.26s/it]  1%|          | 448/48845 [09:52<16:57:44,  1.26s/it]  1%|          | 449/48845 [09:53<16:56:15,  1.26s/it]  1%|          | 450/48845 [09:55<16:56:08,  1.26s/it]                                                      {'loss': 1.8784, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 450/48845 [09:55<16:56:08,  1.26s/it]  1%|          | 451/48845 [09:56<16:55:52,  1.26s/it]  1%|          | 452/48845 [09:57<16:56:19,  1.26s/it]  1%|          | 453/48845 [09:58<16:55:54,  1.26s/it]  1%|          | 454/48845 [10:00<16:57:31,  1.26s/it]  1%|          | 455/48845 [10:01<16:56:29,  1.26s/it]                                                      {'loss': 1.4915, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 455/48845 [10:01<16:56:29,  1.26s/it]  1%|          | 456/48845 [10:02<16:56:56,  1.26s/it]  1%|          | 457/48845 [10:03<16:56:14,  1.26s/it]  1%|          | 458/48845 [10:05<16:55:34,  1.26s/it]  1%|          | 459/48845 [10:06<16:55:19,  1.26s/it]  1%|          | 460/48845 [10:07<16:55:08,  1.26s/it]                                                      {'loss': 1.8143, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 460/48845 [10:07<16:55:08,  1.26s/it]  1%|          | 461/48845 [10:09<16:56:12,  1.26s/it]  1%|          | 462/48845 [10:10<16:57:11,  1.26s/it]  1%|          | 463/48845 [10:11<16:56:24,  1.26s/it]  1%|          | 464/48845 [10:12<16:55:27,  1.26s/it]  1%|          | 465/48845 [10:14<16:55:27,  1.26s/it]                                                      {'loss': 1.8052, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 465/48845 [10:14<16:55:27,  1.26s/it]  1%|          | 466/48845 [10:15<16:56:15,  1.26s/it]  1%|          | 467/48845 [10:16<16:55:38,  1.26s/it]  1%|          | 468/48845 [10:17<16:54:51,  1.26s/it]  1%|          | 469/48845 [10:19<16:54:53,  1.26s/it]  1%|          | 470/48845 [10:20<16:54:22,  1.26s/it]                                                      {'loss': 1.6664, 'learning_rate': 3.851805026931246e-05, 'epoch': 0.05}
+  1%|          | 470/48845 [10:20<16:54:22,  1.26s/it]  1%|          | 471/48845 [10:21<16:55:55,  1.26s/it]  1%|          | 472/48845 [10:22<16:55:37,  1.26s/it]  1%|          | 473/48845 [10:24<16:55:00,  1.26s/it]  1%|          | 474/48845 [10:25<16:54:55,  1.26s/it]  1%|          | 475/48845 [10:26<17:50:18,  1.33s/it]                                                      {'loss': 1.4456, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 475/48845 [10:26<17:50:18,  1.33s/it]  1%|          | 476/48845 [10:28<17:34:46,  1.31s/it]  1%|          | 477/48845 [10:29<17:23:16,  1.29s/it]  1%|          | 478/48845 [10:30<17:14:56,  1.28s/it]  1%|          | 479/48845 [10:31<17:08:48,  1.28s/it]  1%|          | 480/48845 [10:33<17:04:29,  1.27s/it]                                                      {'loss': 1.7139, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 480/48845 [10:33<17:04:29,  1.27s/it]  1%|          | 481/48845 [10:34<17:02:07,  1.27s/it]  1%|          | 482/48845 [10:35<17:00:02,  1.27s/it]  1%|          | 483/48845 [10:36<16:59:08,  1.26s/it]  1%|          | 484/48845 [10:38<16:58:04,  1.26s/it]  1%|          | 485/48845 [10:39<16:57:10,  1.26s/it]                                                      {'loss': 1.5203, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 485/48845 [10:39<16:57:10,  1.26s/it]  1%|          | 486/48845 [10:40<16:56:44,  1.26s/it]  1%|          | 487/48845 [10:42<16:57:27,  1.26s/it]  1%|          | 488/48845 [10:43<16:57:16,  1.26s/it]  1%|          | 489/48845 [10:44<16:56:05,  1.26s/it]  1%|          | 490/48845 [10:45<16:55:53,  1.26s/it]                                                      {'loss': 1.6405, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 490/48845 [10:45<16:55:53,  1.26s/it]  1%|          | 491/48845 [10:47<16:56:25,  1.26s/it]  1%|          | 492/48845 [10:48<16:56:19,  1.26s/it]  1%|          | 493/48845 [10:49<16:55:26,  1.26s/it]  1%|          | 494/48845 [10:50<16:56:23,  1.26s/it]  1%|          | 495/48845 [10:52<16:56:58,  1.26s/it]                                                      {'loss': 1.7627, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 495/48845 [10:52<16:56:58,  1.26s/it]  1%|          | 496/48845 [10:53<16:56:28,  1.26s/it]  1%|          | 497/48845 [10:54<16:55:36,  1.26s/it]  1%|          | 498/48845 [10:55<16:54:51,  1.26s/it]  1%|          | 499/48845 [10:57<16:55:36,  1.26s/it]  1%|          | 500/48845 [10:58<16:56:01,  1.26s/it]                                                      {'loss': 1.723, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 500/48845 [10:58<16:56:01,  1.26s/it]  1%|          | 501/48845 [10:59<16:55:26,  1.26s/it]  1%|          | 502/48845 [11:00<16:55:30,  1.26s/it]  1%|          | 503/48845 [11:02<16:55:30,  1.26s/it]  1%|          | 504/48845 [11:03<16:55:57,  1.26s/it]  1%|          | 505/48845 [11:04<16:55:17,  1.26s/it]                                                      {'loss': 1.9137, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 505/48845 [11:04<16:55:17,  1.26s/it]  1%|          | 506/48845 [11:05<16:55:42,  1.26s/it]  1%|          | 507/48845 [11:07<16:55:51,  1.26s/it]  1%|          | 508/48845 [11:08<16:55:49,  1.26s/it]  1%|          | 509/48845 [11:09<16:55:24,  1.26s/it]  1%|          | 510/48845 [11:11<16:55:23,  1.26s/it]                                                      {'loss': 1.3857, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 510/48845 [11:11<16:55:23,  1.26s/it]  1%|          | 511/48845 [11:12<16:55:00,  1.26s/it]  1%|          | 512/48845 [11:13<16:56:22,  1.26s/it]  1%|          | 513/48845 [11:14<16:56:35,  1.26s/it]  1%|          | 514/48845 [11:16<16:55:56,  1.26s/it]  1%|          | 515/48845 [11:17<16:55:12,  1.26s/it]                                                      {'loss': 1.6227, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 515/48845 [11:17<16:55:12,  1.26s/it]  1%|          | 516/48845 [11:18<16:55:40,  1.26s/it]  1%|          | 517/48845 [11:19<16:55:36,  1.26s/it]  1%|          | 518/48845 [11:21<16:55:55,  1.26s/it]  1%|          | 519/48845 [11:22<16:55:37,  1.26s/it]  1%|          | 520/48845 [11:23<16:55:25,  1.26s/it]                                                      {'loss': 2.0359, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 520/48845 [11:23<16:55:25,  1.26s/it]  1%|          | 521/48845 [11:24<16:55:41,  1.26s/it]  1%|          | 522/48845 [11:26<16:55:12,  1.26s/it]  1%|          | 523/48845 [11:27<16:55:35,  1.26s/it]  1%|          | 524/48845 [11:28<16:54:58,  1.26s/it]  1%|          | 525/48845 [11:29<16:54:59,  1.26s/it]                                                      {'loss': 2.0601, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 525/48845 [11:29<16:54:59,  1.26s/it]  1%|          | 526/48845 [11:31<16:54:39,  1.26s/it]  1%|          | 527/48845 [11:32<16:54:23,  1.26s/it]  1%|          | 528/48845 [11:33<16:56:18,  1.26s/it]  1%|          | 529/48845 [11:34<16:55:11,  1.26s/it]  1%|          | 530/48845 [11:36<16:54:04,  1.26s/it]                                                      {'loss': 1.6976, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 530/48845 [11:36<16:54:04,  1.26s/it]  1%|          | 531/48845 [11:37<16:54:24,  1.26s/it]  1%|          | 532/48845 [11:38<16:54:18,  1.26s/it]  1%|          | 533/48845 [11:39<16:55:26,  1.26s/it]  1%|          | 534/48845 [11:41<16:54:35,  1.26s/it]  1%|          | 535/48845 [11:42<16:54:32,  1.26s/it]                                                      {'loss': 1.8123, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.05}
+  1%|          | 535/48845 [11:42<16:54:32,  1.26s/it]  1%|          | 536/48845 [11:43<16:55:26,  1.26s/it]  1%|          | 537/48845 [11:45<16:55:08,  1.26s/it]  1%|          | 538/48845 [11:46<16:55:24,  1.26s/it]  1%|          | 539/48845 [11:47<16:55:20,  1.26s/it]  1%|          | 540/48845 [11:48<16:55:03,  1.26s/it]                                                      {'loss': 1.7181, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 540/48845 [11:48<16:55:03,  1.26s/it]  1%|          | 541/48845 [11:50<16:55:52,  1.26s/it]  1%|          | 542/48845 [11:51<16:55:11,  1.26s/it]  1%|          | 543/48845 [11:52<16:54:54,  1.26s/it]  1%|          | 544/48845 [11:53<16:54:40,  1.26s/it]  1%|          | 545/48845 [11:55<16:54:18,  1.26s/it]                                                      {'loss': 1.5834, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 545/48845 [11:55<16:54:18,  1.26s/it]  1%|          | 546/48845 [11:56<16:55:47,  1.26s/it]  1%|          | 547/48845 [11:57<16:55:28,  1.26s/it]  1%|          | 548/48845 [11:58<16:55:53,  1.26s/it]  1%|          | 549/48845 [12:00<16:55:22,  1.26s/it]  1%|          | 550/48845 [12:01<16:54:30,  1.26s/it]                                                      {'loss': 1.7777, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 550/48845 [12:01<16:54:30,  1.26s/it]  1%|          | 551/48845 [12:02<16:54:48,  1.26s/it]  1%|          | 552/48845 [12:03<16:53:57,  1.26s/it]  1%|          | 553/48845 [12:05<16:53:26,  1.26s/it]  1%|          | 554/48845 [12:06<16:54:01,  1.26s/it]  1%|          | 555/48845 [12:07<16:53:23,  1.26s/it]                                                      {'loss': 1.7188, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 555/48845 [12:07<16:53:23,  1.26s/it]  1%|          | 556/48845 [12:08<16:53:38,  1.26s/it]  1%|          | 557/48845 [12:10<16:53:26,  1.26s/it]  1%|          | 558/48845 [12:11<16:53:27,  1.26s/it]  1%|          | 559/48845 [12:12<16:53:11,  1.26s/it]  1%|          | 560/48845 [12:14<16:52:29,  1.26s/it]                                                      {'loss': 1.8584, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 560/48845 [12:14<16:52:29,  1.26s/it]  1%|          | 561/48845 [12:15<16:53:43,  1.26s/it]  1%|          | 562/48845 [12:16<16:54:05,  1.26s/it]  1%|          | 563/48845 [12:17<16:54:20,  1.26s/it]  1%|          | 564/48845 [12:19<16:54:45,  1.26s/it]  1%|          | 565/48845 [12:20<16:55:15,  1.26s/it]                                                      {'loss': 1.547, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 565/48845 [12:20<16:55:15,  1.26s/it]  1%|          | 566/48845 [12:21<16:55:40,  1.26s/it]  1%|          | 567/48845 [12:22<16:54:55,  1.26s/it]  1%|          | 568/48845 [12:24<16:54:33,  1.26s/it]  1%|          | 569/48845 [12:25<16:54:59,  1.26s/it]  1%|          | 570/48845 [12:26<16:53:49,  1.26s/it]                                                      {'loss': 1.7351, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 570/48845 [12:26<16:53:49,  1.26s/it]  1%|          | 571/48845 [12:27<16:54:30,  1.26s/it]  1%|          | 572/48845 [12:29<16:53:51,  1.26s/it]  1%|          | 573/48845 [12:30<16:53:11,  1.26s/it]  1%|          | 574/48845 [12:31<16:54:26,  1.26s/it]  1%|          | 575/48845 [12:32<16:53:15,  1.26s/it]                                                      {'loss': 1.6141, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 575/48845 [12:32<16:53:15,  1.26s/it]  1%|          | 576/48845 [12:34<16:54:01,  1.26s/it]  1%|          | 577/48845 [12:35<16:52:47,  1.26s/it]  1%|          | 578/48845 [12:36<16:52:38,  1.26s/it]  1%|          | 579/48845 [12:37<16:53:06,  1.26s/it]  1%|          | 580/48845 [12:39<16:52:46,  1.26s/it]                                                      {'loss': 1.6998, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 580/48845 [12:39<16:52:46,  1.26s/it]  1%|          | 581/48845 [12:40<16:54:01,  1.26s/it]  1%|          | 582/48845 [12:41<16:54:01,  1.26s/it]  1%|          | 583/48845 [12:43<16:54:40,  1.26s/it]  1%|          | 584/48845 [12:44<16:54:03,  1.26s/it]  1%|          | 585/48845 [12:45<16:53:25,  1.26s/it]                                                      {'loss': 2.0708, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 585/48845 [12:45<16:53:25,  1.26s/it]  1%|          | 586/48845 [12:46<16:53:33,  1.26s/it]  1%|          | 587/48845 [12:48<16:52:09,  1.26s/it]  1%|          | 588/48845 [12:49<16:52:03,  1.26s/it]  1%|          | 589/48845 [12:50<16:52:55,  1.26s/it]  1%|          | 590/48845 [12:51<16:52:25,  1.26s/it]                                                      {'loss': 1.8886, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 590/48845 [12:51<16:52:25,  1.26s/it]  1%|          | 591/48845 [12:53<16:52:33,  1.26s/it]  1%|          | 592/48845 [12:54<16:52:44,  1.26s/it]  1%|          | 593/48845 [12:55<16:53:52,  1.26s/it]  1%|          | 594/48845 [12:56<16:53:37,  1.26s/it]  1%|          | 595/48845 [12:58<16:52:28,  1.26s/it]                                                      {'loss': 1.8977, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 595/48845 [12:58<16:52:28,  1.26s/it]  1%|          | 596/48845 [12:59<16:53:10,  1.26s/it]  1%|          | 597/48845 [13:00<16:52:32,  1.26s/it]  1%|          | 598/48845 [13:01<16:52:11,  1.26s/it]  1%|          | 599/48845 [13:03<16:52:53,  1.26s/it]  1%|          | 600/48845 [13:04<16:52:06,  1.26s/it]                                                      {'loss': 1.9072, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 600/48845 [13:04<16:52:06,  1.26s/it]  1%|          | 601/48845 [13:08<26:18:28,  1.96s/it]  1%|          | 602/48845 [13:09<23:28:51,  1.75s/it]  1%|          | 603/48845 [13:10<21:30:27,  1.60s/it]  1%|          | 604/48845 [13:11<20:07:16,  1.50s/it]  1%|          | 605/48845 [13:13<19:08:19,  1.43s/it]                                                      {'loss': 1.6079, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 605/48845 [13:13<19:08:19,  1.43s/it]  1%|          | 606/48845 [13:14<18:26:41,  1.38s/it]  1%|          | 607/48845 [13:15<17:58:19,  1.34s/it]  1%|          | 608/48845 [13:16<17:38:32,  1.32s/it]  1%|          | 609/48845 [13:18<17:23:37,  1.30s/it]  1%|          | 610/48845 [13:19<17:14:43,  1.29s/it]                                                      {'loss': 1.6021, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|          | 610/48845 [13:19<17:14:43,  1.29s/it]  1%|▏         | 611/48845 [13:20<17:07:39,  1.28s/it]  1%|▏         | 612/48845 [13:21<17:03:10,  1.27s/it]  1%|▏         | 613/48845 [13:23<16:59:38,  1.27s/it]  1%|▏         | 614/48845 [13:24<16:57:10,  1.27s/it]  1%|▏         | 615/48845 [13:25<16:55:59,  1.26s/it]                                                      {'loss': 2.2304, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|▏         | 615/48845 [13:25<16:55:59,  1.26s/it]  1%|▏         | 616/48845 [13:26<16:55:13,  1.26s/it]  1%|▏         | 617/48845 [13:28<16:55:12,  1.26s/it]  1%|▏         | 618/48845 [13:29<16:53:56,  1.26s/it]  1%|▏         | 619/48845 [13:30<16:53:22,  1.26s/it]  1%|▏         | 620/48845 [13:31<16:54:01,  1.26s/it]                                                      {'loss': 1.5477, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|▏         | 620/48845 [13:31<16:54:01,  1.26s/it]  1%|▏         | 621/48845 [13:33<16:52:45,  1.26s/it]  1%|▏         | 622/48845 [13:34<16:53:03,  1.26s/it]  1%|▏         | 623/48845 [13:35<16:51:59,  1.26s/it]  1%|▏         | 624/48845 [13:36<16:52:09,  1.26s/it]  1%|▏         | 625/48845 [13:38<16:52:12,  1.26s/it]                                                      {'loss': 1.7134, 'learning_rate': 3.8584818782171724e-05, 'epoch': 0.06}
+  1%|▏         | 625/48845 [13:38<16:52:12,  1.26s/it]  1%|▏         | 626/48845 [13:39<16:52:00,  1.26s/it]  1%|▏         | 627/48845 [13:40<17:39:58,  1.32s/it]  1%|▏         | 628/48845 [13:42<17:25:37,  1.30s/it]  1%|▏         | 629/48845 [13:43<17:17:26,  1.29s/it]  1%|▏         | 630/48845 [13:44<17:10:20,  1.28s/it]                                                      {'loss': 1.553, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.06}
+  1%|▏         | 630/48845 [13:44<17:10:20,  1.28s/it]  1%|▏         | 631/48845 [13:46<17:04:55,  1.28s/it]  1%|▏         | 632/48845 [13:47<17:01:04,  1.27s/it]  1%|▏         | 633/48845 [13:48<16:57:09,  1.27s/it]  1%|▏         | 634/48845 [13:49<16:54:51,  1.26s/it]  1%|▏         | 635/48845 [13:51<16:54:08,  1.26s/it]                                                      {'loss': 1.8499, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 635/48845 [13:51<16:54:08,  1.26s/it]  1%|▏         | 636/48845 [13:52<16:53:06,  1.26s/it]  1%|▏         | 637/48845 [13:53<16:53:58,  1.26s/it]  1%|▏         | 638/48845 [13:54<16:52:44,  1.26s/it]  1%|▏         | 639/48845 [13:56<16:52:23,  1.26s/it]  1%|▏         | 640/48845 [13:57<16:53:26,  1.26s/it]                                                      {'loss': 1.985, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 640/48845 [13:57<16:53:26,  1.26s/it]  1%|▏         | 641/48845 [13:58<16:54:34,  1.26s/it]  1%|▏         | 642/48845 [13:59<16:53:29,  1.26s/it]  1%|▏         | 643/48845 [14:01<16:53:10,  1.26s/it]  1%|▏         | 644/48845 [14:02<16:52:22,  1.26s/it]  1%|▏         | 645/48845 [14:03<16:53:26,  1.26s/it]                                                      {'loss': 1.8474, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 645/48845 [14:03<16:53:26,  1.26s/it]  1%|▏         | 646/48845 [14:04<16:54:00,  1.26s/it]  1%|▏         | 647/48845 [14:06<16:53:11,  1.26s/it]  1%|▏         | 648/48845 [14:07<16:54:17,  1.26s/it]  1%|▏         | 649/48845 [14:08<16:52:59,  1.26s/it]  1%|▏         | 650/48845 [14:09<16:55:00,  1.26s/it]                                                      {'loss': 1.7572, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 650/48845 [14:09<16:55:00,  1.26s/it]  1%|▏         | 651/48845 [14:11<16:55:23,  1.26s/it]  1%|▏         | 652/48845 [14:12<16:54:43,  1.26s/it]  1%|▏         | 653/48845 [14:13<16:54:48,  1.26s/it]  1%|▏         | 654/48845 [14:15<16:53:27,  1.26s/it]  1%|▏         | 655/48845 [14:16<16:52:19,  1.26s/it]                                                      {'loss': 1.72, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 655/48845 [14:16<16:52:19,  1.26s/it]  1%|▏         | 656/48845 [14:17<16:52:40,  1.26s/it]  1%|▏         | 657/48845 [14:18<16:51:38,  1.26s/it]  1%|▏         | 658/48845 [14:20<16:51:00,  1.26s/it]  1%|▏         | 659/48845 [14:21<16:50:40,  1.26s/it]  1%|▏         | 660/48845 [14:22<16:51:01,  1.26s/it]                                                      {'loss': 2.2057, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 660/48845 [14:22<16:51:01,  1.26s/it]  1%|▏         | 661/48845 [14:23<16:52:30,  1.26s/it]  1%|▏         | 662/48845 [14:25<16:52:14,  1.26s/it]  1%|▏         | 663/48845 [14:26<16:52:57,  1.26s/it]  1%|▏         | 664/48845 [14:27<16:52:01,  1.26s/it]  1%|▏         | 665/48845 [14:28<16:51:13,  1.26s/it]                                                      {'loss': 1.8281, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 665/48845 [14:28<16:51:13,  1.26s/it]  1%|▏         | 666/48845 [14:30<16:51:45,  1.26s/it]  1%|▏         | 667/48845 [14:31<16:52:23,  1.26s/it]  1%|▏         | 668/48845 [14:32<16:52:27,  1.26s/it]  1%|▏         | 669/48845 [14:33<16:51:31,  1.26s/it]  1%|▏         | 670/48845 [14:35<16:51:43,  1.26s/it]                                                      {'loss': 1.6184, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 670/48845 [14:35<16:51:43,  1.26s/it]  1%|▏         | 671/48845 [14:36<16:52:19,  1.26s/it]  1%|▏         | 672/48845 [14:37<16:51:28,  1.26s/it]  1%|▏         | 673/48845 [14:38<16:51:06,  1.26s/it]  1%|▏         | 674/48845 [14:40<16:52:25,  1.26s/it]  1%|▏         | 675/48845 [14:41<16:51:37,  1.26s/it]                                                      {'loss': 1.692, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 675/48845 [14:41<16:51:37,  1.26s/it]  1%|▏         | 676/48845 [14:42<16:51:57,  1.26s/it]  1%|▏         | 677/48845 [14:44<16:51:01,  1.26s/it]  1%|▏         | 678/48845 [14:45<16:51:06,  1.26s/it]  1%|▏         | 679/48845 [14:46<16:50:52,  1.26s/it]  1%|▏         | 680/48845 [14:47<16:49:39,  1.26s/it]                                                      {'loss': 1.7888, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 680/48845 [14:47<16:49:39,  1.26s/it]  1%|▏         | 681/48845 [14:49<16:51:58,  1.26s/it]  1%|▏         | 682/48845 [14:50<16:51:44,  1.26s/it]  1%|▏         | 683/48845 [14:51<16:52:14,  1.26s/it]  1%|▏         | 684/48845 [14:52<16:53:20,  1.26s/it]  1%|▏         | 685/48845 [14:54<16:52:43,  1.26s/it]                                                      {'loss': 1.4764, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 685/48845 [14:54<16:52:43,  1.26s/it]  1%|▏         | 686/48845 [14:55<16:56:02,  1.27s/it]  1%|▏         | 687/48845 [14:56<16:56:09,  1.27s/it]  1%|▏         | 688/48845 [14:57<16:54:03,  1.26s/it]  1%|▏         | 689/48845 [14:59<16:52:48,  1.26s/it]  1%|▏         | 690/48845 [15:00<16:52:33,  1.26s/it]                                                      {'loss': 1.7836, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 690/48845 [15:00<16:52:33,  1.26s/it]  1%|▏         | 691/48845 [15:01<16:54:02,  1.26s/it]  1%|▏         | 692/48845 [15:02<16:55:05,  1.26s/it]  1%|▏         | 693/48845 [15:04<16:53:51,  1.26s/it]  1%|▏         | 694/48845 [15:05<16:52:22,  1.26s/it]  1%|▏         | 695/48845 [15:06<16:53:02,  1.26s/it]                                                      {'loss': 1.7202, 'learning_rate': 3.86510377537156e-05, 'epoch': 0.07}
+  1%|▏         | 695/48845 [15:06<16:53:02,  1.26s/it]  1%|▏         | 696/48845 [15:08<17:44:52,  1.33s/it]  1%|▏         | 697/48845 [15:09<17:29:12,  1.31s/it]  1%|▏         | 698/48845 [15:10<17:18:51,  1.29s/it]  1%|▏         | 699/48845 [15:11<17:09:25,  1.28s/it]  1%|▏         | 700/48845 [15:13<17:05:17,  1.28s/it]                                                      {'loss': 1.5771, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 700/48845 [15:13<17:05:17,  1.28s/it]  1%|▏         | 701/48845 [15:14<17:01:08,  1.27s/it]  1%|▏         | 702/48845 [15:15<16:58:00,  1.27s/it]  1%|▏         | 703/48845 [15:17<16:56:14,  1.27s/it]  1%|▏         | 704/48845 [15:18<16:54:27,  1.26s/it]  1%|▏         | 705/48845 [15:19<16:53:09,  1.26s/it]                                                      {'loss': 1.7881, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 705/48845 [15:19<16:53:09,  1.26s/it]  1%|▏         | 706/48845 [15:20<16:52:30,  1.26s/it]  1%|▏         | 707/48845 [15:22<16:52:26,  1.26s/it]  1%|▏         | 708/48845 [15:23<16:53:05,  1.26s/it]  1%|▏         | 709/48845 [15:24<16:52:46,  1.26s/it]  1%|▏         | 710/48845 [15:25<16:51:40,  1.26s/it]                                                      {'loss': 1.5553, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 710/48845 [15:25<16:51:40,  1.26s/it]  1%|▏         | 711/48845 [15:27<16:52:12,  1.26s/it]  1%|▏         | 712/48845 [15:28<16:51:57,  1.26s/it]  1%|▏         | 713/48845 [15:29<16:52:13,  1.26s/it]  1%|▏         | 714/48845 [15:30<16:52:48,  1.26s/it]  1%|▏         | 715/48845 [15:32<16:52:06,  1.26s/it]                                                      {'loss': 1.6351, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 715/48845 [15:32<16:52:06,  1.26s/it]  1%|▏         | 716/48845 [15:33<16:51:06,  1.26s/it]  1%|▏         | 717/48845 [15:34<16:51:53,  1.26s/it]  1%|▏         | 718/48845 [15:35<16:50:22,  1.26s/it]  1%|▏         | 719/48845 [15:37<16:51:05,  1.26s/it]  1%|▏         | 720/48845 [15:38<16:51:35,  1.26s/it]                                                      {'loss': 1.7916, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 720/48845 [15:38<16:51:35,  1.26s/it]  1%|▏         | 721/48845 [15:39<16:52:35,  1.26s/it]  1%|▏         | 722/48845 [15:40<16:51:46,  1.26s/it]  1%|▏         | 723/48845 [15:42<16:50:59,  1.26s/it]  1%|▏         | 724/48845 [15:43<16:51:07,  1.26s/it]  1%|▏         | 725/48845 [15:44<16:51:12,  1.26s/it]                                                      {'loss': 1.7452, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 725/48845 [15:44<16:51:12,  1.26s/it]  1%|▏         | 726/48845 [15:46<16:52:00,  1.26s/it]  1%|▏         | 727/48845 [15:47<16:51:32,  1.26s/it]  1%|▏         | 728/48845 [15:48<16:51:03,  1.26s/it]  1%|▏         | 729/48845 [15:49<16:52:01,  1.26s/it]  1%|▏         | 730/48845 [15:51<16:52:00,  1.26s/it]                                                      {'loss': 1.6161, 'learning_rate': 3.8716716156197916e-05, 'epoch': 0.07}
+  1%|▏         | 730/48845 [15:51<16:52:00,  1.26s/it]  1%|▏         | 731/48845 [15:52<16:52:34,  1.26s/it]  1%|▏         | 732/48845 [15:53<17:40:43,  1.32s/it]  2%|▏         | 733/48845 [15:55<17:27:41,  1.31s/it]  2%|▏         | 734/48845 [15:56<17:16:15,  1.29s/it]  2%|▏         | 735/48845 [15:57<17:08:52,  1.28s/it]                                                      {'loss': 1.5147, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 735/48845 [15:57<17:08:52,  1.28s/it]  2%|▏         | 736/48845 [15:58<17:04:08,  1.28s/it]  2%|▏         | 737/48845 [16:00<17:00:05,  1.27s/it]  2%|▏         | 738/48845 [16:01<16:57:11,  1.27s/it]  2%|▏         | 739/48845 [16:02<16:55:18,  1.27s/it]  2%|▏         | 740/48845 [16:03<16:52:57,  1.26s/it]                                                      {'loss': 1.6812, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 740/48845 [16:03<16:52:57,  1.26s/it]  2%|▏         | 741/48845 [16:05<16:52:20,  1.26s/it]  2%|▏         | 742/48845 [16:06<16:51:24,  1.26s/it]  2%|▏         | 743/48845 [16:07<16:51:18,  1.26s/it]  2%|▏         | 744/48845 [16:08<16:51:12,  1.26s/it]  2%|▏         | 745/48845 [16:10<16:51:33,  1.26s/it]                                                      {'loss': 1.6412, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 745/48845 [16:10<16:51:33,  1.26s/it]  2%|▏         | 746/48845 [16:11<16:50:03,  1.26s/it]  2%|▏         | 747/48845 [16:12<16:49:17,  1.26s/it]  2%|▏         | 748/48845 [16:13<16:50:10,  1.26s/it]  2%|▏         | 749/48845 [16:15<16:50:30,  1.26s/it]  2%|▏         | 750/48845 [16:16<16:50:31,  1.26s/it]                                                      {'loss': 1.7925, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 750/48845 [16:16<16:50:31,  1.26s/it]  2%|▏         | 751/48845 [16:17<16:49:30,  1.26s/it]  2%|▏         | 752/48845 [16:19<16:50:32,  1.26s/it]  2%|▏         | 753/48845 [16:20<16:49:13,  1.26s/it]  2%|▏         | 754/48845 [16:21<16:49:25,  1.26s/it]  2%|▏         | 755/48845 [16:22<16:49:59,  1.26s/it]                                                      {'loss': 1.6826, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 755/48845 [16:22<16:49:59,  1.26s/it]  2%|▏         | 756/48845 [16:24<16:49:47,  1.26s/it]  2%|▏         | 757/48845 [16:25<16:50:24,  1.26s/it]  2%|▏         | 758/48845 [16:26<16:49:08,  1.26s/it]  2%|▏         | 759/48845 [16:27<16:48:47,  1.26s/it]  2%|▏         | 760/48845 [16:29<16:49:15,  1.26s/it]                                                      {'loss': 1.8866, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 760/48845 [16:29<16:49:15,  1.26s/it]  2%|▏         | 761/48845 [16:30<16:48:38,  1.26s/it]  2%|▏         | 762/48845 [16:31<16:48:55,  1.26s/it]  2%|▏         | 763/48845 [16:32<16:48:32,  1.26s/it]  2%|▏         | 764/48845 [16:34<16:49:03,  1.26s/it]  2%|▏         | 765/48845 [16:35<16:49:25,  1.26s/it]                                                      {'loss': 1.7485, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 765/48845 [16:35<16:49:25,  1.26s/it]  2%|▏         | 766/48845 [16:36<16:49:59,  1.26s/it]  2%|▏         | 767/48845 [16:37<16:49:21,  1.26s/it]  2%|▏         | 768/48845 [16:39<16:48:25,  1.26s/it]  2%|▏         | 769/48845 [16:40<16:49:05,  1.26s/it]  2%|▏         | 770/48845 [16:41<16:49:23,  1.26s/it]                                                      {'loss': 1.6845, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 770/48845 [16:41<16:49:23,  1.26s/it]  2%|▏         | 771/48845 [16:42<16:49:39,  1.26s/it]  2%|▏         | 772/48845 [16:44<16:49:30,  1.26s/it]  2%|▏         | 773/48845 [16:45<16:48:57,  1.26s/it]  2%|▏         | 774/48845 [16:46<16:48:30,  1.26s/it]  2%|▏         | 775/48845 [16:47<16:49:27,  1.26s/it]                                                      {'loss': 1.9979, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 775/48845 [16:47<16:49:27,  1.26s/it]  2%|▏         | 776/48845 [16:49<16:49:43,  1.26s/it]  2%|▏         | 777/48845 [16:50<16:49:50,  1.26s/it]  2%|▏         | 778/48845 [16:51<16:48:58,  1.26s/it]  2%|▏         | 779/48845 [16:53<16:48:32,  1.26s/it]  2%|▏         | 780/48845 [16:54<16:49:39,  1.26s/it]                                                      {'loss': 1.9849, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 780/48845 [16:54<16:49:39,  1.26s/it]  2%|▏         | 781/48845 [16:55<16:49:19,  1.26s/it]  2%|▏         | 782/48845 [16:56<16:48:43,  1.26s/it]  2%|▏         | 783/48845 [16:58<16:50:13,  1.26s/it]  2%|▏         | 784/48845 [16:59<16:50:14,  1.26s/it]  2%|▏         | 785/48845 [17:00<16:50:03,  1.26s/it]                                                      {'loss': 1.9517, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 785/48845 [17:00<16:50:03,  1.26s/it]  2%|▏         | 786/48845 [17:01<16:50:30,  1.26s/it]  2%|▏         | 787/48845 [17:03<16:49:46,  1.26s/it]  2%|▏         | 788/48845 [17:04<16:49:01,  1.26s/it]  2%|▏         | 789/48845 [17:05<16:49:43,  1.26s/it]  2%|▏         | 790/48845 [17:06<16:49:46,  1.26s/it]                                                      {'loss': 1.537, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 790/48845 [17:06<16:49:46,  1.26s/it]  2%|▏         | 791/48845 [17:08<16:49:31,  1.26s/it]  2%|▏         | 792/48845 [17:09<16:49:02,  1.26s/it]  2%|▏         | 793/48845 [17:10<16:48:32,  1.26s/it]  2%|▏         | 794/48845 [17:11<16:46:52,  1.26s/it]  2%|▏         | 795/48845 [17:13<16:47:18,  1.26s/it]                                                      {'loss': 1.9293, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 795/48845 [17:13<16:47:18,  1.26s/it]  2%|▏         | 796/48845 [17:14<16:47:14,  1.26s/it]  2%|▏         | 797/48845 [17:15<16:47:32,  1.26s/it]  2%|▏         | 798/48845 [17:16<16:47:32,  1.26s/it]  2%|▏         | 799/48845 [17:18<16:47:16,  1.26s/it]  2%|▏         | 800/48845 [17:19<16:47:37,  1.26s/it]                                                      {'loss': 1.9546, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 800/48845 [17:19<16:47:37,  1.26s/it]  2%|▏         | 801/48845 [17:23<26:13:23,  1.96s/it]  2%|▏         | 802/48845 [17:24<23:23:17,  1.75s/it]  2%|▏         | 803/48845 [17:25<21:24:39,  1.60s/it]  2%|▏         | 804/48845 [17:26<20:00:36,  1.50s/it]  2%|▏         | 805/48845 [17:28<19:02:12,  1.43s/it]                                                      {'loss': 1.683, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 805/48845 [17:28<19:02:12,  1.43s/it]  2%|▏         | 806/48845 [17:29<18:29:01,  1.39s/it]  2%|▏         | 807/48845 [17:30<17:59:14,  1.35s/it]  2%|▏         | 808/48845 [17:31<17:38:00,  1.32s/it]  2%|▏         | 809/48845 [17:33<17:23:07,  1.30s/it]  2%|▏         | 810/48845 [17:34<17:12:21,  1.29s/it]                                                      {'loss': 1.7086, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 810/48845 [17:34<17:12:21,  1.29s/it]  2%|▏         | 811/48845 [17:35<17:05:55,  1.28s/it]  2%|▏         | 812/48845 [17:36<17:00:43,  1.28s/it]  2%|▏         | 813/48845 [17:38<16:57:54,  1.27s/it]  2%|▏         | 814/48845 [17:39<16:55:49,  1.27s/it]  2%|▏         | 815/48845 [17:40<16:53:28,  1.27s/it]                                                      {'loss': 1.5708, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 815/48845 [17:40<16:53:28,  1.27s/it]  2%|▏         | 816/48845 [17:42<16:52:03,  1.26s/it]  2%|▏         | 817/48845 [17:43<16:52:28,  1.26s/it]  2%|▏         | 818/48845 [17:44<16:50:31,  1.26s/it]  2%|▏         | 819/48845 [17:45<16:50:18,  1.26s/it]  2%|▏         | 820/48845 [17:47<16:49:23,  1.26s/it]                                                      {'loss': 1.6514, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 820/48845 [17:47<16:49:23,  1.26s/it]  2%|▏         | 821/48845 [17:48<16:48:18,  1.26s/it]  2%|▏         | 822/48845 [17:49<16:48:10,  1.26s/it]  2%|▏         | 823/48845 [17:50<16:48:05,  1.26s/it]  2%|▏         | 824/48845 [17:52<16:47:51,  1.26s/it]  2%|▏         | 825/48845 [17:53<16:47:57,  1.26s/it]                                                      {'loss': 1.6053, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 825/48845 [17:53<16:47:57,  1.26s/it]  2%|▏         | 826/48845 [17:54<16:48:17,  1.26s/it]  2%|▏         | 827/48845 [17:55<16:48:48,  1.26s/it]  2%|▏         | 828/48845 [17:57<16:47:43,  1.26s/it]  2%|▏         | 829/48845 [17:58<16:47:44,  1.26s/it]  2%|▏         | 830/48845 [17:59<16:48:32,  1.26s/it]                                                      {'loss': 1.4682, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.08}
+  2%|▏         | 830/48845 [17:59<16:48:32,  1.26s/it]  2%|▏         | 831/48845 [18:00<16:47:48,  1.26s/it]  2%|▏         | 832/48845 [18:02<16:47:52,  1.26s/it]  2%|▏         | 833/48845 [18:03<16:47:07,  1.26s/it]  2%|▏         | 834/48845 [18:04<16:46:53,  1.26s/it]  2%|▏         | 835/48845 [18:05<16:47:10,  1.26s/it]                                                      {'loss': 1.6638, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.09}
+  2%|▏         | 835/48845 [18:05<16:47:10,  1.26s/it]  2%|▏         | 836/48845 [18:07<16:48:11,  1.26s/it]  2%|▏         | 837/48845 [18:08<16:48:05,  1.26s/it]  2%|▏         | 838/48845 [18:09<16:47:48,  1.26s/it]  2%|▏         | 839/48845 [18:10<16:47:58,  1.26s/it]  2%|▏         | 840/48845 [18:12<16:48:09,  1.26s/it]                                                      {'loss': 1.7611, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.09}
+  2%|▏         | 840/48845 [18:12<16:48:09,  1.26s/it]  2%|▏         | 841/48845 [18:13<16:48:13,  1.26s/it]  2%|▏         | 842/48845 [18:14<16:48:42,  1.26s/it]  2%|▏         | 843/48845 [18:16<16:47:41,  1.26s/it]  2%|▏         | 844/48845 [18:17<16:47:14,  1.26s/it]  2%|▏         | 845/48845 [18:18<16:47:30,  1.26s/it]                                                      {'loss': 1.9538, 'learning_rate': 3.878186274391819e-05, 'epoch': 0.09}
+  2%|▏         | 845/48845 [18:18<16:47:30,  1.26s/it]  2%|▏         | 846/48845 [18:19<16:49:36,  1.26s/it]  2%|▏         | 847/48845 [18:21<16:48:56,  1.26s/it]  2%|▏         | 848/48845 [18:22<16:47:33,  1.26s/it]  2%|▏         | 849/48845 [18:23<17:36:36,  1.32s/it]  2%|▏         | 850/48845 [18:25<17:22:45,  1.30s/it]                                                      {'loss': 1.8206, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 850/48845 [18:25<17:22:45,  1.30s/it]  2%|▏         | 851/48845 [18:26<17:12:12,  1.29s/it]  2%|▏         | 852/48845 [18:27<17:06:20,  1.28s/it]  2%|▏         | 853/48845 [18:28<17:00:38,  1.28s/it]  2%|▏         | 854/48845 [18:30<16:56:55,  1.27s/it]  2%|▏         | 855/48845 [18:31<16:54:45,  1.27s/it]                                                      {'loss': 1.5571, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 855/48845 [18:31<16:54:45,  1.27s/it]  2%|▏         | 856/48845 [18:32<16:52:38,  1.27s/it]  2%|▏         | 857/48845 [18:33<16:50:58,  1.26s/it]  2%|▏         | 858/48845 [18:35<16:49:14,  1.26s/it]  2%|▏         | 859/48845 [18:36<16:49:18,  1.26s/it]  2%|▏         | 860/48845 [18:37<16:49:50,  1.26s/it]                                                      {'loss': 1.5155, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 860/48845 [18:37<16:49:50,  1.26s/it]  2%|▏         | 861/48845 [18:38<16:49:51,  1.26s/it]  2%|▏         | 862/48845 [18:40<16:48:43,  1.26s/it]  2%|▏         | 863/48845 [18:41<16:48:33,  1.26s/it]  2%|▏         | 864/48845 [18:42<16:47:53,  1.26s/it]  2%|▏         | 865/48845 [18:43<16:48:07,  1.26s/it]                                                      {'loss': 1.7387, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 865/48845 [18:43<16:48:07,  1.26s/it]  2%|▏         | 866/48845 [18:45<16:48:05,  1.26s/it]  2%|▏         | 867/48845 [18:46<16:48:09,  1.26s/it]  2%|▏         | 868/48845 [18:47<16:48:41,  1.26s/it]  2%|▏         | 869/48845 [18:49<16:48:03,  1.26s/it]  2%|▏         | 870/48845 [18:50<16:47:31,  1.26s/it]                                                      {'loss': 1.9252, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 870/48845 [18:50<16:47:31,  1.26s/it]  2%|▏         | 871/48845 [18:51<16:47:47,  1.26s/it]  2%|▏         | 872/48845 [18:52<16:47:26,  1.26s/it]  2%|▏         | 873/48845 [18:54<16:48:01,  1.26s/it]  2%|▏         | 874/48845 [18:55<16:47:08,  1.26s/it]  2%|▏         | 875/48845 [18:56<16:47:07,  1.26s/it]                                                      {'loss': 1.7192, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 875/48845 [18:56<16:47:07,  1.26s/it]  2%|▏         | 876/48845 [18:57<16:46:33,  1.26s/it]  2%|▏         | 877/48845 [18:59<16:46:43,  1.26s/it]  2%|▏         | 878/48845 [19:00<16:46:58,  1.26s/it]  2%|▏         | 879/48845 [19:01<16:47:07,  1.26s/it]  2%|▏         | 880/48845 [19:02<16:47:11,  1.26s/it]                                                      {'loss': 1.772, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 880/48845 [19:02<16:47:11,  1.26s/it]  2%|▏         | 881/48845 [19:04<16:47:01,  1.26s/it]  2%|▏         | 882/48845 [19:05<16:46:49,  1.26s/it]  2%|▏         | 883/48845 [19:06<16:47:49,  1.26s/it]  2%|▏         | 884/48845 [19:07<16:47:01,  1.26s/it]  2%|▏         | 885/48845 [19:09<16:46:53,  1.26s/it]                                                      {'loss': 1.7584, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 885/48845 [19:09<16:46:53,  1.26s/it]  2%|▏         | 886/48845 [19:10<16:46:52,  1.26s/it]  2%|▏         | 887/48845 [19:11<16:47:02,  1.26s/it]  2%|▏         | 888/48845 [19:12<16:46:39,  1.26s/it]  2%|▏         | 889/48845 [19:14<16:46:11,  1.26s/it]  2%|▏         | 890/48845 [19:15<16:47:28,  1.26s/it]                                                      {'loss': 1.654, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 890/48845 [19:15<16:47:28,  1.26s/it]  2%|▏         | 891/48845 [19:16<16:47:28,  1.26s/it]  2%|▏         | 892/48845 [19:17<16:46:55,  1.26s/it]  2%|▏         | 893/48845 [19:19<16:46:50,  1.26s/it]  2%|▏         | 894/48845 [19:20<16:46:36,  1.26s/it]  2%|▏         | 895/48845 [19:21<16:46:33,  1.26s/it]                                                      {'loss': 1.7355, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 895/48845 [19:21<16:46:33,  1.26s/it]  2%|▏         | 896/48845 [19:23<16:46:31,  1.26s/it]  2%|▏         | 897/48845 [19:24<16:46:08,  1.26s/it]  2%|▏         | 898/48845 [19:25<16:45:48,  1.26s/it]  2%|▏         | 899/48845 [19:26<16:46:22,  1.26s/it]  2%|▏         | 900/48845 [19:28<16:46:03,  1.26s/it]                                                      {'loss': 1.4892, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 900/48845 [19:28<16:46:03,  1.26s/it]  2%|▏         | 901/48845 [19:29<16:46:50,  1.26s/it]  2%|▏         | 902/48845 [19:30<16:46:21,  1.26s/it]  2%|▏         | 903/48845 [19:31<16:47:14,  1.26s/it]  2%|▏         | 904/48845 [19:33<16:46:30,  1.26s/it]  2%|▏         | 905/48845 [19:34<16:46:38,  1.26s/it]                                                      {'loss': 1.8142, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 905/48845 [19:34<16:46:38,  1.26s/it]  2%|▏         | 906/48845 [19:35<16:46:21,  1.26s/it]  2%|▏         | 907/48845 [19:36<16:46:43,  1.26s/it]  2%|▏         | 908/48845 [19:38<16:47:44,  1.26s/it]  2%|▏         | 909/48845 [19:39<16:45:59,  1.26s/it]  2%|▏         | 910/48845 [19:40<16:46:02,  1.26s/it]                                                      {'loss': 1.7144, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 910/48845 [19:40<16:46:02,  1.26s/it]  2%|▏         | 911/48845 [19:42<17:15:01,  1.30s/it]  2%|▏         | 912/48845 [19:43<17:06:18,  1.28s/it]  2%|▏         | 913/48845 [19:44<17:01:21,  1.28s/it]  2%|▏         | 914/48845 [19:45<16:55:56,  1.27s/it]  2%|▏         | 915/48845 [19:47<17:11:57,  1.29s/it]                                                      {'loss': 1.4946, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 915/48845 [19:47<17:11:57,  1.29s/it]  2%|▏         | 916/48845 [19:48<17:04:16,  1.28s/it]  2%|▏         | 917/48845 [19:49<16:59:03,  1.28s/it]  2%|▏         | 918/48845 [19:50<16:55:55,  1.27s/it]  2%|▏         | 919/48845 [19:52<16:55:48,  1.27s/it]  2%|▏         | 920/48845 [19:53<16:52:53,  1.27s/it]                                                      {'loss': 1.7413, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 920/48845 [19:53<16:52:53,  1.27s/it]  2%|▏         | 921/48845 [19:54<16:52:15,  1.27s/it]  2%|▏         | 922/48845 [19:55<16:49:52,  1.26s/it]  2%|▏         | 923/48845 [19:57<17:22:22,  1.31s/it]  2%|▏         | 924/48845 [19:58<17:11:14,  1.29s/it]  2%|▏         | 925/48845 [19:59<17:04:19,  1.28s/it]                                                      {'loss': 1.6267, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.09}
+  2%|▏         | 925/48845 [19:59<17:04:19,  1.28s/it]  2%|▏         | 926/48845 [20:01<16:58:44,  1.28s/it]  2%|▏         | 927/48845 [20:02<16:57:41,  1.27s/it]  2%|▏         | 928/48845 [20:03<16:53:50,  1.27s/it]  2%|▏         | 929/48845 [20:04<16:51:03,  1.27s/it]  2%|▏         | 930/48845 [20:06<16:49:28,  1.26s/it]                                                      {'loss': 1.6838, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 930/48845 [20:06<16:49:28,  1.26s/it]  2%|▏         | 931/48845 [20:07<16:48:17,  1.26s/it]  2%|▏         | 932/48845 [20:08<16:46:50,  1.26s/it]  2%|▏         | 933/48845 [20:09<16:45:28,  1.26s/it]  2%|▏         | 934/48845 [20:11<17:08:20,  1.29s/it]  2%|▏         | 935/48845 [20:12<17:01:34,  1.28s/it]                                                      {'loss': 1.7121, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 935/48845 [20:12<17:01:34,  1.28s/it]  2%|▏         | 936/48845 [20:13<16:57:09,  1.27s/it]  2%|▏         | 937/48845 [20:15<16:54:04,  1.27s/it]  2%|▏         | 938/48845 [20:16<16:52:09,  1.27s/it]  2%|▏         | 939/48845 [20:17<16:50:24,  1.27s/it]  2%|▏         | 940/48845 [20:18<16:48:32,  1.26s/it]                                                      {'loss': 1.6661, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 940/48845 [20:18<16:48:32,  1.26s/it]  2%|▏         | 941/48845 [20:20<16:50:02,  1.27s/it]  2%|▏         | 942/48845 [20:21<16:48:50,  1.26s/it]  2%|▏         | 943/48845 [20:22<16:47:56,  1.26s/it]  2%|▏         | 944/48845 [20:23<16:47:06,  1.26s/it]  2%|▏         | 945/48845 [20:25<16:47:56,  1.26s/it]                                                      {'loss': 1.6013, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 945/48845 [20:25<16:47:56,  1.26s/it]  2%|▏         | 946/48845 [20:26<16:47:21,  1.26s/it]  2%|▏         | 947/48845 [20:27<16:46:53,  1.26s/it]  2%|▏         | 948/48845 [20:29<16:46:14,  1.26s/it]  2%|▏         | 949/48845 [20:30<16:45:21,  1.26s/it]  2%|▏         | 950/48845 [20:31<16:45:36,  1.26s/it]                                                      {'loss': 1.8558, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 950/48845 [20:31<16:45:36,  1.26s/it]  2%|▏         | 951/48845 [20:32<16:45:54,  1.26s/it]  2%|▏         | 952/48845 [20:34<16:45:52,  1.26s/it]  2%|▏         | 953/48845 [20:35<16:45:38,  1.26s/it]  2%|▏         | 954/48845 [20:36<16:45:03,  1.26s/it]  2%|▏         | 955/48845 [20:37<16:45:35,  1.26s/it]                                                      {'loss': 1.665, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 955/48845 [20:37<16:45:35,  1.26s/it]  2%|▏         | 956/48845 [20:39<16:45:41,  1.26s/it]  2%|▏         | 957/48845 [20:40<16:45:33,  1.26s/it]  2%|▏         | 958/48845 [20:41<16:44:10,  1.26s/it]  2%|▏         | 959/48845 [20:42<16:44:10,  1.26s/it]  2%|▏         | 960/48845 [20:44<16:45:24,  1.26s/it]                                                      {'loss': 1.6995, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 960/48845 [20:44<16:45:24,  1.26s/it]  2%|▏         | 961/48845 [20:45<16:45:23,  1.26s/it]  2%|▏         | 962/48845 [20:46<16:45:59,  1.26s/it]  2%|▏         | 963/48845 [20:47<16:46:31,  1.26s/it]  2%|▏         | 964/48845 [20:49<16:45:29,  1.26s/it]  2%|▏         | 965/48845 [20:50<16:45:29,  1.26s/it]                                                      {'loss': 1.7439, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 965/48845 [20:50<16:45:29,  1.26s/it]  2%|▏         | 966/48845 [20:51<16:44:16,  1.26s/it]  2%|▏         | 967/48845 [20:52<16:45:06,  1.26s/it]  2%|▏         | 968/48845 [20:54<16:45:32,  1.26s/it]  2%|▏         | 969/48845 [20:55<16:46:01,  1.26s/it]  2%|▏         | 970/48845 [20:56<16:46:16,  1.26s/it]                                                      {'loss': 1.5373, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 970/48845 [20:56<16:46:16,  1.26s/it]  2%|▏         | 971/48845 [20:57<16:44:47,  1.26s/it]  2%|▏         | 972/48845 [20:59<16:44:37,  1.26s/it]  2%|▏         | 973/48845 [21:00<16:44:07,  1.26s/it]  2%|▏         | 974/48845 [21:01<16:44:37,  1.26s/it]  2%|▏         | 975/48845 [21:03<16:46:12,  1.26s/it]                                                      {'loss': 1.8302, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 975/48845 [21:03<16:46:12,  1.26s/it]  2%|▏         | 976/48845 [21:04<16:45:21,  1.26s/it]  2%|▏         | 977/48845 [21:05<16:45:07,  1.26s/it]  2%|▏         | 978/48845 [21:06<16:45:06,  1.26s/it]  2%|▏         | 979/48845 [21:08<16:44:06,  1.26s/it]  2%|▏         | 980/48845 [21:09<16:44:42,  1.26s/it]                                                      {'loss': 1.9119, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 980/48845 [21:09<16:44:42,  1.26s/it]  2%|▏         | 981/48845 [21:10<16:44:29,  1.26s/it]  2%|▏         | 982/48845 [21:11<16:44:29,  1.26s/it]  2%|▏         | 983/48845 [21:13<16:44:28,  1.26s/it]  2%|▏         | 984/48845 [21:14<16:43:49,  1.26s/it]  2%|▏         | 985/48845 [21:15<16:44:26,  1.26s/it]                                                      {'loss': 1.895, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 985/48845 [21:15<16:44:26,  1.26s/it]  2%|▏         | 986/48845 [21:16<16:44:30,  1.26s/it]  2%|▏         | 987/48845 [21:18<16:44:11,  1.26s/it]  2%|▏         | 988/48845 [21:19<16:44:08,  1.26s/it]  2%|▏         | 989/48845 [21:20<16:43:51,  1.26s/it]  2%|▏         | 990/48845 [21:21<16:43:24,  1.26s/it]                                                      {'loss': 1.7145, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 990/48845 [21:21<16:43:24,  1.26s/it]  2%|▏         | 991/48845 [21:23<16:43:40,  1.26s/it]  2%|▏         | 992/48845 [21:24<16:43:59,  1.26s/it]  2%|▏         | 993/48845 [21:25<16:43:36,  1.26s/it]  2%|▏         | 994/48845 [21:26<16:42:57,  1.26s/it]  2%|▏         | 995/48845 [21:28<16:42:32,  1.26s/it]                                                      {'loss': 1.4273, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 995/48845 [21:28<16:42:32,  1.26s/it]  2%|▏         | 996/48845 [21:29<16:42:53,  1.26s/it]  2%|▏         | 997/48845 [21:30<16:44:48,  1.26s/it]  2%|▏         | 998/48845 [21:31<16:43:32,  1.26s/it]  2%|▏         | 999/48845 [21:33<16:43:20,  1.26s/it]  2%|▏         | 1000/48845 [21:34<16:43:19,  1.26s/it]                                                       {'loss': 1.5561, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1000/48845 [21:34<16:43:19,  1.26s/it]  2%|▏         | 1001/48845 [21:38<26:33:07,  2.00s/it]  2%|▏         | 1002/48845 [21:39<23:35:22,  1.78s/it]  2%|▏         | 1003/48845 [21:40<21:31:43,  1.62s/it]  2%|▏         | 1004/48845 [21:41<20:05:42,  1.51s/it]  2%|▏         | 1005/48845 [21:43<19:04:41,  1.44s/it]                                                       {'loss': 2.0092, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1005/48845 [21:43<19:04:41,  1.44s/it]  2%|▏         | 1006/48845 [21:44<18:22:28,  1.38s/it]  2%|▏         | 1007/48845 [21:45<17:52:31,  1.35s/it]  2%|▏         | 1008/48845 [21:47<17:32:21,  1.32s/it]  2%|▏         | 1009/48845 [21:48<17:16:54,  1.30s/it]  2%|▏         | 1010/48845 [21:49<17:06:47,  1.29s/it]                                                       {'loss': 1.5446, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1010/48845 [21:49<17:06:47,  1.29s/it]  2%|▏         | 1011/48845 [21:50<17:00:57,  1.28s/it]  2%|▏         | 1012/48845 [21:52<16:56:18,  1.27s/it]  2%|▏         | 1013/48845 [21:53<16:52:39,  1.27s/it]  2%|▏         | 1014/48845 [21:54<16:50:10,  1.27s/it]  2%|▏         | 1015/48845 [21:55<16:47:19,  1.26s/it]                                                       {'loss': 1.6847, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1015/48845 [21:55<16:47:19,  1.26s/it]  2%|▏         | 1016/48845 [21:57<16:46:40,  1.26s/it]  2%|▏         | 1017/48845 [21:58<16:45:49,  1.26s/it]  2%|▏         | 1018/48845 [21:59<16:46:30,  1.26s/it]  2%|▏         | 1019/48845 [22:00<16:45:40,  1.26s/it]  2%|▏         | 1020/48845 [22:02<16:45:02,  1.26s/it]                                                       {'loss': 1.8894, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1020/48845 [22:02<16:45:02,  1.26s/it]  2%|▏         | 1021/48845 [22:03<16:45:19,  1.26s/it]  2%|▏         | 1022/48845 [22:04<16:44:07,  1.26s/it]  2%|▏         | 1023/48845 [22:05<16:44:24,  1.26s/it]  2%|▏         | 1024/48845 [22:07<16:43:38,  1.26s/it]  2%|▏         | 1025/48845 [22:08<16:43:08,  1.26s/it]                                                       {'loss': 1.686, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.1}
+  2%|▏         | 1025/48845 [22:08<16:43:08,  1.26s/it]  2%|▏         | 1026/48845 [22:09<16:44:24,  1.26s/it]  2%|▏         | 1027/48845 [22:10<16:43:53,  1.26s/it]  2%|▏         | 1028/48845 [22:12<16:43:15,  1.26s/it]  2%|▏         | 1029/48845 [22:13<16:43:41,  1.26s/it]  2%|▏         | 1030/48845 [22:14<16:43:18,  1.26s/it]                                                       {'loss': 1.6936, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1030/48845 [22:14<16:43:18,  1.26s/it]  2%|▏         | 1031/48845 [22:15<16:44:29,  1.26s/it]  2%|▏         | 1032/48845 [22:17<16:43:51,  1.26s/it]  2%|▏         | 1033/48845 [22:18<16:44:06,  1.26s/it]  2%|▏         | 1034/48845 [22:19<16:43:38,  1.26s/it]  2%|▏         | 1035/48845 [22:21<16:44:28,  1.26s/it]                                                       {'loss': 1.5608, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1035/48845 [22:21<16:44:28,  1.26s/it]  2%|▏         | 1036/48845 [22:22<16:44:35,  1.26s/it]  2%|▏         | 1037/48845 [22:23<16:43:42,  1.26s/it]  2%|▏         | 1038/48845 [22:24<16:42:55,  1.26s/it]  2%|▏         | 1039/48845 [22:26<16:43:22,  1.26s/it]  2%|▏         | 1040/48845 [22:27<16:43:17,  1.26s/it]                                                       {'loss': 1.7154, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1040/48845 [22:27<16:43:17,  1.26s/it]  2%|▏         | 1041/48845 [22:28<16:44:25,  1.26s/it]  2%|▏         | 1042/48845 [22:29<16:43:57,  1.26s/it]  2%|▏         | 1043/48845 [22:31<16:42:59,  1.26s/it]  2%|▏         | 1044/48845 [22:32<16:42:21,  1.26s/it]  2%|▏         | 1045/48845 [22:33<16:41:22,  1.26s/it]                                                       {'loss': 1.8555, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1045/48845 [22:33<16:41:22,  1.26s/it]  2%|▏         | 1046/48845 [22:34<16:42:37,  1.26s/it]  2%|▏         | 1047/48845 [22:36<16:42:57,  1.26s/it]  2%|▏         | 1048/48845 [22:37<16:42:55,  1.26s/it]  2%|▏         | 1049/48845 [22:38<16:43:05,  1.26s/it]  2%|▏         | 1050/48845 [22:39<16:43:04,  1.26s/it]                                                       {'loss': 1.5159, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1050/48845 [22:39<16:43:04,  1.26s/it]  2%|▏         | 1051/48845 [22:41<17:03:08,  1.28s/it]  2%|▏         | 1052/48845 [22:42<16:55:51,  1.28s/it]  2%|▏         | 1053/48845 [22:43<16:50:29,  1.27s/it]  2%|▏         | 1054/48845 [22:45<16:47:56,  1.27s/it]  2%|▏         | 1055/48845 [22:46<16:46:04,  1.26s/it]                                                       {'loss': 2.1475, 'learning_rate': 3.8846486060224364e-05, 'epoch': 0.11}
+  2%|▏         | 1055/48845 [22:46<16:46:04,  1.26s/it]  2%|▏         | 1056/48845 [22:47<17:37:24,  1.33s/it]  2%|▏         | 1057/48845 [22:49<17:23:41,  1.31s/it]  2%|▏         | 1058/48845 [22:50<17:12:06,  1.30s/it]  2%|▏         | 1059/48845 [22:51<17:04:12,  1.29s/it]  2%|▏         | 1060/48845 [22:52<16:58:39,  1.28s/it]                                                       {'loss': 1.517, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1060/48845 [22:52<16:58:39,  1.28s/it]  2%|▏         | 1061/48845 [22:54<16:54:43,  1.27s/it]  2%|▏         | 1062/48845 [22:55<16:51:35,  1.27s/it]  2%|▏         | 1063/48845 [22:56<16:48:55,  1.27s/it]  2%|▏         | 1064/48845 [22:57<16:46:18,  1.26s/it]  2%|▏         | 1065/48845 [22:59<16:45:17,  1.26s/it]                                                       {'loss': 1.8169, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1065/48845 [22:59<16:45:17,  1.26s/it]  2%|▏         | 1066/48845 [23:00<16:45:21,  1.26s/it]  2%|▏         | 1067/48845 [23:01<16:44:31,  1.26s/it]  2%|▏         | 1068/48845 [23:02<16:43:34,  1.26s/it]  2%|▏         | 1069/48845 [23:04<16:44:26,  1.26s/it]  2%|▏         | 1070/48845 [23:05<16:44:05,  1.26s/it]                                                       {'loss': 1.679, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1070/48845 [23:05<16:44:05,  1.26s/it]  2%|▏         | 1071/48845 [23:06<16:45:02,  1.26s/it]  2%|▏         | 1072/48845 [23:07<16:44:30,  1.26s/it]  2%|▏         | 1073/48845 [23:09<16:43:09,  1.26s/it]  2%|▏         | 1074/48845 [23:10<16:42:23,  1.26s/it]  2%|▏         | 1075/48845 [23:11<16:42:04,  1.26s/it]                                                       {'loss': 1.6373, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1075/48845 [23:11<16:42:04,  1.26s/it]  2%|▏         | 1076/48845 [23:12<16:45:00,  1.26s/it]  2%|▏         | 1077/48845 [23:14<16:44:00,  1.26s/it]  2%|▏         | 1078/48845 [23:15<16:43:04,  1.26s/it]  2%|▏         | 1079/48845 [23:16<16:42:21,  1.26s/it]  2%|▏         | 1080/48845 [23:18<16:42:19,  1.26s/it]                                                       {'loss': 1.6882, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1080/48845 [23:18<16:42:19,  1.26s/it]  2%|▏         | 1081/48845 [23:19<16:42:09,  1.26s/it]  2%|▏         | 1082/48845 [23:20<16:42:40,  1.26s/it]  2%|▏         | 1083/48845 [23:21<16:42:22,  1.26s/it]  2%|▏         | 1084/48845 [23:23<16:42:36,  1.26s/it]  2%|▏         | 1085/48845 [23:24<16:42:28,  1.26s/it]                                                       {'loss': 1.8477, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1085/48845 [23:24<16:42:28,  1.26s/it]  2%|▏         | 1086/48845 [23:25<16:42:29,  1.26s/it]  2%|▏         | 1087/48845 [23:26<16:41:50,  1.26s/it]  2%|▏         | 1088/48845 [23:28<16:41:54,  1.26s/it]  2%|▏         | 1089/48845 [23:29<16:41:32,  1.26s/it]  2%|▏         | 1090/48845 [23:30<16:41:45,  1.26s/it]                                                       {'loss': 1.7991, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1090/48845 [23:30<16:41:45,  1.26s/it]  2%|▏         | 1091/48845 [23:31<16:45:16,  1.26s/it]  2%|▏         | 1092/48845 [23:33<16:44:51,  1.26s/it]  2%|▏         | 1093/48845 [23:34<16:47:27,  1.27s/it]  2%|▏         | 1094/48845 [23:35<16:46:20,  1.26s/it]  2%|▏         | 1095/48845 [23:36<16:44:24,  1.26s/it]                                                       {'loss': 1.8503, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1095/48845 [23:36<16:44:24,  1.26s/it]  2%|▏         | 1096/48845 [23:38<16:44:23,  1.26s/it]  2%|▏         | 1097/48845 [23:39<16:44:32,  1.26s/it]  2%|▏         | 1098/48845 [23:40<16:43:49,  1.26s/it]  2%|▏         | 1099/48845 [23:41<16:48:48,  1.27s/it]  2%|▏         | 1100/48845 [23:43<16:48:07,  1.27s/it]                                                       {'loss': 1.5511, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1100/48845 [23:43<16:48:07,  1.27s/it]  2%|▏         | 1101/48845 [23:44<16:46:39,  1.27s/it]  2%|▏         | 1102/48845 [23:45<16:45:44,  1.26s/it]  2%|▏         | 1103/48845 [23:47<16:43:52,  1.26s/it]  2%|▏         | 1104/48845 [23:48<17:17:25,  1.30s/it]  2%|▏         | 1105/48845 [23:49<17:06:24,  1.29s/it]                                                       {'loss': 1.7588, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1105/48845 [23:49<17:06:24,  1.29s/it]  2%|▏         | 1106/48845 [23:50<17:00:30,  1.28s/it]  2%|▏         | 1107/48845 [23:52<16:53:38,  1.27s/it]  2%|▏         | 1108/48845 [23:53<16:50:47,  1.27s/it]  2%|▏         | 1109/48845 [23:54<16:47:53,  1.27s/it]  2%|▏         | 1110/48845 [23:56<16:46:17,  1.26s/it]                                                       {'loss': 1.6319, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1110/48845 [23:56<16:46:17,  1.26s/it]  2%|▏         | 1111/48845 [23:57<16:46:38,  1.27s/it]  2%|▏         | 1112/48845 [23:58<16:45:20,  1.26s/it]  2%|▏         | 1113/48845 [23:59<16:44:18,  1.26s/it]  2%|▏         | 1114/48845 [24:01<16:43:32,  1.26s/it]  2%|▏         | 1115/48845 [24:02<16:42:35,  1.26s/it]                                                       {'loss': 1.8089, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1115/48845 [24:02<16:42:35,  1.26s/it]  2%|▏         | 1116/48845 [24:03<16:42:53,  1.26s/it]  2%|▏         | 1117/48845 [24:04<16:41:22,  1.26s/it]  2%|▏         | 1118/48845 [24:06<16:41:37,  1.26s/it]  2%|▏         | 1119/48845 [24:07<16:40:45,  1.26s/it]  2%|▏         | 1120/48845 [24:08<16:41:06,  1.26s/it]                                                       {'loss': 1.6195, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.11}
+  2%|▏         | 1120/48845 [24:08<16:41:06,  1.26s/it]  2%|▏         | 1121/48845 [24:09<16:42:24,  1.26s/it]  2%|▏         | 1122/48845 [24:11<16:41:40,  1.26s/it]  2%|▏         | 1123/48845 [24:12<16:42:06,  1.26s/it]  2%|▏         | 1124/48845 [24:13<16:41:07,  1.26s/it]  2%|▏         | 1125/48845 [24:14<16:41:16,  1.26s/it]                                                       {'loss': 1.6638, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1125/48845 [24:14<16:41:16,  1.26s/it]  2%|▏         | 1126/48845 [24:16<16:42:15,  1.26s/it]  2%|▏         | 1127/48845 [24:17<16:41:14,  1.26s/it]  2%|▏         | 1128/48845 [24:18<16:41:20,  1.26s/it]  2%|▏         | 1129/48845 [24:19<16:41:08,  1.26s/it]  2%|▏         | 1130/48845 [24:21<16:40:07,  1.26s/it]                                                       {'loss': 2.0764, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1130/48845 [24:21<16:40:07,  1.26s/it]  2%|▏         | 1131/48845 [24:22<16:40:35,  1.26s/it]  2%|▏         | 1132/48845 [24:23<16:42:18,  1.26s/it]  2%|▏         | 1133/48845 [24:24<16:42:12,  1.26s/it]  2%|▏         | 1134/48845 [24:26<16:41:25,  1.26s/it]  2%|▏         | 1135/48845 [24:27<16:41:01,  1.26s/it]                                                       {'loss': 1.8936, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1135/48845 [24:27<16:41:01,  1.26s/it]  2%|▏         | 1136/48845 [24:28<16:42:02,  1.26s/it]  2%|▏         | 1137/48845 [24:30<16:41:39,  1.26s/it]  2%|▏         | 1138/48845 [24:31<16:40:47,  1.26s/it]  2%|▏         | 1139/48845 [24:32<16:41:00,  1.26s/it]  2%|▏         | 1140/48845 [24:33<16:41:11,  1.26s/it]                                                       {'loss': 2.0791, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1140/48845 [24:33<16:41:11,  1.26s/it]  2%|▏         | 1141/48845 [24:35<16:42:48,  1.26s/it]  2%|▏         | 1142/48845 [24:36<16:42:01,  1.26s/it]  2%|▏         | 1143/48845 [24:37<16:42:36,  1.26s/it]  2%|▏         | 1144/48845 [24:38<16:41:28,  1.26s/it]  2%|▏         | 1145/48845 [24:40<16:41:07,  1.26s/it]                                                       {'loss': 1.6234, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1145/48845 [24:40<16:41:07,  1.26s/it]  2%|▏         | 1146/48845 [24:41<16:43:00,  1.26s/it]  2%|▏         | 1147/48845 [24:42<16:43:02,  1.26s/it]  2%|▏         | 1148/48845 [24:43<16:41:39,  1.26s/it]  2%|▏         | 1149/48845 [24:45<16:41:02,  1.26s/it]  2%|▏         | 1150/48845 [24:46<16:40:32,  1.26s/it]                                                       {'loss': 1.6, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1150/48845 [24:46<16:40:32,  1.26s/it]  2%|▏         | 1151/48845 [24:47<16:43:57,  1.26s/it]  2%|▏         | 1152/48845 [24:48<16:43:06,  1.26s/it]  2%|▏         | 1153/48845 [24:50<16:43:20,  1.26s/it]  2%|▏         | 1154/48845 [24:51<16:42:39,  1.26s/it]  2%|▏         | 1155/48845 [24:52<16:42:14,  1.26s/it]                                                       {'loss': 1.6628, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1155/48845 [24:52<16:42:14,  1.26s/it]  2%|▏         | 1156/48845 [24:53<16:41:19,  1.26s/it]  2%|▏         | 1157/48845 [24:55<16:41:20,  1.26s/it]  2%|▏         | 1158/48845 [24:56<16:41:29,  1.26s/it]  2%|▏         | 1159/48845 [24:57<16:41:18,  1.26s/it]  2%|▏         | 1160/48845 [24:58<16:41:23,  1.26s/it]                                                       {'loss': 2.1294, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1160/48845 [24:58<16:41:23,  1.26s/it]  2%|▏         | 1161/48845 [25:00<16:40:09,  1.26s/it]  2%|▏         | 1162/48845 [25:01<16:39:46,  1.26s/it]  2%|▏         | 1163/48845 [25:02<16:39:33,  1.26s/it]  2%|▏         | 1164/48845 [25:04<16:38:27,  1.26s/it]  2%|▏         | 1165/48845 [25:05<16:38:39,  1.26s/it]                                                       {'loss': 1.8533, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1165/48845 [25:05<16:38:39,  1.26s/it]  2%|▏         | 1166/48845 [25:06<16:40:48,  1.26s/it]  2%|▏         | 1167/48845 [25:07<16:39:44,  1.26s/it]  2%|▏         | 1168/48845 [25:09<16:40:44,  1.26s/it]  2%|▏         | 1169/48845 [25:10<16:40:05,  1.26s/it]  2%|▏         | 1170/48845 [25:11<16:39:41,  1.26s/it]                                                       {'loss': 1.6947, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1170/48845 [25:11<16:39:41,  1.26s/it]  2%|▏         | 1171/48845 [25:12<16:41:03,  1.26s/it]  2%|▏         | 1172/48845 [25:14<16:40:08,  1.26s/it]  2%|▏         | 1173/48845 [25:15<16:39:51,  1.26s/it]  2%|▏         | 1174/48845 [25:16<16:40:31,  1.26s/it]  2%|▏         | 1175/48845 [25:17<16:39:30,  1.26s/it]                                                       {'loss': 1.692, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1175/48845 [25:17<16:39:30,  1.26s/it]  2%|▏         | 1176/48845 [25:19<16:41:13,  1.26s/it]  2%|▏         | 1177/48845 [25:20<16:40:42,  1.26s/it]  2%|▏         | 1178/48845 [25:21<16:40:26,  1.26s/it]  2%|▏         | 1179/48845 [25:22<16:39:57,  1.26s/it]  2%|▏         | 1180/48845 [25:24<16:39:34,  1.26s/it]                                                       {'loss': 1.5405, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1180/48845 [25:24<16:39:34,  1.26s/it]  2%|▏         | 1181/48845 [25:25<16:40:59,  1.26s/it]  2%|▏         | 1182/48845 [25:26<16:40:13,  1.26s/it]  2%|▏         | 1183/48845 [25:27<16:40:01,  1.26s/it]  2%|▏         | 1184/48845 [25:29<16:39:09,  1.26s/it]  2%|▏         | 1185/48845 [25:30<16:38:50,  1.26s/it]                                                       {'loss': 1.8531, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1185/48845 [25:30<16:38:50,  1.26s/it]  2%|▏         | 1186/48845 [25:31<16:39:26,  1.26s/it]  2%|▏         | 1187/48845 [25:32<16:40:42,  1.26s/it]  2%|▏         | 1188/48845 [25:34<16:41:50,  1.26s/it]  2%|▏         | 1189/48845 [25:35<16:41:31,  1.26s/it]  2%|▏         | 1190/48845 [25:36<16:40:51,  1.26s/it]                                                       {'loss': 1.413, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1190/48845 [25:36<16:40:51,  1.26s/it]  2%|▏         | 1191/48845 [25:38<16:49:17,  1.27s/it]  2%|▏         | 1192/48845 [25:39<16:46:11,  1.27s/it]  2%|▏         | 1193/48845 [25:40<16:44:30,  1.26s/it]  2%|▏         | 1194/48845 [25:41<16:44:33,  1.26s/it]  2%|▏         | 1195/48845 [25:43<16:42:29,  1.26s/it]                                                       {'loss': 1.5152, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1195/48845 [25:43<16:42:29,  1.26s/it]  2%|▏         | 1196/48845 [25:44<16:42:01,  1.26s/it]  2%|▏         | 1197/48845 [25:45<16:42:23,  1.26s/it]  2%|▏         | 1198/48845 [25:46<16:41:56,  1.26s/it]  2%|▏         | 1199/48845 [25:48<16:41:34,  1.26s/it]  2%|▏         | 1200/48845 [25:49<16:40:33,  1.26s/it]                                                       {'loss': 1.8595, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1200/48845 [25:49<16:40:33,  1.26s/it]  2%|▏         | 1201/48845 [25:53<26:20:14,  1.99s/it]  2%|▏         | 1202/48845 [25:54<23:26:31,  1.77s/it]  2%|▏         | 1203/48845 [25:55<21:25:45,  1.62s/it]  2%|▏         | 1204/48845 [25:56<19:59:10,  1.51s/it]  2%|▏         | 1205/48845 [25:58<19:00:23,  1.44s/it]                                                       {'loss': 1.5433, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1205/48845 [25:58<19:00:23,  1.44s/it]  2%|▏         | 1206/48845 [25:59<18:17:56,  1.38s/it]  2%|▏         | 1207/48845 [26:00<17:48:42,  1.35s/it]  2%|▏         | 1208/48845 [26:01<17:28:42,  1.32s/it]  2%|▏         | 1209/48845 [26:03<17:15:09,  1.30s/it]  2%|▏         | 1210/48845 [26:04<17:04:28,  1.29s/it]                                                       {'loss': 1.6807, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1210/48845 [26:04<17:04:28,  1.29s/it]  2%|▏         | 1211/48845 [26:05<16:56:23,  1.28s/it]  2%|▏         | 1212/48845 [26:06<16:50:43,  1.27s/it]  2%|▏         | 1213/48845 [26:08<16:48:08,  1.27s/it]  2%|▏         | 1214/48845 [26:09<16:45:23,  1.27s/it]  2%|▏         | 1215/48845 [26:10<16:43:39,  1.26s/it]                                                       {'loss': 1.6555, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1215/48845 [26:10<16:43:39,  1.26s/it]  2%|▏         | 1216/48845 [26:11<16:41:43,  1.26s/it]  2%|▏         | 1217/48845 [26:13<16:40:53,  1.26s/it]  2%|▏         | 1218/48845 [26:14<16:41:21,  1.26s/it]  2%|▏         | 1219/48845 [26:15<16:40:47,  1.26s/it]  2%|▏         | 1220/48845 [26:17<16:40:50,  1.26s/it]                                                       {'loss': 1.8134, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.12}
+  2%|▏         | 1220/48845 [26:17<16:40:50,  1.26s/it]  2%|▏         | 1221/48845 [26:18<16:40:14,  1.26s/it]  3%|▎         | 1222/48845 [26:19<16:40:28,  1.26s/it]  3%|▎         | 1223/48845 [26:20<16:40:55,  1.26s/it]  3%|▎         | 1224/48845 [26:22<16:39:40,  1.26s/it]  3%|▎         | 1225/48845 [26:23<16:38:49,  1.26s/it]                                                       {'loss': 1.6305, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1225/48845 [26:23<16:38:49,  1.26s/it]  3%|▎         | 1226/48845 [26:24<16:38:57,  1.26s/it]  3%|▎         | 1227/48845 [26:25<16:38:07,  1.26s/it]  3%|▎         | 1228/48845 [26:27<16:37:20,  1.26s/it]  3%|▎         | 1229/48845 [26:28<16:38:17,  1.26s/it]  3%|▎         | 1230/48845 [26:29<16:39:27,  1.26s/it]                                                       {'loss': 1.7633, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1230/48845 [26:29<16:39:27,  1.26s/it]  3%|▎         | 1231/48845 [26:30<16:39:30,  1.26s/it]  3%|▎         | 1232/48845 [26:32<16:39:23,  1.26s/it]  3%|▎         | 1233/48845 [26:33<16:39:23,  1.26s/it]  3%|▎         | 1234/48845 [26:34<16:38:54,  1.26s/it]  3%|▎         | 1235/48845 [26:35<16:39:29,  1.26s/it]                                                       {'loss': 1.7211, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1235/48845 [26:35<16:39:29,  1.26s/it]  3%|▎         | 1236/48845 [26:37<16:40:46,  1.26s/it]  3%|▎         | 1237/48845 [26:38<16:40:37,  1.26s/it]  3%|▎         | 1238/48845 [26:39<16:39:48,  1.26s/it]  3%|▎         | 1239/48845 [26:40<16:39:22,  1.26s/it]  3%|▎         | 1240/48845 [26:42<16:40:36,  1.26s/it]                                                       {'loss': 1.8153, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1240/48845 [26:42<16:40:36,  1.26s/it]  3%|▎         | 1241/48845 [26:43<16:40:02,  1.26s/it]  3%|▎         | 1242/48845 [26:44<16:38:47,  1.26s/it]  3%|▎         | 1243/48845 [26:46<16:40:34,  1.26s/it]  3%|▎         | 1244/48845 [26:47<16:54:11,  1.28s/it]  3%|▎         | 1245/48845 [26:48<16:49:18,  1.27s/it]                                                       {'loss': 1.5981, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1245/48845 [26:48<16:49:18,  1.27s/it]  3%|▎         | 1246/48845 [26:49<16:45:44,  1.27s/it]  3%|▎         | 1247/48845 [26:51<16:46:00,  1.27s/it]  3%|▎         | 1248/48845 [26:52<16:42:56,  1.26s/it]  3%|▎         | 1249/48845 [26:53<16:41:51,  1.26s/it]  3%|▎         | 1250/48845 [26:54<16:40:45,  1.26s/it]                                                       {'loss': 1.6375, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1250/48845 [26:54<16:40:45,  1.26s/it]  3%|▎         | 1251/48845 [26:56<16:41:30,  1.26s/it]  3%|▎         | 1252/48845 [26:57<16:42:05,  1.26s/it]  3%|▎         | 1253/48845 [26:58<16:40:45,  1.26s/it]  3%|▎         | 1254/48845 [26:59<16:40:24,  1.26s/it]  3%|▎         | 1255/48845 [27:01<16:40:27,  1.26s/it]                                                       {'loss': 1.7763, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1255/48845 [27:01<16:40:27,  1.26s/it]  3%|▎         | 1256/48845 [27:02<16:40:36,  1.26s/it]  3%|▎         | 1257/48845 [27:03<16:38:51,  1.26s/it]  3%|▎         | 1258/48845 [27:04<16:38:16,  1.26s/it]  3%|▎         | 1259/48845 [27:06<16:37:52,  1.26s/it]  3%|▎         | 1260/48845 [27:07<16:38:04,  1.26s/it]                                                       {'loss': 1.9393, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1260/48845 [27:07<16:38:04,  1.26s/it]  3%|▎         | 1261/48845 [27:08<17:17:40,  1.31s/it]  3%|▎         | 1262/48845 [27:10<17:04:32,  1.29s/it]  3%|▎         | 1263/48845 [27:11<16:56:27,  1.28s/it]  3%|▎         | 1264/48845 [27:12<16:50:59,  1.27s/it]  3%|▎         | 1265/48845 [27:13<16:47:53,  1.27s/it]                                                       {'loss': 1.5768, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1265/48845 [27:13<16:47:53,  1.27s/it]  3%|▎         | 1266/48845 [27:15<16:45:16,  1.27s/it]  3%|▎         | 1267/48845 [27:16<16:42:39,  1.26s/it]  3%|▎         | 1268/48845 [27:17<16:42:50,  1.26s/it]  3%|▎         | 1269/48845 [27:18<16:43:20,  1.27s/it]  3%|▎         | 1270/48845 [27:20<16:41:00,  1.26s/it]                                                       {'loss': 1.9163, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1270/48845 [27:20<16:41:00,  1.26s/it]  3%|▎         | 1271/48845 [27:21<16:40:34,  1.26s/it]  3%|▎         | 1272/48845 [27:22<16:39:30,  1.26s/it]  3%|▎         | 1273/48845 [27:24<16:39:32,  1.26s/it]  3%|▎         | 1274/48845 [27:25<16:39:26,  1.26s/it]  3%|▎         | 1275/48845 [27:26<16:38:26,  1.26s/it]                                                       {'loss': 1.8114, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1275/48845 [27:26<16:38:26,  1.26s/it]  3%|▎         | 1276/48845 [27:27<16:39:15,  1.26s/it]  3%|▎         | 1277/48845 [27:29<16:37:51,  1.26s/it]  3%|▎         | 1278/48845 [27:30<16:38:27,  1.26s/it]  3%|▎         | 1279/48845 [27:31<16:36:56,  1.26s/it]  3%|▎         | 1280/48845 [27:32<16:37:10,  1.26s/it]                                                       {'loss': 1.961, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1280/48845 [27:32<16:37:10,  1.26s/it]  3%|▎         | 1281/48845 [27:34<16:53:48,  1.28s/it]  3%|▎         | 1282/48845 [27:35<16:49:28,  1.27s/it]  3%|▎         | 1283/48845 [27:36<16:44:55,  1.27s/it]  3%|▎         | 1284/48845 [27:37<16:42:45,  1.27s/it]  3%|▎         | 1285/48845 [27:39<16:50:59,  1.28s/it]                                                       {'loss': 1.86, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1285/48845 [27:39<16:50:59,  1.28s/it]  3%|▎         | 1286/48845 [27:40<16:48:20,  1.27s/it]  3%|▎         | 1287/48845 [27:41<16:45:05,  1.27s/it]  3%|▎         | 1288/48845 [27:43<16:42:55,  1.27s/it]  3%|▎         | 1289/48845 [27:44<16:43:06,  1.27s/it]  3%|▎         | 1290/48845 [27:45<16:41:34,  1.26s/it]                                                       {'loss': 1.7812, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1290/48845 [27:45<16:41:34,  1.26s/it]  3%|▎         | 1291/48845 [27:46<16:40:50,  1.26s/it]  3%|▎         | 1292/48845 [27:48<16:40:18,  1.26s/it]  3%|▎         | 1293/48845 [27:49<16:41:07,  1.26s/it]  3%|▎         | 1294/48845 [27:50<16:40:39,  1.26s/it]  3%|▎         | 1295/48845 [27:51<16:40:47,  1.26s/it]                                                       {'loss': 1.5595, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1295/48845 [27:51<16:40:47,  1.26s/it]  3%|▎         | 1296/48845 [27:53<16:40:34,  1.26s/it]  3%|▎         | 1297/48845 [27:54<16:41:41,  1.26s/it]  3%|▎         | 1298/48845 [27:55<16:40:08,  1.26s/it]  3%|▎         | 1299/48845 [27:56<16:38:30,  1.26s/it]  3%|▎         | 1300/48845 [27:58<16:37:42,  1.26s/it]                                                       {'loss': 1.6551, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1300/48845 [27:58<16:37:42,  1.26s/it]  3%|▎         | 1301/48845 [27:59<16:38:58,  1.26s/it]  3%|▎         | 1302/48845 [28:00<16:38:11,  1.26s/it]  3%|▎         | 1303/48845 [28:01<16:38:07,  1.26s/it]  3%|▎         | 1304/48845 [28:03<16:38:15,  1.26s/it]  3%|▎         | 1305/48845 [28:04<16:38:43,  1.26s/it]                                                       {'loss': 1.645, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1305/48845 [28:04<16:38:43,  1.26s/it]  3%|▎         | 1306/48845 [28:05<16:37:45,  1.26s/it]  3%|▎         | 1307/48845 [28:06<16:38:29,  1.26s/it]  3%|▎         | 1308/48845 [28:08<16:38:24,  1.26s/it]  3%|▎         | 1309/48845 [28:09<16:38:28,  1.26s/it]  3%|▎         | 1310/48845 [28:10<16:38:29,  1.26s/it]                                                       {'loss': 1.716, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1310/48845 [28:10<16:38:29,  1.26s/it]  3%|▎         | 1311/48845 [28:12<16:37:42,  1.26s/it]  3%|▎         | 1312/48845 [28:13<16:38:53,  1.26s/it]  3%|▎         | 1313/48845 [28:14<16:38:23,  1.26s/it]  3%|▎         | 1314/48845 [28:15<16:37:15,  1.26s/it]  3%|▎         | 1315/48845 [28:17<16:37:05,  1.26s/it]                                                       {'loss': 1.7451, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.13}
+  3%|▎         | 1315/48845 [28:17<16:37:05,  1.26s/it]  3%|▎         | 1316/48845 [28:18<16:36:57,  1.26s/it]  3%|▎         | 1317/48845 [28:19<16:36:15,  1.26s/it]  3%|▎         | 1318/48845 [28:20<16:35:44,  1.26s/it]  3%|▎         | 1319/48845 [28:22<16:36:06,  1.26s/it]  3%|▎         | 1320/48845 [28:23<16:36:12,  1.26s/it]                                                       {'loss': 1.5919, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1320/48845 [28:23<16:36:12,  1.26s/it]  3%|▎         | 1321/48845 [28:24<16:37:35,  1.26s/it]  3%|▎         | 1322/48845 [28:25<16:37:22,  1.26s/it]  3%|▎         | 1323/48845 [28:27<16:37:06,  1.26s/it]  3%|▎         | 1324/48845 [28:28<16:39:19,  1.26s/it]  3%|▎         | 1325/48845 [28:29<16:39:27,  1.26s/it]                                                       {'loss': 1.695, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1325/48845 [28:29<16:39:27,  1.26s/it]  3%|▎         | 1326/48845 [28:30<16:39:10,  1.26s/it]  3%|▎         | 1327/48845 [28:32<16:37:24,  1.26s/it]  3%|▎         | 1328/48845 [28:33<16:38:23,  1.26s/it]  3%|▎         | 1329/48845 [28:34<16:38:58,  1.26s/it]  3%|▎         | 1330/48845 [28:35<16:37:39,  1.26s/it]                                                       {'loss': 1.8318, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1330/48845 [28:35<16:37:39,  1.26s/it]  3%|▎         | 1331/48845 [28:37<16:38:04,  1.26s/it]  3%|▎         | 1332/48845 [28:38<16:37:06,  1.26s/it]  3%|▎         | 1333/48845 [28:39<16:36:32,  1.26s/it]  3%|▎         | 1334/48845 [28:40<16:36:36,  1.26s/it]  3%|▎         | 1335/48845 [28:42<16:36:31,  1.26s/it]                                                       {'loss': 1.6889, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1335/48845 [28:42<16:36:31,  1.26s/it]  3%|▎         | 1336/48845 [28:43<16:36:55,  1.26s/it]  3%|▎         | 1337/48845 [28:44<16:38:55,  1.26s/it]  3%|▎         | 1338/48845 [28:46<16:37:45,  1.26s/it]  3%|▎         | 1339/48845 [28:47<16:37:39,  1.26s/it]  3%|▎         | 1340/48845 [28:48<16:37:09,  1.26s/it]                                                       {'loss': 1.8764, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1340/48845 [28:48<16:37:09,  1.26s/it]  3%|▎         | 1341/48845 [28:49<16:39:27,  1.26s/it]  3%|▎         | 1342/48845 [28:51<16:38:39,  1.26s/it]  3%|▎         | 1343/48845 [28:52<16:37:18,  1.26s/it]  3%|▎         | 1344/48845 [28:53<16:36:17,  1.26s/it]  3%|▎         | 1345/48845 [28:54<16:36:52,  1.26s/it]                                                       {'loss': 2.0045, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1345/48845 [28:54<16:36:52,  1.26s/it]  3%|▎         | 1346/48845 [28:56<16:36:41,  1.26s/it]  3%|▎         | 1347/48845 [28:57<16:37:07,  1.26s/it]  3%|▎         | 1348/48845 [28:58<16:37:17,  1.26s/it]  3%|▎         | 1349/48845 [28:59<16:37:26,  1.26s/it]  3%|▎         | 1350/48845 [29:01<16:37:24,  1.26s/it]                                                       {'loss': 1.8578, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1350/48845 [29:01<16:37:24,  1.26s/it]  3%|▎         | 1351/48845 [29:02<16:38:00,  1.26s/it]  3%|▎         | 1352/48845 [29:03<16:38:08,  1.26s/it]  3%|▎         | 1353/48845 [29:05<17:10:28,  1.30s/it]  3%|▎         | 1354/48845 [29:06<16:59:44,  1.29s/it]  3%|▎         | 1355/48845 [29:07<16:52:17,  1.28s/it]                                                       {'loss': 2.0416, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1355/48845 [29:07<16:52:17,  1.28s/it]  3%|▎         | 1356/48845 [29:08<16:46:57,  1.27s/it]  3%|▎         | 1357/48845 [29:10<16:43:43,  1.27s/it]  3%|▎         | 1358/48845 [29:11<16:41:54,  1.27s/it]  3%|▎         | 1359/48845 [29:12<16:40:02,  1.26s/it]  3%|▎         | 1360/48845 [29:13<16:39:25,  1.26s/it]                                                       {'loss': 2.0504, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1360/48845 [29:13<16:39:25,  1.26s/it]  3%|▎         | 1361/48845 [29:15<16:39:22,  1.26s/it]  3%|▎         | 1362/48845 [29:16<16:37:51,  1.26s/it]  3%|▎         | 1363/48845 [29:17<16:36:14,  1.26s/it]  3%|▎         | 1364/48845 [29:18<16:36:20,  1.26s/it]  3%|▎         | 1365/48845 [29:20<16:37:34,  1.26s/it]                                                       {'loss': 1.6221, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1365/48845 [29:20<16:37:34,  1.26s/it]  3%|▎         | 1366/48845 [29:21<16:36:30,  1.26s/it]  3%|▎         | 1367/48845 [29:22<16:37:07,  1.26s/it]  3%|▎         | 1368/48845 [29:23<16:35:47,  1.26s/it]  3%|▎         | 1369/48845 [29:25<18:14:57,  1.38s/it]  3%|▎         | 1370/48845 [29:26<17:45:33,  1.35s/it]                                                       {'loss': 1.7793, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1370/48845 [29:26<17:45:33,  1.35s/it]  3%|▎         | 1371/48845 [29:28<17:24:31,  1.32s/it]  3%|▎         | 1372/48845 [29:29<17:10:26,  1.30s/it]  3%|▎         | 1373/48845 [29:30<17:00:13,  1.29s/it]  3%|▎         | 1374/48845 [29:31<16:53:12,  1.28s/it]  3%|▎         | 1375/48845 [29:33<16:47:58,  1.27s/it]                                                       {'loss': 1.7151, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1375/48845 [29:33<16:47:58,  1.27s/it]  3%|▎         | 1376/48845 [29:34<16:43:42,  1.27s/it]  3%|▎         | 1377/48845 [29:35<16:41:27,  1.27s/it]  3%|▎         | 1378/48845 [29:36<16:40:46,  1.27s/it]  3%|▎         | 1379/48845 [29:38<16:39:21,  1.26s/it]  3%|▎         | 1380/48845 [29:39<16:38:12,  1.26s/it]                                                       {'loss': 1.8609, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1380/48845 [29:39<16:38:12,  1.26s/it]  3%|▎         | 1381/48845 [29:40<16:37:33,  1.26s/it]  3%|▎         | 1382/48845 [29:41<16:36:59,  1.26s/it]  3%|▎         | 1383/48845 [29:43<16:37:36,  1.26s/it]  3%|▎         | 1384/48845 [29:44<16:36:29,  1.26s/it]  3%|▎         | 1385/48845 [29:45<16:36:39,  1.26s/it]                                                       {'loss': 1.5804, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1385/48845 [29:45<16:36:39,  1.26s/it]  3%|▎         | 1386/48845 [29:47<16:36:59,  1.26s/it]  3%|▎         | 1387/48845 [29:48<16:36:27,  1.26s/it]  3%|▎         | 1388/48845 [29:49<16:36:46,  1.26s/it]  3%|▎         | 1389/48845 [29:50<16:36:47,  1.26s/it]  3%|▎         | 1390/48845 [29:52<16:36:09,  1.26s/it]                                                       {'loss': 1.7838, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1390/48845 [29:52<16:36:09,  1.26s/it]  3%|▎         | 1391/48845 [29:53<16:36:16,  1.26s/it]  3%|▎         | 1392/48845 [29:54<16:36:31,  1.26s/it]  3%|▎         | 1393/48845 [29:55<16:37:37,  1.26s/it]  3%|▎         | 1394/48845 [29:57<16:37:37,  1.26s/it]  3%|▎         | 1395/48845 [29:58<16:37:05,  1.26s/it]                                                       {'loss': 1.6882, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1395/48845 [29:58<16:37:05,  1.26s/it]  3%|▎         | 1396/48845 [29:59<16:36:32,  1.26s/it]  3%|▎         | 1397/48845 [30:00<16:36:05,  1.26s/it]  3%|▎         | 1398/48845 [30:02<16:36:15,  1.26s/it]  3%|▎         | 1399/48845 [30:03<16:35:48,  1.26s/it]  3%|▎         | 1400/48845 [30:04<16:35:50,  1.26s/it]                                                       {'loss': 1.5584, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1400/48845 [30:04<16:35:50,  1.26s/it]  3%|▎         | 1401/48845 [30:08<25:52:15,  1.96s/it]  3%|▎         | 1402/48845 [30:09<23:05:14,  1.75s/it]  3%|▎         | 1403/48845 [30:10<21:07:47,  1.60s/it]  3%|▎         | 1404/48845 [30:12<19:46:27,  1.50s/it]  3%|▎         | 1405/48845 [30:13<18:48:05,  1.43s/it]                                                       {'loss': 1.7543, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1405/48845 [30:13<18:48:05,  1.43s/it]  3%|▎         | 1406/48845 [30:14<18:08:45,  1.38s/it]  3%|▎         | 1407/48845 [30:15<17:40:03,  1.34s/it]  3%|▎         | 1408/48845 [30:17<17:20:29,  1.32s/it]  3%|▎         | 1409/48845 [30:18<17:06:06,  1.30s/it]  3%|▎         | 1410/48845 [30:19<16:56:20,  1.29s/it]                                                       {'loss': 1.6699, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1410/48845 [30:19<16:56:20,  1.29s/it]  3%|▎         | 1411/48845 [30:20<16:50:46,  1.28s/it]  3%|▎         | 1412/48845 [30:22<16:45:42,  1.27s/it]  3%|▎         | 1413/48845 [30:23<16:42:09,  1.27s/it]  3%|▎         | 1414/48845 [30:24<16:40:30,  1.27s/it]  3%|▎         | 1415/48845 [30:25<16:39:59,  1.27s/it]                                                       {'loss': 1.5727, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.14}
+  3%|▎         | 1415/48845 [30:25<16:39:59,  1.27s/it]  3%|▎         | 1416/48845 [30:27<16:39:34,  1.26s/it]  3%|▎         | 1417/48845 [30:28<16:38:13,  1.26s/it]  3%|▎         | 1418/48845 [30:29<16:40:43,  1.27s/it]  3%|▎         | 1419/48845 [30:30<16:39:34,  1.26s/it]  3%|▎         | 1420/48845 [30:32<16:38:45,  1.26s/it]                                                       {'loss': 1.7543, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1420/48845 [30:32<16:38:45,  1.26s/it]  3%|▎         | 1421/48845 [30:33<16:38:01,  1.26s/it]  3%|▎         | 1422/48845 [30:34<16:38:09,  1.26s/it]  3%|▎         | 1423/48845 [30:35<16:37:24,  1.26s/it]  3%|▎         | 1424/48845 [30:37<16:36:10,  1.26s/it]  3%|▎         | 1425/48845 [30:38<16:35:34,  1.26s/it]                                                       {'loss': 1.7101, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1425/48845 [30:38<16:35:34,  1.26s/it]  3%|▎         | 1426/48845 [30:39<16:36:02,  1.26s/it]  3%|▎         | 1427/48845 [30:41<16:36:44,  1.26s/it]  3%|▎         | 1428/48845 [30:42<16:35:35,  1.26s/it]  3%|▎         | 1429/48845 [30:43<16:34:41,  1.26s/it]  3%|▎         | 1430/48845 [30:44<16:34:48,  1.26s/it]                                                       {'loss': 1.8769, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1430/48845 [30:44<16:34:48,  1.26s/it]  3%|▎         | 1431/48845 [30:46<16:34:58,  1.26s/it]  3%|▎         | 1432/48845 [30:47<16:35:25,  1.26s/it]  3%|▎         | 1433/48845 [30:48<16:34:41,  1.26s/it]  3%|▎         | 1434/48845 [30:49<16:35:21,  1.26s/it]  3%|▎         | 1435/48845 [30:51<16:35:12,  1.26s/it]                                                       {'loss': 1.5043, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1435/48845 [30:51<16:35:12,  1.26s/it]  3%|▎         | 1436/48845 [30:52<16:35:32,  1.26s/it]  3%|▎         | 1437/48845 [30:53<16:35:20,  1.26s/it]  3%|▎         | 1438/48845 [30:54<16:35:31,  1.26s/it]  3%|▎         | 1439/48845 [30:56<16:34:38,  1.26s/it]  3%|▎         | 1440/48845 [30:57<16:34:53,  1.26s/it]                                                       {'loss': 1.8492, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1440/48845 [30:57<16:34:53,  1.26s/it]  3%|▎         | 1441/48845 [30:58<16:35:08,  1.26s/it]  3%|▎         | 1442/48845 [30:59<16:35:39,  1.26s/it]  3%|▎         | 1443/48845 [31:01<16:34:33,  1.26s/it]  3%|▎         | 1444/48845 [31:02<16:35:21,  1.26s/it]  3%|▎         | 1445/48845 [31:03<16:35:13,  1.26s/it]                                                       {'loss': 1.7623, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1445/48845 [31:03<16:35:13,  1.26s/it]  3%|▎         | 1446/48845 [31:04<16:35:01,  1.26s/it]  3%|▎         | 1447/48845 [31:06<16:35:28,  1.26s/it]  3%|▎         | 1448/48845 [31:07<16:35:11,  1.26s/it]  3%|▎         | 1449/48845 [31:08<16:35:32,  1.26s/it]  3%|▎         | 1450/48845 [31:09<16:35:06,  1.26s/it]                                                       {'loss': 1.7466, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1450/48845 [31:09<16:35:06,  1.26s/it]  3%|▎         | 1451/48845 [31:11<16:35:45,  1.26s/it]  3%|▎         | 1452/48845 [31:12<16:35:50,  1.26s/it]  3%|▎         | 1453/48845 [31:13<16:35:59,  1.26s/it]  3%|▎         | 1454/48845 [31:15<16:35:45,  1.26s/it]  3%|▎         | 1455/48845 [31:16<16:34:52,  1.26s/it]                                                       {'loss': 1.7107, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1455/48845 [31:16<16:34:52,  1.26s/it]  3%|▎         | 1456/48845 [31:17<16:34:08,  1.26s/it]  3%|▎         | 1457/48845 [31:18<16:34:30,  1.26s/it]  3%|▎         | 1458/48845 [31:20<16:52:48,  1.28s/it]  3%|▎         | 1459/48845 [31:21<16:49:50,  1.28s/it]  3%|▎         | 1460/48845 [31:22<16:44:38,  1.27s/it]                                                       {'loss': 1.7933, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1460/48845 [31:22<16:44:38,  1.27s/it]  3%|▎         | 1461/48845 [31:23<16:42:22,  1.27s/it]  3%|▎         | 1462/48845 [31:25<16:38:57,  1.26s/it]  3%|▎         | 1463/48845 [31:26<16:38:11,  1.26s/it]  3%|▎         | 1464/48845 [31:27<16:37:10,  1.26s/it]  3%|▎         | 1465/48845 [31:28<16:35:13,  1.26s/it]                                                       {'loss': 1.7387, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1465/48845 [31:28<16:35:13,  1.26s/it]  3%|▎         | 1466/48845 [31:30<16:34:55,  1.26s/it]  3%|▎         | 1467/48845 [31:31<16:33:44,  1.26s/it]  3%|▎         | 1468/48845 [31:32<16:33:08,  1.26s/it]  3%|▎         | 1469/48845 [31:34<16:34:48,  1.26s/it]  3%|▎         | 1470/48845 [31:35<16:34:39,  1.26s/it]                                                       {'loss': 1.9292, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1470/48845 [31:35<16:34:39,  1.26s/it]  3%|▎         | 1471/48845 [31:36<16:34:31,  1.26s/it]  3%|▎         | 1472/48845 [31:37<16:34:25,  1.26s/it]  3%|▎         | 1473/48845 [31:39<16:33:40,  1.26s/it]  3%|▎         | 1474/48845 [31:40<16:32:51,  1.26s/it]  3%|▎         | 1475/48845 [31:41<16:32:54,  1.26s/it]                                                       {'loss': 1.987, 'learning_rate': 3.8910594444236536e-05, 'epoch': 0.15}
+  3%|▎         | 1475/48845 [31:41<16:32:54,  1.26s/it]  3%|▎         | 1476/48845 [31:42<16:32:53,  1.26s/it]  3%|▎         | 1477/48845 [31:44<17:21:18,  1.32s/it]  3%|▎         | 1478/48845 [31:45<17:07:32,  1.30s/it]  3%|▎         | 1479/48845 [31:46<16:57:03,  1.29s/it]  3%|▎         | 1480/48845 [31:48<16:49:42,  1.28s/it]                                                       {'loss': 1.7398, 'learning_rate': 3.897419603730497e-05, 'epoch': 0.15}
+  3%|▎         | 1480/48845 [31:48<16:49:42,  1.28s/it]  3%|▎         | 1481/48845 [31:49<16:58:07,  1.29s/it]  3%|▎         | 1482/48845 [31:50<16:52:58,  1.28s/it]  3%|▎         | 1483/48845 [31:51<16:47:00,  1.28s/it]  3%|▎         | 1484/48845 [31:53<16:42:22,  1.27s/it]  3%|▎         | 1485/48845 [31:54<16:40:04,  1.27s/it]                                                       {'loss': 1.7421, 'learning_rate': 3.897419603730497e-05, 'epoch': 0.15}
+  3%|▎         | 1485/48845 [31:54<16:40:04,  1.27s/it]  3%|▎         | 1486/48845 [31:55<16:38:01,  1.26s/it]  3%|▎         | 1487/48845 [31:56<16:38:51,  1.27s/it]  3%|▎         | 1488/48845 [31:58<16:38:24,  1.26s/it]  3%|▎         | 1489/48845 [31:59<17:26:44,  1.33s/it]  3%|▎         | 1490/48845 [32:00<17:11:19,  1.31s/it]                                                       {'loss': 1.4833, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.15}
+  3%|▎         | 1490/48845 [32:00<17:11:19,  1.31s/it]  3%|▎         | 1491/48845 [32:02<16:59:28,  1.29s/it]  3%|▎         | 1492/48845 [32:03<16:54:31,  1.29s/it]  3%|▎         | 1493/48845 [32:04<16:53:20,  1.28s/it]  3%|▎         | 1494/48845 [32:05<16:47:48,  1.28s/it]  3%|▎         | 1495/48845 [32:07<16:43:32,  1.27s/it]                                                       {'loss': 1.8744, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.15}
+  3%|▎         | 1495/48845 [32:07<16:43:32,  1.27s/it]  3%|▎         | 1496/48845 [32:08<16:40:50,  1.27s/it]  3%|▎         | 1497/48845 [32:09<16:39:15,  1.27s/it]  3%|▎         | 1498/48845 [32:11<16:38:16,  1.27s/it]  3%|▎         | 1499/48845 [32:12<16:36:58,  1.26s/it]  3%|▎         | 1500/48845 [32:13<16:34:56,  1.26s/it]                                                       {'loss': 1.9295, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.15}
+  3%|▎         | 1500/48845 [32:13<16:34:56,  1.26s/it]  3%|▎         | 1501/48845 [32:14<16:35:03,  1.26s/it]  3%|▎         | 1502/48845 [32:16<16:34:15,  1.26s/it]  3%|▎         | 1503/48845 [32:17<16:34:52,  1.26s/it]  3%|▎         | 1504/48845 [32:18<16:35:25,  1.26s/it]  3%|▎         | 1505/48845 [32:19<16:34:05,  1.26s/it]                                                       {'loss': 1.3653, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.15}
+  3%|▎         | 1505/48845 [32:19<16:34:05,  1.26s/it]  3%|▎         | 1506/48845 [32:21<16:35:21,  1.26s/it]  3%|▎         | 1507/48845 [32:22<16:34:40,  1.26s/it]  3%|▎         | 1508/48845 [32:23<16:33:35,  1.26s/it]  3%|▎         | 1509/48845 [32:24<16:33:41,  1.26s/it]  3%|▎         | 1510/48845 [32:26<16:35:00,  1.26s/it]                                                       {'loss': 1.7744, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.15}
+  3%|▎         | 1510/48845 [32:26<16:35:00,  1.26s/it]  3%|▎         | 1511/48845 [32:27<16:34:20,  1.26s/it]  3%|▎         | 1512/48845 [32:28<16:33:08,  1.26s/it]  3%|▎         | 1513/48845 [32:29<16:33:02,  1.26s/it]  3%|▎         | 1514/48845 [32:31<16:33:40,  1.26s/it]  3%|▎         | 1515/48845 [32:32<16:34:03,  1.26s/it]                                                       {'loss': 1.7432, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1515/48845 [32:32<16:34:03,  1.26s/it]  3%|▎         | 1516/48845 [32:33<16:34:22,  1.26s/it]  3%|▎         | 1517/48845 [32:34<16:33:12,  1.26s/it]  3%|▎         | 1518/48845 [32:36<16:32:48,  1.26s/it]  3%|▎         | 1519/48845 [32:37<16:33:44,  1.26s/it]  3%|▎         | 1520/48845 [32:38<16:34:58,  1.26s/it]                                                       {'loss': 1.7997, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1520/48845 [32:38<16:34:58,  1.26s/it]  3%|▎         | 1521/48845 [32:40<16:37:12,  1.26s/it]  3%|▎         | 1522/48845 [32:41<16:36:53,  1.26s/it]  3%|▎         | 1523/48845 [32:42<16:35:24,  1.26s/it]  3%|▎         | 1524/48845 [32:43<16:36:25,  1.26s/it]  3%|▎         | 1525/48845 [32:45<16:35:29,  1.26s/it]                                                       {'loss': 1.5649, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1525/48845 [32:45<16:35:29,  1.26s/it]  3%|▎         | 1526/48845 [32:46<16:35:06,  1.26s/it]  3%|▎         | 1527/48845 [32:47<16:35:04,  1.26s/it]  3%|▎         | 1528/48845 [32:48<16:34:30,  1.26s/it]  3%|▎         | 1529/48845 [32:50<17:00:29,  1.29s/it]  3%|▎         | 1530/48845 [32:51<16:53:04,  1.28s/it]                                                       {'loss': 1.7702, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1530/48845 [32:51<16:53:04,  1.28s/it]  3%|▎         | 1531/48845 [32:52<16:46:06,  1.28s/it]  3%|▎         | 1532/48845 [32:54<16:42:24,  1.27s/it]  3%|▎         | 1533/48845 [32:55<16:39:20,  1.27s/it]  3%|▎         | 1534/48845 [32:56<16:37:00,  1.26s/it]  3%|▎         | 1535/48845 [32:57<16:36:01,  1.26s/it]                                                       {'loss': 2.1053, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1535/48845 [32:57<16:36:01,  1.26s/it]  3%|▎         | 1536/48845 [32:59<16:35:06,  1.26s/it]  3%|▎         | 1537/48845 [33:00<16:35:52,  1.26s/it]  3%|▎         | 1538/48845 [33:01<16:35:00,  1.26s/it]  3%|▎         | 1539/48845 [33:02<16:34:16,  1.26s/it]  3%|▎         | 1540/48845 [33:04<16:34:34,  1.26s/it]                                                       {'loss': 1.4486, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1540/48845 [33:04<16:34:34,  1.26s/it]  3%|▎         | 1541/48845 [33:05<16:34:37,  1.26s/it]  3%|▎         | 1542/48845 [33:06<16:34:39,  1.26s/it]  3%|▎         | 1543/48845 [33:07<16:34:08,  1.26s/it]  3%|▎         | 1544/48845 [33:09<16:33:26,  1.26s/it]  3%|▎         | 1545/48845 [33:10<16:32:59,  1.26s/it]                                                       {'loss': 1.6433, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1545/48845 [33:10<16:32:59,  1.26s/it]  3%|▎         | 1546/48845 [33:11<16:33:20,  1.26s/it]  3%|▎         | 1547/48845 [33:12<16:34:19,  1.26s/it]  3%|▎         | 1548/48845 [33:14<16:34:06,  1.26s/it]  3%|▎         | 1549/48845 [33:15<16:33:19,  1.26s/it]  3%|▎         | 1550/48845 [33:16<16:33:16,  1.26s/it]                                                       {'loss': 1.5853, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1550/48845 [33:16<16:33:16,  1.26s/it]  3%|▎         | 1551/48845 [33:17<16:33:16,  1.26s/it]  3%|▎         | 1552/48845 [33:19<16:33:14,  1.26s/it]  3%|▎         | 1553/48845 [33:20<16:33:45,  1.26s/it]  3%|▎         | 1554/48845 [33:21<16:33:38,  1.26s/it]  3%|▎         | 1555/48845 [33:22<16:33:19,  1.26s/it]                                                       {'loss': 1.6909, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1555/48845 [33:22<16:33:19,  1.26s/it]  3%|▎         | 1556/48845 [33:24<16:34:05,  1.26s/it]  3%|▎         | 1557/48845 [33:25<16:36:26,  1.26s/it]  3%|▎         | 1558/48845 [33:26<16:35:08,  1.26s/it]  3%|▎         | 1559/48845 [33:28<16:34:46,  1.26s/it]  3%|▎         | 1560/48845 [33:29<16:34:09,  1.26s/it]                                                       {'loss': 1.623, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1560/48845 [33:29<16:34:09,  1.26s/it]  3%|▎         | 1561/48845 [33:30<16:36:08,  1.26s/it]  3%|▎         | 1562/48845 [33:31<16:34:41,  1.26s/it]  3%|▎         | 1563/48845 [33:33<16:33:52,  1.26s/it]  3%|▎         | 1564/48845 [33:34<16:32:41,  1.26s/it]  3%|▎         | 1565/48845 [33:35<16:32:12,  1.26s/it]                                                       {'loss': 2.0342, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1565/48845 [33:35<16:32:12,  1.26s/it]  3%|▎         | 1566/48845 [33:36<16:33:38,  1.26s/it]  3%|▎         | 1567/48845 [33:38<16:32:47,  1.26s/it]  3%|▎         | 1568/48845 [33:39<16:32:53,  1.26s/it]  3%|▎         | 1569/48845 [33:40<16:32:46,  1.26s/it]  3%|▎         | 1570/48845 [33:41<16:31:56,  1.26s/it]                                                       {'loss': 1.6673, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1570/48845 [33:41<16:31:56,  1.26s/it]  3%|▎         | 1571/48845 [33:43<16:32:25,  1.26s/it]  3%|▎         | 1572/48845 [33:44<16:31:46,  1.26s/it]  3%|▎         | 1573/48845 [33:45<16:31:59,  1.26s/it]  3%|▎         | 1574/48845 [33:46<16:31:35,  1.26s/it]  3%|▎         | 1575/48845 [33:48<16:31:54,  1.26s/it]                                                       {'loss': 1.5792, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1575/48845 [33:48<16:31:54,  1.26s/it]  3%|▎         | 1576/48845 [33:49<16:32:34,  1.26s/it]  3%|▎         | 1577/48845 [33:50<16:32:22,  1.26s/it]  3%|▎         | 1578/48845 [33:51<16:32:16,  1.26s/it]  3%|▎         | 1579/48845 [33:53<16:31:53,  1.26s/it]  3%|▎         | 1580/48845 [33:54<16:31:38,  1.26s/it]                                                       {'loss': 1.7671, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1580/48845 [33:54<16:31:38,  1.26s/it]  3%|▎         | 1581/48845 [33:55<16:33:41,  1.26s/it]  3%|▎         | 1582/48845 [33:57<16:32:18,  1.26s/it]  3%|▎         | 1583/48845 [33:58<16:31:53,  1.26s/it]  3%|▎         | 1584/48845 [33:59<16:31:43,  1.26s/it]  3%|▎         | 1585/48845 [34:00<16:32:21,  1.26s/it]                                                       {'loss': 1.6545, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1585/48845 [34:00<16:32:21,  1.26s/it]  3%|▎         | 1586/48845 [34:02<16:36:42,  1.27s/it]  3%|▎         | 1587/48845 [34:03<16:36:35,  1.27s/it]  3%|▎         | 1588/48845 [34:04<16:35:34,  1.26s/it]  3%|▎         | 1589/48845 [34:05<16:34:36,  1.26s/it]  3%|▎         | 1590/48845 [34:07<16:32:58,  1.26s/it]                                                       {'loss': 1.7903, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1590/48845 [34:07<16:32:58,  1.26s/it]  3%|▎         | 1591/48845 [34:08<16:33:26,  1.26s/it]  3%|▎         | 1592/48845 [34:09<16:33:09,  1.26s/it]  3%|▎         | 1593/48845 [34:10<16:33:56,  1.26s/it]  3%|▎         | 1594/48845 [34:12<16:33:58,  1.26s/it]  3%|▎         | 1595/48845 [34:13<16:32:59,  1.26s/it]                                                       {'loss': 1.8145, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1595/48845 [34:13<16:32:59,  1.26s/it]  3%|▎         | 1596/48845 [34:14<16:32:34,  1.26s/it]  3%|▎         | 1597/48845 [34:15<16:33:48,  1.26s/it]  3%|▎         | 1598/48845 [34:17<16:33:08,  1.26s/it]  3%|▎         | 1599/48845 [34:18<16:32:14,  1.26s/it]  3%|▎         | 1600/48845 [34:19<16:31:15,  1.26s/it]                                                       {'loss': 1.5263, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1600/48845 [34:19<16:31:15,  1.26s/it]  3%|▎         | 1601/48845 [34:23<25:45:26,  1.96s/it]  3%|▎         | 1602/48845 [34:24<22:58:54,  1.75s/it]  3%|▎         | 1603/48845 [34:25<21:01:58,  1.60s/it]  3%|▎         | 1604/48845 [34:27<19:41:13,  1.50s/it]  3%|▎         | 1605/48845 [34:28<18:43:43,  1.43s/it]                                                       {'loss': 1.6569, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1605/48845 [34:28<18:43:43,  1.43s/it]  3%|▎         | 1606/48845 [34:29<18:04:34,  1.38s/it]  3%|▎         | 1607/48845 [34:30<17:36:12,  1.34s/it]  3%|▎         | 1608/48845 [34:32<17:18:02,  1.32s/it]  3%|▎         | 1609/48845 [34:33<17:04:58,  1.30s/it]  3%|▎         | 1610/48845 [34:34<16:55:09,  1.29s/it]                                                       {'loss': 1.6143, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.16}
+  3%|▎         | 1610/48845 [34:34<16:55:09,  1.29s/it]  3%|▎         | 1611/48845 [34:35<16:48:05,  1.28s/it]  3%|▎         | 1612/48845 [34:37<16:42:36,  1.27s/it]  3%|▎         | 1613/48845 [34:38<16:40:00,  1.27s/it]  3%|▎         | 1614/48845 [34:39<16:37:08,  1.27s/it]  3%|▎         | 1615/48845 [34:40<16:37:33,  1.27s/it]                                                       {'loss': 1.6423, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1615/48845 [34:40<16:37:33,  1.27s/it]  3%|▎         | 1616/48845 [34:42<16:35:03,  1.26s/it]  3%|▎         | 1617/48845 [34:43<16:33:24,  1.26s/it]  3%|▎         | 1618/48845 [34:44<16:32:44,  1.26s/it]  3%|▎         | 1619/48845 [34:46<16:31:19,  1.26s/it]  3%|▎         | 1620/48845 [34:47<16:30:55,  1.26s/it]                                                       {'loss': 1.6819, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1620/48845 [34:47<16:30:55,  1.26s/it]  3%|▎         | 1621/48845 [34:48<16:30:13,  1.26s/it]  3%|▎         | 1622/48845 [34:49<16:29:46,  1.26s/it]  3%|▎         | 1623/48845 [34:51<16:31:24,  1.26s/it]  3%|▎         | 1624/48845 [34:52<16:31:01,  1.26s/it]  3%|▎         | 1625/48845 [34:53<16:31:08,  1.26s/it]                                                       {'loss': 1.7594, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1625/48845 [34:53<16:31:08,  1.26s/it]  3%|▎         | 1626/48845 [34:54<16:31:42,  1.26s/it]  3%|▎         | 1627/48845 [34:56<16:53:11,  1.29s/it]  3%|▎         | 1628/48845 [34:57<16:46:56,  1.28s/it]  3%|▎         | 1629/48845 [34:58<16:41:46,  1.27s/it]  3%|▎         | 1630/48845 [34:59<16:38:37,  1.27s/it]                                                       {'loss': 1.4516, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1630/48845 [34:59<16:38:37,  1.27s/it]  3%|▎         | 1631/48845 [35:01<16:37:12,  1.27s/it]  3%|▎         | 1632/48845 [35:02<16:35:08,  1.26s/it]  3%|▎         | 1633/48845 [35:03<16:33:03,  1.26s/it]  3%|▎         | 1634/48845 [35:04<16:32:05,  1.26s/it]  3%|▎         | 1635/48845 [35:06<16:34:06,  1.26s/it]                                                       {'loss': 1.9635, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1635/48845 [35:06<16:34:06,  1.26s/it]  3%|▎         | 1636/48845 [35:07<16:33:17,  1.26s/it]  3%|▎         | 1637/48845 [35:08<16:32:30,  1.26s/it]  3%|▎         | 1638/48845 [35:10<16:33:17,  1.26s/it]  3%|▎         | 1639/48845 [35:11<16:34:24,  1.26s/it]  3%|▎         | 1640/48845 [35:12<16:33:17,  1.26s/it]                                                       {'loss': 1.7215, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1640/48845 [35:12<16:33:17,  1.26s/it]  3%|▎         | 1641/48845 [35:13<16:33:09,  1.26s/it]  3%|▎         | 1642/48845 [35:15<16:33:36,  1.26s/it]  3%|▎         | 1643/48845 [35:16<16:33:20,  1.26s/it]  3%|▎         | 1644/48845 [35:17<16:32:14,  1.26s/it]  3%|▎         | 1645/48845 [35:18<16:31:48,  1.26s/it]                                                       {'loss': 1.5885, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1645/48845 [35:18<16:31:48,  1.26s/it]  3%|▎         | 1646/48845 [35:20<16:32:24,  1.26s/it]  3%|▎         | 1647/48845 [35:21<16:32:06,  1.26s/it]  3%|▎         | 1648/48845 [35:22<16:31:23,  1.26s/it]  3%|▎         | 1649/48845 [35:23<16:30:47,  1.26s/it]  3%|▎         | 1650/48845 [35:25<16:31:08,  1.26s/it]                                                       {'loss': 1.7625, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1650/48845 [35:25<16:31:08,  1.26s/it]  3%|▎         | 1651/48845 [35:26<16:32:41,  1.26s/it]  3%|▎         | 1652/48845 [35:27<16:34:21,  1.26s/it]  3%|▎         | 1653/48845 [35:28<16:32:34,  1.26s/it]  3%|▎         | 1654/48845 [35:30<16:32:42,  1.26s/it]  3%|▎         | 1655/48845 [35:31<16:32:12,  1.26s/it]                                                       {'loss': 2.0429, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1655/48845 [35:31<16:32:12,  1.26s/it]  3%|▎         | 1656/48845 [35:32<16:32:10,  1.26s/it]  3%|▎         | 1657/48845 [35:34<16:31:37,  1.26s/it]  3%|▎         | 1658/48845 [35:35<16:30:59,  1.26s/it]  3%|▎         | 1659/48845 [35:36<16:30:17,  1.26s/it]  3%|▎         | 1660/48845 [35:37<16:30:23,  1.26s/it]                                                       {'loss': 1.7957, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1660/48845 [35:37<16:30:23,  1.26s/it]  3%|▎         | 1661/48845 [35:39<16:30:53,  1.26s/it]  3%|▎         | 1662/48845 [35:40<16:30:35,  1.26s/it]  3%|▎         | 1663/48845 [35:41<16:30:43,  1.26s/it]  3%|▎         | 1664/48845 [35:42<16:30:53,  1.26s/it]  3%|▎         | 1665/48845 [35:44<16:33:23,  1.26s/it]                                                       {'loss': 1.8313, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1665/48845 [35:44<16:33:23,  1.26s/it]  3%|▎         | 1666/48845 [35:45<16:33:47,  1.26s/it]  3%|▎         | 1667/48845 [35:46<16:33:38,  1.26s/it]  3%|▎         | 1668/48845 [35:47<16:32:52,  1.26s/it]  3%|▎         | 1669/48845 [35:49<16:32:02,  1.26s/it]  3%|▎         | 1670/48845 [35:50<16:32:04,  1.26s/it]                                                       {'loss': 1.5463, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1670/48845 [35:50<16:32:04,  1.26s/it]  3%|▎         | 1671/48845 [35:51<16:32:23,  1.26s/it]  3%|▎         | 1672/48845 [35:52<16:31:25,  1.26s/it]  3%|▎         | 1673/48845 [35:54<16:29:51,  1.26s/it]  3%|▎         | 1674/48845 [35:55<16:30:00,  1.26s/it]  3%|▎         | 1675/48845 [35:56<16:59:07,  1.30s/it]                                                       {'loss': 2.0803, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1675/48845 [35:56<16:59:07,  1.30s/it]  3%|▎         | 1676/48845 [35:58<16:50:23,  1.29s/it]  3%|▎         | 1677/48845 [35:59<16:44:46,  1.28s/it]  3%|▎         | 1678/48845 [36:00<16:39:45,  1.27s/it]  3%|▎         | 1679/48845 [36:01<16:36:39,  1.27s/it]  3%|▎         | 1680/48845 [36:03<16:35:21,  1.27s/it]                                                       {'loss': 1.7371, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1680/48845 [36:03<16:35:21,  1.27s/it]  3%|▎         | 1681/48845 [36:04<16:33:02,  1.26s/it]  3%|▎         | 1682/48845 [36:05<16:31:48,  1.26s/it]  3%|▎         | 1683/48845 [36:06<16:31:26,  1.26s/it]  3%|▎         | 1684/48845 [36:08<16:31:26,  1.26s/it]  3%|▎         | 1685/48845 [36:09<16:32:59,  1.26s/it]                                                       {'loss': 1.5499, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1685/48845 [36:09<16:32:59,  1.26s/it]  3%|▎         | 1686/48845 [36:10<16:32:27,  1.26s/it]  3%|▎         | 1687/48845 [36:11<16:32:15,  1.26s/it]  3%|▎         | 1688/48845 [36:13<16:31:42,  1.26s/it]  3%|▎         | 1689/48845 [36:14<16:31:06,  1.26s/it]  3%|▎         | 1690/48845 [36:15<16:30:17,  1.26s/it]                                                       {'loss': 1.77, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1690/48845 [36:15<16:30:17,  1.26s/it]  3%|▎         | 1691/48845 [36:17<16:31:30,  1.26s/it]  3%|▎         | 1692/48845 [36:18<16:30:41,  1.26s/it]  3%|▎         | 1693/48845 [36:19<16:30:29,  1.26s/it]  3%|▎         | 1694/48845 [36:20<16:30:21,  1.26s/it]  3%|▎         | 1695/48845 [36:22<16:30:44,  1.26s/it]                                                       {'loss': 1.7932, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1695/48845 [36:22<16:30:44,  1.26s/it]  3%|▎         | 1696/48845 [36:23<16:30:30,  1.26s/it]  3%|▎         | 1697/48845 [36:24<16:30:11,  1.26s/it]  3%|▎         | 1698/48845 [36:25<16:31:02,  1.26s/it]  3%|▎         | 1699/48845 [36:27<16:32:02,  1.26s/it]  3%|▎         | 1700/48845 [36:28<16:31:21,  1.26s/it]                                                       {'loss': 1.4131, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1700/48845 [36:28<16:31:21,  1.26s/it]  3%|▎         | 1701/48845 [36:29<16:30:58,  1.26s/it]  3%|▎         | 1702/48845 [36:30<16:31:32,  1.26s/it]  3%|▎         | 1703/48845 [36:32<16:31:18,  1.26s/it]  3%|▎         | 1704/48845 [36:33<16:30:41,  1.26s/it]  3%|▎         | 1705/48845 [36:34<16:30:18,  1.26s/it]                                                       {'loss': 1.6787, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.17}
+  3%|▎         | 1705/48845 [36:34<16:30:18,  1.26s/it]  3%|▎         | 1706/48845 [36:35<16:30:42,  1.26s/it]  3%|▎         | 1707/48845 [36:37<16:31:02,  1.26s/it]  3%|▎         | 1708/48845 [36:38<16:30:13,  1.26s/it]  3%|▎         | 1709/48845 [36:39<16:29:10,  1.26s/it]  4%|▎         | 1710/48845 [36:40<16:29:58,  1.26s/it]                                                       {'loss': 1.7973, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1710/48845 [36:40<16:29:58,  1.26s/it]  4%|▎         | 1711/48845 [36:42<16:30:13,  1.26s/it]  4%|▎         | 1712/48845 [36:43<16:29:13,  1.26s/it]  4%|▎         | 1713/48845 [36:44<16:29:30,  1.26s/it]  4%|▎         | 1714/48845 [36:45<16:29:30,  1.26s/it]  4%|▎         | 1715/48845 [36:47<16:29:17,  1.26s/it]                                                       {'loss': 2.0528, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1715/48845 [36:47<16:29:17,  1.26s/it]  4%|▎         | 1716/48845 [36:48<16:32:00,  1.26s/it]  4%|▎         | 1717/48845 [36:49<16:30:31,  1.26s/it]  4%|▎         | 1718/48845 [36:51<16:29:57,  1.26s/it]  4%|▎         | 1719/48845 [36:52<16:28:24,  1.26s/it]  4%|▎         | 1720/48845 [36:53<16:29:10,  1.26s/it]                                                       {'loss': 2.021, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1720/48845 [36:53<16:29:10,  1.26s/it]  4%|▎         | 1721/48845 [36:54<16:29:18,  1.26s/it]  4%|▎         | 1722/48845 [36:56<16:28:32,  1.26s/it]  4%|▎         | 1723/48845 [36:57<16:28:47,  1.26s/it]  4%|▎         | 1724/48845 [36:58<16:28:26,  1.26s/it]  4%|▎         | 1725/48845 [36:59<16:29:10,  1.26s/it]                                                       {'loss': 1.678, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1725/48845 [36:59<16:29:10,  1.26s/it]  4%|▎         | 1726/48845 [37:01<16:30:27,  1.26s/it]  4%|▎         | 1727/48845 [37:02<16:29:46,  1.26s/it]  4%|▎         | 1728/48845 [37:03<16:29:47,  1.26s/it]  4%|▎         | 1729/48845 [37:04<16:29:23,  1.26s/it]  4%|▎         | 1730/48845 [37:06<16:29:42,  1.26s/it]                                                       {'loss': 1.8632, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1730/48845 [37:06<16:29:42,  1.26s/it]  4%|▎         | 1731/48845 [37:07<16:29:58,  1.26s/it]  4%|▎         | 1732/48845 [37:08<16:28:05,  1.26s/it]  4%|▎         | 1733/48845 [37:09<16:28:47,  1.26s/it]  4%|▎         | 1734/48845 [37:11<16:30:46,  1.26s/it]  4%|▎         | 1735/48845 [37:12<16:30:24,  1.26s/it]                                                       {'loss': 1.6735, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1735/48845 [37:12<16:30:24,  1.26s/it]  4%|▎         | 1736/48845 [37:13<16:30:41,  1.26s/it]  4%|▎         | 1737/48845 [37:14<16:29:33,  1.26s/it]  4%|▎         | 1738/48845 [37:16<16:29:21,  1.26s/it]  4%|▎         | 1739/48845 [37:17<16:30:05,  1.26s/it]  4%|▎         | 1740/48845 [37:18<16:29:31,  1.26s/it]                                                       {'loss': 1.9225, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1740/48845 [37:18<16:29:31,  1.26s/it]  4%|▎         | 1741/48845 [37:20<16:29:36,  1.26s/it]  4%|▎         | 1742/48845 [37:21<16:29:04,  1.26s/it]  4%|▎         | 1743/48845 [37:22<16:29:24,  1.26s/it]  4%|▎         | 1744/48845 [37:23<16:29:32,  1.26s/it]  4%|▎         | 1745/48845 [37:25<16:29:06,  1.26s/it]                                                       {'loss': 1.5419, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1745/48845 [37:25<16:29:06,  1.26s/it]  4%|▎         | 1746/48845 [37:26<16:30:33,  1.26s/it]  4%|▎         | 1747/48845 [37:27<16:29:36,  1.26s/it]  4%|▎         | 1748/48845 [37:28<16:30:20,  1.26s/it]  4%|▎         | 1749/48845 [37:30<16:29:31,  1.26s/it]  4%|▎         | 1750/48845 [37:31<16:28:46,  1.26s/it]                                                       {'loss': 1.5965, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1750/48845 [37:31<16:28:46,  1.26s/it]  4%|▎         | 1751/48845 [37:32<16:29:43,  1.26s/it]  4%|▎         | 1752/48845 [37:33<16:28:23,  1.26s/it]  4%|▎         | 1753/48845 [37:35<16:28:01,  1.26s/it]  4%|▎         | 1754/48845 [37:36<16:29:06,  1.26s/it]  4%|▎         | 1755/48845 [37:37<16:29:04,  1.26s/it]                                                       {'loss': 1.766, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1755/48845 [37:37<16:29:04,  1.26s/it]  4%|▎         | 1756/48845 [37:38<16:29:48,  1.26s/it]  4%|▎         | 1757/48845 [37:40<16:29:27,  1.26s/it]  4%|▎         | 1758/48845 [37:41<16:28:48,  1.26s/it]  4%|▎         | 1759/48845 [37:42<16:29:06,  1.26s/it]  4%|▎         | 1760/48845 [37:43<16:28:44,  1.26s/it]                                                       {'loss': 1.4406, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1760/48845 [37:43<16:28:44,  1.26s/it]  4%|▎         | 1761/48845 [37:45<16:42:17,  1.28s/it]  4%|▎         | 1762/48845 [37:46<16:37:52,  1.27s/it]  4%|▎         | 1763/48845 [37:47<16:35:27,  1.27s/it]  4%|▎         | 1764/48845 [37:49<16:33:33,  1.27s/it]  4%|▎         | 1765/48845 [37:50<16:31:38,  1.26s/it]                                                       {'loss': 1.7718, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1765/48845 [37:50<16:31:38,  1.26s/it]  4%|▎         | 1766/48845 [37:51<16:30:48,  1.26s/it]  4%|▎         | 1767/48845 [37:52<16:30:38,  1.26s/it]  4%|▎         | 1768/48845 [37:54<16:30:03,  1.26s/it]  4%|▎         | 1769/48845 [37:55<16:29:15,  1.26s/it]  4%|▎         | 1770/48845 [37:56<16:28:14,  1.26s/it]                                                       {'loss': 1.591, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1770/48845 [37:56<16:28:14,  1.26s/it]  4%|▎         | 1771/48845 [37:57<16:28:45,  1.26s/it]  4%|▎         | 1772/48845 [37:59<16:28:42,  1.26s/it]  4%|▎         | 1773/48845 [38:00<16:29:18,  1.26s/it]  4%|▎         | 1774/48845 [38:01<16:28:32,  1.26s/it]  4%|▎         | 1775/48845 [38:02<16:28:47,  1.26s/it]                                                       {'loss': 1.5123, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1775/48845 [38:02<16:28:47,  1.26s/it]  4%|▎         | 1776/48845 [38:04<16:29:58,  1.26s/it]  4%|▎         | 1777/48845 [38:05<16:29:30,  1.26s/it]  4%|▎         | 1778/48845 [38:06<16:28:58,  1.26s/it]  4%|▎         | 1779/48845 [38:07<16:28:29,  1.26s/it]  4%|▎         | 1780/48845 [38:09<16:27:41,  1.26s/it]                                                       {'loss': 2.0408, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1780/48845 [38:09<16:27:41,  1.26s/it]  4%|▎         | 1781/48845 [38:10<16:28:38,  1.26s/it]  4%|▎         | 1782/48845 [38:11<16:28:41,  1.26s/it]  4%|▎         | 1783/48845 [38:13<16:29:17,  1.26s/it]  4%|▎         | 1784/48845 [38:14<16:27:59,  1.26s/it]  4%|▎         | 1785/48845 [38:15<16:26:46,  1.26s/it]                                                       {'loss': 1.9092, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1785/48845 [38:15<16:26:46,  1.26s/it]  4%|▎         | 1786/48845 [38:16<16:28:16,  1.26s/it]  4%|▎         | 1787/48845 [38:18<16:27:32,  1.26s/it]  4%|▎         | 1788/48845 [38:19<16:27:51,  1.26s/it]  4%|▎         | 1789/48845 [38:20<16:27:10,  1.26s/it]  4%|▎         | 1790/48845 [38:21<16:27:18,  1.26s/it]                                                       {'loss': 1.7151, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1790/48845 [38:21<16:27:18,  1.26s/it]  4%|▎         | 1791/48845 [38:23<16:28:33,  1.26s/it]  4%|▎         | 1792/48845 [38:24<16:32:02,  1.27s/it]  4%|▎         | 1793/48845 [38:25<16:30:11,  1.26s/it]  4%|▎         | 1794/48845 [38:26<16:30:44,  1.26s/it]  4%|▎         | 1795/48845 [38:28<16:29:52,  1.26s/it]                                                       {'loss': 1.8209, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1795/48845 [38:28<16:29:52,  1.26s/it]  4%|▎         | 1796/48845 [38:29<16:28:58,  1.26s/it]  4%|▎         | 1797/48845 [38:30<16:28:10,  1.26s/it]  4%|▎         | 1798/48845 [38:31<16:28:14,  1.26s/it]  4%|▎         | 1799/48845 [38:33<16:29:14,  1.26s/it]  4%|▎         | 1800/48845 [38:34<16:27:49,  1.26s/it]                                                       {'loss': 1.8288, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1800/48845 [38:34<16:27:49,  1.26s/it]  4%|▎         | 1801/48845 [38:38<25:41:21,  1.97s/it]  4%|▎         | 1802/48845 [38:39<22:54:51,  1.75s/it]  4%|▎         | 1803/48845 [38:40<20:58:05,  1.60s/it]  4%|▎         | 1804/48845 [38:41<19:36:44,  1.50s/it]  4%|▎         | 1805/48845 [38:43<18:38:31,  1.43s/it]                                                       {'loss': 1.8785, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.18}
+  4%|▎         | 1805/48845 [38:43<18:38:31,  1.43s/it]  4%|▎         | 1806/48845 [38:44<18:05:05,  1.38s/it]  4%|▎         | 1807/48845 [38:45<17:34:17,  1.34s/it]  4%|▎         | 1808/48845 [38:46<17:14:02,  1.32s/it]  4%|▎         | 1809/48845 [38:48<16:59:35,  1.30s/it]  4%|▎         | 1810/48845 [38:49<16:50:33,  1.29s/it]                                                       {'loss': 1.7206, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▎         | 1810/48845 [38:49<16:50:33,  1.29s/it]  4%|▎         | 1811/48845 [38:50<16:43:38,  1.28s/it]  4%|▎         | 1812/48845 [38:51<16:38:24,  1.27s/it]  4%|▎         | 1813/48845 [38:53<16:35:37,  1.27s/it]  4%|▎         | 1814/48845 [38:54<16:32:20,  1.27s/it]  4%|▎         | 1815/48845 [38:55<16:31:03,  1.26s/it]                                                       {'loss': 1.877, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▎         | 1815/48845 [38:55<16:31:03,  1.26s/it]  4%|▎         | 1816/48845 [38:56<16:29:59,  1.26s/it]  4%|▎         | 1817/48845 [38:58<16:28:36,  1.26s/it]  4%|▎         | 1818/48845 [38:59<16:27:29,  1.26s/it]  4%|▎         | 1819/48845 [39:00<16:28:06,  1.26s/it]  4%|▎         | 1820/48845 [39:01<16:27:28,  1.26s/it]                                                       {'loss': 1.7848, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▎         | 1820/48845 [39:01<16:27:28,  1.26s/it]  4%|▎         | 1821/48845 [39:03<16:28:34,  1.26s/it]  4%|▎         | 1822/48845 [39:04<16:27:53,  1.26s/it]  4%|▎         | 1823/48845 [39:05<16:28:13,  1.26s/it]  4%|▎         | 1824/48845 [39:07<16:27:24,  1.26s/it]  4%|▎         | 1825/48845 [39:08<16:26:52,  1.26s/it]                                                       {'loss': 1.5157, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▎         | 1825/48845 [39:08<16:26:52,  1.26s/it]  4%|▎         | 1826/48845 [39:09<16:26:33,  1.26s/it]  4%|▎         | 1827/48845 [39:10<16:26:18,  1.26s/it]  4%|▎         | 1828/48845 [39:12<16:26:38,  1.26s/it]  4%|▎         | 1829/48845 [39:13<16:26:44,  1.26s/it]  4%|▎         | 1830/48845 [39:14<16:25:54,  1.26s/it]                                                       {'loss': 1.5028, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▎         | 1830/48845 [39:14<16:25:54,  1.26s/it]  4%|▎         | 1831/48845 [39:15<16:26:41,  1.26s/it]  4%|▍         | 1832/48845 [39:17<16:26:56,  1.26s/it]  4%|▍         | 1833/48845 [39:18<16:27:34,  1.26s/it]  4%|▍         | 1834/48845 [39:19<16:27:30,  1.26s/it]  4%|▍         | 1835/48845 [39:20<16:27:06,  1.26s/it]                                                       {'loss': 1.606, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1835/48845 [39:20<16:27:06,  1.26s/it]  4%|▍         | 1836/48845 [39:22<16:27:11,  1.26s/it]  4%|▍         | 1837/48845 [39:23<16:27:04,  1.26s/it]  4%|▍         | 1838/48845 [39:24<16:27:29,  1.26s/it]  4%|▍         | 1839/48845 [39:25<16:26:44,  1.26s/it]  4%|▍         | 1840/48845 [39:27<16:27:14,  1.26s/it]                                                       {'loss': 1.684, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1840/48845 [39:27<16:27:14,  1.26s/it]  4%|▍         | 1841/48845 [39:28<16:27:07,  1.26s/it]  4%|▍         | 1842/48845 [39:29<16:27:11,  1.26s/it]  4%|▍         | 1843/48845 [39:30<16:27:16,  1.26s/it]  4%|▍         | 1844/48845 [39:32<16:26:08,  1.26s/it]  4%|▍         | 1845/48845 [39:33<16:25:35,  1.26s/it]                                                       {'loss': 1.6612, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1845/48845 [39:33<16:25:35,  1.26s/it]  4%|▍         | 1846/48845 [39:34<16:26:16,  1.26s/it]  4%|▍         | 1847/48845 [39:36<16:26:46,  1.26s/it]  4%|▍         | 1848/48845 [39:37<16:26:53,  1.26s/it]  4%|▍         | 1849/48845 [39:38<16:27:11,  1.26s/it]  4%|▍         | 1850/48845 [39:39<16:26:38,  1.26s/it]                                                       {'loss': 1.8164, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1850/48845 [39:39<16:26:38,  1.26s/it]  4%|▍         | 1851/48845 [39:41<16:26:35,  1.26s/it]  4%|▍         | 1852/48845 [39:42<16:26:27,  1.26s/it]  4%|▍         | 1853/48845 [39:43<16:27:30,  1.26s/it]  4%|▍         | 1854/48845 [39:44<16:26:43,  1.26s/it]  4%|▍         | 1855/48845 [39:46<16:26:29,  1.26s/it]                                                       {'loss': 1.6419, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1855/48845 [39:46<16:26:29,  1.26s/it]  4%|▍         | 1856/48845 [39:47<16:26:20,  1.26s/it]  4%|▍         | 1857/48845 [39:48<16:26:33,  1.26s/it]  4%|▍         | 1858/48845 [39:49<16:26:50,  1.26s/it]  4%|▍         | 1859/48845 [39:51<16:26:37,  1.26s/it]  4%|▍         | 1860/48845 [39:52<16:27:07,  1.26s/it]                                                       {'loss': 1.6057, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1860/48845 [39:52<16:27:07,  1.26s/it]  4%|▍         | 1861/48845 [39:53<16:25:57,  1.26s/it]  4%|▍         | 1862/48845 [39:54<16:27:18,  1.26s/it]  4%|▍         | 1863/48845 [39:56<16:26:34,  1.26s/it]  4%|▍         | 1864/48845 [39:57<16:26:28,  1.26s/it]  4%|▍         | 1865/48845 [39:58<16:26:34,  1.26s/it]                                                       {'loss': 1.8453, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1865/48845 [39:58<16:26:34,  1.26s/it]  4%|▍         | 1866/48845 [39:59<16:25:25,  1.26s/it]  4%|▍         | 1867/48845 [40:01<16:25:26,  1.26s/it]  4%|▍         | 1868/48845 [40:02<16:26:46,  1.26s/it]  4%|▍         | 1869/48845 [40:03<16:26:06,  1.26s/it]  4%|▍         | 1870/48845 [40:04<16:26:11,  1.26s/it]                                                       {'loss': 1.7419, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1870/48845 [40:04<16:26:11,  1.26s/it]  4%|▍         | 1871/48845 [40:06<16:27:39,  1.26s/it]  4%|▍         | 1872/48845 [40:07<16:27:19,  1.26s/it]  4%|▍         | 1873/48845 [40:08<16:26:45,  1.26s/it]  4%|▍         | 1874/48845 [40:10<16:27:09,  1.26s/it]  4%|▍         | 1875/48845 [40:11<16:26:46,  1.26s/it]                                                       {'loss': 1.6653, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1875/48845 [40:11<16:26:46,  1.26s/it]  4%|▍         | 1876/48845 [40:12<16:29:01,  1.26s/it]  4%|▍         | 1877/48845 [40:13<16:27:20,  1.26s/it]  4%|▍         | 1878/48845 [40:15<16:27:06,  1.26s/it]  4%|▍         | 1879/48845 [40:16<16:26:49,  1.26s/it]  4%|▍         | 1880/48845 [40:17<16:26:30,  1.26s/it]                                                       {'loss': 1.6674, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1880/48845 [40:17<16:26:30,  1.26s/it]  4%|▍         | 1881/48845 [40:18<16:26:50,  1.26s/it]  4%|▍         | 1882/48845 [40:20<16:25:59,  1.26s/it]  4%|▍         | 1883/48845 [40:21<16:26:41,  1.26s/it]  4%|▍         | 1884/48845 [40:22<16:25:38,  1.26s/it]  4%|▍         | 1885/48845 [40:23<16:25:59,  1.26s/it]                                                       {'loss': 1.7996, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1885/48845 [40:23<16:25:59,  1.26s/it]  4%|▍         | 1886/48845 [40:25<16:27:01,  1.26s/it]  4%|▍         | 1887/48845 [40:26<16:26:51,  1.26s/it]  4%|▍         | 1888/48845 [40:27<16:26:51,  1.26s/it]  4%|▍         | 1889/48845 [40:28<16:27:25,  1.26s/it]  4%|▍         | 1890/48845 [40:30<16:27:32,  1.26s/it]                                                       {'loss': 1.6352, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1890/48845 [40:30<16:27:32,  1.26s/it]  4%|▍         | 1891/48845 [40:31<16:28:14,  1.26s/it]  4%|▍         | 1892/48845 [40:32<16:27:44,  1.26s/it]  4%|▍         | 1893/48845 [40:33<16:27:17,  1.26s/it]  4%|▍         | 1894/48845 [40:35<16:26:49,  1.26s/it]  4%|▍         | 1895/48845 [40:36<16:25:40,  1.26s/it]                                                       {'loss': 2.1007, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1895/48845 [40:36<16:25:40,  1.26s/it]  4%|▍         | 1896/48845 [40:37<16:25:13,  1.26s/it]  4%|▍         | 1897/48845 [40:39<16:25:51,  1.26s/it]  4%|▍         | 1898/48845 [40:40<16:25:55,  1.26s/it]  4%|▍         | 1899/48845 [40:41<16:25:54,  1.26s/it]  4%|▍         | 1900/48845 [40:42<16:25:24,  1.26s/it]                                                       {'loss': 1.5567, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.19}
+  4%|▍         | 1900/48845 [40:42<16:25:24,  1.26s/it]  4%|▍         | 1901/48845 [40:44<16:26:24,  1.26s/it]  4%|▍         | 1902/48845 [40:45<16:25:20,  1.26s/it]  4%|▍         | 1903/48845 [40:46<16:24:52,  1.26s/it]  4%|▍         | 1904/48845 [40:47<16:25:37,  1.26s/it]  4%|▍         | 1905/48845 [40:49<16:25:09,  1.26s/it]                                                       {'loss': 1.9736, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1905/48845 [40:49<16:25:09,  1.26s/it]  4%|▍         | 1906/48845 [40:50<16:25:15,  1.26s/it]  4%|▍         | 1907/48845 [40:51<16:25:12,  1.26s/it]  4%|▍         | 1908/48845 [40:52<16:24:35,  1.26s/it]  4%|▍         | 1909/48845 [40:54<16:26:26,  1.26s/it]  4%|▍         | 1910/48845 [40:55<16:26:44,  1.26s/it]                                                       {'loss': 1.8849, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1910/48845 [40:55<16:26:44,  1.26s/it]  4%|▍         | 1911/48845 [40:56<16:27:26,  1.26s/it]  4%|▍         | 1912/48845 [40:57<16:26:54,  1.26s/it]  4%|▍         | 1913/48845 [40:59<16:26:31,  1.26s/it]  4%|▍         | 1914/48845 [41:00<16:26:09,  1.26s/it]  4%|▍         | 1915/48845 [41:01<16:25:02,  1.26s/it]                                                       {'loss': 1.7515, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1915/48845 [41:01<16:25:02,  1.26s/it]  4%|▍         | 1916/48845 [41:02<16:25:14,  1.26s/it]  4%|▍         | 1917/48845 [41:04<16:25:16,  1.26s/it]  4%|▍         | 1918/48845 [41:05<16:24:48,  1.26s/it]  4%|▍         | 1919/48845 [41:06<16:25:16,  1.26s/it]  4%|▍         | 1920/48845 [41:08<16:25:51,  1.26s/it]                                                       {'loss': 1.7912, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1920/48845 [41:08<16:25:51,  1.26s/it]  4%|▍         | 1921/48845 [41:09<16:25:18,  1.26s/it]  4%|▍         | 1922/48845 [41:10<16:25:32,  1.26s/it]  4%|▍         | 1923/48845 [41:11<16:25:04,  1.26s/it]  4%|▍         | 1924/48845 [41:13<16:24:57,  1.26s/it]  4%|▍         | 1925/48845 [41:14<16:24:49,  1.26s/it]                                                       {'loss': 1.6515, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1925/48845 [41:14<16:24:49,  1.26s/it]  4%|▍         | 1926/48845 [41:15<16:25:25,  1.26s/it]  4%|▍         | 1927/48845 [41:16<16:24:55,  1.26s/it]  4%|▍         | 1928/48845 [41:18<16:25:13,  1.26s/it]  4%|▍         | 1929/48845 [41:19<16:25:02,  1.26s/it]  4%|▍         | 1930/48845 [41:20<16:25:22,  1.26s/it]                                                       {'loss': 1.7554, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1930/48845 [41:20<16:25:22,  1.26s/it]  4%|▍         | 1931/48845 [41:21<16:25:46,  1.26s/it]  4%|▍         | 1932/48845 [41:23<16:26:16,  1.26s/it]  4%|▍         | 1933/48845 [41:24<16:25:08,  1.26s/it]  4%|▍         | 1934/48845 [41:25<16:42:45,  1.28s/it]  4%|▍         | 1935/48845 [41:26<16:37:13,  1.28s/it]                                                       {'loss': 1.6071, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1935/48845 [41:26<16:37:13,  1.28s/it]  4%|▍         | 1936/48845 [41:28<16:33:45,  1.27s/it]  4%|▍         | 1937/48845 [41:29<16:30:30,  1.27s/it]  4%|▍         | 1938/48845 [41:30<16:29:51,  1.27s/it]  4%|▍         | 1939/48845 [41:32<16:29:13,  1.27s/it]  4%|▍         | 1940/48845 [41:33<16:27:37,  1.26s/it]                                                       {'loss': 1.5102, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1940/48845 [41:33<16:27:37,  1.26s/it]  4%|▍         | 1941/48845 [41:34<16:27:28,  1.26s/it]  4%|▍         | 1942/48845 [41:35<16:26:18,  1.26s/it]  4%|▍         | 1943/48845 [41:37<16:25:39,  1.26s/it]  4%|▍         | 1944/48845 [41:38<16:27:13,  1.26s/it]  4%|▍         | 1945/48845 [41:39<16:26:21,  1.26s/it]                                                       {'loss': 1.7626, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1945/48845 [41:39<16:26:21,  1.26s/it]  4%|▍         | 1946/48845 [41:40<16:26:34,  1.26s/it]  4%|▍         | 1947/48845 [41:42<16:25:34,  1.26s/it]  4%|▍         | 1948/48845 [41:43<16:24:28,  1.26s/it]  4%|▍         | 1949/48845 [41:44<16:24:49,  1.26s/it]  4%|▍         | 1950/48845 [41:45<16:24:31,  1.26s/it]                                                       {'loss': 1.8616, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1950/48845 [41:45<16:24:31,  1.26s/it]  4%|▍         | 1951/48845 [41:47<16:24:35,  1.26s/it]  4%|▍         | 1952/48845 [41:48<16:25:03,  1.26s/it]  4%|▍         | 1953/48845 [41:49<16:25:10,  1.26s/it]  4%|▍         | 1954/48845 [41:50<16:24:37,  1.26s/it]  4%|▍         | 1955/48845 [41:52<16:24:39,  1.26s/it]                                                       {'loss': 1.7208, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1955/48845 [41:52<16:24:39,  1.26s/it]  4%|▍         | 1956/48845 [41:53<16:24:22,  1.26s/it]  4%|▍         | 1957/48845 [41:54<16:24:26,  1.26s/it]  4%|▍         | 1958/48845 [41:55<16:24:27,  1.26s/it]  4%|▍         | 1959/48845 [41:57<16:24:51,  1.26s/it]  4%|▍         | 1960/48845 [41:58<16:24:42,  1.26s/it]                                                       {'loss': 1.5708, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1960/48845 [41:58<16:24:42,  1.26s/it]  4%|▍         | 1961/48845 [41:59<16:25:22,  1.26s/it]  4%|▍         | 1962/48845 [42:01<16:26:07,  1.26s/it]  4%|▍         | 1963/48845 [42:02<16:26:01,  1.26s/it]  4%|▍         | 1964/48845 [42:03<16:26:28,  1.26s/it]  4%|▍         | 1965/48845 [42:04<16:25:29,  1.26s/it]                                                       {'loss': 1.9594, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1965/48845 [42:04<16:25:29,  1.26s/it]  4%|▍         | 1966/48845 [42:06<16:25:06,  1.26s/it]  4%|▍         | 1967/48845 [42:07<16:25:40,  1.26s/it]  4%|▍         | 1968/48845 [42:08<16:26:17,  1.26s/it]  4%|▍         | 1969/48845 [42:09<16:26:03,  1.26s/it]  4%|▍         | 1970/48845 [42:11<16:26:48,  1.26s/it]                                                       {'loss': 1.4831, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1970/48845 [42:11<16:26:48,  1.26s/it]  4%|▍         | 1971/48845 [42:12<16:25:52,  1.26s/it]  4%|▍         | 1972/48845 [42:13<16:26:12,  1.26s/it]  4%|▍         | 1973/48845 [42:14<16:26:25,  1.26s/it]  4%|▍         | 1974/48845 [42:16<16:25:19,  1.26s/it]  4%|▍         | 1975/48845 [42:17<16:25:38,  1.26s/it]                                                       {'loss': 1.5398, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1975/48845 [42:17<16:25:38,  1.26s/it]  4%|▍         | 1976/48845 [42:18<16:25:19,  1.26s/it]  4%|▍         | 1977/48845 [42:19<16:25:50,  1.26s/it]  4%|▍         | 1978/48845 [42:21<16:25:50,  1.26s/it]  4%|▍         | 1979/48845 [42:22<16:25:06,  1.26s/it]  4%|▍         | 1980/48845 [42:23<16:24:42,  1.26s/it]                                                       {'loss': 1.6672, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1980/48845 [42:23<16:24:42,  1.26s/it]  4%|▍         | 1981/48845 [42:24<16:24:34,  1.26s/it]  4%|▍         | 1982/48845 [42:26<16:24:31,  1.26s/it]  4%|▍         | 1983/48845 [42:27<16:24:24,  1.26s/it]  4%|▍         | 1984/48845 [42:28<16:24:12,  1.26s/it]  4%|▍         | 1985/48845 [42:30<16:23:59,  1.26s/it]                                                       {'loss': 1.5089, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1985/48845 [42:30<16:23:59,  1.26s/it]  4%|▍         | 1986/48845 [42:31<16:24:26,  1.26s/it]  4%|▍         | 1987/48845 [42:32<16:23:47,  1.26s/it]  4%|▍         | 1988/48845 [42:33<16:24:55,  1.26s/it]  4%|▍         | 1989/48845 [42:35<16:24:50,  1.26s/it]  4%|▍         | 1990/48845 [42:36<16:24:19,  1.26s/it]                                                       {'loss': 1.6018, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1990/48845 [42:36<16:24:19,  1.26s/it]  4%|▍         | 1991/48845 [42:37<16:24:23,  1.26s/it]  4%|▍         | 1992/48845 [42:38<16:23:15,  1.26s/it]  4%|▍         | 1993/48845 [42:40<16:23:15,  1.26s/it]  4%|▍         | 1994/48845 [42:41<16:23:14,  1.26s/it]  4%|▍         | 1995/48845 [42:42<16:23:53,  1.26s/it]                                                       {'loss': 1.7648, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 1995/48845 [42:42<16:23:53,  1.26s/it]  4%|▍         | 1996/48845 [42:43<16:22:53,  1.26s/it]  4%|▍         | 1997/48845 [42:45<16:22:51,  1.26s/it]  4%|▍         | 1998/48845 [42:46<16:23:46,  1.26s/it]  4%|▍         | 1999/48845 [42:47<16:23:58,  1.26s/it]  4%|▍         | 2000/48845 [42:48<16:23:38,  1.26s/it]                                                       {'loss': 1.6603, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.2}
+  4%|▍         | 2000/48845 [42:48<16:23:38,  1.26s/it]  4%|▍         | 2001/48845 [42:52<25:34:45,  1.97s/it]  4%|▍         | 2002/48845 [42:53<22:50:20,  1.76s/it]  4%|▍         | 2003/48845 [42:55<20:53:31,  1.61s/it]  4%|▍         | 2004/48845 [42:56<19:32:32,  1.50s/it]  4%|▍         | 2005/48845 [42:57<18:35:26,  1.43s/it]                                                       {'loss': 1.8803, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2005/48845 [42:57<18:35:26,  1.43s/it]  4%|▍         | 2006/48845 [42:58<17:55:02,  1.38s/it]  4%|▍         | 2007/48845 [43:00<17:27:30,  1.34s/it]  4%|▍         | 2008/48845 [43:01<17:08:54,  1.32s/it]  4%|▍         | 2009/48845 [43:02<16:54:24,  1.30s/it]  4%|▍         | 2010/48845 [43:03<16:44:19,  1.29s/it]                                                       {'loss': 1.7555, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2010/48845 [43:03<16:44:19,  1.29s/it]  4%|▍         | 2011/48845 [43:05<16:38:04,  1.28s/it]  4%|▍         | 2012/48845 [43:06<16:33:25,  1.27s/it]  4%|▍         | 2013/48845 [43:07<16:30:24,  1.27s/it]  4%|▍         | 2014/48845 [43:08<16:28:49,  1.27s/it]  4%|▍         | 2015/48845 [43:10<16:26:04,  1.26s/it]                                                       {'loss': 1.7363, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2015/48845 [43:10<16:26:04,  1.26s/it]  4%|▍         | 2016/48845 [43:11<16:24:45,  1.26s/it]  4%|▍         | 2017/48845 [43:12<16:22:48,  1.26s/it]  4%|▍         | 2018/48845 [43:13<16:22:07,  1.26s/it]  4%|▍         | 2019/48845 [43:15<16:22:38,  1.26s/it]  4%|▍         | 2020/48845 [43:16<16:22:13,  1.26s/it]                                                       {'loss': 2.0196, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2020/48845 [43:16<16:22:13,  1.26s/it]  4%|▍         | 2021/48845 [43:17<16:22:08,  1.26s/it]  4%|▍         | 2022/48845 [43:18<16:22:57,  1.26s/it]  4%|▍         | 2023/48845 [43:20<16:22:38,  1.26s/it]  4%|▍         | 2024/48845 [43:21<16:23:37,  1.26s/it]  4%|▍         | 2025/48845 [43:22<16:24:05,  1.26s/it]                                                       {'loss': 1.6641, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2025/48845 [43:22<16:24:05,  1.26s/it]  4%|▍         | 2026/48845 [43:24<16:24:40,  1.26s/it]  4%|▍         | 2027/48845 [43:25<16:24:06,  1.26s/it]  4%|▍         | 2028/48845 [43:26<16:23:44,  1.26s/it]  4%|▍         | 2029/48845 [43:27<16:22:26,  1.26s/it]  4%|▍         | 2030/48845 [43:29<16:22:43,  1.26s/it]                                                       {'loss': 1.8003, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2030/48845 [43:29<16:22:43,  1.26s/it]  4%|▍         | 2031/48845 [43:30<16:23:15,  1.26s/it]  4%|▍         | 2032/48845 [43:31<16:23:32,  1.26s/it]  4%|▍         | 2033/48845 [43:32<16:22:57,  1.26s/it]  4%|▍         | 2034/48845 [43:34<16:22:59,  1.26s/it]  4%|▍         | 2035/48845 [43:35<16:22:37,  1.26s/it]                                                       {'loss': 1.6933, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2035/48845 [43:35<16:22:37,  1.26s/it]  4%|▍         | 2036/48845 [43:36<16:22:51,  1.26s/it]  4%|▍         | 2037/48845 [43:37<16:22:47,  1.26s/it]  4%|▍         | 2038/48845 [43:39<16:22:25,  1.26s/it]  4%|▍         | 2039/48845 [43:40<16:21:54,  1.26s/it]  4%|▍         | 2040/48845 [43:41<16:21:30,  1.26s/it]                                                       {'loss': 1.7265, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2040/48845 [43:41<16:21:30,  1.26s/it]  4%|▍         | 2041/48845 [43:42<16:22:33,  1.26s/it]  4%|▍         | 2042/48845 [43:44<16:23:24,  1.26s/it]  4%|▍         | 2043/48845 [43:45<16:23:18,  1.26s/it]  4%|▍         | 2044/48845 [43:46<16:24:16,  1.26s/it]  4%|▍         | 2045/48845 [43:47<16:24:23,  1.26s/it]                                                       {'loss': 1.6826, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2045/48845 [43:47<16:24:23,  1.26s/it]  4%|▍         | 2046/48845 [43:49<16:23:14,  1.26s/it]  4%|▍         | 2047/48845 [43:50<16:23:25,  1.26s/it]  4%|▍         | 2048/48845 [43:51<16:23:23,  1.26s/it]  4%|▍         | 2049/48845 [43:52<16:22:40,  1.26s/it]  4%|▍         | 2050/48845 [43:54<16:22:14,  1.26s/it]                                                       {'loss': 1.9905, 'learning_rate': 3.903729878921476e-05, 'epoch': 0.21}
+  4%|▍         | 2050/48845 [43:54<16:22:14,  1.26s/it]  4%|▍         | 2051/48845 [43:55<16:21:55,  1.26s/it]  4%|▍         | 2052/48845 [43:56<16:23:08,  1.26s/it]  4%|▍         | 2053/48845 [43:58<16:22:38,  1.26s/it]  4%|▍         | 2054/48845 [43:59<17:10:48,  1.32s/it]  4%|▍         | 2055/48845 [44:00<16:55:24,  1.30s/it]                                                       {'loss': 1.4512, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2055/48845 [44:00<16:55:24,  1.30s/it]  4%|▍         | 2056/48845 [44:02<16:46:19,  1.29s/it]  4%|▍         | 2057/48845 [44:03<16:39:54,  1.28s/it]  4%|▍         | 2058/48845 [44:04<16:34:24,  1.28s/it]  4%|▍         | 2059/48845 [44:05<16:30:53,  1.27s/it]  4%|▍         | 2060/48845 [44:07<16:27:06,  1.27s/it]                                                       {'loss': 1.7951, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2060/48845 [44:07<16:27:06,  1.27s/it]  4%|▍         | 2061/48845 [44:08<16:25:33,  1.26s/it]  4%|▍         | 2062/48845 [44:09<16:25:33,  1.26s/it]  4%|▍         | 2063/48845 [44:10<16:25:20,  1.26s/it]  4%|▍         | 2064/48845 [44:12<16:24:05,  1.26s/it]  4%|▍         | 2065/48845 [44:13<16:23:05,  1.26s/it]                                                       {'loss': 1.6796, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2065/48845 [44:13<16:23:05,  1.26s/it]  4%|▍         | 2066/48845 [44:14<16:22:31,  1.26s/it]  4%|▍         | 2067/48845 [44:15<16:28:00,  1.27s/it]  4%|▍         | 2068/48845 [44:17<16:27:16,  1.27s/it]  4%|▍         | 2069/48845 [44:18<16:26:34,  1.27s/it]  4%|▍         | 2070/48845 [44:19<16:24:38,  1.26s/it]                                                       {'loss': 1.7465, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2070/48845 [44:19<16:24:38,  1.26s/it]  4%|▍         | 2071/48845 [44:20<16:23:58,  1.26s/it]  4%|▍         | 2072/48845 [44:22<16:23:27,  1.26s/it]  4%|▍         | 2073/48845 [44:23<16:21:59,  1.26s/it]  4%|▍         | 2074/48845 [44:24<16:21:25,  1.26s/it]  4%|▍         | 2075/48845 [44:25<16:21:40,  1.26s/it]                                                       {'loss': 1.7602, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2075/48845 [44:25<16:21:40,  1.26s/it]  4%|▍         | 2076/48845 [44:27<16:23:06,  1.26s/it]  4%|▍         | 2077/48845 [44:28<16:22:37,  1.26s/it]  4%|▍         | 2078/48845 [44:29<16:22:36,  1.26s/it]  4%|▍         | 2079/48845 [44:31<16:22:02,  1.26s/it]  4%|▍         | 2080/48845 [44:32<16:24:45,  1.26s/it]                                                       {'loss': 1.8548, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2080/48845 [44:32<16:24:45,  1.26s/it]  4%|▍         | 2081/48845 [44:33<16:25:08,  1.26s/it]  4%|▍         | 2082/48845 [44:34<16:24:20,  1.26s/it]  4%|▍         | 2083/48845 [44:36<16:25:14,  1.26s/it]  4%|▍         | 2084/48845 [44:37<16:25:36,  1.26s/it]  4%|▍         | 2085/48845 [44:38<16:25:15,  1.26s/it]                                                       {'loss': 1.7739, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2085/48845 [44:38<16:25:15,  1.26s/it]  4%|▍         | 2086/48845 [44:39<16:27:53,  1.27s/it]  4%|▍         | 2087/48845 [44:41<16:26:34,  1.27s/it]  4%|▍         | 2088/48845 [44:42<16:25:50,  1.27s/it]  4%|▍         | 2089/48845 [44:43<16:25:07,  1.26s/it]  4%|▍         | 2090/48845 [44:44<16:24:08,  1.26s/it]                                                       {'loss': 1.9473, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2090/48845 [44:44<16:24:08,  1.26s/it]  4%|▍         | 2091/48845 [44:46<16:23:59,  1.26s/it]  4%|▍         | 2092/48845 [44:47<16:26:19,  1.27s/it]  4%|▍         | 2093/48845 [44:48<16:24:06,  1.26s/it]  4%|▍         | 2094/48845 [44:49<16:22:27,  1.26s/it]  4%|▍         | 2095/48845 [44:51<16:21:58,  1.26s/it]                                                       {'loss': 1.8966, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2095/48845 [44:51<16:21:58,  1.26s/it]  4%|▍         | 2096/48845 [44:52<16:22:25,  1.26s/it]  4%|▍         | 2097/48845 [44:53<16:21:22,  1.26s/it]  4%|▍         | 2098/48845 [44:55<16:21:04,  1.26s/it]  4%|▍         | 2099/48845 [44:56<16:21:41,  1.26s/it]  4%|▍         | 2100/48845 [44:57<16:22:31,  1.26s/it]                                                       {'loss': 1.7556, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.21}
+  4%|▍         | 2100/48845 [44:57<16:22:31,  1.26s/it]  4%|▍         | 2101/48845 [44:58<16:22:56,  1.26s/it]  4%|▍         | 2102/48845 [45:00<16:22:47,  1.26s/it]  4%|▍         | 2103/48845 [45:01<16:21:57,  1.26s/it]  4%|▍         | 2104/48845 [45:02<16:21:43,  1.26s/it]  4%|▍         | 2105/48845 [45:03<16:21:46,  1.26s/it]                                                       {'loss': 1.9729, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2105/48845 [45:03<16:21:46,  1.26s/it]  4%|▍         | 2106/48845 [45:05<16:21:13,  1.26s/it]  4%|▍         | 2107/48845 [45:06<16:21:35,  1.26s/it]  4%|▍         | 2108/48845 [45:07<16:21:41,  1.26s/it]  4%|▍         | 2109/48845 [45:08<16:21:22,  1.26s/it]  4%|▍         | 2110/48845 [45:10<16:21:29,  1.26s/it]                                                       {'loss': 1.9495, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2110/48845 [45:10<16:21:29,  1.26s/it]  4%|▍         | 2111/48845 [45:11<16:20:43,  1.26s/it]  4%|▍         | 2112/48845 [45:12<16:21:20,  1.26s/it]  4%|▍         | 2113/48845 [45:13<16:20:33,  1.26s/it]  4%|▍         | 2114/48845 [45:15<16:19:58,  1.26s/it]  4%|▍         | 2115/48845 [45:16<16:20:20,  1.26s/it]                                                       {'loss': 1.9201, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2115/48845 [45:16<16:20:20,  1.26s/it]  4%|▍         | 2116/48845 [45:17<16:20:48,  1.26s/it]  4%|▍         | 2117/48845 [45:18<16:20:24,  1.26s/it]  4%|▍         | 2118/48845 [45:20<16:20:27,  1.26s/it]  4%|▍         | 2119/48845 [45:21<16:19:50,  1.26s/it]  4%|▍         | 2120/48845 [45:22<16:19:29,  1.26s/it]                                                       {'loss': 1.8063, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2120/48845 [45:22<16:19:29,  1.26s/it]  4%|▍         | 2121/48845 [45:23<16:20:10,  1.26s/it]  4%|▍         | 2122/48845 [45:25<16:20:43,  1.26s/it]  4%|▍         | 2123/48845 [45:26<16:20:11,  1.26s/it]  4%|▍         | 2124/48845 [45:27<16:20:12,  1.26s/it]  4%|▍         | 2125/48845 [45:29<16:19:35,  1.26s/it]                                                       {'loss': 1.4085, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2125/48845 [45:29<16:19:35,  1.26s/it]  4%|▍         | 2126/48845 [45:30<16:19:36,  1.26s/it]  4%|▍         | 2127/48845 [45:31<16:19:53,  1.26s/it]  4%|▍         | 2128/48845 [45:32<16:19:10,  1.26s/it]  4%|▍         | 2129/48845 [45:34<16:19:33,  1.26s/it]  4%|▍         | 2130/48845 [45:35<16:20:25,  1.26s/it]                                                       {'loss': 1.9076, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2130/48845 [45:35<16:20:25,  1.26s/it]  4%|▍         | 2131/48845 [45:36<16:20:08,  1.26s/it]  4%|▍         | 2132/48845 [45:37<16:20:37,  1.26s/it]  4%|▍         | 2133/48845 [45:39<16:20:25,  1.26s/it]  4%|▍         | 2134/48845 [45:40<16:19:59,  1.26s/it]  4%|▍         | 2135/48845 [45:41<16:20:20,  1.26s/it]                                                       {'loss': 1.5666, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2135/48845 [45:41<16:20:20,  1.26s/it]  4%|▍         | 2136/48845 [45:42<16:19:44,  1.26s/it]  4%|▍         | 2137/48845 [45:44<16:19:44,  1.26s/it]  4%|▍         | 2138/48845 [45:45<16:19:09,  1.26s/it]  4%|▍         | 2139/48845 [45:46<16:19:52,  1.26s/it]  4%|▍         | 2140/48845 [45:47<16:19:46,  1.26s/it]                                                       {'loss': 1.9868, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2140/48845 [45:47<16:19:46,  1.26s/it]  4%|▍         | 2141/48845 [45:49<16:20:33,  1.26s/it]  4%|▍         | 2142/48845 [45:50<16:21:01,  1.26s/it]  4%|▍         | 2143/48845 [45:51<16:19:53,  1.26s/it]  4%|▍         | 2144/48845 [45:52<16:20:44,  1.26s/it]  4%|▍         | 2145/48845 [45:54<16:20:57,  1.26s/it]                                                       {'loss': 1.9066, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2145/48845 [45:54<16:20:57,  1.26s/it]  4%|▍         | 2146/48845 [45:55<16:21:11,  1.26s/it]  4%|▍         | 2147/48845 [45:56<16:21:06,  1.26s/it]  4%|▍         | 2148/48845 [45:57<16:21:29,  1.26s/it]  4%|▍         | 2149/48845 [45:59<16:20:56,  1.26s/it]  4%|▍         | 2150/48845 [46:00<16:20:22,  1.26s/it]                                                       {'loss': 1.7824, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2150/48845 [46:00<16:20:22,  1.26s/it]  4%|▍         | 2151/48845 [46:01<16:20:01,  1.26s/it]  4%|▍         | 2152/48845 [46:03<16:20:45,  1.26s/it]  4%|▍         | 2153/48845 [46:04<16:20:14,  1.26s/it]  4%|▍         | 2154/48845 [46:05<16:19:54,  1.26s/it]  4%|▍         | 2155/48845 [46:06<16:19:49,  1.26s/it]                                                       {'loss': 1.6954, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2155/48845 [46:06<16:19:49,  1.26s/it]  4%|▍         | 2156/48845 [46:08<16:19:18,  1.26s/it]  4%|▍         | 2157/48845 [46:09<16:20:04,  1.26s/it]  4%|▍         | 2158/48845 [46:10<16:19:48,  1.26s/it]  4%|▍         | 2159/48845 [46:11<16:19:08,  1.26s/it]  4%|▍         | 2160/48845 [46:13<16:19:37,  1.26s/it]                                                       {'loss': 1.7705, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2160/48845 [46:13<16:19:37,  1.26s/it]  4%|▍         | 2161/48845 [46:14<16:20:19,  1.26s/it]  4%|▍         | 2162/48845 [46:15<16:21:19,  1.26s/it]  4%|▍         | 2163/48845 [46:16<16:19:51,  1.26s/it]  4%|▍         | 2164/48845 [46:18<16:20:03,  1.26s/it]  4%|▍         | 2165/48845 [46:19<16:19:48,  1.26s/it]                                                       {'loss': 1.9395, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2165/48845 [46:19<16:19:48,  1.26s/it]  4%|▍         | 2166/48845 [46:20<16:20:09,  1.26s/it]  4%|▍         | 2167/48845 [46:21<16:21:28,  1.26s/it]  4%|▍         | 2168/48845 [46:23<16:20:32,  1.26s/it]  4%|▍         | 2169/48845 [46:24<16:19:57,  1.26s/it]  4%|▍         | 2170/48845 [46:25<16:19:46,  1.26s/it]                                                       {'loss': 1.732, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2170/48845 [46:25<16:19:46,  1.26s/it]  4%|▍         | 2171/48845 [46:26<16:20:00,  1.26s/it]  4%|▍         | 2172/48845 [46:28<16:21:20,  1.26s/it]  4%|��         | 2173/48845 [46:29<16:20:16,  1.26s/it]  4%|▍         | 2174/48845 [46:30<16:23:03,  1.26s/it]  4%|▍         | 2175/48845 [46:32<16:23:01,  1.26s/it]                                                       {'loss': 1.7678, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2175/48845 [46:32<16:23:01,  1.26s/it]  4%|▍         | 2176/48845 [46:33<16:22:03,  1.26s/it]  4%|▍         | 2177/48845 [46:34<16:21:08,  1.26s/it]  4%|▍         | 2178/48845 [46:35<16:20:20,  1.26s/it]  4%|▍         | 2179/48845 [46:37<16:20:50,  1.26s/it]  4%|▍         | 2180/48845 [46:38<16:21:28,  1.26s/it]                                                       {'loss': 1.8414, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2180/48845 [46:38<16:21:28,  1.26s/it]  4%|▍         | 2181/48845 [46:39<16:20:14,  1.26s/it]  4%|▍         | 2182/48845 [46:40<16:19:18,  1.26s/it]  4%|▍         | 2183/48845 [46:42<16:19:22,  1.26s/it]  4%|▍         | 2184/48845 [46:43<16:19:08,  1.26s/it]  4%|▍         | 2185/48845 [46:44<16:19:04,  1.26s/it]                                                       {'loss': 1.8786, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2185/48845 [46:44<16:19:04,  1.26s/it]  4%|▍         | 2186/48845 [46:45<16:19:20,  1.26s/it]  4%|▍         | 2187/48845 [46:47<16:18:22,  1.26s/it]  4%|▍         | 2188/48845 [46:48<16:17:58,  1.26s/it]  4%|▍         | 2189/48845 [46:49<16:17:22,  1.26s/it]  4%|▍         | 2190/48845 [46:50<16:17:33,  1.26s/it]                                                       {'loss': 1.6159, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2190/48845 [46:50<16:17:33,  1.26s/it]  4%|▍         | 2191/48845 [46:52<16:17:46,  1.26s/it]  4%|▍         | 2192/48845 [46:53<16:18:31,  1.26s/it]  4%|▍         | 2193/48845 [46:54<16:18:16,  1.26s/it]  4%|▍         | 2194/48845 [46:55<16:19:23,  1.26s/it]  4%|▍         | 2195/48845 [46:57<16:18:22,  1.26s/it]                                                       {'loss': 1.7093, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.22}
+  4%|▍         | 2195/48845 [46:57<16:18:22,  1.26s/it]  4%|▍         | 2196/48845 [46:58<16:18:13,  1.26s/it]  4%|▍         | 2197/48845 [46:59<16:18:26,  1.26s/it]  4%|▍         | 2198/48845 [47:00<16:18:46,  1.26s/it]  5%|▍         | 2199/48845 [47:02<16:18:37,  1.26s/it]  5%|▍         | 2200/48845 [47:03<16:18:20,  1.26s/it]                                                       {'loss': 1.8824, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2200/48845 [47:03<16:18:20,  1.26s/it]  5%|▍         | 2201/48845 [47:07<25:24:54,  1.96s/it]  5%|▍         | 2202/48845 [47:08<22:41:00,  1.75s/it]  5%|▍         | 2203/48845 [47:09<20:46:45,  1.60s/it]  5%|▍         | 2204/48845 [47:10<19:26:24,  1.50s/it]  5%|▍         | 2205/48845 [47:12<18:30:05,  1.43s/it]                                                       {'loss': 1.8469, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2205/48845 [47:12<18:30:05,  1.43s/it]  5%|▍         | 2206/48845 [47:13<17:50:48,  1.38s/it]  5%|▍         | 2207/48845 [47:14<17:22:50,  1.34s/it]  5%|▍         | 2208/48845 [47:15<17:04:14,  1.32s/it]  5%|▍         | 2209/48845 [47:17<16:50:53,  1.30s/it]  5%|▍         | 2210/48845 [47:18<16:40:47,  1.29s/it]                                                       {'loss': 1.4633, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2210/48845 [47:18<16:40:47,  1.29s/it]  5%|▍         | 2211/48845 [47:19<16:33:38,  1.28s/it]  5%|▍         | 2212/48845 [47:20<16:29:26,  1.27s/it]  5%|▍         | 2213/48845 [47:22<16:27:09,  1.27s/it]  5%|▍         | 2214/48845 [47:23<16:24:41,  1.27s/it]  5%|▍         | 2215/48845 [47:24<16:22:37,  1.26s/it]                                                       {'loss': 1.667, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2215/48845 [47:24<16:22:37,  1.26s/it]  5%|▍         | 2216/48845 [47:25<16:21:30,  1.26s/it]  5%|▍         | 2217/48845 [47:27<16:20:50,  1.26s/it]  5%|▍         | 2218/48845 [47:28<16:20:23,  1.26s/it]  5%|▍         | 2219/48845 [47:29<16:19:14,  1.26s/it]  5%|▍         | 2220/48845 [47:31<16:18:52,  1.26s/it]                                                       {'loss': 1.6341, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2220/48845 [47:31<16:18:52,  1.26s/it]  5%|▍         | 2221/48845 [47:32<16:19:08,  1.26s/it]  5%|▍         | 2222/48845 [47:33<16:19:28,  1.26s/it]  5%|▍         | 2223/48845 [47:34<16:19:39,  1.26s/it]  5%|▍         | 2224/48845 [47:36<16:18:46,  1.26s/it]  5%|▍         | 2225/48845 [47:37<16:20:01,  1.26s/it]                                                       {'loss': 1.627, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2225/48845 [47:37<16:20:01,  1.26s/it]  5%|▍         | 2226/48845 [47:38<16:18:40,  1.26s/it]  5%|▍         | 2227/48845 [47:39<16:17:41,  1.26s/it]  5%|▍         | 2228/48845 [47:41<16:18:31,  1.26s/it]  5%|▍         | 2229/48845 [47:42<16:18:41,  1.26s/it]  5%|▍         | 2230/48845 [47:43<16:18:18,  1.26s/it]                                                       {'loss': 1.6608, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2230/48845 [47:43<16:18:18,  1.26s/it]  5%|▍         | 2231/48845 [47:44<16:17:52,  1.26s/it]  5%|▍         | 2232/48845 [47:46<16:17:58,  1.26s/it]  5%|▍         | 2233/48845 [47:47<16:18:33,  1.26s/it]  5%|▍         | 2234/48845 [47:48<16:18:12,  1.26s/it]  5%|▍         | 2235/48845 [47:49<16:18:45,  1.26s/it]                                                       {'loss': 2.1972, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2235/48845 [47:49<16:18:45,  1.26s/it]  5%|▍         | 2236/48845 [47:51<16:18:07,  1.26s/it]  5%|▍         | 2237/48845 [47:52<16:17:17,  1.26s/it]  5%|▍         | 2238/48845 [47:53<16:17:33,  1.26s/it]  5%|▍         | 2239/48845 [47:54<16:17:09,  1.26s/it]  5%|▍         | 2240/48845 [47:56<16:17:04,  1.26s/it]                                                       {'loss': 1.9101, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2240/48845 [47:56<16:17:04,  1.26s/it]  5%|▍         | 2241/48845 [47:57<16:18:09,  1.26s/it]  5%|▍         | 2242/48845 [47:58<16:18:03,  1.26s/it]  5%|▍         | 2243/48845 [47:59<16:16:35,  1.26s/it]  5%|▍         | 2244/48845 [48:01<16:16:29,  1.26s/it]  5%|▍         | 2245/48845 [48:02<16:16:40,  1.26s/it]                                                       {'loss': 1.912, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2245/48845 [48:02<16:16:40,  1.26s/it]  5%|▍         | 2246/48845 [48:03<16:18:26,  1.26s/it]  5%|▍         | 2247/48845 [48:05<16:18:38,  1.26s/it]  5%|▍         | 2248/48845 [48:06<16:17:45,  1.26s/it]  5%|▍         | 2249/48845 [48:07<16:17:29,  1.26s/it]  5%|▍         | 2250/48845 [48:08<16:17:38,  1.26s/it]                                                       {'loss': 1.8043, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2250/48845 [48:08<16:17:38,  1.26s/it]  5%|▍         | 2251/48845 [48:10<16:17:29,  1.26s/it]  5%|▍         | 2252/48845 [48:11<16:17:14,  1.26s/it]  5%|▍         | 2253/48845 [48:12<16:17:31,  1.26s/it]  5%|▍         | 2254/48845 [48:13<16:17:41,  1.26s/it]  5%|▍         | 2255/48845 [48:15<16:18:02,  1.26s/it]                                                       {'loss': 1.7986, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2255/48845 [48:15<16:18:02,  1.26s/it]  5%|▍         | 2256/48845 [48:16<16:17:55,  1.26s/it]  5%|▍         | 2257/48845 [48:17<16:17:45,  1.26s/it]  5%|▍         | 2258/48845 [48:18<16:17:16,  1.26s/it]  5%|▍         | 2259/48845 [48:20<16:17:45,  1.26s/it]  5%|▍         | 2260/48845 [48:21<16:18:12,  1.26s/it]                                                       {'loss': 1.8684, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2260/48845 [48:21<16:18:12,  1.26s/it]  5%|▍         | 2261/48845 [48:22<16:17:50,  1.26s/it]  5%|▍         | 2262/48845 [48:23<16:18:02,  1.26s/it]  5%|▍         | 2263/48845 [48:25<16:16:41,  1.26s/it]  5%|▍         | 2264/48845 [48:26<16:17:57,  1.26s/it]  5%|▍         | 2265/48845 [48:27<16:18:34,  1.26s/it]                                                       {'loss': 1.77, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2265/48845 [48:27<16:18:34,  1.26s/it]  5%|▍         | 2266/48845 [48:28<16:18:25,  1.26s/it]  5%|▍         | 2267/48845 [48:30<16:18:01,  1.26s/it]  5%|▍         | 2268/48845 [48:31<16:17:14,  1.26s/it]  5%|▍         | 2269/48845 [48:32<16:16:54,  1.26s/it]  5%|▍         | 2270/48845 [48:33<16:18:14,  1.26s/it]                                                       {'loss': 1.8306, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2270/48845 [48:33<16:18:14,  1.26s/it]  5%|▍         | 2271/48845 [48:35<16:18:59,  1.26s/it]  5%|▍         | 2272/48845 [48:36<16:17:57,  1.26s/it]  5%|▍         | 2273/48845 [48:37<16:17:31,  1.26s/it]  5%|▍         | 2274/48845 [48:39<16:17:10,  1.26s/it]  5%|▍         | 2275/48845 [48:40<16:17:28,  1.26s/it]                                                       {'loss': 1.7186, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2275/48845 [48:40<16:17:28,  1.26s/it]  5%|▍         | 2276/48845 [48:41<16:16:51,  1.26s/it]  5%|▍         | 2277/48845 [48:42<16:17:01,  1.26s/it]  5%|▍         | 2278/48845 [48:44<16:17:31,  1.26s/it]  5%|▍         | 2279/48845 [48:45<16:16:55,  1.26s/it]  5%|▍         | 2280/48845 [48:46<16:16:57,  1.26s/it]                                                       {'loss': 1.6651, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2280/48845 [48:46<16:16:57,  1.26s/it]  5%|▍         | 2281/48845 [48:47<16:18:01,  1.26s/it]  5%|▍         | 2282/48845 [48:49<16:18:35,  1.26s/it]  5%|▍         | 2283/48845 [48:50<16:18:14,  1.26s/it]  5%|▍         | 2284/48845 [48:51<16:17:26,  1.26s/it]  5%|▍         | 2285/48845 [48:52<16:18:08,  1.26s/it]                                                       {'loss': 1.5191, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2285/48845 [48:52<16:18:08,  1.26s/it]  5%|▍         | 2286/48845 [48:54<16:17:39,  1.26s/it]  5%|▍         | 2287/48845 [48:55<16:17:35,  1.26s/it]  5%|▍         | 2288/48845 [48:56<16:17:49,  1.26s/it]  5%|▍         | 2289/48845 [48:57<16:17:25,  1.26s/it]  5%|▍         | 2290/48845 [48:59<16:17:42,  1.26s/it]                                                       {'loss': 1.8457, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2290/48845 [48:59<16:17:42,  1.26s/it]  5%|▍         | 2291/48845 [49:00<16:18:08,  1.26s/it]  5%|▍         | 2292/48845 [49:01<16:17:44,  1.26s/it]  5%|▍         | 2293/48845 [49:02<16:16:45,  1.26s/it]  5%|▍         | 2294/48845 [49:04<16:16:23,  1.26s/it]  5%|▍         | 2295/48845 [49:05<16:17:34,  1.26s/it]                                                       {'loss': 1.5312, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.23}
+  5%|▍         | 2295/48845 [49:05<16:17:34,  1.26s/it]  5%|▍         | 2296/48845 [49:06<16:17:06,  1.26s/it]  5%|▍         | 2297/48845 [49:07<16:17:09,  1.26s/it]  5%|▍         | 2298/48845 [49:09<16:16:43,  1.26s/it]  5%|▍         | 2299/48845 [49:10<16:16:33,  1.26s/it]  5%|▍         | 2300/48845 [49:11<16:17:16,  1.26s/it]                                                       {'loss': 1.8902, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2300/48845 [49:11<16:17:16,  1.26s/it]  5%|▍         | 2301/48845 [49:13<16:17:07,  1.26s/it]  5%|▍         | 2302/48845 [49:14<16:16:54,  1.26s/it]  5%|▍         | 2303/48845 [49:15<16:17:17,  1.26s/it]  5%|▍         | 2304/48845 [49:16<16:16:31,  1.26s/it]  5%|▍         | 2305/48845 [49:18<16:16:39,  1.26s/it]                                                       {'loss': 1.4777, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2305/48845 [49:18<16:16:39,  1.26s/it]  5%|▍         | 2306/48845 [49:19<16:15:43,  1.26s/it]  5%|▍         | 2307/48845 [49:20<16:15:20,  1.26s/it]  5%|▍         | 2308/48845 [49:21<16:16:00,  1.26s/it]  5%|▍         | 2309/48845 [49:23<16:16:01,  1.26s/it]  5%|▍         | 2310/48845 [49:24<16:14:44,  1.26s/it]                                                       {'loss': 1.5649, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2310/48845 [49:24<16:14:44,  1.26s/it]  5%|▍         | 2311/48845 [49:25<16:15:26,  1.26s/it]  5%|▍         | 2312/48845 [49:26<16:16:18,  1.26s/it]  5%|▍         | 2313/48845 [49:28<16:15:30,  1.26s/it]  5%|▍         | 2314/48845 [49:29<16:15:14,  1.26s/it]  5%|▍         | 2315/48845 [49:30<16:31:42,  1.28s/it]                                                       {'loss': 1.9117, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2315/48845 [49:30<16:31:42,  1.28s/it]  5%|▍         | 2316/48845 [49:31<16:27:54,  1.27s/it]  5%|▍         | 2317/48845 [49:33<16:23:51,  1.27s/it]  5%|▍         | 2318/48845 [49:34<16:21:49,  1.27s/it]  5%|▍         | 2319/48845 [49:35<16:19:02,  1.26s/it]  5%|▍         | 2320/48845 [49:37<16:18:46,  1.26s/it]                                                       {'loss': 1.8515, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2320/48845 [49:37<16:18:46,  1.26s/it]  5%|▍         | 2321/48845 [49:38<16:18:22,  1.26s/it]  5%|▍         | 2322/48845 [49:39<16:16:35,  1.26s/it]  5%|▍         | 2323/48845 [49:40<16:15:53,  1.26s/it]  5%|▍         | 2324/48845 [49:42<16:15:52,  1.26s/it]  5%|▍         | 2325/48845 [49:43<16:16:30,  1.26s/it]                                                       {'loss': 1.8183, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2325/48845 [49:43<16:16:30,  1.26s/it]  5%|▍         | 2326/48845 [49:44<16:16:10,  1.26s/it]  5%|▍         | 2327/48845 [49:45<16:16:13,  1.26s/it]  5%|▍         | 2328/48845 [49:47<16:16:23,  1.26s/it]  5%|▍         | 2329/48845 [49:48<16:15:43,  1.26s/it]  5%|▍         | 2330/48845 [49:49<16:15:52,  1.26s/it]                                                       {'loss': 1.7558, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2330/48845 [49:49<16:15:52,  1.26s/it]  5%|▍         | 2331/48845 [49:50<16:17:37,  1.26s/it]  5%|▍         | 2332/48845 [49:52<16:16:59,  1.26s/it]  5%|▍         | 2333/48845 [49:53<16:15:38,  1.26s/it]  5%|▍         | 2334/48845 [49:54<16:17:05,  1.26s/it]  5%|▍         | 2335/48845 [49:55<16:16:56,  1.26s/it]                                                       {'loss': 1.725, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2335/48845 [49:55<16:16:56,  1.26s/it]  5%|▍         | 2336/48845 [49:57<16:17:04,  1.26s/it]  5%|▍         | 2337/48845 [49:58<16:16:44,  1.26s/it]  5%|▍         | 2338/48845 [49:59<16:15:53,  1.26s/it]  5%|▍         | 2339/48845 [50:00<16:14:53,  1.26s/it]  5%|▍         | 2340/48845 [50:02<16:15:21,  1.26s/it]                                                       {'loss': 1.7728, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2340/48845 [50:02<16:15:21,  1.26s/it]  5%|▍         | 2341/48845 [50:03<16:15:48,  1.26s/it]  5%|▍         | 2342/48845 [50:04<16:14:45,  1.26s/it]  5%|▍         | 2343/48845 [50:05<16:15:39,  1.26s/it]  5%|▍         | 2344/48845 [50:07<16:16:00,  1.26s/it]  5%|▍         | 2345/48845 [50:08<16:15:31,  1.26s/it]                                                       {'loss': 1.8027, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2345/48845 [50:08<16:15:31,  1.26s/it]  5%|▍         | 2346/48845 [50:09<16:16:46,  1.26s/it]  5%|▍         | 2347/48845 [50:11<16:17:02,  1.26s/it]  5%|▍         | 2348/48845 [50:12<16:17:20,  1.26s/it]  5%|▍         | 2349/48845 [50:13<16:17:09,  1.26s/it]  5%|▍         | 2350/48845 [50:14<16:17:00,  1.26s/it]                                                       {'loss': 1.884, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2350/48845 [50:14<16:17:00,  1.26s/it]  5%|▍         | 2351/48845 [50:16<16:17:31,  1.26s/it]  5%|▍         | 2352/48845 [50:17<16:16:16,  1.26s/it]  5%|▍         | 2353/48845 [50:18<16:15:50,  1.26s/it]  5%|▍         | 2354/48845 [50:19<16:15:19,  1.26s/it]  5%|▍         | 2355/48845 [50:21<16:15:29,  1.26s/it]                                                       {'loss': 1.7032, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2355/48845 [50:21<16:15:29,  1.26s/it]  5%|▍         | 2356/48845 [50:22<16:16:30,  1.26s/it]  5%|▍         | 2357/48845 [50:23<16:16:14,  1.26s/it]  5%|▍         | 2358/48845 [50:24<16:16:08,  1.26s/it]  5%|▍         | 2359/48845 [50:26<16:15:36,  1.26s/it]  5%|▍         | 2360/48845 [50:27<16:16:01,  1.26s/it]                                                       {'loss': 1.635, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2360/48845 [50:27<16:16:01,  1.26s/it]  5%|▍         | 2361/48845 [50:28<16:16:29,  1.26s/it]  5%|▍         | 2362/48845 [50:29<16:16:09,  1.26s/it]  5%|▍         | 2363/48845 [50:31<16:15:53,  1.26s/it]  5%|▍         | 2364/48845 [50:32<16:15:21,  1.26s/it]  5%|▍         | 2365/48845 [50:33<16:15:44,  1.26s/it]                                                       {'loss': 1.8255, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2365/48845 [50:33<16:15:44,  1.26s/it]  5%|▍         | 2366/48845 [50:34<16:17:53,  1.26s/it]  5%|▍         | 2367/48845 [50:36<16:16:12,  1.26s/it]  5%|▍         | 2368/48845 [50:37<16:16:31,  1.26s/it]  5%|▍         | 2369/48845 [50:38<16:16:11,  1.26s/it]  5%|▍         | 2370/48845 [50:39<16:15:16,  1.26s/it]                                                       {'loss': 1.863, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2370/48845 [50:39<16:15:16,  1.26s/it]  5%|▍         | 2371/48845 [50:41<16:16:19,  1.26s/it]  5%|▍         | 2372/48845 [50:42<16:15:26,  1.26s/it]  5%|▍         | 2373/48845 [50:43<16:15:18,  1.26s/it]  5%|▍         | 2374/48845 [50:45<16:14:34,  1.26s/it]  5%|▍         | 2375/48845 [50:46<16:14:14,  1.26s/it]                                                       {'loss': 1.6609, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2375/48845 [50:46<16:14:14,  1.26s/it]  5%|▍         | 2376/48845 [50:47<16:15:27,  1.26s/it]  5%|▍         | 2377/48845 [50:48<16:14:32,  1.26s/it]  5%|▍         | 2378/48845 [50:50<16:14:46,  1.26s/it]  5%|▍         | 2379/48845 [50:51<16:14:39,  1.26s/it]  5%|▍         | 2380/48845 [50:52<16:14:54,  1.26s/it]                                                       {'loss': 1.6502, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2380/48845 [50:52<16:14:54,  1.26s/it]  5%|▍         | 2381/48845 [50:53<16:15:57,  1.26s/it]  5%|▍         | 2382/48845 [50:55<16:15:16,  1.26s/it]  5%|▍         | 2383/48845 [50:56<16:15:40,  1.26s/it]  5%|▍         | 2384/48845 [50:57<16:15:34,  1.26s/it]  5%|▍         | 2385/48845 [50:58<16:15:12,  1.26s/it]                                                       {'loss': 2.0618, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2385/48845 [50:58<16:15:12,  1.26s/it]  5%|▍         | 2386/48845 [51:00<16:16:30,  1.26s/it]  5%|▍         | 2387/48845 [51:01<16:15:27,  1.26s/it]  5%|▍         | 2388/48845 [51:02<16:15:32,  1.26s/it]  5%|▍         | 2389/48845 [51:03<16:14:32,  1.26s/it]  5%|▍         | 2390/48845 [51:05<16:14:23,  1.26s/it]                                                       {'loss': 1.5986, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.24}
+  5%|▍         | 2390/48845 [51:05<16:14:23,  1.26s/it]  5%|▍         | 2391/48845 [51:06<16:15:33,  1.26s/it]  5%|▍         | 2392/48845 [51:07<16:15:35,  1.26s/it]  5%|▍         | 2393/48845 [51:08<16:15:19,  1.26s/it]  5%|▍         | 2394/48845 [51:10<16:15:32,  1.26s/it]  5%|▍         | 2395/48845 [51:11<16:15:33,  1.26s/it]                                                       {'loss': 1.7548, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2395/48845 [51:11<16:15:33,  1.26s/it]  5%|▍         | 2396/48845 [51:12<16:16:14,  1.26s/it]  5%|▍         | 2397/48845 [51:13<16:14:46,  1.26s/it]  5%|▍         | 2398/48845 [51:15<16:14:56,  1.26s/it]  5%|▍         | 2399/48845 [51:16<16:14:33,  1.26s/it]  5%|▍         | 2400/48845 [51:17<16:14:24,  1.26s/it]                                                       {'loss': 1.8395, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2400/48845 [51:17<16:14:24,  1.26s/it]  5%|▍         | 2401/48845 [51:21<25:27:48,  1.97s/it]  5%|▍         | 2402/48845 [51:22<22:41:38,  1.76s/it]  5%|▍         | 2403/48845 [51:23<20:45:06,  1.61s/it]  5%|▍         | 2404/48845 [51:25<19:23:03,  1.50s/it]  5%|▍         | 2405/48845 [51:26<18:25:56,  1.43s/it]                                                       {'loss': 1.7451, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2405/48845 [51:26<18:25:56,  1.43s/it]  5%|▍         | 2406/48845 [51:27<17:46:08,  1.38s/it]  5%|▍         | 2407/48845 [51:28<17:19:15,  1.34s/it]  5%|▍         | 2408/48845 [51:30<17:00:09,  1.32s/it]  5%|▍         | 2409/48845 [51:31<16:46:30,  1.30s/it]  5%|▍         | 2410/48845 [51:32<16:37:54,  1.29s/it]                                                       {'loss': 1.7023, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2410/48845 [51:32<16:37:54,  1.29s/it]  5%|▍         | 2411/48845 [51:34<16:31:40,  1.28s/it]  5%|▍         | 2412/48845 [51:35<16:26:06,  1.27s/it]  5%|▍         | 2413/48845 [51:36<16:23:55,  1.27s/it]  5%|▍         | 2414/48845 [51:37<16:21:17,  1.27s/it]  5%|▍         | 2415/48845 [51:39<16:19:44,  1.27s/it]                                                       {'loss': 1.5363, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2415/48845 [51:39<16:19:44,  1.27s/it]  5%|▍         | 2416/48845 [51:40<16:17:31,  1.26s/it]  5%|▍         | 2417/48845 [51:41<16:16:24,  1.26s/it]  5%|▍         | 2418/48845 [51:42<16:15:10,  1.26s/it]  5%|▍         | 2419/48845 [51:44<16:14:50,  1.26s/it]  5%|▍         | 2420/48845 [51:45<16:15:25,  1.26s/it]                                                       {'loss': 1.5845, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2420/48845 [51:45<16:15:25,  1.26s/it]  5%|▍         | 2421/48845 [51:46<16:15:12,  1.26s/it]  5%|▍         | 2422/48845 [51:47<16:15:30,  1.26s/it]  5%|▍         | 2423/48845 [51:49<16:14:54,  1.26s/it]  5%|▍         | 2424/48845 [51:50<16:14:05,  1.26s/it]  5%|▍         | 2425/48845 [51:51<16:14:33,  1.26s/it]                                                       {'loss': 2.0336, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2425/48845 [51:51<16:14:33,  1.26s/it]  5%|▍         | 2426/48845 [51:52<16:15:25,  1.26s/it]  5%|▍         | 2427/48845 [51:54<16:14:26,  1.26s/it]  5%|▍         | 2428/48845 [51:55<16:14:40,  1.26s/it]  5%|▍         | 2429/48845 [51:56<16:14:22,  1.26s/it]  5%|▍         | 2430/48845 [51:57<16:14:17,  1.26s/it]                                                       {'loss': 1.9032, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2430/48845 [51:57<16:14:17,  1.26s/it]  5%|▍         | 2431/48845 [51:59<16:14:40,  1.26s/it]  5%|▍         | 2432/48845 [52:00<16:14:46,  1.26s/it]  5%|▍         | 2433/48845 [52:01<16:14:10,  1.26s/it]  5%|▍         | 2434/48845 [52:02<16:13:18,  1.26s/it]  5%|▍         | 2435/48845 [52:04<16:13:03,  1.26s/it]                                                       {'loss': 1.9587, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2435/48845 [52:04<16:13:03,  1.26s/it]  5%|▍         | 2436/48845 [52:05<16:12:57,  1.26s/it]  5%|▍         | 2437/48845 [52:06<16:12:47,  1.26s/it]  5%|▍         | 2438/48845 [52:08<16:13:24,  1.26s/it]  5%|▍         | 2439/48845 [52:09<16:13:14,  1.26s/it]  5%|▍         | 2440/48845 [52:10<16:12:55,  1.26s/it]                                                       {'loss': 1.6552, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▍         | 2440/48845 [52:10<16:12:55,  1.26s/it]  5%|▍         | 2441/48845 [52:11<16:12:44,  1.26s/it]  5%|▍         | 2442/48845 [52:13<16:12:58,  1.26s/it]  5%|▌         | 2443/48845 [52:14<16:12:34,  1.26s/it]  5%|▌         | 2444/48845 [52:15<16:12:45,  1.26s/it]  5%|▌         | 2445/48845 [52:16<16:13:28,  1.26s/it]                                                       {'loss': 1.6513, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2445/48845 [52:16<16:13:28,  1.26s/it]  5%|▌         | 2446/48845 [52:18<16:13:39,  1.26s/it]  5%|▌         | 2447/48845 [52:19<16:12:40,  1.26s/it]  5%|▌         | 2448/48845 [52:20<16:12:24,  1.26s/it]  5%|▌         | 2449/48845 [52:21<16:12:13,  1.26s/it]  5%|▌         | 2450/48845 [52:23<16:10:51,  1.26s/it]                                                       {'loss': 1.7509, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2450/48845 [52:23<16:10:51,  1.26s/it]  5%|▌         | 2451/48845 [52:24<16:11:37,  1.26s/it]  5%|▌         | 2452/48845 [52:25<16:13:30,  1.26s/it]  5%|▌         | 2453/48845 [52:26<16:12:52,  1.26s/it]  5%|▌         | 2454/48845 [52:28<16:13:17,  1.26s/it]  5%|▌         | 2455/48845 [52:29<16:12:49,  1.26s/it]                                                       {'loss': 1.4792, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2455/48845 [52:29<16:12:49,  1.26s/it]  5%|▌         | 2456/48845 [52:30<16:12:57,  1.26s/it]  5%|▌         | 2457/48845 [52:31<16:13:14,  1.26s/it]  5%|▌         | 2458/48845 [52:33<16:12:32,  1.26s/it]  5%|▌         | 2459/48845 [52:34<16:13:05,  1.26s/it]  5%|▌         | 2460/48845 [52:35<16:12:41,  1.26s/it]                                                       {'loss': 1.5884, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2460/48845 [52:35<16:12:41,  1.26s/it]  5%|▌         | 2461/48845 [52:36<16:12:54,  1.26s/it]  5%|▌         | 2462/48845 [52:38<16:12:43,  1.26s/it]  5%|▌         | 2463/48845 [52:39<16:12:26,  1.26s/it]  5%|▌         | 2464/48845 [52:40<16:12:33,  1.26s/it]  5%|▌         | 2465/48845 [52:41<16:13:10,  1.26s/it]                                                       {'loss': 1.6587, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2465/48845 [52:41<16:13:10,  1.26s/it]  5%|▌         | 2466/48845 [52:43<16:12:45,  1.26s/it]  5%|▌         | 2467/48845 [52:44<16:13:28,  1.26s/it]  5%|▌         | 2468/48845 [52:45<16:11:40,  1.26s/it]  5%|▌         | 2469/48845 [52:47<16:12:05,  1.26s/it]  5%|▌         | 2470/48845 [52:48<16:11:25,  1.26s/it]                                                       {'loss': 2.2102, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2470/48845 [52:48<16:11:25,  1.26s/it]  5%|▌         | 2471/48845 [52:49<16:11:46,  1.26s/it]  5%|▌         | 2472/48845 [52:50<16:11:34,  1.26s/it]  5%|▌         | 2473/48845 [52:52<16:12:28,  1.26s/it]  5%|▌         | 2474/48845 [52:53<16:13:30,  1.26s/it]  5%|▌         | 2475/48845 [52:54<16:12:17,  1.26s/it]                                                       {'loss': 1.8281, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2475/48845 [52:54<16:12:17,  1.26s/it]  5%|▌         | 2476/48845 [52:55<16:12:15,  1.26s/it]  5%|▌         | 2477/48845 [52:57<16:12:11,  1.26s/it]  5%|▌         | 2478/48845 [52:58<16:11:32,  1.26s/it]  5%|▌         | 2479/48845 [52:59<16:11:32,  1.26s/it]  5%|▌         | 2480/48845 [53:00<16:11:22,  1.26s/it]                                                       {'loss': 1.6256, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2480/48845 [53:00<16:11:22,  1.26s/it]  5%|▌         | 2481/48845 [53:02<16:11:27,  1.26s/it]  5%|▌         | 2482/48845 [53:03<16:11:55,  1.26s/it]  5%|▌         | 2483/48845 [53:04<16:11:37,  1.26s/it]  5%|▌         | 2484/48845 [53:05<16:11:08,  1.26s/it]  5%|▌         | 2485/48845 [53:07<16:11:08,  1.26s/it]                                                       {'loss': 1.999, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2485/48845 [53:07<16:11:08,  1.26s/it]  5%|▌         | 2486/48845 [53:08<16:10:29,  1.26s/it]  5%|▌         | 2487/48845 [53:09<16:11:13,  1.26s/it]  5%|▌         | 2488/48845 [53:10<16:12:55,  1.26s/it]  5%|▌         | 2489/48845 [53:12<16:13:41,  1.26s/it]  5%|▌         | 2490/48845 [53:13<16:13:14,  1.26s/it]                                                       {'loss': 1.911, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.25}
+  5%|▌         | 2490/48845 [53:13<16:13:14,  1.26s/it]  5%|▌         | 2491/48845 [53:14<16:12:49,  1.26s/it]  5%|▌         | 2492/48845 [53:15<16:12:02,  1.26s/it]  5%|▌         | 2493/48845 [53:17<16:12:26,  1.26s/it]  5%|▌         | 2494/48845 [53:18<16:12:23,  1.26s/it]  5%|▌         | 2495/48845 [53:19<16:13:12,  1.26s/it]                                                       {'loss': 1.8607, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2495/48845 [53:19<16:13:12,  1.26s/it]  5%|▌         | 2496/48845 [53:20<16:12:29,  1.26s/it]  5%|▌         | 2497/48845 [53:22<16:13:25,  1.26s/it]  5%|▌         | 2498/48845 [53:23<16:13:35,  1.26s/it]  5%|▌         | 2499/48845 [53:24<16:12:52,  1.26s/it]  5%|▌         | 2500/48845 [53:26<16:12:01,  1.26s/it]                                                       {'loss': 1.754, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2500/48845 [53:26<16:12:01,  1.26s/it]  5%|▌         | 2501/48845 [53:27<16:11:29,  1.26s/it]  5%|▌         | 2502/48845 [53:28<16:12:23,  1.26s/it]  5%|▌         | 2503/48845 [53:29<16:12:35,  1.26s/it]  5%|▌         | 2504/48845 [53:31<16:51:53,  1.31s/it]  5%|▌         | 2505/48845 [53:32<16:39:59,  1.29s/it]                                                       {'loss': 1.8018, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2505/48845 [53:32<16:39:59,  1.29s/it]  5%|▌         | 2506/48845 [53:33<16:31:53,  1.28s/it]  5%|▌         | 2507/48845 [53:35<16:25:35,  1.28s/it]  5%|▌         | 2508/48845 [53:36<16:27:03,  1.28s/it]  5%|▌         | 2509/48845 [53:37<16:22:36,  1.27s/it]  5%|▌         | 2510/48845 [53:38<16:19:23,  1.27s/it]                                                       {'loss': 1.7712, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2510/48845 [53:38<16:19:23,  1.27s/it]  5%|▌         | 2511/48845 [53:40<16:19:17,  1.27s/it]  5%|▌         | 2512/48845 [53:41<16:34:46,  1.29s/it]  5%|▌         | 2513/48845 [53:42<16:27:23,  1.28s/it]  5%|▌         | 2514/48845 [53:43<16:23:45,  1.27s/it]  5%|▌         | 2515/48845 [53:45<16:21:33,  1.27s/it]                                                       {'loss': 1.8083, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2515/48845 [53:45<16:21:33,  1.27s/it]  5%|▌         | 2516/48845 [53:46<16:28:56,  1.28s/it]  5%|▌         | 2517/48845 [53:47<16:56:04,  1.32s/it]  5%|▌         | 2518/48845 [53:49<16:42:19,  1.30s/it]  5%|▌         | 2519/48845 [53:50<16:33:19,  1.29s/it]  5%|▌         | 2520/48845 [53:51<16:25:57,  1.28s/it]                                                       {'loss': 1.8307, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2520/48845 [53:51<16:25:57,  1.28s/it]  5%|▌         | 2521/48845 [53:52<16:21:50,  1.27s/it]  5%|▌         | 2522/48845 [53:54<16:18:06,  1.27s/it]  5%|▌         | 2523/48845 [53:55<16:15:06,  1.26s/it]  5%|▌         | 2524/48845 [53:56<16:20:30,  1.27s/it]  5%|▌         | 2525/48845 [53:57<16:18:14,  1.27s/it]                                                       {'loss': 1.4678, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2525/48845 [53:57<16:18:14,  1.27s/it]  5%|▌         | 2526/48845 [53:59<16:16:37,  1.27s/it]  5%|▌         | 2527/48845 [54:00<16:14:58,  1.26s/it]  5%|▌         | 2528/48845 [54:01<16:13:56,  1.26s/it]  5%|▌         | 2529/48845 [54:03<16:11:51,  1.26s/it]  5%|▌         | 2530/48845 [54:04<16:11:09,  1.26s/it]                                                       {'loss': 1.8648, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2530/48845 [54:04<16:11:09,  1.26s/it]  5%|▌         | 2531/48845 [54:05<16:11:15,  1.26s/it]  5%|▌         | 2532/48845 [54:06<16:11:50,  1.26s/it]  5%|▌         | 2533/48845 [54:08<16:11:29,  1.26s/it]  5%|▌         | 2534/48845 [54:09<16:11:57,  1.26s/it]  5%|▌         | 2535/48845 [54:10<16:12:00,  1.26s/it]                                                       {'loss': 1.6807, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2535/48845 [54:10<16:12:00,  1.26s/it]  5%|▌         | 2536/48845 [54:11<16:36:26,  1.29s/it]  5%|▌         | 2537/48845 [54:13<16:29:06,  1.28s/it]  5%|▌         | 2538/48845 [54:14<16:22:54,  1.27s/it]  5%|▌         | 2539/48845 [54:15<16:31:51,  1.29s/it]  5%|▌         | 2540/48845 [54:17<16:26:57,  1.28s/it]                                                       {'loss': 1.7355, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2540/48845 [54:17<16:26:57,  1.28s/it]  5%|▌         | 2541/48845 [54:18<16:22:50,  1.27s/it]  5%|▌         | 2542/48845 [54:19<16:19:30,  1.27s/it]  5%|▌         | 2543/48845 [54:20<16:17:07,  1.27s/it]  5%|▌         | 2544/48845 [54:22<16:16:25,  1.27s/it]  5%|▌         | 2545/48845 [54:23<16:14:08,  1.26s/it]                                                       {'loss': 1.8313, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2545/48845 [54:23<16:14:08,  1.26s/it]  5%|▌         | 2546/48845 [54:24<16:13:39,  1.26s/it]  5%|▌         | 2547/48845 [54:25<16:12:28,  1.26s/it]  5%|▌         | 2548/48845 [54:27<16:11:25,  1.26s/it]  5%|▌         | 2549/48845 [54:28<16:10:24,  1.26s/it]  5%|▌         | 2550/48845 [54:29<16:10:52,  1.26s/it]                                                       {'loss': 1.5795, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2550/48845 [54:29<16:10:52,  1.26s/it]  5%|▌         | 2551/48845 [54:30<16:10:49,  1.26s/it]  5%|▌         | 2552/48845 [54:32<16:10:39,  1.26s/it]  5%|▌         | 2553/48845 [54:33<16:11:39,  1.26s/it]  5%|▌         | 2554/48845 [54:34<16:11:14,  1.26s/it]  5%|▌         | 2555/48845 [54:35<16:10:55,  1.26s/it]                                                       {'loss': 1.4706, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2555/48845 [54:35<16:10:55,  1.26s/it]  5%|▌         | 2556/48845 [54:37<16:10:33,  1.26s/it]  5%|▌         | 2557/48845 [54:38<16:11:30,  1.26s/it]  5%|▌         | 2558/48845 [54:39<16:11:25,  1.26s/it]  5%|▌         | 2559/48845 [54:40<16:11:09,  1.26s/it]  5%|▌         | 2560/48845 [54:42<16:10:39,  1.26s/it]                                                       {'loss': 1.7255, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2560/48845 [54:42<16:10:39,  1.26s/it]  5%|▌         | 2561/48845 [54:43<16:10:12,  1.26s/it]  5%|▌         | 2562/48845 [54:44<16:10:50,  1.26s/it]  5%|▌         | 2563/48845 [54:45<16:10:55,  1.26s/it]  5%|▌         | 2564/48845 [54:47<16:11:04,  1.26s/it]  5%|▌         | 2565/48845 [54:48<16:10:18,  1.26s/it]                                                       {'loss': 1.6084, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2565/48845 [54:48<16:10:18,  1.26s/it]  5%|▌         | 2566/48845 [54:49<16:10:30,  1.26s/it]  5%|▌         | 2567/48845 [54:50<16:10:24,  1.26s/it]  5%|▌         | 2568/48845 [54:52<16:09:40,  1.26s/it]  5%|▌         | 2569/48845 [54:53<16:09:49,  1.26s/it]  5%|▌         | 2570/48845 [54:54<16:10:23,  1.26s/it]                                                       {'loss': 1.662, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2570/48845 [54:54<16:10:23,  1.26s/it]  5%|▌         | 2571/48845 [54:56<16:10:12,  1.26s/it]  5%|▌         | 2572/48845 [54:57<16:09:59,  1.26s/it]  5%|▌         | 2573/48845 [54:58<16:10:16,  1.26s/it]  5%|▌         | 2574/48845 [54:59<16:10:16,  1.26s/it]  5%|▌         | 2575/48845 [55:01<16:09:21,  1.26s/it]                                                       {'loss': 1.7716, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2575/48845 [55:01<16:09:21,  1.26s/it]  5%|▌         | 2576/48845 [55:02<16:10:08,  1.26s/it]  5%|▌         | 2577/48845 [55:03<16:11:39,  1.26s/it]  5%|▌         | 2578/48845 [55:04<16:11:02,  1.26s/it]  5%|▌         | 2579/48845 [55:06<16:09:48,  1.26s/it]  5%|▌         | 2580/48845 [55:07<16:09:10,  1.26s/it]                                                       {'loss': 1.9374, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2580/48845 [55:07<16:09:10,  1.26s/it]  5%|▌         | 2581/48845 [55:08<16:09:33,  1.26s/it]  5%|▌         | 2582/48845 [55:09<16:09:49,  1.26s/it]  5%|▌         | 2583/48845 [55:11<16:09:38,  1.26s/it]  5%|▌         | 2584/48845 [55:12<16:09:37,  1.26s/it]  5%|▌         | 2585/48845 [55:13<16:10:01,  1.26s/it]                                                       {'loss': 1.9328, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.26}
+  5%|▌         | 2585/48845 [55:13<16:10:01,  1.26s/it]  5%|▌         | 2586/48845 [55:14<16:10:09,  1.26s/it]  5%|▌         | 2587/48845 [55:16<16:11:47,  1.26s/it]  5%|▌         | 2588/48845 [55:17<16:11:47,  1.26s/it]  5%|▌         | 2589/48845 [55:18<16:11:46,  1.26s/it]  5%|▌         | 2590/48845 [55:19<16:11:27,  1.26s/it]                                                       {'loss': 1.8737, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2590/48845 [55:19<16:11:27,  1.26s/it]  5%|▌         | 2591/48845 [55:21<16:10:57,  1.26s/it]  5%|▌         | 2592/48845 [55:22<16:10:57,  1.26s/it]  5%|▌         | 2593/48845 [55:23<16:10:00,  1.26s/it]  5%|▌         | 2594/48845 [55:24<16:09:54,  1.26s/it]  5%|▌         | 2595/48845 [55:26<16:09:47,  1.26s/it]                                                       {'loss': 1.7274, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2595/48845 [55:26<16:09:47,  1.26s/it]  5%|▌         | 2596/48845 [55:27<16:10:46,  1.26s/it]  5%|▌         | 2597/48845 [55:28<16:11:14,  1.26s/it]  5%|▌         | 2598/48845 [55:30<16:10:39,  1.26s/it]  5%|▌         | 2599/48845 [55:31<16:11:27,  1.26s/it]  5%|▌         | 2600/48845 [55:32<16:10:49,  1.26s/it]                                                       {'loss': 1.5568, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2600/48845 [55:32<16:10:49,  1.26s/it]  5%|▌         | 2601/48845 [55:36<25:20:05,  1.97s/it]  5%|▌         | 2602/48845 [55:37<22:34:54,  1.76s/it]  5%|▌         | 2603/48845 [55:38<20:38:50,  1.61s/it]  5%|▌         | 2604/48845 [55:39<19:18:28,  1.50s/it]  5%|▌         | 2605/48845 [55:41<18:20:13,  1.43s/it]                                                       {'loss': 1.9819, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2605/48845 [55:41<18:20:13,  1.43s/it]  5%|▌         | 2606/48845 [55:42<17:41:57,  1.38s/it]  5%|▌         | 2607/48845 [55:43<17:13:46,  1.34s/it]  5%|▌         | 2608/48845 [55:44<16:54:41,  1.32s/it]  5%|▌         | 2609/48845 [55:46<16:40:47,  1.30s/it]  5%|▌         | 2610/48845 [55:47<16:32:14,  1.29s/it]                                                       {'loss': 1.7496, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2610/48845 [55:47<16:32:14,  1.29s/it]  5%|▌         | 2611/48845 [55:48<16:26:05,  1.28s/it]  5%|▌         | 2612/48845 [55:50<16:20:58,  1.27s/it]  5%|▌         | 2613/48845 [55:51<16:17:16,  1.27s/it]  5%|▌         | 2614/48845 [55:52<16:59:27,  1.32s/it]  5%|▌         | 2615/48845 [55:53<16:45:04,  1.30s/it]                                                       {'loss': 1.8471, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2615/48845 [55:53<16:45:04,  1.30s/it]  5%|▌         | 2616/48845 [55:55<16:35:52,  1.29s/it]  5%|▌         | 2617/48845 [55:56<16:28:20,  1.28s/it]  5%|▌         | 2618/48845 [55:57<16:23:26,  1.28s/it]  5%|▌         | 2619/48845 [55:59<16:18:57,  1.27s/it]  5%|▌         | 2620/48845 [56:00<16:16:48,  1.27s/it]                                                       {'loss': 1.5034, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2620/48845 [56:00<16:16:48,  1.27s/it]  5%|▌         | 2621/48845 [56:01<16:16:20,  1.27s/it]  5%|▌         | 2622/48845 [56:02<16:14:36,  1.27s/it]  5%|▌         | 2623/48845 [56:04<16:12:39,  1.26s/it]  5%|▌         | 2624/48845 [56:05<16:11:28,  1.26s/it]  5%|▌         | 2625/48845 [56:06<16:10:59,  1.26s/it]                                                       {'loss': 1.7262, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2625/48845 [56:06<16:10:59,  1.26s/it]  5%|▌         | 2626/48845 [56:07<16:12:35,  1.26s/it]  5%|▌         | 2627/48845 [56:09<16:11:31,  1.26s/it]  5%|▌         | 2628/48845 [56:10<16:11:34,  1.26s/it]  5%|▌         | 2629/48845 [56:11<16:11:15,  1.26s/it]  5%|▌         | 2630/48845 [56:12<16:10:22,  1.26s/it]                                                       {'loss': 1.6299, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2630/48845 [56:12<16:10:22,  1.26s/it]  5%|▌         | 2631/48845 [56:14<16:09:35,  1.26s/it]  5%|▌         | 2632/48845 [56:15<16:09:57,  1.26s/it]  5%|▌         | 2633/48845 [56:16<16:09:36,  1.26s/it]  5%|▌         | 2634/48845 [56:17<16:08:35,  1.26s/it]  5%|▌         | 2635/48845 [56:19<16:08:28,  1.26s/it]                                                       {'loss': 2.4521, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2635/48845 [56:19<16:08:28,  1.26s/it]  5%|▌         | 2636/48845 [56:20<16:09:11,  1.26s/it]  5%|▌         | 2637/48845 [56:21<16:08:57,  1.26s/it]  5%|▌         | 2638/48845 [56:22<16:08:50,  1.26s/it]  5%|▌         | 2639/48845 [56:24<16:08:59,  1.26s/it]  5%|▌         | 2640/48845 [56:25<16:08:46,  1.26s/it]                                                       {'loss': 1.8156, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2640/48845 [56:25<16:08:46,  1.26s/it]  5%|▌         | 2641/48845 [56:26<16:09:47,  1.26s/it]  5%|▌         | 2642/48845 [56:27<16:09:49,  1.26s/it]  5%|▌         | 2643/48845 [56:29<16:10:00,  1.26s/it]  5%|▌         | 2644/48845 [56:30<16:09:37,  1.26s/it]  5%|▌         | 2645/48845 [56:31<16:10:25,  1.26s/it]                                                       {'loss': 1.558, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2645/48845 [56:31<16:10:25,  1.26s/it]  5%|▌         | 2646/48845 [56:33<16:10:26,  1.26s/it]  5%|▌         | 2647/48845 [56:34<16:10:29,  1.26s/it]  5%|▌         | 2648/48845 [56:35<16:11:29,  1.26s/it]  5%|▌         | 2649/48845 [56:37<16:56:04,  1.32s/it]  5%|▌         | 2650/48845 [56:38<16:41:56,  1.30s/it]                                                       {'loss': 1.6113, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2650/48845 [56:38<16:41:56,  1.30s/it]  5%|▌         | 2651/48845 [56:39<16:32:18,  1.29s/it]  5%|▌         | 2652/48845 [56:40<16:24:48,  1.28s/it]  5%|▌         | 2653/48845 [56:42<16:20:10,  1.27s/it]  5%|▌         | 2654/48845 [56:43<16:15:21,  1.27s/it]  5%|▌         | 2655/48845 [56:44<16:13:45,  1.26s/it]                                                       {'loss': 1.8103, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|���         | 2655/48845 [56:44<16:13:45,  1.26s/it]  5%|▌         | 2656/48845 [56:45<16:12:06,  1.26s/it]  5%|▌         | 2657/48845 [56:47<16:11:38,  1.26s/it]  5%|▌         | 2658/48845 [56:48<16:11:03,  1.26s/it]  5%|▌         | 2659/48845 [56:49<16:09:51,  1.26s/it]  5%|▌         | 2660/48845 [56:50<16:09:55,  1.26s/it]                                                       {'loss': 1.6629, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2660/48845 [56:50<16:09:55,  1.26s/it]  5%|▌         | 2661/48845 [56:52<16:09:54,  1.26s/it]  5%|▌         | 2662/48845 [56:53<16:09:19,  1.26s/it]  5%|▌         | 2663/48845 [56:54<16:08:44,  1.26s/it]  5%|▌         | 2664/48845 [56:55<16:09:26,  1.26s/it]  5%|▌         | 2665/48845 [56:57<16:09:17,  1.26s/it]                                                       {'loss': 1.8348, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2665/48845 [56:57<16:09:17,  1.26s/it]  5%|▌         | 2666/48845 [56:58<16:09:19,  1.26s/it]  5%|▌         | 2667/48845 [56:59<16:09:11,  1.26s/it]  5%|▌         | 2668/48845 [57:00<16:11:09,  1.26s/it]  5%|▌         | 2669/48845 [57:02<16:09:23,  1.26s/it]  5%|▌         | 2670/48845 [57:03<16:09:15,  1.26s/it]                                                       {'loss': 1.7404, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2670/48845 [57:03<16:09:15,  1.26s/it]  5%|▌         | 2671/48845 [57:04<16:09:10,  1.26s/it]  5%|▌         | 2672/48845 [57:05<16:08:37,  1.26s/it]  5%|▌         | 2673/48845 [57:07<16:10:12,  1.26s/it]  5%|▌         | 2674/48845 [57:08<16:10:19,  1.26s/it]  5%|▌         | 2675/48845 [57:09<16:10:03,  1.26s/it]                                                       {'loss': 1.7788, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2675/48845 [57:09<16:10:03,  1.26s/it]  5%|▌         | 2676/48845 [57:11<16:08:41,  1.26s/it]  5%|▌         | 2677/48845 [57:12<16:08:28,  1.26s/it]  5%|▌         | 2678/48845 [57:13<16:08:43,  1.26s/it]  5%|▌         | 2679/48845 [57:14<16:08:22,  1.26s/it]  5%|▌         | 2680/48845 [57:16<16:08:26,  1.26s/it]                                                       {'loss': 1.8462, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2680/48845 [57:16<16:08:26,  1.26s/it]  5%|▌         | 2681/48845 [57:17<16:10:44,  1.26s/it]  5%|▌         | 2682/48845 [57:18<16:10:25,  1.26s/it]  5%|▌         | 2683/48845 [57:19<16:11:05,  1.26s/it]  5%|▌         | 2684/48845 [57:21<16:11:12,  1.26s/it]  5%|▌         | 2685/48845 [57:22<16:10:20,  1.26s/it]                                                       {'loss': 1.7795, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.27}
+  5%|▌         | 2685/48845 [57:22<16:10:20,  1.26s/it]  5%|▌         | 2686/48845 [57:23<16:11:09,  1.26s/it]  6%|▌         | 2687/48845 [57:24<16:10:21,  1.26s/it]  6%|▌         | 2688/48845 [57:26<16:10:25,  1.26s/it]  6%|▌         | 2689/48845 [57:27<16:09:57,  1.26s/it]  6%|▌         | 2690/48845 [57:28<16:09:10,  1.26s/it]                                                       {'loss': 1.8902, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.28}
+  6%|▌         | 2690/48845 [57:28<16:09:10,  1.26s/it]  6%|▌         | 2691/48845 [57:29<16:09:57,  1.26s/it]  6%|▌         | 2692/48845 [57:31<16:09:29,  1.26s/it]  6%|▌         | 2693/48845 [57:32<16:08:50,  1.26s/it]  6%|▌         | 2694/48845 [57:33<16:08:47,  1.26s/it]  6%|▌         | 2695/48845 [57:34<16:08:24,  1.26s/it]                                                       {'loss': 1.7467, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.28}
+  6%|▌         | 2695/48845 [57:34<16:08:24,  1.26s/it]  6%|▌         | 2696/48845 [57:36<16:09:19,  1.26s/it]  6%|▌         | 2697/48845 [57:37<16:08:03,  1.26s/it]  6%|▌         | 2698/48845 [57:38<16:08:45,  1.26s/it]  6%|▌         | 2699/48845 [57:39<16:08:25,  1.26s/it]  6%|▌         | 2700/48845 [57:41<16:08:19,  1.26s/it]                                                       {'loss': 1.6913, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.28}
+  6%|▌         | 2700/48845 [57:41<16:08:19,  1.26s/it]  6%|▌         | 2701/48845 [57:42<16:12:31,  1.26s/it]  6%|▌         | 2702/48845 [57:43<16:11:43,  1.26s/it]  6%|▌         | 2703/48845 [57:45<16:10:44,  1.26s/it]  6%|▌         | 2704/48845 [57:46<16:10:16,  1.26s/it]  6%|▌         | 2705/48845 [57:47<16:08:52,  1.26s/it]                                                       {'loss': 1.8399, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.28}
+  6%|▌         | 2705/48845 [57:47<16:08:52,  1.26s/it]  6%|▌         | 2706/48845 [57:48<16:08:51,  1.26s/it]  6%|▌         | 2707/48845 [57:50<16:07:54,  1.26s/it]  6%|▌         | 2708/48845 [57:51<16:09:42,  1.26s/it]  6%|▌         | 2709/48845 [57:52<16:10:15,  1.26s/it]  6%|▌         | 2710/48845 [57:53<16:08:57,  1.26s/it]                                                       {'loss': 1.9195, 'learning_rate': 3.90999104641491e-05, 'epoch': 0.28}
+  6%|▌         | 2710/48845 [57:53<16:08:57,  1.26s/it]  6%|▌         | 2711/48845 [57:55<16:09:35,  1.26s/it]  6%|▌         | 2712/48845 [57:56<16:57:04,  1.32s/it]  6%|▌         | 2713/48845 [57:57<16:42:14,  1.30s/it]  6%|▌         | 2714/48845 [57:59<16:32:24,  1.29s/it]  6%|▌         | 2715/48845 [58:00<16:24:47,  1.28s/it]                                                       {'loss': 1.7913, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2715/48845 [58:00<16:24:47,  1.28s/it]  6%|▌         | 2716/48845 [58:01<16:20:20,  1.28s/it]  6%|▌         | 2717/48845 [58:02<16:16:07,  1.27s/it]  6%|▌         | 2718/48845 [58:04<16:13:09,  1.27s/it]  6%|▌         | 2719/48845 [58:05<16:12:00,  1.26s/it]  6%|▌         | 2720/48845 [58:06<16:09:52,  1.26s/it]                                                       {'loss': 1.6391, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2720/48845 [58:06<16:09:52,  1.26s/it]  6%|▌         | 2721/48845 [58:07<16:09:22,  1.26s/it]  6%|▌         | 2722/48845 [58:09<16:08:23,  1.26s/it]  6%|▌         | 2723/48845 [58:10<16:07:52,  1.26s/it]  6%|▌         | 2724/48845 [58:11<16:08:39,  1.26s/it]  6%|▌         | 2725/48845 [58:12<16:08:05,  1.26s/it]                                                       {'loss': 1.586, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2725/48845 [58:12<16:08:05,  1.26s/it]  6%|▌         | 2726/48845 [58:14<16:07:59,  1.26s/it]  6%|▌         | 2727/48845 [58:15<16:08:12,  1.26s/it]  6%|▌         | 2728/48845 [58:16<16:08:40,  1.26s/it]  6%|▌         | 2729/48845 [58:18<16:08:32,  1.26s/it]  6%|▌         | 2730/48845 [58:19<16:07:41,  1.26s/it]                                                       {'loss': 2.0406, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2730/48845 [58:19<16:07:41,  1.26s/it]  6%|▌         | 2731/48845 [58:20<16:08:14,  1.26s/it]  6%|▌         | 2732/48845 [58:21<16:07:47,  1.26s/it]  6%|▌         | 2733/48845 [58:23<16:08:02,  1.26s/it]  6%|▌         | 2734/48845 [58:24<16:08:35,  1.26s/it]  6%|▌         | 2735/48845 [58:25<16:08:11,  1.26s/it]                                                       {'loss': 1.5763, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2735/48845 [58:25<16:08:11,  1.26s/it]  6%|▌         | 2736/48845 [58:26<16:08:08,  1.26s/it]  6%|▌         | 2737/48845 [58:28<16:07:34,  1.26s/it]  6%|▌         | 2738/48845 [58:29<16:07:52,  1.26s/it]  6%|▌         | 2739/48845 [58:30<16:07:12,  1.26s/it]  6%|▌         | 2740/48845 [58:31<16:08:02,  1.26s/it]                                                       {'loss': 1.9609, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2740/48845 [58:31<16:08:02,  1.26s/it]  6%|▌         | 2741/48845 [58:33<16:09:46,  1.26s/it]  6%|▌         | 2742/48845 [58:34<16:08:37,  1.26s/it]  6%|▌         | 2743/48845 [58:35<16:31:35,  1.29s/it]  6%|▌         | 2744/48845 [58:37<16:28:04,  1.29s/it]  6%|▌         | 2745/48845 [58:38<16:21:09,  1.28s/it]                                                       {'loss': 1.863, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2745/48845 [58:38<16:21:09,  1.28s/it]  6%|▌         | 2746/48845 [58:39<16:17:01,  1.27s/it]  6%|▌         | 2747/48845 [58:40<16:14:45,  1.27s/it]  6%|▌         | 2748/48845 [58:42<16:12:35,  1.27s/it]  6%|▌         | 2749/48845 [58:43<16:10:47,  1.26s/it]  6%|▌         | 2750/48845 [58:44<16:10:02,  1.26s/it]                                                       {'loss': 1.7426, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2750/48845 [58:44<16:10:02,  1.26s/it]  6%|▌         | 2751/48845 [58:45<16:09:25,  1.26s/it]  6%|▌         | 2752/48845 [58:47<16:08:50,  1.26s/it]  6%|▌         | 2753/48845 [58:48<16:08:19,  1.26s/it]  6%|▌         | 2754/48845 [58:49<16:08:22,  1.26s/it]  6%|▌         | 2755/48845 [58:50<16:08:25,  1.26s/it]                                                       {'loss': 1.9323, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2755/48845 [58:50<16:08:25,  1.26s/it]  6%|▌         | 2756/48845 [58:52<16:07:30,  1.26s/it]  6%|▌         | 2757/48845 [58:53<16:07:43,  1.26s/it]  6%|▌         | 2758/48845 [58:54<16:07:32,  1.26s/it]  6%|▌         | 2759/48845 [58:55<16:06:34,  1.26s/it]  6%|▌         | 2760/48845 [58:57<16:05:43,  1.26s/it]                                                       {'loss': 1.6386, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2760/48845 [58:57<16:05:43,  1.26s/it]  6%|▌         | 2761/48845 [58:58<16:06:07,  1.26s/it]  6%|▌         | 2762/48845 [58:59<16:05:10,  1.26s/it]  6%|▌         | 2763/48845 [59:00<16:05:48,  1.26s/it]  6%|▌         | 2764/48845 [59:02<16:06:21,  1.26s/it]  6%|▌         | 2765/48845 [59:03<16:06:09,  1.26s/it]                                                       {'loss': 1.7624, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2765/48845 [59:03<16:06:09,  1.26s/it]  6%|▌         | 2766/48845 [59:04<16:06:12,  1.26s/it]  6%|▌         | 2767/48845 [59:05<16:05:59,  1.26s/it]  6%|▌         | 2768/48845 [59:07<16:05:44,  1.26s/it]  6%|▌         | 2769/48845 [59:08<16:06:59,  1.26s/it]  6%|▌         | 2770/48845 [59:09<16:07:16,  1.26s/it]                                                       {'loss': 1.5846, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2770/48845 [59:09<16:07:16,  1.26s/it]  6%|▌         | 2771/48845 [59:11<16:07:46,  1.26s/it]  6%|▌         | 2772/48845 [59:12<16:07:30,  1.26s/it]  6%|▌         | 2773/48845 [59:13<16:06:50,  1.26s/it]  6%|▌         | 2774/48845 [59:14<16:08:03,  1.26s/it]  6%|▌         | 2775/48845 [59:16<16:08:00,  1.26s/it]                                                       {'loss': 1.4713, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2775/48845 [59:16<16:08:00,  1.26s/it]  6%|▌         | 2776/48845 [59:17<16:08:21,  1.26s/it]  6%|▌         | 2777/48845 [59:18<16:07:52,  1.26s/it]  6%|▌         | 2778/48845 [59:19<16:07:10,  1.26s/it]  6%|▌         | 2779/48845 [59:21<16:07:13,  1.26s/it]  6%|▌         | 2780/48845 [59:22<16:08:29,  1.26s/it]                                                       {'loss': 1.4071, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.28}
+  6%|▌         | 2780/48845 [59:22<16:08:29,  1.26s/it]  6%|▌         | 2781/48845 [59:23<16:07:57,  1.26s/it]  6%|▌         | 2782/48845 [59:24<16:06:18,  1.26s/it]  6%|▌         | 2783/48845 [59:26<16:05:48,  1.26s/it]  6%|▌         | 2784/48845 [59:27<16:06:14,  1.26s/it]  6%|▌         | 2785/48845 [59:28<16:06:18,  1.26s/it]                                                       {'loss': 1.6266, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2785/48845 [59:28<16:06:18,  1.26s/it]  6%|▌         | 2786/48845 [59:29<16:07:09,  1.26s/it]  6%|▌         | 2787/48845 [59:31<16:06:30,  1.26s/it]  6%|▌         | 2788/48845 [59:32<16:06:38,  1.26s/it]  6%|▌         | 2789/48845 [59:33<16:06:51,  1.26s/it]  6%|▌         | 2790/48845 [59:34<16:06:41,  1.26s/it]                                                       {'loss': 1.7569, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2790/48845 [59:34<16:06:41,  1.26s/it]  6%|▌         | 2791/48845 [59:36<16:07:20,  1.26s/it]  6%|▌         | 2792/48845 [59:37<16:07:45,  1.26s/it]  6%|▌         | 2793/48845 [59:38<16:07:52,  1.26s/it]  6%|▌         | 2794/48845 [59:39<16:08:20,  1.26s/it]  6%|▌         | 2795/48845 [59:41<16:08:17,  1.26s/it]                                                       {'loss': 1.6777, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2795/48845 [59:41<16:08:17,  1.26s/it]  6%|▌         | 2796/48845 [59:42<16:07:37,  1.26s/it]  6%|▌         | 2797/48845 [59:43<16:07:01,  1.26s/it]  6%|▌         | 2798/48845 [59:45<16:06:42,  1.26s/it]  6%|▌         | 2799/48845 [59:46<16:06:36,  1.26s/it]  6%|▌         | 2800/48845 [59:47<16:07:57,  1.26s/it]                                                       {'loss': 1.5757, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2800/48845 [59:47<16:07:57,  1.26s/it]  6%|▌         | 2801/48845 [59:51<25:14:12,  1.97s/it]  6%|▌         | 2802/48845 [59:52<22:29:36,  1.76s/it]  6%|▌         | 2803/48845 [59:53<20:34:49,  1.61s/it]  6%|▌         | 2804/48845 [59:54<19:14:49,  1.50s/it]  6%|▌         | 2805/48845 [59:56<18:18:49,  1.43s/it]                                                       {'loss': 1.6019, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2805/48845 [59:56<18:18:49,  1.43s/it]  6%|▌         | 2806/48845 [59:57<17:38:34,  1.38s/it]  6%|▌         | 2807/48845 [59:58<17:09:41,  1.34s/it]  6%|▌         | 2808/48845 [59:59<16:51:05,  1.32s/it]  6%|▌         | 2809/48845 [1:00:01<16:37:17,  1.30s/it]  6%|▌         | 2810/48845 [1:00:02<16:26:36,  1.29s/it]                                                         {'loss': 1.5979, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2810/48845 [1:00:02<16:26:36,  1.29s/it]  6%|▌         | 2811/48845 [1:00:03<16:20:57,  1.28s/it]  6%|▌         | 2812/48845 [1:00:05<16:19:00,  1.28s/it]  6%|▌         | 2813/48845 [1:00:06<16:15:18,  1.27s/it]  6%|▌         | 2814/48845 [1:00:07<16:14:31,  1.27s/it]  6%|▌         | 2815/48845 [1:00:08<16:11:23,  1.27s/it]                                                         {'loss': 1.8012, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2815/48845 [1:00:08<16:11:23,  1.27s/it]  6%|▌         | 2816/48845 [1:00:10<16:09:48,  1.26s/it]  6%|▌         | 2817/48845 [1:00:11<16:08:51,  1.26s/it]  6%|▌         | 2818/48845 [1:00:12<16:08:42,  1.26s/it]  6%|▌         | 2819/48845 [1:00:13<16:08:05,  1.26s/it]  6%|▌         | 2820/48845 [1:00:15<16:06:51,  1.26s/it]                                                         {'loss': 1.7704, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2820/48845 [1:00:15<16:06:51,  1.26s/it]  6%|▌         | 2821/48845 [1:00:16<16:07:09,  1.26s/it]  6%|▌         | 2822/48845 [1:00:17<16:06:25,  1.26s/it]  6%|▌         | 2823/48845 [1:00:18<16:05:50,  1.26s/it]  6%|▌         | 2824/48845 [1:00:20<16:05:53,  1.26s/it]  6%|▌         | 2825/48845 [1:00:21<16:05:55,  1.26s/it]                                                         {'loss': 1.6309, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2825/48845 [1:00:21<16:05:55,  1.26s/it]  6%|▌         | 2826/48845 [1:00:22<16:07:04,  1.26s/it]  6%|▌         | 2827/48845 [1:00:23<16:06:17,  1.26s/it]  6%|▌         | 2828/48845 [1:00:25<16:06:29,  1.26s/it]  6%|▌         | 2829/48845 [1:00:26<16:06:50,  1.26s/it]  6%|▌         | 2830/48845 [1:00:27<16:06:42,  1.26s/it]                                                         {'loss': 1.6097, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2830/48845 [1:00:27<16:06:42,  1.26s/it]  6%|▌         | 2831/48845 [1:00:28<16:06:41,  1.26s/it]  6%|▌         | 2832/48845 [1:00:30<16:05:47,  1.26s/it]  6%|▌         | 2833/48845 [1:00:31<16:05:32,  1.26s/it]  6%|▌         | 2834/48845 [1:00:32<16:05:58,  1.26s/it]  6%|▌         | 2835/48845 [1:00:34<16:06:33,  1.26s/it]                                                         {'loss': 1.5042, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2835/48845 [1:00:34<16:06:33,  1.26s/it]  6%|▌         | 2836/48845 [1:00:35<16:07:13,  1.26s/it]  6%|▌         | 2837/48845 [1:00:36<16:09:12,  1.26s/it]  6%|▌         | 2838/48845 [1:00:37<16:07:46,  1.26s/it]  6%|▌         | 2839/48845 [1:00:39<16:07:29,  1.26s/it]  6%|▌         | 2840/48845 [1:00:40<16:06:55,  1.26s/it]                                                         {'loss': 1.6866, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2840/48845 [1:00:40<16:06:55,  1.26s/it]  6%|▌         | 2841/48845 [1:00:41<16:06:20,  1.26s/it]  6%|▌         | 2842/48845 [1:00:42<16:06:13,  1.26s/it]  6%|▌         | 2843/48845 [1:00:44<16:06:04,  1.26s/it]  6%|▌         | 2844/48845 [1:00:45<16:06:16,  1.26s/it]  6%|▌         | 2845/48845 [1:00:46<16:05:53,  1.26s/it]                                                         {'loss': 1.5972, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2845/48845 [1:00:46<16:05:53,  1.26s/it]  6%|▌         | 2846/48845 [1:00:47<16:07:40,  1.26s/it]  6%|▌         | 2847/48845 [1:00:49<16:06:58,  1.26s/it]  6%|▌         | 2848/48845 [1:00:50<16:05:22,  1.26s/it]  6%|▌         | 2849/48845 [1:00:51<16:06:06,  1.26s/it]  6%|▌         | 2850/48845 [1:00:52<16:05:52,  1.26s/it]                                                         {'loss': 2.3981, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2850/48845 [1:00:52<16:05:52,  1.26s/it]  6%|▌         | 2851/48845 [1:00:54<16:06:19,  1.26s/it]  6%|▌         | 2852/48845 [1:00:55<16:06:01,  1.26s/it]  6%|▌         | 2853/48845 [1:00:56<16:05:37,  1.26s/it]  6%|▌         | 2854/48845 [1:00:57<16:06:03,  1.26s/it]  6%|▌         | 2855/48845 [1:00:59<16:04:59,  1.26s/it]                                                         {'loss': 1.9787, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2855/48845 [1:00:59<16:04:59,  1.26s/it]  6%|▌         | 2856/48845 [1:01:00<16:04:53,  1.26s/it]  6%|▌         | 2857/48845 [1:01:01<16:05:15,  1.26s/it]  6%|▌         | 2858/48845 [1:01:03<16:05:04,  1.26s/it]  6%|▌         | 2859/48845 [1:01:04<16:05:09,  1.26s/it]  6%|▌         | 2860/48845 [1:01:05<16:04:48,  1.26s/it]                                                         {'loss': 1.7606, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2860/48845 [1:01:05<16:04:48,  1.26s/it]  6%|▌         | 2861/48845 [1:01:06<16:04:43,  1.26s/it]  6%|▌         | 2862/48845 [1:01:08<16:05:07,  1.26s/it]  6%|▌         | 2863/48845 [1:01:09<16:05:10,  1.26s/it]  6%|▌         | 2864/48845 [1:01:10<16:05:01,  1.26s/it]  6%|▌         | 2865/48845 [1:01:11<16:05:41,  1.26s/it]                                                         {'loss': 1.9101, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2865/48845 [1:01:11<16:05:41,  1.26s/it]  6%|▌         | 2866/48845 [1:01:13<16:06:26,  1.26s/it]  6%|▌         | 2867/48845 [1:01:14<16:06:33,  1.26s/it]  6%|▌         | 2868/48845 [1:01:15<16:06:27,  1.26s/it]  6%|▌         | 2869/48845 [1:01:16<16:06:10,  1.26s/it]  6%|▌         | 2870/48845 [1:01:18<16:07:08,  1.26s/it]                                                         {'loss': 1.4478, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2870/48845 [1:01:18<16:07:08,  1.26s/it]  6%|▌         | 2871/48845 [1:01:19<16:07:20,  1.26s/it]  6%|▌         | 2872/48845 [1:01:20<16:07:30,  1.26s/it]  6%|▌         | 2873/48845 [1:01:21<16:06:13,  1.26s/it]  6%|▌         | 2874/48845 [1:01:23<16:05:54,  1.26s/it]  6%|▌         | 2875/48845 [1:01:24<16:05:19,  1.26s/it]                                                         {'loss': 1.7187, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2875/48845 [1:01:24<16:05:19,  1.26s/it]  6%|▌         | 2876/48845 [1:01:25<16:05:05,  1.26s/it]  6%|▌         | 2877/48845 [1:01:26<16:05:05,  1.26s/it]  6%|▌         | 2878/48845 [1:01:28<16:04:10,  1.26s/it]  6%|▌         | 2879/48845 [1:01:29<16:04:26,  1.26s/it]  6%|▌         | 2880/48845 [1:01:30<16:06:22,  1.26s/it]                                                         {'loss': 2.1604, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.29}
+  6%|▌         | 2880/48845 [1:01:30<16:06:22,  1.26s/it]  6%|▌         | 2881/48845 [1:01:32<16:05:15,  1.26s/it]  6%|▌         | 2882/48845 [1:01:33<16:05:13,  1.26s/it]  6%|▌         | 2883/48845 [1:01:34<16:05:26,  1.26s/it]  6%|▌         | 2884/48845 [1:01:35<16:04:24,  1.26s/it]  6%|▌         | 2885/48845 [1:01:37<16:04:49,  1.26s/it]                                                         {'loss': 1.8339, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2885/48845 [1:01:37<16:04:49,  1.26s/it]  6%|▌         | 2886/48845 [1:01:38<16:05:08,  1.26s/it]  6%|▌         | 2887/48845 [1:01:39<16:05:29,  1.26s/it]  6%|▌         | 2888/48845 [1:01:40<16:05:12,  1.26s/it]  6%|▌         | 2889/48845 [1:01:42<16:04:22,  1.26s/it]  6%|▌         | 2890/48845 [1:01:43<16:05:00,  1.26s/it]                                                         {'loss': 1.637, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2890/48845 [1:01:43<16:05:00,  1.26s/it]  6%|▌         | 2891/48845 [1:01:44<16:05:37,  1.26s/it]  6%|▌         | 2892/48845 [1:01:45<16:07:10,  1.26s/it]  6%|▌         | 2893/48845 [1:01:47<16:06:54,  1.26s/it]  6%|▌         | 2894/48845 [1:01:48<16:06:05,  1.26s/it]  6%|▌         | 2895/48845 [1:01:49<16:05:43,  1.26s/it]                                                         {'loss': 1.6406, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2895/48845 [1:01:49<16:05:43,  1.26s/it]  6%|▌         | 2896/48845 [1:01:50<16:08:03,  1.26s/it]  6%|▌         | 2897/48845 [1:01:52<16:06:30,  1.26s/it]  6%|▌         | 2898/48845 [1:01:53<16:06:37,  1.26s/it]  6%|▌         | 2899/48845 [1:01:54<16:04:34,  1.26s/it]  6%|▌         | 2900/48845 [1:01:55<16:06:16,  1.26s/it]                                                         {'loss': 1.5986, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2900/48845 [1:01:55<16:06:16,  1.26s/it]  6%|▌         | 2901/48845 [1:01:57<16:07:42,  1.26s/it]  6%|▌         | 2902/48845 [1:01:58<16:06:41,  1.26s/it]  6%|▌         | 2903/48845 [1:01:59<16:07:18,  1.26s/it]  6%|▌         | 2904/48845 [1:02:01<16:05:33,  1.26s/it]  6%|▌         | 2905/48845 [1:02:02<16:05:38,  1.26s/it]                                                         {'loss': 1.5945, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2905/48845 [1:02:02<16:05:38,  1.26s/it]  6%|▌         | 2906/48845 [1:02:03<16:05:27,  1.26s/it]  6%|▌         | 2907/48845 [1:02:04<16:04:37,  1.26s/it]  6%|▌         | 2908/48845 [1:02:06<16:04:01,  1.26s/it]  6%|▌         | 2909/48845 [1:02:07<16:04:02,  1.26s/it]  6%|▌         | 2910/48845 [1:02:08<16:03:26,  1.26s/it]                                                         {'loss': 1.892, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2910/48845 [1:02:08<16:03:26,  1.26s/it]  6%|▌         | 2911/48845 [1:02:09<16:05:42,  1.26s/it]  6%|▌         | 2912/48845 [1:02:11<16:05:17,  1.26s/it]  6%|▌         | 2913/48845 [1:02:12<16:04:52,  1.26s/it]  6%|▌         | 2914/48845 [1:02:13<16:04:36,  1.26s/it]  6%|▌         | 2915/48845 [1:02:14<16:03:34,  1.26s/it]                                                         {'loss': 1.6336, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2915/48845 [1:02:14<16:03:34,  1.26s/it]  6%|▌         | 2916/48845 [1:02:16<16:04:00,  1.26s/it]  6%|▌         | 2917/48845 [1:02:17<16:03:49,  1.26s/it]  6%|▌         | 2918/48845 [1:02:18<16:03:38,  1.26s/it]  6%|▌         | 2919/48845 [1:02:19<16:03:32,  1.26s/it]  6%|▌         | 2920/48845 [1:02:21<16:03:41,  1.26s/it]                                                         {'loss': 1.7244, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2920/48845 [1:02:21<16:03:41,  1.26s/it]  6%|▌         | 2921/48845 [1:02:22<16:04:19,  1.26s/it]  6%|▌         | 2922/48845 [1:02:23<16:04:00,  1.26s/it]  6%|▌         | 2923/48845 [1:02:24<16:03:33,  1.26s/it]  6%|▌         | 2924/48845 [1:02:26<16:03:34,  1.26s/it]  6%|▌         | 2925/48845 [1:02:27<16:03:41,  1.26s/it]                                                         {'loss': 1.6253, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2925/48845 [1:02:27<16:03:41,  1.26s/it]  6%|▌         | 2926/48845 [1:02:28<16:04:38,  1.26s/it]  6%|▌         | 2927/48845 [1:02:29<16:04:17,  1.26s/it]  6%|▌         | 2928/48845 [1:02:31<16:04:04,  1.26s/it]  6%|▌         | 2929/48845 [1:02:32<16:03:27,  1.26s/it]  6%|▌         | 2930/48845 [1:02:33<16:03:46,  1.26s/it]                                                         {'loss': 1.8279, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2930/48845 [1:02:33<16:03:46,  1.26s/it]  6%|▌         | 2931/48845 [1:02:35<16:04:01,  1.26s/it]  6%|▌         | 2932/48845 [1:02:36<16:03:31,  1.26s/it]  6%|▌         | 2933/48845 [1:02:37<16:03:12,  1.26s/it]  6%|▌         | 2934/48845 [1:02:38<16:02:49,  1.26s/it]  6%|▌         | 2935/48845 [1:02:40<16:03:13,  1.26s/it]                                                         {'loss': 1.7806, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2935/48845 [1:02:40<16:03:13,  1.26s/it]  6%|▌         | 2936/48845 [1:02:41<16:04:07,  1.26s/it]  6%|▌         | 2937/48845 [1:02:42<16:04:11,  1.26s/it]  6%|▌         | 2938/48845 [1:02:43<16:04:13,  1.26s/it]  6%|▌         | 2939/48845 [1:02:45<16:03:52,  1.26s/it]  6%|▌         | 2940/48845 [1:02:46<16:03:19,  1.26s/it]                                                         {'loss': 1.6604, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2940/48845 [1:02:46<16:03:19,  1.26s/it]  6%|▌         | 2941/48845 [1:02:47<16:04:28,  1.26s/it]  6%|▌         | 2942/48845 [1:02:48<16:03:57,  1.26s/it]  6%|▌         | 2943/48845 [1:02:50<16:03:51,  1.26s/it]  6%|▌         | 2944/48845 [1:02:51<16:03:10,  1.26s/it]  6%|▌         | 2945/48845 [1:02:52<16:02:46,  1.26s/it]                                                         {'loss': 1.4486, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2945/48845 [1:02:52<16:02:46,  1.26s/it]  6%|▌         | 2946/48845 [1:02:53<16:03:24,  1.26s/it]  6%|▌         | 2947/48845 [1:02:55<16:04:00,  1.26s/it]  6%|▌         | 2948/48845 [1:02:56<16:03:48,  1.26s/it]  6%|▌         | 2949/48845 [1:02:57<16:03:30,  1.26s/it]  6%|▌         | 2950/48845 [1:02:58<16:03:27,  1.26s/it]                                                         {'loss': 2.1008, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2950/48845 [1:02:58<16:03:27,  1.26s/it]  6%|▌         | 2951/48845 [1:03:00<16:04:15,  1.26s/it]  6%|▌         | 2952/48845 [1:03:01<16:03:49,  1.26s/it]  6%|▌         | 2953/48845 [1:03:02<16:03:01,  1.26s/it]  6%|▌         | 2954/48845 [1:03:03<16:03:06,  1.26s/it]  6%|▌         | 2955/48845 [1:03:05<16:03:09,  1.26s/it]                                                         {'loss': 1.6205, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2955/48845 [1:03:05<16:03:09,  1.26s/it]  6%|▌         | 2956/48845 [1:03:06<16:03:50,  1.26s/it]  6%|▌         | 2957/48845 [1:03:07<16:03:27,  1.26s/it]  6%|▌         | 2958/48845 [1:03:09<16:02:29,  1.26s/it]  6%|▌         | 2959/48845 [1:03:10<16:02:03,  1.26s/it]  6%|▌         | 2960/48845 [1:03:11<16:02:10,  1.26s/it]                                                         {'loss': 1.9498, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2960/48845 [1:03:11<16:02:10,  1.26s/it]  6%|▌         | 2961/48845 [1:03:12<16:03:44,  1.26s/it]  6%|▌         | 2962/48845 [1:03:14<16:03:54,  1.26s/it]  6%|▌         | 2963/48845 [1:03:15<16:04:23,  1.26s/it]  6%|▌         | 2964/48845 [1:03:16<16:04:08,  1.26s/it]  6%|▌         | 2965/48845 [1:03:17<16:03:47,  1.26s/it]                                                         {'loss': 1.7391, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2965/48845 [1:03:17<16:03:47,  1.26s/it]  6%|▌         | 2966/48845 [1:03:19<16:04:33,  1.26s/it]  6%|▌         | 2967/48845 [1:03:20<16:03:59,  1.26s/it]  6%|▌         | 2968/48845 [1:03:21<16:04:43,  1.26s/it]  6%|▌         | 2969/48845 [1:03:22<16:04:20,  1.26s/it]  6%|▌         | 2970/48845 [1:03:24<16:04:11,  1.26s/it]                                                         {'loss': 1.624, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2970/48845 [1:03:24<16:04:11,  1.26s/it]  6%|▌         | 2971/48845 [1:03:25<16:04:27,  1.26s/it]  6%|▌         | 2972/48845 [1:03:26<16:03:45,  1.26s/it]  6%|▌         | 2973/48845 [1:03:27<16:04:39,  1.26s/it]  6%|▌         | 2974/48845 [1:03:29<16:04:34,  1.26s/it]  6%|▌         | 2975/48845 [1:03:30<16:23:02,  1.29s/it]                                                         {'loss': 1.7944, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.3}
+  6%|▌         | 2975/48845 [1:03:30<16:23:02,  1.29s/it]  6%|▌         | 2976/48845 [1:03:31<16:18:03,  1.28s/it]  6%|▌         | 2977/48845 [1:03:33<16:13:47,  1.27s/it]  6%|▌         | 2978/48845 [1:03:34<16:11:04,  1.27s/it]  6%|▌         | 2979/48845 [1:03:35<16:12:24,  1.27s/it]  6%|▌         | 2980/48845 [1:03:36<16:10:10,  1.27s/it]                                                         {'loss': 1.7015, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 2980/48845 [1:03:36<16:10:10,  1.27s/it]  6%|▌         | 2981/48845 [1:03:38<16:08:05,  1.27s/it]  6%|▌         | 2982/48845 [1:03:39<16:06:12,  1.26s/it]  6%|▌         | 2983/48845 [1:03:40<16:04:33,  1.26s/it]  6%|▌         | 2984/48845 [1:03:41<16:04:26,  1.26s/it]  6%|▌         | 2985/48845 [1:03:43<16:03:55,  1.26s/it]                                                         {'loss': 1.817, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 2985/48845 [1:03:43<16:03:55,  1.26s/it]  6%|▌         | 2986/48845 [1:03:44<16:04:49,  1.26s/it]  6%|▌         | 2987/48845 [1:03:45<16:06:12,  1.26s/it]  6%|▌         | 2988/48845 [1:03:46<16:04:02,  1.26s/it]  6%|▌         | 2989/48845 [1:03:48<16:03:29,  1.26s/it]  6%|▌         | 2990/48845 [1:03:49<16:03:22,  1.26s/it]                                                         {'loss': 1.8121, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 2990/48845 [1:03:49<16:03:22,  1.26s/it]  6%|▌         | 2991/48845 [1:03:50<16:03:10,  1.26s/it]  6%|▌         | 2992/48845 [1:03:51<16:02:46,  1.26s/it]  6%|▌         | 2993/48845 [1:03:53<16:02:23,  1.26s/it]  6%|▌         | 2994/48845 [1:03:54<16:02:20,  1.26s/it]  6%|▌         | 2995/48845 [1:03:55<16:02:22,  1.26s/it]                                                         {'loss': 1.9056, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 2995/48845 [1:03:55<16:02:22,  1.26s/it]  6%|▌         | 2996/48845 [1:03:57<16:02:51,  1.26s/it]  6%|▌         | 2997/48845 [1:03:58<16:04:09,  1.26s/it]  6%|▌         | 2998/48845 [1:03:59<16:02:50,  1.26s/it]  6%|▌         | 2999/48845 [1:04:00<16:02:59,  1.26s/it]  6%|▌         | 3000/48845 [1:04:02<16:02:45,  1.26s/it]                                                         {'loss': 1.8817, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3000/48845 [1:04:02<16:02:45,  1.26s/it]  6%|▌         | 3001/48845 [1:04:05<24:57:59,  1.96s/it]  6%|▌         | 3002/48845 [1:04:06<22:16:41,  1.75s/it]  6%|▌         | 3003/48845 [1:04:08<20:24:51,  1.60s/it]  6%|▌         | 3004/48845 [1:04:09<19:05:43,  1.50s/it]  6%|▌         | 3005/48845 [1:04:10<18:11:24,  1.43s/it]                                                         {'loss': 2.0181, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3005/48845 [1:04:10<18:11:24,  1.43s/it]  6%|▌         | 3006/48845 [1:04:11<17:32:16,  1.38s/it]  6%|▌         | 3007/48845 [1:04:13<17:04:46,  1.34s/it]  6%|▌         | 3008/48845 [1:04:14<16:46:22,  1.32s/it]  6%|▌         | 3009/48845 [1:04:15<16:32:49,  1.30s/it]  6%|▌         | 3010/48845 [1:04:17<16:23:26,  1.29s/it]                                                         {'loss': 1.5862, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3010/48845 [1:04:17<16:23:26,  1.29s/it]  6%|▌         | 3011/48845 [1:04:18<16:16:16,  1.28s/it]  6%|▌         | 3012/48845 [1:04:19<16:11:56,  1.27s/it]  6%|▌         | 3013/48845 [1:04:20<16:10:20,  1.27s/it]  6%|▌         | 3014/48845 [1:04:22<16:07:13,  1.27s/it]  6%|▌         | 3015/48845 [1:04:23<16:06:36,  1.27s/it]                                                         {'loss': 1.7384, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3015/48845 [1:04:23<16:06:36,  1.27s/it]  6%|▌         | 3016/48845 [1:04:24<16:05:28,  1.26s/it]  6%|▌         | 3017/48845 [1:04:25<16:04:08,  1.26s/it]  6%|▌         | 3018/48845 [1:04:27<16:03:08,  1.26s/it]  6%|▌         | 3019/48845 [1:04:28<16:02:59,  1.26s/it]  6%|▌         | 3020/48845 [1:04:29<16:02:40,  1.26s/it]                                                         {'loss': 1.6256, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3020/48845 [1:04:29<16:02:40,  1.26s/it]  6%|▌         | 3021/48845 [1:04:30<16:03:13,  1.26s/it]  6%|▌         | 3022/48845 [1:04:32<16:02:09,  1.26s/it]  6%|▌         | 3023/48845 [1:04:33<16:04:43,  1.26s/it]  6%|▌         | 3024/48845 [1:04:34<16:03:44,  1.26s/it]  6%|▌         | 3025/48845 [1:04:35<16:02:58,  1.26s/it]                                                         {'loss': 1.7833, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3025/48845 [1:04:35<16:02:58,  1.26s/it]  6%|▌         | 3026/48845 [1:04:37<16:03:27,  1.26s/it]  6%|▌         | 3027/48845 [1:04:38<16:03:19,  1.26s/it]  6%|▌         | 3028/48845 [1:04:39<16:03:30,  1.26s/it]  6%|▌         | 3029/48845 [1:04:40<16:02:29,  1.26s/it]  6%|▌         | 3030/48845 [1:04:42<16:02:38,  1.26s/it]                                                         {'loss': 1.6503, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3030/48845 [1:04:42<16:02:38,  1.26s/it]  6%|▌         | 3031/48845 [1:04:43<16:02:59,  1.26s/it]  6%|▌         | 3032/48845 [1:04:44<16:01:57,  1.26s/it]  6%|▌         | 3033/48845 [1:04:45<16:02:10,  1.26s/it]  6%|▌         | 3034/48845 [1:04:47<16:01:30,  1.26s/it]  6%|▌         | 3035/48845 [1:04:48<16:00:16,  1.26s/it]                                                         {'loss': 1.6167, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3035/48845 [1:04:48<16:00:16,  1.26s/it]  6%|▌         | 3036/48845 [1:04:49<16:00:52,  1.26s/it]  6%|▌         | 3037/48845 [1:04:51<16:00:01,  1.26s/it]  6%|▌         | 3038/48845 [1:04:52<16:00:03,  1.26s/it]  6%|▌         | 3039/48845 [1:04:53<16:00:05,  1.26s/it]  6%|▌         | 3040/48845 [1:04:54<16:07:00,  1.27s/it]                                                         {'loss': 1.8592, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3040/48845 [1:04:54<16:07:00,  1.27s/it]  6%|▌         | 3041/48845 [1:04:56<16:08:03,  1.27s/it]  6%|▌         | 3042/48845 [1:04:57<16:05:25,  1.26s/it]  6%|▌         | 3043/48845 [1:04:58<16:03:40,  1.26s/it]  6%|▌         | 3044/48845 [1:04:59<16:03:55,  1.26s/it]  6%|▌         | 3045/48845 [1:05:01<16:02:55,  1.26s/it]                                                         {'loss': 2.266, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3045/48845 [1:05:01<16:02:55,  1.26s/it]  6%|▌         | 3046/48845 [1:05:02<16:03:47,  1.26s/it]  6%|▌         | 3047/48845 [1:05:03<16:02:20,  1.26s/it]  6%|▌         | 3048/48845 [1:05:04<16:02:09,  1.26s/it]  6%|▌         | 3049/48845 [1:05:06<16:02:14,  1.26s/it]  6%|▌         | 3050/48845 [1:05:07<16:01:22,  1.26s/it]                                                         {'loss': 1.9134, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▌         | 3050/48845 [1:05:07<16:01:22,  1.26s/it]  6%|▌         | 3051/48845 [1:05:08<16:00:58,  1.26s/it]  6%|▌         | 3052/48845 [1:05:09<16:00:34,  1.26s/it]  6%|▋         | 3053/48845 [1:05:11<16:00:32,  1.26s/it]  6%|▋         | 3054/48845 [1:05:12<16:01:36,  1.26s/it]  6%|▋         | 3055/48845 [1:05:13<16:00:52,  1.26s/it]                                                         {'loss': 1.895, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▋         | 3055/48845 [1:05:13<16:00:52,  1.26s/it]  6%|▋         | 3056/48845 [1:05:14<16:01:10,  1.26s/it]  6%|▋         | 3057/48845 [1:05:16<15:59:52,  1.26s/it]  6%|▋         | 3058/48845 [1:05:17<16:01:13,  1.26s/it]  6%|▋         | 3059/48845 [1:05:18<16:02:03,  1.26s/it]  6%|▋         | 3060/48845 [1:05:20<16:01:39,  1.26s/it]                                                         {'loss': 1.6532, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▋         | 3060/48845 [1:05:20<16:01:39,  1.26s/it]  6%|▋         | 3061/48845 [1:05:21<16:02:16,  1.26s/it]  6%|▋         | 3062/48845 [1:05:22<16:02:22,  1.26s/it]  6%|▋         | 3063/48845 [1:05:23<16:01:40,  1.26s/it]  6%|▋         | 3064/48845 [1:05:25<16:01:44,  1.26s/it]  6%|▋         | 3065/48845 [1:05:26<16:00:20,  1.26s/it]                                                         {'loss': 1.3796, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▋         | 3065/48845 [1:05:26<16:00:20,  1.26s/it]  6%|▋         | 3066/48845 [1:05:27<16:00:14,  1.26s/it]  6%|▋         | 3067/48845 [1:05:28<15:59:12,  1.26s/it]  6%|▋         | 3068/48845 [1:05:30<15:59:48,  1.26s/it]  6%|▋         | 3069/48845 [1:05:31<16:01:43,  1.26s/it]  6%|▋         | 3070/48845 [1:05:32<16:01:38,  1.26s/it]                                                         {'loss': 1.5957, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▋         | 3070/48845 [1:05:32<16:01:38,  1.26s/it]  6%|▋         | 3071/48845 [1:05:33<16:02:01,  1.26s/it]  6%|▋         | 3072/48845 [1:05:35<16:01:04,  1.26s/it]  6%|▋         | 3073/48845 [1:05:36<16:00:11,  1.26s/it]  6%|▋         | 3074/48845 [1:05:37<16:00:18,  1.26s/it]  6%|▋         | 3075/48845 [1:05:38<16:00:35,  1.26s/it]                                                         {'loss': 1.854, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.31}
+  6%|▋         | 3075/48845 [1:05:38<16:00:35,  1.26s/it]  6%|▋         | 3076/48845 [1:05:40<16:00:40,  1.26s/it]  6%|▋         | 3077/48845 [1:05:41<16:00:30,  1.26s/it]  6%|▋         | 3078/48845 [1:05:42<16:00:47,  1.26s/it]  6%|▋         | 3079/48845 [1:05:43<16:01:14,  1.26s/it]  6%|▋         | 3080/48845 [1:05:45<16:00:42,  1.26s/it]                                                         {'loss': 1.8009, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3080/48845 [1:05:45<16:00:42,  1.26s/it]  6%|▋         | 3081/48845 [1:05:46<16:01:16,  1.26s/it]  6%|▋         | 3082/48845 [1:05:47<16:01:03,  1.26s/it]  6%|▋         | 3083/48845 [1:05:48<16:00:59,  1.26s/it]  6%|▋         | 3084/48845 [1:05:50<16:00:53,  1.26s/it]  6%|▋         | 3085/48845 [1:05:51<16:00:58,  1.26s/it]                                                         {'loss': 1.4949, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3085/48845 [1:05:51<16:00:58,  1.26s/it]  6%|▋         | 3086/48845 [1:05:52<16:02:44,  1.26s/it]  6%|▋         | 3087/48845 [1:05:54<16:02:16,  1.26s/it]  6%|▋         | 3088/48845 [1:05:55<16:02:12,  1.26s/it]  6%|▋         | 3089/48845 [1:05:56<16:02:23,  1.26s/it]  6%|▋         | 3090/48845 [1:05:57<16:01:25,  1.26s/it]                                                         {'loss': 1.9393, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3090/48845 [1:05:57<16:01:25,  1.26s/it]  6%|▋         | 3091/48845 [1:05:59<16:02:19,  1.26s/it]  6%|▋         | 3092/48845 [1:06:00<16:02:25,  1.26s/it]  6%|▋         | 3093/48845 [1:06:01<16:01:59,  1.26s/it]  6%|▋         | 3094/48845 [1:06:02<16:02:37,  1.26s/it]  6%|▋         | 3095/48845 [1:06:04<16:01:39,  1.26s/it]                                                         {'loss': 1.724, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3095/48845 [1:06:04<16:01:39,  1.26s/it]  6%|▋         | 3096/48845 [1:06:05<16:00:42,  1.26s/it]  6%|▋         | 3097/48845 [1:06:06<16:00:37,  1.26s/it]  6%|▋         | 3098/48845 [1:06:07<16:00:31,  1.26s/it]  6%|▋         | 3099/48845 [1:06:09<16:01:41,  1.26s/it]  6%|▋         | 3100/48845 [1:06:10<16:01:48,  1.26s/it]                                                         {'loss': 1.9806, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3100/48845 [1:06:10<16:01:48,  1.26s/it]  6%|▋         | 3101/48845 [1:06:11<16:01:52,  1.26s/it]  6%|▋         | 3102/48845 [1:06:12<16:00:56,  1.26s/it]  6%|▋         | 3103/48845 [1:06:14<16:00:10,  1.26s/it]  6%|▋         | 3104/48845 [1:06:15<16:00:23,  1.26s/it]  6%|▋         | 3105/48845 [1:06:16<16:00:49,  1.26s/it]                                                         {'loss': 1.8276, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3105/48845 [1:06:16<16:00:49,  1.26s/it]  6%|▋         | 3106/48845 [1:06:18<16:00:44,  1.26s/it]  6%|▋         | 3107/48845 [1:06:19<15:59:58,  1.26s/it]  6%|▋         | 3108/48845 [1:06:20<15:59:37,  1.26s/it]  6%|▋         | 3109/48845 [1:06:21<16:00:08,  1.26s/it]  6%|▋         | 3110/48845 [1:06:23<15:58:24,  1.26s/it]                                                         {'loss': 2.1047, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3110/48845 [1:06:23<15:58:24,  1.26s/it]  6%|▋         | 3111/48845 [1:06:24<15:58:26,  1.26s/it]  6%|▋         | 3112/48845 [1:06:25<15:59:37,  1.26s/it]  6%|▋         | 3113/48845 [1:06:26<15:59:52,  1.26s/it]  6%|▋         | 3114/48845 [1:06:28<15:59:46,  1.26s/it]  6%|▋         | 3115/48845 [1:06:29<15:59:54,  1.26s/it]                                                         {'loss': 1.753, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3115/48845 [1:06:29<15:59:54,  1.26s/it]  6%|▋         | 3116/48845 [1:06:30<15:59:38,  1.26s/it]  6%|▋         | 3117/48845 [1:06:31<15:59:48,  1.26s/it]  6%|▋         | 3118/48845 [1:06:33<15:59:36,  1.26s/it]  6%|▋         | 3119/48845 [1:06:34<16:28:18,  1.30s/it]  6%|▋         | 3120/48845 [1:06:35<16:20:55,  1.29s/it]                                                         {'loss': 1.7703, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3120/48845 [1:06:35<16:20:55,  1.29s/it]  6%|▋         | 3121/48845 [1:06:37<16:14:51,  1.28s/it]  6%|▋         | 3122/48845 [1:06:38<16:10:54,  1.27s/it]  6%|▋         | 3123/48845 [1:06:39<16:08:42,  1.27s/it]  6%|▋         | 3124/48845 [1:06:40<16:06:24,  1.27s/it]  6%|▋         | 3125/48845 [1:06:42<16:04:02,  1.27s/it]                                                         {'loss': 1.6521, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3125/48845 [1:06:42<16:04:02,  1.27s/it]  6%|▋         | 3126/48845 [1:06:43<16:03:12,  1.26s/it]  6%|▋         | 3127/48845 [1:06:44<16:01:52,  1.26s/it]  6%|▋         | 3128/48845 [1:06:45<16:03:27,  1.26s/it]  6%|▋         | 3129/48845 [1:06:47<16:02:12,  1.26s/it]  6%|��         | 3130/48845 [1:06:48<16:01:15,  1.26s/it]                                                         {'loss': 1.813, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3130/48845 [1:06:48<16:01:15,  1.26s/it]  6%|▋         | 3131/48845 [1:06:49<16:04:09,  1.27s/it]  6%|▋         | 3132/48845 [1:06:50<16:04:38,  1.27s/it]  6%|▋         | 3133/48845 [1:06:52<16:02:22,  1.26s/it]  6%|▋         | 3134/48845 [1:06:53<16:00:43,  1.26s/it]  6%|▋         | 3135/48845 [1:06:54<16:00:39,  1.26s/it]                                                         {'loss': 1.5579, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3135/48845 [1:06:54<16:00:39,  1.26s/it]  6%|▋         | 3136/48845 [1:06:55<16:03:02,  1.26s/it]  6%|▋         | 3137/48845 [1:06:57<16:01:16,  1.26s/it]  6%|▋         | 3138/48845 [1:06:58<16:00:22,  1.26s/it]  6%|▋         | 3139/48845 [1:06:59<15:59:57,  1.26s/it]  6%|▋         | 3140/48845 [1:07:00<16:00:58,  1.26s/it]                                                         {'loss': 1.909, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3140/48845 [1:07:00<16:00:58,  1.26s/it]  6%|▋         | 3141/48845 [1:07:02<16:00:16,  1.26s/it]  6%|▋         | 3142/48845 [1:07:03<16:00:15,  1.26s/it]  6%|▋         | 3143/48845 [1:07:04<15:59:48,  1.26s/it]  6%|▋         | 3144/48845 [1:07:06<16:00:24,  1.26s/it]  6%|▋         | 3145/48845 [1:07:07<16:00:13,  1.26s/it]                                                         {'loss': 1.565, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3145/48845 [1:07:07<16:00:13,  1.26s/it]  6%|▋         | 3146/48845 [1:07:08<16:01:07,  1.26s/it]  6%|▋         | 3147/48845 [1:07:09<16:01:05,  1.26s/it]  6%|▋         | 3148/48845 [1:07:11<15:59:37,  1.26s/it]  6%|▋         | 3149/48845 [1:07:12<16:00:14,  1.26s/it]  6%|▋         | 3150/48845 [1:07:13<15:59:14,  1.26s/it]                                                         {'loss': 1.8563, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3150/48845 [1:07:13<15:59:14,  1.26s/it]  6%|▋         | 3151/48845 [1:07:14<15:59:38,  1.26s/it]  6%|▋         | 3152/48845 [1:07:16<15:59:00,  1.26s/it]  6%|▋         | 3153/48845 [1:07:17<15:59:24,  1.26s/it]  6%|▋         | 3154/48845 [1:07:18<15:59:39,  1.26s/it]  6%|▋         | 3155/48845 [1:07:19<15:58:52,  1.26s/it]                                                         {'loss': 1.4531, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3155/48845 [1:07:19<15:58:52,  1.26s/it]  6%|▋         | 3156/48845 [1:07:21<15:59:12,  1.26s/it]  6%|▋         | 3157/48845 [1:07:22<15:58:17,  1.26s/it]  6%|▋         | 3158/48845 [1:07:23<15:58:29,  1.26s/it]  6%|▋         | 3159/48845 [1:07:24<16:00:03,  1.26s/it]  6%|▋         | 3160/48845 [1:07:26<15:59:24,  1.26s/it]                                                         {'loss': 1.6047, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3160/48845 [1:07:26<15:59:24,  1.26s/it]  6%|▋         | 3161/48845 [1:07:27<16:00:11,  1.26s/it]  6%|▋         | 3162/48845 [1:07:28<15:58:43,  1.26s/it]  6%|▋         | 3163/48845 [1:07:29<15:58:13,  1.26s/it]  6%|▋         | 3164/48845 [1:07:31<15:58:34,  1.26s/it]  6%|▋         | 3165/48845 [1:07:32<15:58:13,  1.26s/it]                                                         {'loss': 1.6688, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3165/48845 [1:07:32<15:58:13,  1.26s/it]  6%|▋         | 3166/48845 [1:07:33<15:58:20,  1.26s/it]  6%|▋         | 3167/48845 [1:07:35<15:58:32,  1.26s/it]  6%|▋         | 3168/48845 [1:07:36<15:58:46,  1.26s/it]  6%|▋         | 3169/48845 [1:07:37<15:59:28,  1.26s/it]  6%|▋         | 3170/48845 [1:07:38<15:59:38,  1.26s/it]                                                         {'loss': 1.9143, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.32}
+  6%|▋         | 3170/48845 [1:07:38<15:59:38,  1.26s/it]  6%|▋         | 3171/48845 [1:07:40<15:58:08,  1.26s/it]  6%|▋         | 3172/48845 [1:07:41<15:58:44,  1.26s/it]  6%|▋         | 3173/48845 [1:07:42<15:58:15,  1.26s/it]  6%|▋         | 3174/48845 [1:07:43<15:58:51,  1.26s/it]  7%|▋         | 3175/48845 [1:07:45<15:58:01,  1.26s/it]                                                         {'loss': 1.8375, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3175/48845 [1:07:45<15:58:01,  1.26s/it]  7%|▋         | 3176/48845 [1:07:46<15:58:21,  1.26s/it]  7%|▋         | 3177/48845 [1:07:47<15:57:44,  1.26s/it]  7%|▋         | 3178/48845 [1:07:48<15:58:12,  1.26s/it]  7%|▋         | 3179/48845 [1:07:50<16:00:26,  1.26s/it]  7%|▋         | 3180/48845 [1:07:51<15:59:28,  1.26s/it]                                                         {'loss': 1.6359, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3180/48845 [1:07:51<15:59:28,  1.26s/it]  7%|▋         | 3181/48845 [1:07:52<16:00:05,  1.26s/it]  7%|▋         | 3182/48845 [1:07:53<15:58:46,  1.26s/it]  7%|▋         | 3183/48845 [1:07:55<15:58:25,  1.26s/it]  7%|▋         | 3184/48845 [1:07:56<15:59:11,  1.26s/it]  7%|▋         | 3185/48845 [1:07:57<16:00:06,  1.26s/it]                                                         {'loss': 1.732, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3185/48845 [1:07:57<16:00:06,  1.26s/it]  7%|▋         | 3186/48845 [1:07:58<16:00:30,  1.26s/it]  7%|▋         | 3187/48845 [1:08:00<15:59:29,  1.26s/it]  7%|▋         | 3188/48845 [1:08:01<15:59:27,  1.26s/it]  7%|▋         | 3189/48845 [1:08:02<15:59:58,  1.26s/it]  7%|▋         | 3190/48845 [1:08:03<15:59:39,  1.26s/it]                                                         {'loss': 1.5241, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3190/48845 [1:08:03<15:59:39,  1.26s/it]  7%|▋         | 3191/48845 [1:08:05<15:59:13,  1.26s/it]  7%|▋         | 3192/48845 [1:08:06<15:59:18,  1.26s/it]  7%|▋         | 3193/48845 [1:08:07<15:59:03,  1.26s/it]  7%|▋         | 3194/48845 [1:08:09<15:58:16,  1.26s/it]  7%|▋         | 3195/48845 [1:08:10<15:58:59,  1.26s/it]                                                         {'loss': 1.6895, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3195/48845 [1:08:10<15:58:59,  1.26s/it]  7%|▋         | 3196/48845 [1:08:11<16:00:08,  1.26s/it]  7%|▋         | 3197/48845 [1:08:12<16:00:16,  1.26s/it]  7%|▋         | 3198/48845 [1:08:14<15:59:59,  1.26s/it]  7%|▋         | 3199/48845 [1:08:15<16:00:11,  1.26s/it]  7%|▋         | 3200/48845 [1:08:16<16:01:24,  1.26s/it]                                                         {'loss': 1.4703, 'learning_rate': 3.916203864642234e-05, 'epoch': 0.33}
+  7%|▋         | 3200/48845 [1:08:16<16:01:24,  1.26s/it]  7%|▋         | 3201/48845 [1:08:20<25:03:17,  1.98s/it]  7%|▋         | 3202/48845 [1:08:21<22:19:43,  1.76s/it]  7%|▋         | 3203/48845 [1:08:22<20:25:57,  1.61s/it]  7%|▋         | 3204/48845 [1:08:24<19:51:11,  1.57s/it]  7%|▋         | 3205/48845 [1:08:25<18:40:42,  1.47s/it]                                                         {'loss': 1.4484, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3205/48845 [1:08:25<18:40:42,  1.47s/it]  7%|▋         | 3206/48845 [1:08:26<17:52:05,  1.41s/it]  7%|▋         | 3207/48845 [1:08:28<17:17:06,  1.36s/it]  7%|▋         | 3208/48845 [1:08:29<16:53:18,  1.33s/it]  7%|▋         | 3209/48845 [1:08:30<16:38:52,  1.31s/it]  7%|▋         | 3210/48845 [1:08:31<16:25:56,  1.30s/it]                                                         {'loss': 1.9297, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3210/48845 [1:08:31<16:25:56,  1.30s/it]  7%|▋         | 3211/48845 [1:08:33<16:16:50,  1.28s/it]  7%|▋         | 3212/48845 [1:08:34<16:11:10,  1.28s/it]  7%|▋         | 3213/48845 [1:08:35<16:07:39,  1.27s/it]  7%|▋         | 3214/48845 [1:08:36<16:05:01,  1.27s/it]  7%|▋         | 3215/48845 [1:08:38<16:02:43,  1.27s/it]                                                         {'loss': 1.8591, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3215/48845 [1:08:38<16:02:43,  1.27s/it]  7%|▋         | 3216/48845 [1:08:39<16:01:36,  1.26s/it]  7%|▋         | 3217/48845 [1:08:40<16:00:37,  1.26s/it]  7%|▋         | 3218/48845 [1:08:41<15:59:29,  1.26s/it]  7%|▋         | 3219/48845 [1:08:43<15:58:32,  1.26s/it]  7%|▋         | 3220/48845 [1:08:44<15:57:57,  1.26s/it]                                                         {'loss': 1.56, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3220/48845 [1:08:44<15:57:57,  1.26s/it]  7%|▋         | 3221/48845 [1:08:45<15:57:44,  1.26s/it]  7%|▋         | 3222/48845 [1:08:46<15:57:35,  1.26s/it]  7%|▋         | 3223/48845 [1:08:48<15:56:55,  1.26s/it]  7%|▋         | 3224/48845 [1:08:49<15:57:25,  1.26s/it]  7%|▋         | 3225/48845 [1:08:50<15:57:28,  1.26s/it]                                                         {'loss': 1.7052, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3225/48845 [1:08:50<15:57:28,  1.26s/it]  7%|▋         | 3226/48845 [1:08:51<15:57:53,  1.26s/it]  7%|▋         | 3227/48845 [1:08:53<15:58:06,  1.26s/it]  7%|▋         | 3228/48845 [1:08:54<15:57:47,  1.26s/it]  7%|▋         | 3229/48845 [1:08:55<15:57:24,  1.26s/it]  7%|▋         | 3230/48845 [1:08:56<15:58:16,  1.26s/it]                                                         {'loss': 1.7102, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3230/48845 [1:08:56<15:58:16,  1.26s/it]  7%|▋         | 3231/48845 [1:08:58<15:58:08,  1.26s/it]  7%|▋         | 3232/48845 [1:08:59<15:59:01,  1.26s/it]  7%|▋         | 3233/48845 [1:09:00<15:57:54,  1.26s/it]  7%|▋         | 3234/48845 [1:09:02<15:57:39,  1.26s/it]  7%|▋         | 3235/48845 [1:09:03<15:57:30,  1.26s/it]                                                         {'loss': 1.6209, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3235/48845 [1:09:03<15:57:30,  1.26s/it]  7%|▋         | 3236/48845 [1:09:04<15:57:11,  1.26s/it]  7%|▋         | 3237/48845 [1:09:05<15:58:55,  1.26s/it]  7%|▋         | 3238/48845 [1:09:07<15:58:12,  1.26s/it]  7%|▋         | 3239/48845 [1:09:08<15:57:06,  1.26s/it]  7%|▋         | 3240/48845 [1:09:09<15:56:42,  1.26s/it]                                                         {'loss': 1.8609, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3240/48845 [1:09:09<15:56:42,  1.26s/it]  7%|▋         | 3241/48845 [1:09:10<15:59:15,  1.26s/it]  7%|▋         | 3242/48845 [1:09:12<15:58:21,  1.26s/it]  7%|▋         | 3243/48845 [1:09:13<15:57:43,  1.26s/it]  7%|▋         | 3244/48845 [1:09:14<15:57:21,  1.26s/it]  7%|▋         | 3245/48845 [1:09:15<15:56:39,  1.26s/it]                                                         {'loss': 1.6058, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3245/48845 [1:09:15<15:56:39,  1.26s/it]  7%|▋         | 3246/48845 [1:09:17<15:56:42,  1.26s/it]  7%|▋         | 3247/48845 [1:09:18<15:57:13,  1.26s/it]  7%|▋         | 3248/48845 [1:09:19<15:58:25,  1.26s/it]  7%|▋         | 3249/48845 [1:09:20<15:57:42,  1.26s/it]  7%|▋         | 3250/48845 [1:09:22<15:58:03,  1.26s/it]                                                         {'loss': 1.5817, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3250/48845 [1:09:22<15:58:03,  1.26s/it]  7%|▋         | 3251/48845 [1:09:23<15:58:41,  1.26s/it]  7%|▋         | 3252/48845 [1:09:24<15:57:41,  1.26s/it]  7%|▋         | 3253/48845 [1:09:25<15:58:12,  1.26s/it]  7%|▋         | 3254/48845 [1:09:27<15:57:21,  1.26s/it]  7%|▋         | 3255/48845 [1:09:28<15:57:25,  1.26s/it]                                                         {'loss': 1.7997, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3255/48845 [1:09:28<15:57:25,  1.26s/it]  7%|▋         | 3256/48845 [1:09:29<15:57:33,  1.26s/it]  7%|▋         | 3257/48845 [1:09:31<15:57:22,  1.26s/it]  7%|▋         | 3258/48845 [1:09:32<15:56:56,  1.26s/it]  7%|▋         | 3259/48845 [1:09:33<15:56:27,  1.26s/it]  7%|▋         | 3260/48845 [1:09:34<16:34:14,  1.31s/it]                                                         {'loss': 1.6858, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3260/48845 [1:09:34<16:34:14,  1.31s/it]  7%|▋         | 3261/48845 [1:09:36<16:23:45,  1.29s/it]  7%|▋         | 3262/48845 [1:09:37<16:15:45,  1.28s/it]  7%|▋         | 3263/48845 [1:09:38<16:10:08,  1.28s/it]  7%|▋         | 3264/48845 [1:09:39<16:05:57,  1.27s/it]  7%|▋         | 3265/48845 [1:09:41<16:02:40,  1.27s/it]                                                         {'loss': 1.5272, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3265/48845 [1:09:41<16:02:40,  1.27s/it]  7%|▋         | 3266/48845 [1:09:42<16:01:14,  1.27s/it]  7%|▋         | 3267/48845 [1:09:43<15:59:01,  1.26s/it]  7%|▋         | 3268/48845 [1:09:45<15:58:07,  1.26s/it]  7%|▋         | 3269/48845 [1:09:46<15:57:00,  1.26s/it]  7%|▋         | 3270/48845 [1:09:47<15:56:50,  1.26s/it]                                                         {'loss': 1.584, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.33}
+  7%|▋         | 3270/48845 [1:09:47<15:56:50,  1.26s/it]  7%|▋         | 3271/48845 [1:09:48<15:58:35,  1.26s/it]  7%|▋         | 3272/48845 [1:09:50<15:57:26,  1.26s/it]  7%|▋         | 3273/48845 [1:09:51<15:57:22,  1.26s/it]  7%|▋         | 3274/48845 [1:09:52<15:57:58,  1.26s/it]  7%|▋         | 3275/48845 [1:09:53<15:57:33,  1.26s/it]                                                         {'loss': 1.5445, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3275/48845 [1:09:53<15:57:33,  1.26s/it]  7%|▋         | 3276/48845 [1:09:55<15:58:28,  1.26s/it]  7%|▋         | 3277/48845 [1:09:56<15:56:58,  1.26s/it]  7%|▋         | 3278/48845 [1:09:57<15:56:32,  1.26s/it]  7%|▋         | 3279/48845 [1:09:58<15:57:19,  1.26s/it]  7%|▋         | 3280/48845 [1:10:00<15:56:04,  1.26s/it]                                                         {'loss': 1.7573, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3280/48845 [1:10:00<15:56:04,  1.26s/it]  7%|▋         | 3281/48845 [1:10:01<15:58:26,  1.26s/it]  7%|▋         | 3282/48845 [1:10:02<15:57:50,  1.26s/it]  7%|▋         | 3283/48845 [1:10:03<15:57:09,  1.26s/it]  7%|▋         | 3284/48845 [1:10:05<15:56:43,  1.26s/it]  7%|▋         | 3285/48845 [1:10:06<15:56:31,  1.26s/it]                                                         {'loss': 1.8073, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3285/48845 [1:10:06<15:56:31,  1.26s/it]  7%|▋         | 3286/48845 [1:10:07<15:56:48,  1.26s/it]  7%|▋         | 3287/48845 [1:10:08<15:55:36,  1.26s/it]  7%|▋         | 3288/48845 [1:10:10<15:55:27,  1.26s/it]  7%|▋         | 3289/48845 [1:10:11<15:55:44,  1.26s/it]  7%|▋         | 3290/48845 [1:10:12<15:55:22,  1.26s/it]                                                         {'loss': 1.672, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3290/48845 [1:10:12<15:55:22,  1.26s/it]  7%|▋         | 3291/48845 [1:10:14<15:56:25,  1.26s/it]  7%|▋         | 3292/48845 [1:10:15<15:55:49,  1.26s/it]  7%|▋         | 3293/48845 [1:10:16<15:55:47,  1.26s/it]  7%|▋         | 3294/48845 [1:10:17<15:56:09,  1.26s/it]  7%|▋         | 3295/48845 [1:10:19<15:56:04,  1.26s/it]                                                         {'loss': 1.8763, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3295/48845 [1:10:19<15:56:04,  1.26s/it]  7%|▋         | 3296/48845 [1:10:20<15:56:56,  1.26s/it]  7%|▋         | 3297/48845 [1:10:21<15:55:49,  1.26s/it]  7%|▋         | 3298/48845 [1:10:22<15:55:57,  1.26s/it]  7%|▋         | 3299/48845 [1:10:24<15:56:28,  1.26s/it]  7%|▋         | 3300/48845 [1:10:25<15:55:55,  1.26s/it]                                                         {'loss': 1.7507, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3300/48845 [1:10:25<15:55:55,  1.26s/it]  7%|▋         | 3301/48845 [1:10:26<15:56:57,  1.26s/it]  7%|▋         | 3302/48845 [1:10:27<15:57:02,  1.26s/it]  7%|▋         | 3303/48845 [1:10:29<15:56:08,  1.26s/it]  7%|▋         | 3304/48845 [1:10:30<15:55:45,  1.26s/it]  7%|▋         | 3305/48845 [1:10:31<15:55:45,  1.26s/it]                                                         {'loss': 1.6992, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3305/48845 [1:10:31<15:55:45,  1.26s/it]  7%|▋         | 3306/48845 [1:10:32<15:56:00,  1.26s/it]  7%|▋         | 3307/48845 [1:10:34<15:55:43,  1.26s/it]  7%|▋         | 3308/48845 [1:10:35<15:55:30,  1.26s/it]  7%|▋         | 3309/48845 [1:10:36<15:55:42,  1.26s/it]  7%|▋         | 3310/48845 [1:10:37<15:55:40,  1.26s/it]                                                         {'loss': 1.6233, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3310/48845 [1:10:37<15:55:40,  1.26s/it]  7%|▋         | 3311/48845 [1:10:39<15:55:54,  1.26s/it]  7%|▋         | 3312/48845 [1:10:40<15:55:52,  1.26s/it]  7%|▋         | 3313/48845 [1:10:41<15:56:23,  1.26s/it]  7%|▋         | 3314/48845 [1:10:42<15:56:17,  1.26s/it]  7%|▋         | 3315/48845 [1:10:44<15:55:30,  1.26s/it]                                                         {'loss': 1.7642, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3315/48845 [1:10:44<15:55:30,  1.26s/it]  7%|▋         | 3316/48845 [1:10:45<15:55:33,  1.26s/it]  7%|▋         | 3317/48845 [1:10:46<15:55:09,  1.26s/it]  7%|▋         | 3318/48845 [1:10:48<15:55:28,  1.26s/it]  7%|▋         | 3319/48845 [1:10:49<15:56:05,  1.26s/it]  7%|▋         | 3320/48845 [1:10:50<15:55:12,  1.26s/it]                                                         {'loss': 1.9047, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3320/48845 [1:10:50<15:55:12,  1.26s/it]  7%|▋         | 3321/48845 [1:10:51<15:54:57,  1.26s/it]  7%|▋         | 3322/48845 [1:10:53<15:55:15,  1.26s/it]  7%|▋         | 3323/48845 [1:10:54<15:55:11,  1.26s/it]  7%|▋         | 3324/48845 [1:10:55<15:55:44,  1.26s/it]  7%|▋         | 3325/48845 [1:10:56<16:29:29,  1.30s/it]                                                         {'loss': 1.533, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3325/48845 [1:10:56<16:29:29,  1.30s/it]  7%|▋         | 3326/48845 [1:10:58<16:18:23,  1.29s/it]  7%|▋         | 3327/48845 [1:10:59<16:11:21,  1.28s/it]  7%|▋         | 3328/48845 [1:11:00<16:06:37,  1.27s/it]  7%|▋         | 3329/48845 [1:11:02<16:04:35,  1.27s/it]  7%|▋         | 3330/48845 [1:11:03<16:02:13,  1.27s/it]                                                         {'loss': 1.6131, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3330/48845 [1:11:03<16:02:13,  1.27s/it]  7%|▋         | 3331/48845 [1:11:04<16:00:22,  1.27s/it]  7%|▋         | 3332/48845 [1:11:05<15:59:42,  1.27s/it]  7%|▋         | 3333/48845 [1:11:07<16:00:15,  1.27s/it]  7%|▋         | 3334/48845 [1:11:08<15:59:22,  1.26s/it]  7%|▋         | 3335/48845 [1:11:09<15:58:28,  1.26s/it]                                                         {'loss': 1.4674, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3335/48845 [1:11:09<15:58:28,  1.26s/it]  7%|▋         | 3336/48845 [1:11:10<16:00:36,  1.27s/it]  7%|▋         | 3337/48845 [1:11:12<15:59:15,  1.26s/it]  7%|▋         | 3338/48845 [1:11:13<15:57:28,  1.26s/it]  7%|▋         | 3339/48845 [1:11:14<15:56:54,  1.26s/it]  7%|▋         | 3340/48845 [1:11:15<15:56:04,  1.26s/it]                                                         {'loss': 1.6444, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3340/48845 [1:11:15<15:56:04,  1.26s/it]  7%|▋         | 3341/48845 [1:11:17<15:56:18,  1.26s/it]  7%|▋         | 3342/48845 [1:11:18<15:56:12,  1.26s/it]  7%|▋         | 3343/48845 [1:11:19<15:55:45,  1.26s/it]  7%|▋         | 3344/48845 [1:11:20<15:55:45,  1.26s/it]  7%|▋         | 3345/48845 [1:11:22<15:55:11,  1.26s/it]                                                         {'loss': 1.6425, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3345/48845 [1:11:22<15:55:11,  1.26s/it]  7%|▋         | 3346/48845 [1:11:23<15:55:46,  1.26s/it]  7%|▋         | 3347/48845 [1:11:24<15:55:51,  1.26s/it]  7%|▋         | 3348/48845 [1:11:25<15:56:04,  1.26s/it]  7%|▋         | 3349/48845 [1:11:27<15:54:54,  1.26s/it]  7%|▋         | 3350/48845 [1:11:28<15:55:05,  1.26s/it]                                                         {'loss': 1.5462, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3350/48845 [1:11:28<15:55:05,  1.26s/it]  7%|▋         | 3351/48845 [1:11:29<15:56:57,  1.26s/it]  7%|▋         | 3352/48845 [1:11:31<15:56:15,  1.26s/it]  7%|▋         | 3353/48845 [1:11:32<15:56:13,  1.26s/it]  7%|▋         | 3354/48845 [1:11:33<15:56:01,  1.26s/it]  7%|▋         | 3355/48845 [1:11:34<15:56:16,  1.26s/it]                                                         {'loss': 1.788, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3355/48845 [1:11:34<15:56:16,  1.26s/it]  7%|▋         | 3356/48845 [1:11:36<15:57:12,  1.26s/it]  7%|▋         | 3357/48845 [1:11:37<15:55:55,  1.26s/it]  7%|▋         | 3358/48845 [1:11:38<15:55:30,  1.26s/it]  7%|▋         | 3359/48845 [1:11:40<16:34:34,  1.31s/it]  7%|▋         | 3360/48845 [1:11:41<16:24:15,  1.30s/it]                                                         {'loss': 1.6361, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3360/48845 [1:11:41<16:24:15,  1.30s/it]  7%|▋         | 3361/48845 [1:11:42<16:15:59,  1.29s/it]  7%|▋         | 3362/48845 [1:11:43<16:09:13,  1.28s/it]  7%|▋         | 3363/48845 [1:11:45<16:05:08,  1.27s/it]  7%|▋         | 3364/48845 [1:11:46<16:01:35,  1.27s/it]  7%|▋         | 3365/48845 [1:11:47<15:58:38,  1.26s/it]                                                         {'loss': 1.5642, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3365/48845 [1:11:47<15:58:38,  1.26s/it]  7%|▋         | 3366/48845 [1:11:48<15:57:18,  1.26s/it]  7%|▋         | 3367/48845 [1:11:50<15:56:09,  1.26s/it]  7%|▋         | 3368/48845 [1:11:51<15:55:39,  1.26s/it]  7%|▋         | 3369/48845 [1:11:52<15:54:23,  1.26s/it]  7%|▋         | 3370/48845 [1:11:53<15:54:40,  1.26s/it]                                                         {'loss': 1.8846, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.34}
+  7%|▋         | 3370/48845 [1:11:53<15:54:40,  1.26s/it]  7%|▋         | 3371/48845 [1:11:55<15:54:03,  1.26s/it]  7%|▋         | 3372/48845 [1:11:56<15:54:18,  1.26s/it]  7%|▋         | 3373/48845 [1:11:57<15:54:31,  1.26s/it]  7%|▋         | 3374/48845 [1:11:58<15:54:42,  1.26s/it]  7%|▋         | 3375/48845 [1:12:00<15:55:01,  1.26s/it]                                                         {'loss': 1.6727, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3375/48845 [1:12:00<15:55:01,  1.26s/it]  7%|▋         | 3376/48845 [1:12:01<15:54:02,  1.26s/it]  7%|▋         | 3377/48845 [1:12:02<15:53:54,  1.26s/it]  7%|▋         | 3378/48845 [1:12:03<15:55:04,  1.26s/it]  7%|▋         | 3379/48845 [1:12:05<15:53:50,  1.26s/it]  7%|▋         | 3380/48845 [1:12:06<15:54:45,  1.26s/it]                                                         {'loss': 1.6143, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3380/48845 [1:12:06<15:54:45,  1.26s/it]  7%|▋         | 3381/48845 [1:12:07<15:54:18,  1.26s/it]  7%|▋         | 3382/48845 [1:12:08<15:53:39,  1.26s/it]  7%|▋         | 3383/48845 [1:12:10<15:53:55,  1.26s/it]  7%|▋         | 3384/48845 [1:12:11<15:53:57,  1.26s/it]  7%|▋         | 3385/48845 [1:12:12<15:53:53,  1.26s/it]                                                         {'loss': 1.7023, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3385/48845 [1:12:12<15:53:53,  1.26s/it]  7%|▋         | 3386/48845 [1:12:14<15:53:59,  1.26s/it]  7%|▋         | 3387/48845 [1:12:15<15:54:03,  1.26s/it]  7%|▋         | 3388/48845 [1:12:16<15:54:57,  1.26s/it]  7%|▋         | 3389/48845 [1:12:17<15:54:20,  1.26s/it]  7%|▋         | 3390/48845 [1:12:19<15:54:54,  1.26s/it]                                                         {'loss': 1.7556, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3390/48845 [1:12:19<15:54:54,  1.26s/it]  7%|▋         | 3391/48845 [1:12:20<15:55:13,  1.26s/it]  7%|▋         | 3392/48845 [1:12:21<15:55:05,  1.26s/it]  7%|▋         | 3393/48845 [1:12:22<15:55:04,  1.26s/it]  7%|▋         | 3394/48845 [1:12:24<15:54:38,  1.26s/it]  7%|▋         | 3395/48845 [1:12:25<15:53:38,  1.26s/it]                                                         {'loss': 1.6709, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3395/48845 [1:12:25<15:53:38,  1.26s/it]  7%|▋         | 3396/48845 [1:12:26<15:55:11,  1.26s/it]  7%|▋         | 3397/48845 [1:12:27<15:54:44,  1.26s/it]  7%|▋         | 3398/48845 [1:12:29<15:55:08,  1.26s/it]  7%|▋         | 3399/48845 [1:12:30<15:55:24,  1.26s/it]  7%|▋         | 3400/48845 [1:12:31<15:54:20,  1.26s/it]                                                         {'loss': 1.5947, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3400/48845 [1:12:31<15:54:20,  1.26s/it]  7%|▋         | 3401/48845 [1:12:35<24:45:25,  1.96s/it]  7%|▋         | 3402/48845 [1:12:36<22:05:35,  1.75s/it]  7%|▋         | 3403/48845 [1:12:37<20:14:06,  1.60s/it]  7%|▋         | 3404/48845 [1:12:39<18:56:06,  1.50s/it]  7%|▋         | 3405/48845 [1:12:40<18:00:20,  1.43s/it]                                                         {'loss': 1.8104, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3405/48845 [1:12:40<18:00:20,  1.43s/it]  7%|▋         | 3406/48845 [1:12:41<17:22:54,  1.38s/it]  7%|▋         | 3407/48845 [1:12:42<16:57:06,  1.34s/it]  7%|▋         | 3408/48845 [1:12:44<16:37:31,  1.32s/it]  7%|▋         | 3409/48845 [1:12:45<16:24:27,  1.30s/it]  7%|▋         | 3410/48845 [1:12:46<16:14:48,  1.29s/it]                                                         {'loss': 1.8372, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3410/48845 [1:12:46<16:14:48,  1.29s/it]  7%|▋         | 3411/48845 [1:12:47<16:09:16,  1.28s/it]  7%|▋         | 3412/48845 [1:12:49<16:04:25,  1.27s/it]  7%|▋         | 3413/48845 [1:12:50<16:00:08,  1.27s/it]  7%|▋         | 3414/48845 [1:12:51<15:58:13,  1.27s/it]  7%|▋         | 3415/48845 [1:12:52<15:55:55,  1.26s/it]                                                         {'loss': 1.7576, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3415/48845 [1:12:52<15:55:55,  1.26s/it]  7%|▋         | 3416/48845 [1:12:54<15:54:54,  1.26s/it]  7%|▋         | 3417/48845 [1:12:55<15:54:18,  1.26s/it]  7%|▋         | 3418/48845 [1:12:56<15:53:34,  1.26s/it]  7%|▋         | 3419/48845 [1:12:57<15:53:36,  1.26s/it]  7%|▋         | 3420/48845 [1:12:59<15:53:28,  1.26s/it]                                                         {'loss': 1.5401, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3420/48845 [1:12:59<15:53:28,  1.26s/it]  7%|▋         | 3421/48845 [1:13:00<15:52:55,  1.26s/it]  7%|▋         | 3422/48845 [1:13:01<15:52:15,  1.26s/it]  7%|▋         | 3423/48845 [1:13:02<15:52:35,  1.26s/it]  7%|▋         | 3424/48845 [1:13:04<15:52:29,  1.26s/it]  7%|▋         | 3425/48845 [1:13:05<15:53:01,  1.26s/it]                                                         {'loss': 1.7471, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3425/48845 [1:13:05<15:53:01,  1.26s/it]  7%|▋         | 3426/48845 [1:13:06<15:52:45,  1.26s/it]  7%|▋         | 3427/48845 [1:13:07<15:52:16,  1.26s/it]  7%|▋         | 3428/48845 [1:13:09<15:51:59,  1.26s/it]  7%|▋         | 3429/48845 [1:13:10<15:52:01,  1.26s/it]  7%|▋         | 3430/48845 [1:13:11<15:53:22,  1.26s/it]                                                         {'loss': 1.7734, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3430/48845 [1:13:11<15:53:22,  1.26s/it]  7%|▋         | 3431/48845 [1:13:13<15:54:09,  1.26s/it]  7%|▋         | 3432/48845 [1:13:14<15:53:42,  1.26s/it]  7%|▋         | 3433/48845 [1:13:15<15:55:16,  1.26s/it]  7%|▋         | 3434/48845 [1:13:16<15:54:28,  1.26s/it]  7%|▋         | 3435/48845 [1:13:18<15:56:39,  1.26s/it]                                                         {'loss': 1.6655, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3435/48845 [1:13:18<15:56:39,  1.26s/it]  7%|▋         | 3436/48845 [1:13:19<15:57:02,  1.26s/it]  7%|▋         | 3437/48845 [1:13:20<16:27:04,  1.30s/it]  7%|▋         | 3438/48845 [1:13:22<16:16:05,  1.29s/it]  7%|▋         | 3439/48845 [1:13:23<16:09:42,  1.28s/it]  7%|▋         | 3440/48845 [1:13:24<16:05:45,  1.28s/it]                                                         {'loss': 1.6293, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3440/48845 [1:13:24<16:05:45,  1.28s/it]  7%|▋         | 3441/48845 [1:13:25<16:22:41,  1.30s/it]  7%|▋         | 3442/48845 [1:13:27<16:14:16,  1.29s/it]  7%|▋         | 3443/48845 [1:13:28<16:07:33,  1.28s/it]  7%|▋         | 3444/48845 [1:13:29<16:03:19,  1.27s/it]  7%|▋         | 3445/48845 [1:13:30<16:04:00,  1.27s/it]                                                         {'loss': 1.5553, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3445/48845 [1:13:30<16:04:00,  1.27s/it]  7%|▋         | 3446/48845 [1:13:32<16:01:18,  1.27s/it]  7%|▋         | 3447/48845 [1:13:33<15:59:00,  1.27s/it]  7%|▋         | 3448/48845 [1:13:34<15:57:15,  1.27s/it]  7%|▋         | 3449/48845 [1:13:35<15:56:03,  1.26s/it]  7%|▋         | 3450/48845 [1:13:37<15:54:43,  1.26s/it]                                                         {'loss': 1.6354, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3450/48845 [1:13:37<15:54:43,  1.26s/it]  7%|▋         | 3451/48845 [1:13:38<15:53:56,  1.26s/it]  7%|▋         | 3452/48845 [1:13:39<15:53:43,  1.26s/it]  7%|▋         | 3453/48845 [1:13:41<15:55:28,  1.26s/it]  7%|▋         | 3454/48845 [1:13:42<15:54:17,  1.26s/it]  7%|▋         | 3455/48845 [1:13:43<15:53:35,  1.26s/it]                                                         {'loss': 1.5138, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3455/48845 [1:13:43<15:53:35,  1.26s/it]  7%|▋         | 3456/48845 [1:13:44<15:52:35,  1.26s/it]  7%|▋         | 3457/48845 [1:13:46<16:20:58,  1.30s/it]  7%|▋         | 3458/48845 [1:13:47<16:13:03,  1.29s/it]  7%|▋         | 3459/48845 [1:13:48<16:07:02,  1.28s/it]  7%|▋         | 3460/48845 [1:13:49<16:02:40,  1.27s/it]                                                         {'loss': 1.4198, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3460/48845 [1:13:49<16:02:40,  1.27s/it]  7%|▋         | 3461/48845 [1:13:51<15:59:25,  1.27s/it]  7%|▋         | 3462/48845 [1:13:52<15:56:08,  1.26s/it]  7%|▋         | 3463/48845 [1:13:53<15:55:23,  1.26s/it]  7%|▋         | 3464/48845 [1:13:54<15:53:37,  1.26s/it]  7%|▋         | 3465/48845 [1:13:56<15:53:31,  1.26s/it]                                                         {'loss': 1.6891, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.35}
+  7%|▋         | 3465/48845 [1:13:56<15:53:31,  1.26s/it]  7%|▋         | 3466/48845 [1:13:57<15:53:04,  1.26s/it]  7%|▋         | 3467/48845 [1:13:58<15:53:11,  1.26s/it]  7%|▋         | 3468/48845 [1:14:00<15:53:09,  1.26s/it]  7%|▋         | 3469/48845 [1:14:01<15:52:32,  1.26s/it]  7%|▋         | 3470/48845 [1:14:02<15:52:44,  1.26s/it]                                                         {'loss': 1.7653, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3470/48845 [1:14:02<15:52:44,  1.26s/it]  7%|▋         | 3471/48845 [1:14:03<15:52:57,  1.26s/it]  7%|▋         | 3472/48845 [1:14:05<15:53:01,  1.26s/it]  7%|▋         | 3473/48845 [1:14:06<15:53:21,  1.26s/it]  7%|▋         | 3474/48845 [1:14:07<15:52:17,  1.26s/it]  7%|▋         | 3475/48845 [1:14:08<15:53:35,  1.26s/it]                                                         {'loss': 1.5604, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3475/48845 [1:14:08<15:53:35,  1.26s/it]  7%|▋         | 3476/48845 [1:14:10<15:53:37,  1.26s/it]  7%|▋         | 3477/48845 [1:14:11<15:54:03,  1.26s/it]  7%|▋         | 3478/48845 [1:14:12<15:52:58,  1.26s/it]  7%|▋         | 3479/48845 [1:14:13<15:52:40,  1.26s/it]  7%|▋         | 3480/48845 [1:14:15<15:53:23,  1.26s/it]                                                         {'loss': 1.8321, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3480/48845 [1:14:15<15:53:23,  1.26s/it]  7%|▋         | 3481/48845 [1:14:16<16:35:08,  1.32s/it]  7%|▋         | 3482/48845 [1:14:17<16:21:38,  1.30s/it]  7%|▋         | 3483/48845 [1:14:19<16:12:51,  1.29s/it]  7%|▋         | 3484/48845 [1:14:20<16:06:50,  1.28s/it]  7%|▋         | 3485/48845 [1:14:21<16:02:34,  1.27s/it]                                                         {'loss': 1.6882, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3485/48845 [1:14:21<16:02:34,  1.27s/it]  7%|▋         | 3486/48845 [1:14:22<16:00:26,  1.27s/it]  7%|▋         | 3487/48845 [1:14:24<15:58:09,  1.27s/it]  7%|▋         | 3488/48845 [1:14:25<15:56:56,  1.27s/it]  7%|▋         | 3489/48845 [1:14:26<15:55:27,  1.26s/it]  7%|▋         | 3490/48845 [1:14:27<15:54:02,  1.26s/it]                                                         {'loss': 1.6127, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3490/48845 [1:14:27<15:54:02,  1.26s/it]  7%|▋         | 3491/48845 [1:14:29<15:54:14,  1.26s/it]  7%|▋         | 3492/48845 [1:14:30<15:53:26,  1.26s/it]  7%|▋         | 3493/48845 [1:14:31<15:53:22,  1.26s/it]  7%|▋         | 3494/48845 [1:14:32<15:52:43,  1.26s/it]  7%|▋         | 3495/48845 [1:14:34<15:52:37,  1.26s/it]                                                         {'loss': 1.5832, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3495/48845 [1:14:34<15:52:37,  1.26s/it]  7%|▋         | 3496/48845 [1:14:35<15:53:16,  1.26s/it]  7%|▋         | 3497/48845 [1:14:36<15:52:30,  1.26s/it]  7%|▋         | 3498/48845 [1:14:38<15:52:19,  1.26s/it]  7%|▋         | 3499/48845 [1:14:39<15:52:42,  1.26s/it]  7%|▋         | 3500/48845 [1:14:40<15:51:12,  1.26s/it]                                                         {'loss': 1.7957, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3500/48845 [1:14:40<15:51:12,  1.26s/it]  7%|▋         | 3501/48845 [1:14:41<15:53:22,  1.26s/it]  7%|▋         | 3502/48845 [1:14:43<15:52:57,  1.26s/it]  7%|▋         | 3503/48845 [1:14:44<15:52:23,  1.26s/it]  7%|▋         | 3504/48845 [1:14:45<15:54:11,  1.26s/it]  7%|▋         | 3505/48845 [1:14:46<15:53:17,  1.26s/it]                                                         {'loss': 1.73, 'learning_rate': 3.922369074599331e-05, 'epoch': 0.36}
+  7%|▋         | 3505/48845 [1:14:46<15:53:17,  1.26s/it]  7%|▋         | 3506/48845 [1:14:48<15:53:48,  1.26s/it]  7%|▋         | 3507/48845 [1:14:49<15:52:36,  1.26s/it]  7%|▋         | 3508/48845 [1:14:50<16:37:19,  1.32s/it]  7%|▋         | 3509/48845 [1:14:52<16:25:28,  1.30s/it]  7%|▋         | 3510/48845 [1:14:53<16:15:03,  1.29s/it]                                                         {'loss': 1.6836, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3510/48845 [1:14:53<16:15:03,  1.29s/it]  7%|▋         | 3511/48845 [1:14:54<16:09:48,  1.28s/it]  7%|▋         | 3512/48845 [1:14:55<16:05:56,  1.28s/it]  7%|▋         | 3513/48845 [1:14:57<16:01:46,  1.27s/it]  7%|▋         | 3514/48845 [1:14:58<15:59:07,  1.27s/it]  7%|▋         | 3515/48845 [1:14:59<15:56:05,  1.27s/it]                                                         {'loss': 1.9877, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3515/48845 [1:14:59<15:56:05,  1.27s/it]  7%|▋         | 3516/48845 [1:15:00<15:54:34,  1.26s/it]  7%|▋         | 3517/48845 [1:15:02<16:03:03,  1.27s/it]  7%|▋         | 3518/48845 [1:15:03<16:00:35,  1.27s/it]  7%|▋         | 3519/48845 [1:15:04<15:57:29,  1.27s/it]  7%|▋         | 3520/48845 [1:15:06<15:56:08,  1.27s/it]                                                         {'loss': 1.7863, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3520/48845 [1:15:06<15:56:08,  1.27s/it]  7%|▋         | 3521/48845 [1:15:07<15:55:10,  1.26s/it]  7%|▋         | 3522/48845 [1:15:08<15:54:09,  1.26s/it]  7%|▋         | 3523/48845 [1:15:09<15:53:07,  1.26s/it]  7%|▋         | 3524/48845 [1:15:11<15:58:40,  1.27s/it]  7%|▋         | 3525/48845 [1:15:12<15:56:57,  1.27s/it]                                                         {'loss': 1.6989, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3525/48845 [1:15:12<15:56:57,  1.27s/it]  7%|▋         | 3526/48845 [1:15:13<15:54:57,  1.26s/it]  7%|▋         | 3527/48845 [1:15:14<15:55:06,  1.26s/it]  7%|▋         | 3528/48845 [1:15:16<15:56:32,  1.27s/it]  7%|▋         | 3529/48845 [1:15:17<15:57:58,  1.27s/it]  7%|▋         | 3530/48845 [1:15:18<15:56:15,  1.27s/it]                                                         {'loss': 1.7579, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3530/48845 [1:15:18<15:56:15,  1.27s/it]  7%|▋         | 3531/48845 [1:15:19<15:57:23,  1.27s/it]  7%|▋         | 3532/48845 [1:15:21<15:55:25,  1.27s/it]  7%|▋         | 3533/48845 [1:15:22<15:54:13,  1.26s/it]  7%|▋         | 3534/48845 [1:15:23<15:53:07,  1.26s/it]  7%|▋         | 3535/48845 [1:15:24<15:52:45,  1.26s/it]                                                         {'loss': 1.7709, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3535/48845 [1:15:24<15:52:45,  1.26s/it]  7%|▋         | 3536/48845 [1:15:26<15:52:21,  1.26s/it]  7%|▋         | 3537/48845 [1:15:27<15:51:47,  1.26s/it]  7%|▋         | 3538/48845 [1:15:28<15:51:38,  1.26s/it]  7%|▋         | 3539/48845 [1:15:30<15:51:29,  1.26s/it]  7%|▋         | 3540/48845 [1:15:31<15:51:27,  1.26s/it]                                                         {'loss': 1.6509, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3540/48845 [1:15:31<15:51:27,  1.26s/it]  7%|▋         | 3541/48845 [1:15:32<15:51:40,  1.26s/it]  7%|▋         | 3542/48845 [1:15:33<15:50:44,  1.26s/it]  7%|▋         | 3543/48845 [1:15:35<15:50:59,  1.26s/it]  7%|▋         | 3544/48845 [1:15:36<15:50:37,  1.26s/it]  7%|▋         | 3545/48845 [1:15:37<15:51:43,  1.26s/it]                                                         {'loss': 1.5309, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3545/48845 [1:15:37<15:51:43,  1.26s/it]  7%|▋         | 3546/48845 [1:15:38<15:51:22,  1.26s/it]  7%|▋         | 3547/48845 [1:15:40<15:52:11,  1.26s/it]  7%|▋         | 3548/48845 [1:15:41<15:53:11,  1.26s/it]  7%|▋         | 3549/48845 [1:15:42<15:52:45,  1.26s/it]  7%|▋         | 3550/48845 [1:15:43<15:52:50,  1.26s/it]                                                         {'loss': 1.5496, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3550/48845 [1:15:43<15:52:50,  1.26s/it]  7%|▋         | 3551/48845 [1:15:45<15:52:12,  1.26s/it]  7%|▋         | 3552/48845 [1:15:46<15:51:55,  1.26s/it]  7%|▋         | 3553/48845 [1:15:47<15:52:26,  1.26s/it]  7%|▋         | 3554/48845 [1:15:48<15:51:23,  1.26s/it]  7%|▋         | 3555/48845 [1:15:50<15:51:36,  1.26s/it]                                                         {'loss': 1.822, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3555/48845 [1:15:50<15:51:36,  1.26s/it]  7%|▋         | 3556/48845 [1:15:51<15:51:25,  1.26s/it]  7%|▋         | 3557/48845 [1:15:52<15:51:03,  1.26s/it]  7%|▋         | 3558/48845 [1:15:53<15:51:09,  1.26s/it]  7%|▋         | 3559/48845 [1:15:55<15:50:31,  1.26s/it]  7%|▋         | 3560/48845 [1:15:56<15:50:31,  1.26s/it]                                                         {'loss': 1.7849, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3560/48845 [1:15:56<15:50:31,  1.26s/it]  7%|▋         | 3561/48845 [1:15:57<15:50:45,  1.26s/it]  7%|▋         | 3562/48845 [1:15:59<15:50:53,  1.26s/it]  7%|▋         | 3563/48845 [1:16:00<15:53:26,  1.26s/it]  7%|▋         | 3564/48845 [1:16:01<15:53:49,  1.26s/it]  7%|▋         | 3565/48845 [1:16:02<15:57:25,  1.27s/it]                                                         {'loss': 1.8338, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.36}
+  7%|▋         | 3565/48845 [1:16:02<15:57:25,  1.27s/it]  7%|▋         | 3566/48845 [1:16:04<15:55:46,  1.27s/it]  7%|▋         | 3567/48845 [1:16:05<15:53:36,  1.26s/it]  7%|▋         | 3568/48845 [1:16:06<15:52:14,  1.26s/it]  7%|▋         | 3569/48845 [1:16:07<15:50:58,  1.26s/it]  7%|▋         | 3570/48845 [1:16:09<15:51:10,  1.26s/it]                                                         {'loss': 1.5074, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3570/48845 [1:16:09<15:51:10,  1.26s/it]  7%|▋         | 3571/48845 [1:16:10<15:50:52,  1.26s/it]  7%|▋         | 3572/48845 [1:16:11<15:49:16,  1.26s/it]  7%|▋         | 3573/48845 [1:16:12<15:50:19,  1.26s/it]  7%|▋         | 3574/48845 [1:16:14<15:49:40,  1.26s/it]  7%|▋         | 3575/48845 [1:16:15<15:49:48,  1.26s/it]                                                         {'loss': 1.9841, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3575/48845 [1:16:15<15:49:48,  1.26s/it]  7%|▋         | 3576/48845 [1:16:16<15:50:36,  1.26s/it]  7%|▋         | 3577/48845 [1:16:17<15:50:40,  1.26s/it]  7%|▋         | 3578/48845 [1:16:19<15:50:51,  1.26s/it]  7%|▋         | 3579/48845 [1:16:20<15:51:37,  1.26s/it]  7%|▋         | 3580/48845 [1:16:21<15:50:39,  1.26s/it]                                                         {'loss': 1.6909, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3580/48845 [1:16:21<15:50:39,  1.26s/it]  7%|▋         | 3581/48845 [1:16:22<15:49:52,  1.26s/it]  7%|▋         | 3582/48845 [1:16:24<15:49:22,  1.26s/it]  7%|▋         | 3583/48845 [1:16:25<15:49:43,  1.26s/it]  7%|▋         | 3584/48845 [1:16:26<15:50:17,  1.26s/it]  7%|▋         | 3585/48845 [1:16:28<15:50:02,  1.26s/it]                                                         {'loss': 1.5666, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3585/48845 [1:16:28<15:50:02,  1.26s/it]  7%|▋         | 3586/48845 [1:16:29<15:50:03,  1.26s/it]  7%|▋         | 3587/48845 [1:16:30<15:50:07,  1.26s/it]  7%|▋         | 3588/48845 [1:16:31<15:50:04,  1.26s/it]  7%|▋         | 3589/48845 [1:16:33<15:49:06,  1.26s/it]  7%|▋         | 3590/48845 [1:16:34<15:50:26,  1.26s/it]                                                         {'loss': 1.666, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3590/48845 [1:16:34<15:50:26,  1.26s/it]  7%|▋         | 3591/48845 [1:16:35<15:51:07,  1.26s/it]  7%|▋         | 3592/48845 [1:16:36<15:51:44,  1.26s/it]  7%|▋         | 3593/48845 [1:16:38<15:51:56,  1.26s/it]  7%|▋         | 3594/48845 [1:16:39<15:52:29,  1.26s/it]  7%|▋         | 3595/48845 [1:16:40<15:51:03,  1.26s/it]                                                         {'loss': 1.4352, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3595/48845 [1:16:40<15:51:03,  1.26s/it]  7%|▋         | 3596/48845 [1:16:41<15:50:21,  1.26s/it]  7%|▋         | 3597/48845 [1:16:43<15:49:58,  1.26s/it]  7%|▋         | 3598/48845 [1:16:44<15:49:42,  1.26s/it]  7%|▋         | 3599/48845 [1:16:45<15:50:09,  1.26s/it]  7%|▋         | 3600/48845 [1:16:46<15:50:06,  1.26s/it]                                                         {'loss': 1.7167, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3600/48845 [1:16:46<15:50:06,  1.26s/it]  7%|▋         | 3601/48845 [1:16:50<24:45:26,  1.97s/it]  7%|▋         | 3602/48845 [1:16:51<22:03:58,  1.76s/it]  7%|▋         | 3603/48845 [1:16:53<20:11:34,  1.61s/it]  7%|▋         | 3604/48845 [1:16:54<18:51:46,  1.50s/it]  7%|▋         | 3605/48845 [1:16:55<17:57:12,  1.43s/it]                                                         {'loss': 1.7578, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3605/48845 [1:16:55<17:57:12,  1.43s/it]  7%|▋         | 3606/48845 [1:16:56<17:19:40,  1.38s/it]  7%|▋         | 3607/48845 [1:16:58<16:52:08,  1.34s/it]  7%|▋         | 3608/48845 [1:16:59<16:33:55,  1.32s/it]  7%|▋         | 3609/48845 [1:17:00<16:20:29,  1.30s/it]  7%|▋         | 3610/48845 [1:17:01<16:10:28,  1.29s/it]                                                         {'loss': 1.6994, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3610/48845 [1:17:01<16:10:28,  1.29s/it]  7%|▋         | 3611/48845 [1:17:03<16:04:03,  1.28s/it]  7%|▋         | 3612/48845 [1:17:04<15:59:23,  1.27s/it]  7%|▋         | 3613/48845 [1:17:05<15:57:40,  1.27s/it]  7%|▋         | 3614/48845 [1:17:06<15:54:51,  1.27s/it]  7%|▋         | 3615/48845 [1:17:08<15:52:44,  1.26s/it]                                                         {'loss': 1.5122, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3615/48845 [1:17:08<15:52:44,  1.26s/it]  7%|▋         | 3616/48845 [1:17:09<15:51:22,  1.26s/it]  7%|▋         | 3617/48845 [1:17:10<15:49:45,  1.26s/it]  7%|▋         | 3618/48845 [1:17:11<15:49:40,  1.26s/it]  7%|▋         | 3619/48845 [1:17:13<15:49:48,  1.26s/it]  7%|▋         | 3620/48845 [1:17:14<15:49:24,  1.26s/it]                                                         {'loss': 1.8768, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3620/48845 [1:17:14<15:49:24,  1.26s/it]  7%|▋         | 3621/48845 [1:17:15<15:49:28,  1.26s/it]  7%|▋         | 3622/48845 [1:17:16<15:48:37,  1.26s/it]  7%|▋         | 3623/48845 [1:17:18<15:47:55,  1.26s/it]  7%|▋         | 3624/48845 [1:17:19<15:47:57,  1.26s/it]  7%|▋         | 3625/48845 [1:17:20<15:48:37,  1.26s/it]                                                         {'loss': 1.7147, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3625/48845 [1:17:20<15:48:37,  1.26s/it]  7%|▋         | 3626/48845 [1:17:22<15:48:18,  1.26s/it]  7%|▋         | 3627/48845 [1:17:23<15:48:51,  1.26s/it]  7%|▋         | 3628/48845 [1:17:24<15:49:01,  1.26s/it]  7%|▋         | 3629/48845 [1:17:25<15:49:36,  1.26s/it]  7%|▋         | 3630/48845 [1:17:27<15:49:37,  1.26s/it]                                                         {'loss': 1.907, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3630/48845 [1:17:27<15:49:37,  1.26s/it]  7%|▋         | 3631/48845 [1:17:28<15:49:35,  1.26s/it]  7%|▋         | 3632/48845 [1:17:29<15:48:55,  1.26s/it]  7%|▋         | 3633/48845 [1:17:30<15:48:20,  1.26s/it]  7%|▋         | 3634/48845 [1:17:32<15:48:29,  1.26s/it]  7%|▋         | 3635/48845 [1:17:33<15:52:16,  1.26s/it]                                                         {'loss': 1.6356, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3635/48845 [1:17:33<15:52:16,  1.26s/it]  7%|▋         | 3636/48845 [1:17:34<15:51:02,  1.26s/it]  7%|▋         | 3637/48845 [1:17:35<15:50:45,  1.26s/it]  7%|▋         | 3638/48845 [1:17:37<15:50:36,  1.26s/it]  7%|▋         | 3639/48845 [1:17:38<15:50:01,  1.26s/it]  7%|▋         | 3640/48845 [1:17:39<15:49:01,  1.26s/it]                                                         {'loss': 1.6467, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3640/48845 [1:17:39<15:49:01,  1.26s/it]  7%|▋         | 3641/48845 [1:17:40<15:48:57,  1.26s/it]  7%|▋         | 3642/48845 [1:17:42<15:49:12,  1.26s/it]  7%|▋         | 3643/48845 [1:17:43<15:49:52,  1.26s/it]  7%|▋         | 3644/48845 [1:17:44<15:48:35,  1.26s/it]  7%|▋         | 3645/48845 [1:17:45<15:48:27,  1.26s/it]                                                         {'loss': 1.6403, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3645/48845 [1:17:45<15:48:27,  1.26s/it]  7%|▋         | 3646/48845 [1:17:47<15:48:27,  1.26s/it]  7%|▋         | 3647/48845 [1:17:48<15:49:34,  1.26s/it]  7%|▋         | 3648/48845 [1:17:49<15:49:31,  1.26s/it]  7%|▋         | 3649/48845 [1:17:50<15:48:50,  1.26s/it]  7%|▋         | 3650/48845 [1:17:52<15:49:09,  1.26s/it]                                                         {'loss': 1.6142, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3650/48845 [1:17:52<15:49:09,  1.26s/it]  7%|▋         | 3651/48845 [1:17:53<15:48:27,  1.26s/it]  7%|▋         | 3652/48845 [1:17:54<15:48:15,  1.26s/it]  7%|▋         | 3653/48845 [1:17:56<15:49:32,  1.26s/it]  7%|▋         | 3654/48845 [1:17:57<15:48:47,  1.26s/it]  7%|▋         | 3655/48845 [1:17:58<15:47:52,  1.26s/it]                                                         {'loss': 1.5747, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3655/48845 [1:17:58<15:47:52,  1.26s/it]  7%|▋         | 3656/48845 [1:17:59<15:48:12,  1.26s/it]  7%|▋         | 3657/48845 [1:18:01<15:48:28,  1.26s/it]  7%|▋         | 3658/48845 [1:18:02<15:49:02,  1.26s/it]  7%|▋         | 3659/48845 [1:18:03<15:49:05,  1.26s/it]  7%|▋         | 3660/48845 [1:18:04<15:48:48,  1.26s/it]                                                         {'loss': 1.8252, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.37}
+  7%|▋         | 3660/48845 [1:18:04<15:48:48,  1.26s/it]  7%|▋         | 3661/48845 [1:18:06<15:49:02,  1.26s/it]  7%|▋         | 3662/48845 [1:18:07<15:48:56,  1.26s/it]  7%|▋         | 3663/48845 [1:18:08<15:49:04,  1.26s/it]  8%|▊         | 3664/48845 [1:18:09<15:48:37,  1.26s/it]  8%|▊         | 3665/48845 [1:18:11<15:48:57,  1.26s/it]                                                         {'loss': 1.5648, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3665/48845 [1:18:11<15:48:57,  1.26s/it]  8%|▊         | 3666/48845 [1:18:12<15:48:54,  1.26s/it]  8%|▊         | 3667/48845 [1:18:13<15:48:00,  1.26s/it]  8%|▊         | 3668/48845 [1:18:14<15:48:20,  1.26s/it]  8%|▊         | 3669/48845 [1:18:16<15:48:40,  1.26s/it]  8%|▊         | 3670/48845 [1:18:17<15:49:38,  1.26s/it]                                                         {'loss': 1.6061, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3670/48845 [1:18:17<15:49:38,  1.26s/it]  8%|▊         | 3671/48845 [1:18:18<15:48:52,  1.26s/it]  8%|▊         | 3672/48845 [1:18:19<15:48:47,  1.26s/it]  8%|▊         | 3673/48845 [1:18:21<15:48:51,  1.26s/it]  8%|▊         | 3674/48845 [1:18:22<15:48:17,  1.26s/it]  8%|▊         | 3675/48845 [1:18:23<15:47:51,  1.26s/it]                                                         {'loss': 1.6409, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3675/48845 [1:18:23<15:47:51,  1.26s/it]  8%|▊         | 3676/48845 [1:18:25<15:47:29,  1.26s/it]  8%|▊         | 3677/48845 [1:18:26<15:47:23,  1.26s/it]  8%|▊         | 3678/48845 [1:18:27<15:49:55,  1.26s/it]  8%|▊         | 3679/48845 [1:18:28<15:49:07,  1.26s/it]  8%|▊         | 3680/48845 [1:18:30<15:48:41,  1.26s/it]                                                         {'loss': 1.6508, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3680/48845 [1:18:30<15:48:41,  1.26s/it]  8%|▊         | 3681/48845 [1:18:31<15:48:03,  1.26s/it]  8%|▊         | 3682/48845 [1:18:32<15:48:34,  1.26s/it]  8%|▊         | 3683/48845 [1:18:33<15:48:34,  1.26s/it]  8%|▊         | 3684/48845 [1:18:35<15:48:18,  1.26s/it]  8%|▊         | 3685/48845 [1:18:36<15:48:37,  1.26s/it]                                                         {'loss': 1.4575, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3685/48845 [1:18:36<15:48:37,  1.26s/it]  8%|▊         | 3686/48845 [1:18:37<15:51:59,  1.26s/it]  8%|▊         | 3687/48845 [1:18:38<15:50:36,  1.26s/it]  8%|▊         | 3688/48845 [1:18:40<15:49:53,  1.26s/it]  8%|▊         | 3689/48845 [1:18:41<15:48:42,  1.26s/it]  8%|▊         | 3690/48845 [1:18:42<15:48:20,  1.26s/it]                                                         {'loss': 1.68, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3690/48845 [1:18:42<15:48:20,  1.26s/it]  8%|▊         | 3691/48845 [1:18:43<15:49:22,  1.26s/it]  8%|▊         | 3692/48845 [1:18:45<15:49:13,  1.26s/it]  8%|▊         | 3693/48845 [1:18:46<15:48:38,  1.26s/it]  8%|▊         | 3694/48845 [1:18:47<15:51:04,  1.26s/it]  8%|▊         | 3695/48845 [1:18:48<15:49:37,  1.26s/it]                                                         {'loss': 1.748, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3695/48845 [1:18:48<15:49:37,  1.26s/it]  8%|▊         | 3696/48845 [1:18:50<15:50:32,  1.26s/it]  8%|▊         | 3697/48845 [1:18:51<15:49:48,  1.26s/it]  8%|▊         | 3698/48845 [1:18:52<15:54:14,  1.27s/it]  8%|▊         | 3699/48845 [1:18:54<15:52:18,  1.27s/it]  8%|▊         | 3700/48845 [1:18:55<15:49:47,  1.26s/it]                                                         {'loss': 1.5119, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3700/48845 [1:18:55<15:49:47,  1.26s/it]  8%|▊         | 3701/48845 [1:18:56<15:49:10,  1.26s/it]  8%|▊         | 3702/48845 [1:18:57<15:49:57,  1.26s/it]  8%|▊         | 3703/48845 [1:18:59<15:47:47,  1.26s/it]  8%|▊         | 3704/48845 [1:19:00<15:47:13,  1.26s/it]  8%|▊         | 3705/48845 [1:19:01<15:47:49,  1.26s/it]                                                         {'loss': 1.498, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3705/48845 [1:19:01<15:47:49,  1.26s/it]  8%|▊         | 3706/48845 [1:19:02<15:51:21,  1.26s/it]  8%|▊         | 3707/48845 [1:19:04<15:50:31,  1.26s/it]  8%|▊         | 3708/48845 [1:19:05<15:49:01,  1.26s/it]  8%|▊         | 3709/48845 [1:19:06<15:48:20,  1.26s/it]  8%|▊         | 3710/48845 [1:19:07<15:49:15,  1.26s/it]                                                         {'loss': 2.1426, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3710/48845 [1:19:07<15:49:15,  1.26s/it]  8%|▊         | 3711/48845 [1:19:09<15:50:09,  1.26s/it]  8%|▊         | 3712/48845 [1:19:10<15:49:47,  1.26s/it]  8%|▊         | 3713/48845 [1:19:11<15:49:28,  1.26s/it]  8%|▊         | 3714/48845 [1:19:12<15:50:39,  1.26s/it]  8%|▊         | 3715/48845 [1:19:14<15:50:12,  1.26s/it]                                                         {'loss': 1.606, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3715/48845 [1:19:14<15:50:12,  1.26s/it]  8%|▊         | 3716/48845 [1:19:15<15:49:52,  1.26s/it]  8%|▊         | 3717/48845 [1:19:16<15:48:42,  1.26s/it]  8%|▊         | 3718/48845 [1:19:18<15:49:49,  1.26s/it]  8%|▊         | 3719/48845 [1:19:19<15:48:46,  1.26s/it]  8%|▊         | 3720/48845 [1:19:20<15:48:32,  1.26s/it]                                                         {'loss': 1.673, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3720/48845 [1:19:20<15:48:32,  1.26s/it]  8%|▊         | 3721/48845 [1:19:21<15:49:13,  1.26s/it]  8%|▊         | 3722/48845 [1:19:23<15:57:42,  1.27s/it]  8%|▊         | 3723/48845 [1:19:24<15:54:12,  1.27s/it]  8%|▊         | 3724/48845 [1:19:25<15:52:50,  1.27s/it]  8%|▊         | 3725/48845 [1:19:26<15:51:28,  1.27s/it]                                                         {'loss': 1.5294, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3725/48845 [1:19:26<15:51:28,  1.27s/it]  8%|▊         | 3726/48845 [1:19:28<15:51:24,  1.27s/it]  8%|▊         | 3727/48845 [1:19:29<15:50:16,  1.26s/it]  8%|▊         | 3728/48845 [1:19:30<15:49:34,  1.26s/it]  8%|▊         | 3729/48845 [1:19:31<16:02:28,  1.28s/it]  8%|▊         | 3730/48845 [1:19:33<15:57:05,  1.27s/it]                                                         {'loss': 1.7214, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3730/48845 [1:19:33<15:57:05,  1.27s/it]  8%|▊         | 3731/48845 [1:19:34<15:54:55,  1.27s/it]  8%|▊         | 3732/48845 [1:19:35<15:51:46,  1.27s/it]  8%|▊         | 3733/48845 [1:19:37<15:50:05,  1.26s/it]  8%|▊         | 3734/48845 [1:19:38<15:49:11,  1.26s/it]  8%|▊         | 3735/48845 [1:19:39<15:48:21,  1.26s/it]                                                         {'loss': 1.7291, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3735/48845 [1:19:39<15:48:21,  1.26s/it]  8%|▊         | 3736/48845 [1:19:40<15:48:12,  1.26s/it]  8%|▊         | 3737/48845 [1:19:42<15:47:29,  1.26s/it]  8%|▊         | 3738/48845 [1:19:43<15:48:54,  1.26s/it]  8%|▊         | 3739/48845 [1:19:44<15:47:57,  1.26s/it]  8%|▊         | 3740/48845 [1:19:45<15:47:06,  1.26s/it]                                                         {'loss': 1.5878, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3740/48845 [1:19:45<15:47:06,  1.26s/it]  8%|▊         | 3741/48845 [1:19:47<15:47:49,  1.26s/it]  8%|▊         | 3742/48845 [1:19:48<15:47:26,  1.26s/it]  8%|▊         | 3743/48845 [1:19:49<15:47:34,  1.26s/it]  8%|▊         | 3744/48845 [1:19:50<15:46:56,  1.26s/it]  8%|▊         | 3745/48845 [1:19:52<15:46:18,  1.26s/it]                                                         {'loss': 1.786, 'learning_rate': 3.928487400376905e-05, 'epoch': 0.38}
+  8%|▊         | 3745/48845 [1:19:52<15:46:18,  1.26s/it]  8%|▊         | 3746/48845 [1:19:53<15:47:43,  1.26s/it]  8%|▊         | 3747/48845 [1:19:54<15:47:12,  1.26s/it]  8%|▊         | 3748/48845 [1:19:56<16:34:36,  1.32s/it]  8%|▊         | 3749/48845 [1:19:57<16:20:18,  1.30s/it]  8%|▊         | 3750/48845 [1:19:58<16:11:33,  1.29s/it]                                                         {'loss': 1.5117, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.38}
+  8%|▊         | 3750/48845 [1:19:58<16:11:33,  1.29s/it]  8%|▊         | 3751/48845 [1:19:59<16:05:28,  1.28s/it]  8%|▊         | 3752/48845 [1:20:01<16:00:05,  1.28s/it]  8%|▊         | 3753/48845 [1:20:02<15:56:45,  1.27s/it]  8%|▊         | 3754/48845 [1:20:03<15:54:21,  1.27s/it]  8%|▊         | 3755/48845 [1:20:04<15:51:37,  1.27s/it]                                                         {'loss': 1.7317, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.38}
+  8%|▊         | 3755/48845 [1:20:04<15:51:37,  1.27s/it]  8%|▊         | 3756/48845 [1:20:06<15:50:45,  1.27s/it]  8%|▊         | 3757/48845 [1:20:07<15:49:38,  1.26s/it]  8%|▊         | 3758/48845 [1:20:08<15:48:18,  1.26s/it]  8%|▊         | 3759/48845 [1:20:10<15:47:36,  1.26s/it]  8%|▊         | 3760/48845 [1:20:11<15:47:02,  1.26s/it]                                                         {'loss': 1.7235, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.38}
+  8%|▊         | 3760/48845 [1:20:11<15:47:02,  1.26s/it]  8%|▊         | 3761/48845 [1:20:12<15:48:31,  1.26s/it]  8%|▊         | 3762/48845 [1:20:13<15:47:48,  1.26s/it]  8%|▊         | 3763/48845 [1:20:15<15:47:15,  1.26s/it]  8%|▊         | 3764/48845 [1:20:16<15:47:12,  1.26s/it]  8%|▊         | 3765/48845 [1:20:17<15:46:50,  1.26s/it]                                                         {'loss': 1.5369, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3765/48845 [1:20:17<15:46:50,  1.26s/it]  8%|▊         | 3766/48845 [1:20:18<15:47:00,  1.26s/it]  8%|▊         | 3767/48845 [1:20:20<15:46:31,  1.26s/it]  8%|▊         | 3768/48845 [1:20:21<15:46:08,  1.26s/it]  8%|▊         | 3769/48845 [1:20:22<15:46:38,  1.26s/it]  8%|▊         | 3770/48845 [1:20:23<15:45:41,  1.26s/it]                                                         {'loss': 1.5776, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3770/48845 [1:20:23<15:45:41,  1.26s/it]  8%|▊         | 3771/48845 [1:20:25<15:45:41,  1.26s/it]  8%|▊         | 3772/48845 [1:20:26<15:46:05,  1.26s/it]  8%|▊         | 3773/48845 [1:20:27<15:46:54,  1.26s/it]  8%|▊         | 3774/48845 [1:20:28<15:46:28,  1.26s/it]  8%|▊         | 3775/48845 [1:20:30<15:45:23,  1.26s/it]                                                         {'loss': 1.7255, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3775/48845 [1:20:30<15:45:23,  1.26s/it]  8%|▊         | 3776/48845 [1:20:31<15:45:55,  1.26s/it]  8%|▊         | 3777/48845 [1:20:32<15:46:08,  1.26s/it]  8%|▊         | 3778/48845 [1:20:33<15:45:44,  1.26s/it]  8%|▊         | 3779/48845 [1:20:35<15:45:52,  1.26s/it]  8%|▊         | 3780/48845 [1:20:36<15:45:40,  1.26s/it]                                                         {'loss': 1.6063, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3780/48845 [1:20:36<15:45:40,  1.26s/it]  8%|▊         | 3781/48845 [1:20:37<15:46:10,  1.26s/it]  8%|▊         | 3782/48845 [1:20:38<15:46:12,  1.26s/it]  8%|▊         | 3783/48845 [1:20:40<15:46:14,  1.26s/it]  8%|▊         | 3784/48845 [1:20:41<15:46:41,  1.26s/it]  8%|▊         | 3785/48845 [1:20:42<15:45:42,  1.26s/it]                                                         {'loss': 1.6264, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3785/48845 [1:20:42<15:45:42,  1.26s/it]  8%|▊         | 3786/48845 [1:20:44<15:45:31,  1.26s/it]  8%|▊         | 3787/48845 [1:20:45<15:45:57,  1.26s/it]  8%|▊         | 3788/48845 [1:20:46<15:45:47,  1.26s/it]  8%|▊         | 3789/48845 [1:20:47<15:46:10,  1.26s/it]  8%|▊         | 3790/48845 [1:20:49<15:45:20,  1.26s/it]                                                         {'loss': 1.663, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3790/48845 [1:20:49<15:45:20,  1.26s/it]  8%|▊         | 3791/48845 [1:20:50<15:45:35,  1.26s/it]  8%|▊         | 3792/48845 [1:20:51<15:45:56,  1.26s/it]  8%|▊         | 3793/48845 [1:20:52<15:45:39,  1.26s/it]  8%|▊         | 3794/48845 [1:20:54<15:45:27,  1.26s/it]  8%|▊         | 3795/48845 [1:20:55<15:45:24,  1.26s/it]                                                         {'loss': 1.6968, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3795/48845 [1:20:55<15:45:24,  1.26s/it]  8%|▊         | 3796/48845 [1:20:56<15:45:30,  1.26s/it]  8%|▊         | 3797/48845 [1:20:57<15:45:38,  1.26s/it]  8%|▊         | 3798/48845 [1:20:59<15:45:15,  1.26s/it]  8%|▊         | 3799/48845 [1:21:00<15:45:16,  1.26s/it]  8%|▊         | 3800/48845 [1:21:01<15:45:52,  1.26s/it]                                                         {'loss': 1.5007, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3800/48845 [1:21:01<15:45:52,  1.26s/it]  8%|▊         | 3801/48845 [1:21:05<24:41:23,  1.97s/it]  8%|▊         | 3802/48845 [1:21:06<22:00:49,  1.76s/it]  8%|▊         | 3803/48845 [1:21:07<20:07:45,  1.61s/it]  8%|▊         | 3804/48845 [1:21:09<18:48:40,  1.50s/it]  8%|▊         | 3805/48845 [1:21:10<17:53:59,  1.43s/it]                                                         {'loss': 1.7513, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3805/48845 [1:21:10<17:53:59,  1.43s/it]  8%|▊         | 3806/48845 [1:21:11<17:15:43,  1.38s/it]  8%|▊         | 3807/48845 [1:21:12<16:48:11,  1.34s/it]  8%|▊         | 3808/48845 [1:21:14<16:29:23,  1.32s/it]  8%|▊         | 3809/48845 [1:21:15<16:18:06,  1.30s/it]  8%|▊         | 3810/48845 [1:21:16<16:07:22,  1.29s/it]                                                         {'loss': 2.075, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3810/48845 [1:21:16<16:07:22,  1.29s/it]  8%|▊         | 3811/48845 [1:21:17<16:01:00,  1.28s/it]  8%|▊         | 3812/48845 [1:21:19<15:55:48,  1.27s/it]  8%|▊         | 3813/48845 [1:21:20<15:52:33,  1.27s/it]  8%|▊         | 3814/48845 [1:21:21<15:50:20,  1.27s/it]  8%|▊         | 3815/48845 [1:21:22<15:48:50,  1.26s/it]                                                         {'loss': 1.687, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3815/48845 [1:21:22<15:48:50,  1.26s/it]  8%|▊         | 3816/48845 [1:21:24<15:47:36,  1.26s/it]  8%|▊         | 3817/48845 [1:21:25<15:46:00,  1.26s/it]  8%|▊         | 3818/48845 [1:21:26<15:45:46,  1.26s/it]  8%|▊         | 3819/48845 [1:21:27<15:46:31,  1.26s/it]  8%|▊         | 3820/48845 [1:21:29<15:45:53,  1.26s/it]                                                         {'loss': 1.7637, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3820/48845 [1:21:29<15:45:53,  1.26s/it]  8%|▊         | 3821/48845 [1:21:30<15:45:07,  1.26s/it]  8%|▊         | 3822/48845 [1:21:31<15:45:24,  1.26s/it]  8%|▊         | 3823/48845 [1:21:33<15:44:52,  1.26s/it]  8%|▊         | 3824/48845 [1:21:34<15:45:24,  1.26s/it]  8%|▊         | 3825/48845 [1:21:35<15:45:05,  1.26s/it]                                                         {'loss': 1.4956, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3825/48845 [1:21:35<15:45:05,  1.26s/it]  8%|▊         | 3826/48845 [1:21:36<15:45:13,  1.26s/it]  8%|▊         | 3827/48845 [1:21:38<15:44:00,  1.26s/it]  8%|▊         | 3828/48845 [1:21:39<15:46:17,  1.26s/it]  8%|▊         | 3829/48845 [1:21:40<15:47:25,  1.26s/it]  8%|▊         | 3830/48845 [1:21:41<15:47:56,  1.26s/it]                                                         {'loss': 1.457, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3830/48845 [1:21:41<15:47:56,  1.26s/it]  8%|▊         | 3831/48845 [1:21:43<15:46:41,  1.26s/it]  8%|▊         | 3832/48845 [1:21:44<15:48:02,  1.26s/it]  8%|▊         | 3833/48845 [1:21:45<15:46:33,  1.26s/it]  8%|▊         | 3834/48845 [1:21:46<15:45:50,  1.26s/it]  8%|▊         | 3835/48845 [1:21:48<15:44:31,  1.26s/it]                                                         {'loss': 1.5972, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3835/48845 [1:21:48<15:44:31,  1.26s/it]  8%|▊         | 3836/48845 [1:21:49<15:44:46,  1.26s/it]  8%|▊         | 3837/48845 [1:21:50<15:44:56,  1.26s/it]  8%|▊         | 3838/48845 [1:21:51<15:45:23,  1.26s/it]  8%|▊         | 3839/48845 [1:21:53<15:45:31,  1.26s/it]  8%|▊         | 3840/48845 [1:21:54<15:44:42,  1.26s/it]                                                         {'loss': 1.6304, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3840/48845 [1:21:54<15:44:42,  1.26s/it]  8%|▊         | 3841/48845 [1:21:55<15:44:28,  1.26s/it]  8%|▊         | 3842/48845 [1:21:57<16:09:48,  1.29s/it]  8%|▊         | 3843/48845 [1:21:58<16:01:13,  1.28s/it]  8%|▊         | 3844/48845 [1:21:59<15:55:55,  1.27s/it]  8%|▊         | 3845/48845 [1:22:00<15:52:06,  1.27s/it]                                                         {'loss': 1.8431, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3845/48845 [1:22:00<15:52:06,  1.27s/it]  8%|▊         | 3846/48845 [1:22:02<15:51:02,  1.27s/it]  8%|▊         | 3847/48845 [1:22:03<15:49:32,  1.27s/it]  8%|▊         | 3848/48845 [1:22:04<15:48:31,  1.26s/it]  8%|▊         | 3849/48845 [1:22:05<15:47:06,  1.26s/it]  8%|▊         | 3850/48845 [1:22:07<15:46:29,  1.26s/it]                                                         {'loss': 1.6891, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3850/48845 [1:22:07<15:46:29,  1.26s/it]  8%|▊         | 3851/48845 [1:22:08<15:45:33,  1.26s/it]  8%|▊         | 3852/48845 [1:22:09<15:45:38,  1.26s/it]  8%|▊         | 3853/48845 [1:22:10<15:45:37,  1.26s/it]  8%|▊         | 3854/48845 [1:22:12<15:45:48,  1.26s/it]  8%|▊         | 3855/48845 [1:22:13<15:44:25,  1.26s/it]                                                         {'loss': 1.8208, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.39}
+  8%|▊         | 3855/48845 [1:22:13<15:44:25,  1.26s/it]  8%|▊         | 3856/48845 [1:22:14<15:43:50,  1.26s/it]  8%|▊         | 3857/48845 [1:22:15<15:44:10,  1.26s/it]  8%|▊         | 3858/48845 [1:22:17<15:43:11,  1.26s/it]  8%|▊         | 3859/48845 [1:22:18<15:43:11,  1.26s/it]  8%|▊         | 3860/48845 [1:22:19<15:43:48,  1.26s/it]                                                         {'loss': 1.8847, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3860/48845 [1:22:19<15:43:48,  1.26s/it]  8%|▊         | 3861/48845 [1:22:20<15:43:27,  1.26s/it]  8%|▊         | 3862/48845 [1:22:22<15:43:50,  1.26s/it]  8%|▊         | 3863/48845 [1:22:23<15:43:17,  1.26s/it]  8%|▊         | 3864/48845 [1:22:24<15:43:54,  1.26s/it]  8%|▊         | 3865/48845 [1:22:26<15:43:20,  1.26s/it]                                                         {'loss': 1.6289, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3865/48845 [1:22:26<15:43:20,  1.26s/it]  8%|▊         | 3866/48845 [1:22:27<15:43:30,  1.26s/it]  8%|▊         | 3867/48845 [1:22:28<15:43:26,  1.26s/it]  8%|▊         | 3868/48845 [1:22:29<15:44:48,  1.26s/it]  8%|▊         | 3869/48845 [1:22:31<15:44:49,  1.26s/it]  8%|▊         | 3870/48845 [1:22:32<15:43:58,  1.26s/it]                                                         {'loss': 1.6895, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3870/48845 [1:22:32<15:43:58,  1.26s/it]  8%|▊         | 3871/48845 [1:22:33<15:44:10,  1.26s/it]  8%|▊         | 3872/48845 [1:22:34<15:44:52,  1.26s/it]  8%|▊         | 3873/48845 [1:22:36<15:44:15,  1.26s/it]  8%|▊         | 3874/48845 [1:22:37<15:44:14,  1.26s/it]  8%|▊         | 3875/48845 [1:22:38<15:43:48,  1.26s/it]                                                         {'loss': 1.8058, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3875/48845 [1:22:38<15:43:48,  1.26s/it]  8%|▊         | 3876/48845 [1:22:39<15:43:50,  1.26s/it]  8%|▊         | 3877/48845 [1:22:41<15:44:24,  1.26s/it]  8%|▊         | 3878/48845 [1:22:42<15:44:47,  1.26s/it]  8%|▊         | 3879/48845 [1:22:43<15:44:46,  1.26s/it]  8%|▊         | 3880/48845 [1:22:44<15:44:11,  1.26s/it]                                                         {'loss': 1.6567, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3880/48845 [1:22:44<15:44:11,  1.26s/it]  8%|▊         | 3881/48845 [1:22:46<15:44:29,  1.26s/it]  8%|▊         | 3882/48845 [1:22:47<15:44:18,  1.26s/it]  8%|▊         | 3883/48845 [1:22:48<15:44:30,  1.26s/it]  8%|▊         | 3884/48845 [1:22:49<15:44:38,  1.26s/it]  8%|▊         | 3885/48845 [1:22:51<15:43:34,  1.26s/it]                                                         {'loss': 1.5769, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3885/48845 [1:22:51<15:43:34,  1.26s/it]  8%|▊         | 3886/48845 [1:22:52<15:44:07,  1.26s/it]  8%|▊         | 3887/48845 [1:22:53<15:44:47,  1.26s/it]  8%|▊         | 3888/48845 [1:22:55<15:43:42,  1.26s/it]  8%|▊         | 3889/48845 [1:22:56<15:43:43,  1.26s/it]  8%|▊         | 3890/48845 [1:22:57<15:43:27,  1.26s/it]                                                         {'loss': 1.7774, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3890/48845 [1:22:57<15:43:27,  1.26s/it]  8%|▊         | 3891/48845 [1:22:58<15:43:19,  1.26s/it]  8%|▊         | 3892/48845 [1:23:00<15:42:55,  1.26s/it]  8%|▊         | 3893/48845 [1:23:01<15:42:51,  1.26s/it]  8%|▊         | 3894/48845 [1:23:02<15:42:17,  1.26s/it]  8%|▊         | 3895/48845 [1:23:03<15:41:59,  1.26s/it]                                                         {'loss': 1.9018, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3895/48845 [1:23:03<15:41:59,  1.26s/it]  8%|▊         | 3896/48845 [1:23:05<15:42:27,  1.26s/it]  8%|▊         | 3897/48845 [1:23:06<15:42:03,  1.26s/it]  8%|▊         | 3898/48845 [1:23:07<15:42:59,  1.26s/it]  8%|▊         | 3899/48845 [1:23:08<15:42:43,  1.26s/it]  8%|▊         | 3900/48845 [1:23:10<15:43:59,  1.26s/it]                                                         {'loss': 1.7076, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3900/48845 [1:23:10<15:43:59,  1.26s/it]  8%|▊         | 3901/48845 [1:23:11<15:43:36,  1.26s/it]  8%|▊         | 3902/48845 [1:23:12<15:44:03,  1.26s/it]  8%|▊         | 3903/48845 [1:23:13<15:43:30,  1.26s/it]  8%|▊         | 3904/48845 [1:23:15<15:43:00,  1.26s/it]  8%|▊         | 3905/48845 [1:23:16<15:43:21,  1.26s/it]                                                         {'loss': 1.6451, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3905/48845 [1:23:16<15:43:21,  1.26s/it]  8%|▊         | 3906/48845 [1:23:17<15:43:54,  1.26s/it]  8%|▊         | 3907/48845 [1:23:18<15:43:41,  1.26s/it]  8%|▊         | 3908/48845 [1:23:20<15:44:39,  1.26s/it]  8%|▊         | 3909/48845 [1:23:21<15:44:57,  1.26s/it]  8%|▊         | 3910/48845 [1:23:22<15:44:41,  1.26s/it]                                                         {'loss': 1.676, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3910/48845 [1:23:22<15:44:41,  1.26s/it]  8%|▊         | 3911/48845 [1:23:23<15:44:39,  1.26s/it]  8%|▊         | 3912/48845 [1:23:25<15:45:47,  1.26s/it]  8%|▊         | 3913/48845 [1:23:26<15:44:41,  1.26s/it]  8%|▊         | 3914/48845 [1:23:27<15:44:33,  1.26s/it]  8%|▊         | 3915/48845 [1:23:29<15:44:45,  1.26s/it]                                                         {'loss': 1.5679, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3915/48845 [1:23:29<15:44:45,  1.26s/it]  8%|▊         | 3916/48845 [1:23:30<15:44:32,  1.26s/it]  8%|▊         | 3917/48845 [1:23:31<15:44:26,  1.26s/it]  8%|▊         | 3918/48845 [1:23:32<15:43:05,  1.26s/it]  8%|▊         | 3919/48845 [1:23:34<15:43:07,  1.26s/it]  8%|▊         | 3920/48845 [1:23:35<15:42:54,  1.26s/it]                                                         {'loss': 1.7574, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3920/48845 [1:23:35<15:42:54,  1.26s/it]  8%|▊         | 3921/48845 [1:23:36<15:42:40,  1.26s/it]  8%|▊         | 3922/48845 [1:23:37<15:42:27,  1.26s/it]  8%|▊         | 3923/48845 [1:23:39<15:42:13,  1.26s/it]  8%|▊         | 3924/48845 [1:23:40<15:42:24,  1.26s/it]  8%|▊         | 3925/48845 [1:23:41<15:42:05,  1.26s/it]                                                         {'loss': 1.779, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3925/48845 [1:23:41<15:42:05,  1.26s/it]  8%|▊         | 3926/48845 [1:23:42<15:42:42,  1.26s/it]  8%|▊         | 3927/48845 [1:23:44<15:42:32,  1.26s/it]  8%|▊         | 3928/48845 [1:23:45<15:42:24,  1.26s/it]  8%|▊         | 3929/48845 [1:23:46<15:42:45,  1.26s/it]  8%|▊         | 3930/48845 [1:23:47<15:42:25,  1.26s/it]                                                         {'loss': 1.5057, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3930/48845 [1:23:47<15:42:25,  1.26s/it]  8%|▊         | 3931/48845 [1:23:49<15:43:20,  1.26s/it]  8%|▊         | 3932/48845 [1:23:50<15:43:06,  1.26s/it]  8%|▊         | 3933/48845 [1:23:51<15:43:07,  1.26s/it]  8%|▊         | 3934/48845 [1:23:52<15:43:03,  1.26s/it]  8%|▊         | 3935/48845 [1:23:54<15:42:11,  1.26s/it]                                                         {'loss': 1.5955, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3935/48845 [1:23:54<15:42:11,  1.26s/it]  8%|▊         | 3936/48845 [1:23:55<15:41:55,  1.26s/it]  8%|▊         | 3937/48845 [1:23:56<15:42:56,  1.26s/it]  8%|▊         | 3938/48845 [1:23:57<15:42:32,  1.26s/it]  8%|▊         | 3939/48845 [1:23:59<15:43:26,  1.26s/it]  8%|▊         | 3940/48845 [1:24:00<15:42:48,  1.26s/it]                                                         {'loss': 1.7978, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3940/48845 [1:24:00<15:42:48,  1.26s/it]  8%|▊         | 3941/48845 [1:24:01<15:42:07,  1.26s/it]  8%|▊         | 3942/48845 [1:24:03<15:42:38,  1.26s/it]  8%|▊         | 3943/48845 [1:24:04<15:42:04,  1.26s/it]  8%|▊         | 3944/48845 [1:24:05<15:42:09,  1.26s/it]  8%|▊         | 3945/48845 [1:24:06<15:41:55,  1.26s/it]                                                         {'loss': 1.5598, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3945/48845 [1:24:06<15:41:55,  1.26s/it]  8%|▊         | 3946/48845 [1:24:08<15:41:33,  1.26s/it]  8%|▊         | 3947/48845 [1:24:09<15:42:10,  1.26s/it]  8%|▊         | 3948/48845 [1:24:10<15:42:11,  1.26s/it]  8%|▊         | 3949/48845 [1:24:11<15:42:41,  1.26s/it]  8%|▊         | 3950/48845 [1:24:13<15:42:22,  1.26s/it]                                                         {'loss': 1.8205, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3950/48845 [1:24:13<15:42:22,  1.26s/it]  8%|▊         | 3951/48845 [1:24:14<15:41:57,  1.26s/it]  8%|▊         | 3952/48845 [1:24:15<15:42:51,  1.26s/it]  8%|▊         | 3953/48845 [1:24:16<15:42:35,  1.26s/it]  8%|▊         | 3954/48845 [1:24:18<15:41:45,  1.26s/it]  8%|▊         | 3955/48845 [1:24:19<15:41:48,  1.26s/it]                                                         {'loss': 1.6151, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.4}
+  8%|▊         | 3955/48845 [1:24:19<15:41:48,  1.26s/it]  8%|▊         | 3956/48845 [1:24:20<15:42:58,  1.26s/it]  8%|▊         | 3957/48845 [1:24:21<15:44:09,  1.26s/it]  8%|▊         | 3958/48845 [1:24:23<15:42:18,  1.26s/it]  8%|▊         | 3959/48845 [1:24:24<15:42:35,  1.26s/it]  8%|▊         | 3960/48845 [1:24:25<15:43:24,  1.26s/it]                                                         {'loss': 1.5808, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3960/48845 [1:24:25<15:43:24,  1.26s/it]  8%|▊         | 3961/48845 [1:24:26<15:42:55,  1.26s/it]  8%|▊         | 3962/48845 [1:24:28<15:42:22,  1.26s/it]  8%|▊         | 3963/48845 [1:24:29<15:42:09,  1.26s/it]  8%|▊         | 3964/48845 [1:24:30<15:42:52,  1.26s/it]  8%|▊         | 3965/48845 [1:24:31<15:41:42,  1.26s/it]                                                         {'loss': 1.7333, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3965/48845 [1:24:31<15:41:42,  1.26s/it]  8%|▊         | 3966/48845 [1:24:33<15:41:34,  1.26s/it]  8%|▊         | 3967/48845 [1:24:34<15:41:48,  1.26s/it]  8%|▊         | 3968/48845 [1:24:35<15:41:37,  1.26s/it]  8%|▊         | 3969/48845 [1:24:37<15:41:15,  1.26s/it]  8%|▊         | 3970/48845 [1:24:38<15:40:39,  1.26s/it]                                                         {'loss': 1.7525, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3970/48845 [1:24:38<15:40:39,  1.26s/it]  8%|▊         | 3971/48845 [1:24:39<15:41:14,  1.26s/it]  8%|▊         | 3972/48845 [1:24:40<15:41:47,  1.26s/it]  8%|▊         | 3973/48845 [1:24:42<15:40:40,  1.26s/it]  8%|▊         | 3974/48845 [1:24:43<15:41:12,  1.26s/it]  8%|▊         | 3975/48845 [1:24:44<15:41:08,  1.26s/it]                                                         {'loss': 1.6966, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3975/48845 [1:24:44<15:41:08,  1.26s/it]  8%|▊         | 3976/48845 [1:24:45<15:41:34,  1.26s/it]  8%|▊         | 3977/48845 [1:24:47<15:41:38,  1.26s/it]  8%|▊         | 3978/48845 [1:24:48<15:41:32,  1.26s/it]  8%|▊         | 3979/48845 [1:24:49<15:41:30,  1.26s/it]  8%|▊         | 3980/48845 [1:24:50<15:41:17,  1.26s/it]                                                         {'loss': 1.6975, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3980/48845 [1:24:50<15:41:17,  1.26s/it]  8%|▊         | 3981/48845 [1:24:52<15:41:52,  1.26s/it]  8%|▊         | 3982/48845 [1:24:53<15:40:54,  1.26s/it]  8%|▊         | 3983/48845 [1:24:54<15:40:00,  1.26s/it]  8%|▊         | 3984/48845 [1:24:55<15:41:56,  1.26s/it]  8%|▊         | 3985/48845 [1:24:57<15:42:03,  1.26s/it]                                                         {'loss': 1.7943, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3985/48845 [1:24:57<15:42:03,  1.26s/it]  8%|▊         | 3986/48845 [1:24:58<15:41:57,  1.26s/it]  8%|▊         | 3987/48845 [1:24:59<15:42:26,  1.26s/it]  8%|▊         | 3988/48845 [1:25:00<15:41:59,  1.26s/it]  8%|▊         | 3989/48845 [1:25:02<15:41:52,  1.26s/it]  8%|▊         | 3990/48845 [1:25:03<15:42:43,  1.26s/it]                                                         {'loss': 1.6109, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3990/48845 [1:25:03<15:42:43,  1.26s/it]  8%|▊         | 3991/48845 [1:25:04<15:42:42,  1.26s/it]  8%|▊         | 3992/48845 [1:25:06<15:43:13,  1.26s/it]  8%|▊         | 3993/48845 [1:25:07<15:42:19,  1.26s/it]  8%|▊         | 3994/48845 [1:25:08<15:41:45,  1.26s/it]  8%|▊         | 3995/48845 [1:25:09<15:41:44,  1.26s/it]                                                         {'loss': 1.6455, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 3995/48845 [1:25:09<15:41:44,  1.26s/it]  8%|▊         | 3996/48845 [1:25:11<15:42:07,  1.26s/it]  8%|▊         | 3997/48845 [1:25:12<15:42:32,  1.26s/it]  8%|▊         | 3998/48845 [1:25:13<15:42:12,  1.26s/it]  8%|▊         | 3999/48845 [1:25:14<15:41:21,  1.26s/it]  8%|▊         | 4000/48845 [1:25:16<15:41:00,  1.26s/it]                                                         {'loss': 1.6508, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4000/48845 [1:25:16<15:41:00,  1.26s/it]  8%|▊         | 4001/48845 [1:25:19<24:30:14,  1.97s/it]  8%|▊         | 4002/48845 [1:25:20<21:51:48,  1.76s/it]  8%|▊         | 4003/48845 [1:25:22<20:00:02,  1.61s/it]  8%|▊         | 4004/48845 [1:25:23<18:41:29,  1.50s/it]  8%|▊         | 4005/48845 [1:25:24<17:46:14,  1.43s/it]                                                         {'loss': 1.5644, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4005/48845 [1:25:24<17:46:14,  1.43s/it]  8%|▊         | 4006/48845 [1:25:25<17:08:49,  1.38s/it]  8%|▊         | 4007/48845 [1:25:27<16:40:56,  1.34s/it]  8%|▊         | 4008/48845 [1:25:28<16:23:24,  1.32s/it]  8%|▊         | 4009/48845 [1:25:29<16:10:05,  1.30s/it]  8%|▊         | 4010/48845 [1:25:31<16:01:58,  1.29s/it]                                                         {'loss': 1.7219, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4010/48845 [1:25:31<16:01:58,  1.29s/it]  8%|▊         | 4011/48845 [1:25:32<15:57:25,  1.28s/it]  8%|▊         | 4012/48845 [1:25:33<15:52:07,  1.27s/it]  8%|▊         | 4013/48845 [1:25:34<15:49:43,  1.27s/it]  8%|▊         | 4014/48845 [1:25:36<15:46:43,  1.27s/it]  8%|▊         | 4015/48845 [1:25:37<15:45:18,  1.27s/it]                                                         {'loss': 1.7168, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4015/48845 [1:25:37<15:45:18,  1.27s/it]  8%|▊         | 4016/48845 [1:25:38<15:44:13,  1.26s/it]  8%|▊         | 4017/48845 [1:25:39<15:41:44,  1.26s/it]  8%|▊         | 4018/48845 [1:25:41<15:41:49,  1.26s/it]  8%|▊         | 4019/48845 [1:25:42<15:41:01,  1.26s/it]  8%|▊         | 4020/48845 [1:25:43<15:41:02,  1.26s/it]                                                         {'loss': 1.4424, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4020/48845 [1:25:43<15:41:02,  1.26s/it]  8%|▊         | 4021/48845 [1:25:44<15:40:14,  1.26s/it]  8%|▊         | 4022/48845 [1:25:46<15:39:56,  1.26s/it]  8%|▊         | 4023/48845 [1:25:47<15:40:32,  1.26s/it]  8%|▊         | 4024/48845 [1:25:48<15:40:46,  1.26s/it]  8%|▊         | 4025/48845 [1:25:49<15:40:43,  1.26s/it]                                                         {'loss': 1.6092, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4025/48845 [1:25:49<15:40:43,  1.26s/it]  8%|▊         | 4026/48845 [1:25:51<15:40:12,  1.26s/it]  8%|▊         | 4027/48845 [1:25:52<15:41:25,  1.26s/it]  8%|▊         | 4028/48845 [1:25:53<15:40:23,  1.26s/it]  8%|▊         | 4029/48845 [1:25:54<15:40:20,  1.26s/it]  8%|▊         | 4030/48845 [1:25:56<15:41:16,  1.26s/it]                                                         {'loss': 1.5093, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4030/48845 [1:25:56<15:41:16,  1.26s/it]  8%|▊         | 4031/48845 [1:25:57<16:04:55,  1.29s/it]  8%|▊         | 4032/48845 [1:25:58<15:58:29,  1.28s/it]  8%|▊         | 4033/48845 [1:26:00<15:55:27,  1.28s/it]  8%|▊         | 4034/48845 [1:26:01<15:51:17,  1.27s/it]  8%|▊         | 4035/48845 [1:26:02<16:05:42,  1.29s/it]                                                         {'loss': 1.5868, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4035/48845 [1:26:02<16:05:42,  1.29s/it]  8%|▊         | 4036/48845 [1:26:03<15:58:08,  1.28s/it]  8%|▊         | 4037/48845 [1:26:05<15:52:54,  1.28s/it]  8%|▊         | 4038/48845 [1:26:06<15:50:18,  1.27s/it]  8%|▊         | 4039/48845 [1:26:07<15:47:52,  1.27s/it]  8%|▊         | 4040/48845 [1:26:09<15:45:58,  1.27s/it]                                                         {'loss': 1.6192, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4040/48845 [1:26:09<15:45:58,  1.27s/it]  8%|▊         | 4041/48845 [1:26:10<15:43:44,  1.26s/it]  8%|▊         | 4042/48845 [1:26:11<15:44:10,  1.26s/it]  8%|▊         | 4043/48845 [1:26:12<15:42:27,  1.26s/it]  8%|▊         | 4044/48845 [1:26:14<15:42:47,  1.26s/it]  8%|▊         | 4045/48845 [1:26:15<15:41:56,  1.26s/it]                                                         {'loss': 1.6713, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4045/48845 [1:26:15<15:41:56,  1.26s/it]  8%|▊         | 4046/48845 [1:26:16<15:43:12,  1.26s/it]  8%|▊         | 4047/48845 [1:26:17<15:42:21,  1.26s/it]  8%|▊         | 4048/48845 [1:26:19<15:41:56,  1.26s/it]  8%|▊         | 4049/48845 [1:26:20<15:41:32,  1.26s/it]  8%|▊         | 4050/48845 [1:26:21<15:41:41,  1.26s/it]                                                         {'loss': 1.4693, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.41}
+  8%|▊         | 4050/48845 [1:26:21<15:41:41,  1.26s/it]  8%|▊         | 4051/48845 [1:26:22<15:41:48,  1.26s/it]  8%|▊         | 4052/48845 [1:26:24<15:41:53,  1.26s/it]  8%|▊         | 4053/48845 [1:26:25<15:41:55,  1.26s/it]  8%|▊         | 4054/48845 [1:26:26<15:41:56,  1.26s/it]  8%|▊         | 4055/48845 [1:26:27<15:40:58,  1.26s/it]                                                         {'loss': 1.7444, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4055/48845 [1:26:27<15:40:58,  1.26s/it]  8%|▊         | 4056/48845 [1:26:29<15:41:00,  1.26s/it]  8%|▊         | 4057/48845 [1:26:30<15:40:29,  1.26s/it]  8%|▊         | 4058/48845 [1:26:31<15:41:38,  1.26s/it]  8%|▊         | 4059/48845 [1:26:32<15:41:51,  1.26s/it]  8%|▊         | 4060/48845 [1:26:34<15:41:19,  1.26s/it]                                                         {'loss': 1.5469, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4060/48845 [1:26:34<15:41:19,  1.26s/it]  8%|▊         | 4061/48845 [1:26:35<15:42:30,  1.26s/it]  8%|▊         | 4062/48845 [1:26:36<15:41:56,  1.26s/it]  8%|▊         | 4063/48845 [1:26:38<15:41:23,  1.26s/it]  8%|▊         | 4064/48845 [1:26:39<15:41:40,  1.26s/it]  8%|▊         | 4065/48845 [1:26:40<15:41:55,  1.26s/it]                                                         {'loss': 1.6751, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4065/48845 [1:26:40<15:41:55,  1.26s/it]  8%|▊         | 4066/48845 [1:26:41<15:44:17,  1.27s/it]  8%|▊         | 4067/48845 [1:26:43<15:43:41,  1.26s/it]  8%|▊         | 4068/48845 [1:26:44<15:41:55,  1.26s/it]  8%|▊         | 4069/48845 [1:26:45<15:42:29,  1.26s/it]  8%|▊         | 4070/48845 [1:26:46<15:43:48,  1.26s/it]                                                         {'loss': 1.6167, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4070/48845 [1:26:46<15:43:48,  1.26s/it]  8%|▊         | 4071/48845 [1:26:48<15:42:41,  1.26s/it]  8%|▊         | 4072/48845 [1:26:49<15:41:45,  1.26s/it]  8%|▊         | 4073/48845 [1:26:50<15:40:54,  1.26s/it]  8%|▊         | 4074/48845 [1:26:51<15:41:13,  1.26s/it]  8%|▊         | 4075/48845 [1:26:53<15:41:15,  1.26s/it]                                                         {'loss': 1.7281, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4075/48845 [1:26:53<15:41:15,  1.26s/it]  8%|▊         | 4076/48845 [1:26:54<15:40:36,  1.26s/it]  8%|▊         | 4077/48845 [1:26:55<15:41:33,  1.26s/it]  8%|▊         | 4078/48845 [1:26:57<16:22:45,  1.32s/it]  8%|▊         | 4079/48845 [1:26:58<16:09:33,  1.30s/it]  8%|▊         | 4080/48845 [1:26:59<16:01:16,  1.29s/it]                                                         {'loss': 1.6805, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4080/48845 [1:26:59<16:01:16,  1.29s/it]  8%|▊         | 4081/48845 [1:27:00<15:55:14,  1.28s/it]  8%|▊         | 4082/48845 [1:27:02<15:52:29,  1.28s/it]  8%|▊         | 4083/48845 [1:27:03<15:48:36,  1.27s/it]  8%|▊         | 4084/48845 [1:27:04<15:47:32,  1.27s/it]  8%|▊         | 4085/48845 [1:27:05<15:46:29,  1.27s/it]                                                         {'loss': 1.7071, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4085/48845 [1:27:05<15:46:29,  1.27s/it]  8%|▊         | 4086/48845 [1:27:07<15:48:09,  1.27s/it]  8%|▊         | 4087/48845 [1:27:08<15:46:06,  1.27s/it]  8%|▊         | 4088/48845 [1:27:09<15:43:27,  1.26s/it]  8%|▊         | 4089/48845 [1:27:11<15:42:40,  1.26s/it]  8%|▊         | 4090/48845 [1:27:12<15:41:51,  1.26s/it]                                                         {'loss': 1.7754, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4090/48845 [1:27:12<15:41:51,  1.26s/it]  8%|▊         | 4091/48845 [1:27:13<15:41:23,  1.26s/it]  8%|▊         | 4092/48845 [1:27:14<15:40:27,  1.26s/it]  8%|▊         | 4093/48845 [1:27:16<15:39:53,  1.26s/it]  8%|▊         | 4094/48845 [1:27:17<15:39:34,  1.26s/it]  8%|▊         | 4095/48845 [1:27:18<15:40:30,  1.26s/it]                                                         {'loss': 1.8878, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4095/48845 [1:27:18<15:40:30,  1.26s/it]  8%|▊         | 4096/48845 [1:27:19<15:41:03,  1.26s/it]  8%|▊         | 4097/48845 [1:27:21<15:40:14,  1.26s/it]  8%|▊         | 4098/48845 [1:27:22<15:40:25,  1.26s/it]  8%|▊         | 4099/48845 [1:27:23<15:39:47,  1.26s/it]  8%|▊         | 4100/48845 [1:27:24<15:39:58,  1.26s/it]                                                         {'loss': 1.8004, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4100/48845 [1:27:24<15:39:58,  1.26s/it]  8%|▊         | 4101/48845 [1:27:26<15:40:41,  1.26s/it]  8%|▊         | 4102/48845 [1:27:27<15:41:48,  1.26s/it]  8%|▊         | 4103/48845 [1:27:28<15:41:37,  1.26s/it]  8%|▊         | 4104/48845 [1:27:29<15:42:08,  1.26s/it]  8%|▊         | 4105/48845 [1:27:31<15:41:48,  1.26s/it]                                                         {'loss': 1.4871, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4105/48845 [1:27:31<15:41:48,  1.26s/it]  8%|▊         | 4106/48845 [1:27:32<15:41:18,  1.26s/it]  8%|▊         | 4107/48845 [1:27:33<15:40:24,  1.26s/it]  8%|▊         | 4108/48845 [1:27:35<15:40:37,  1.26s/it]  8%|▊         | 4109/48845 [1:27:36<15:40:09,  1.26s/it]  8%|▊         | 4110/48845 [1:27:37<15:39:55,  1.26s/it]                                                         {'loss': 1.6599, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4110/48845 [1:27:37<15:39:55,  1.26s/it]  8%|▊         | 4111/48845 [1:27:38<15:40:18,  1.26s/it]  8%|▊         | 4112/48845 [1:27:40<15:39:46,  1.26s/it]  8%|▊         | 4113/48845 [1:27:41<15:39:42,  1.26s/it]  8%|▊         | 4114/48845 [1:27:42<15:40:31,  1.26s/it]  8%|▊         | 4115/48845 [1:27:43<15:39:53,  1.26s/it]                                                         {'loss': 1.7129, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4115/48845 [1:27:43<15:39:53,  1.26s/it]  8%|▊         | 4116/48845 [1:27:45<15:39:42,  1.26s/it]  8%|▊         | 4117/48845 [1:27:46<15:40:01,  1.26s/it]  8%|▊         | 4118/48845 [1:27:47<15:39:49,  1.26s/it]  8%|▊         | 4119/48845 [1:27:48<15:39:23,  1.26s/it]  8%|▊         | 4120/48845 [1:27:50<15:40:29,  1.26s/it]                                                         {'loss': 1.7229, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4120/48845 [1:27:50<15:40:29,  1.26s/it]  8%|▊         | 4121/48845 [1:27:51<15:40:08,  1.26s/it]  8%|▊         | 4122/48845 [1:27:52<15:40:42,  1.26s/it]  8%|▊         | 4123/48845 [1:27:53<15:40:12,  1.26s/it]  8%|▊         | 4124/48845 [1:27:55<15:39:11,  1.26s/it]  8%|▊         | 4125/48845 [1:27:56<15:38:08,  1.26s/it]                                                         {'loss': 1.7381, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4125/48845 [1:27:56<15:38:08,  1.26s/it]  8%|▊         | 4126/48845 [1:27:57<15:38:27,  1.26s/it]  8%|▊         | 4127/48845 [1:27:58<15:38:57,  1.26s/it]  8%|▊         | 4128/48845 [1:28:00<15:38:32,  1.26s/it]  8%|▊         | 4129/48845 [1:28:01<15:38:52,  1.26s/it]  8%|▊         | 4130/48845 [1:28:02<15:38:27,  1.26s/it]                                                         {'loss': 1.8051, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4130/48845 [1:28:02<15:38:27,  1.26s/it]  8%|▊         | 4131/48845 [1:28:03<15:38:51,  1.26s/it]  8%|▊         | 4132/48845 [1:28:05<15:39:38,  1.26s/it]  8%|▊         | 4133/48845 [1:28:06<15:39:29,  1.26s/it]  8%|▊         | 4134/48845 [1:28:07<15:39:31,  1.26s/it]  8%|▊         | 4135/48845 [1:28:09<15:39:05,  1.26s/it]                                                         {'loss': 1.6519, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4135/48845 [1:28:09<15:39:05,  1.26s/it]  8%|▊         | 4136/48845 [1:28:10<15:39:31,  1.26s/it]  8%|▊         | 4137/48845 [1:28:11<15:39:51,  1.26s/it]  8%|▊         | 4138/48845 [1:28:12<15:40:09,  1.26s/it]  8%|▊         | 4139/48845 [1:28:14<15:39:40,  1.26s/it]  8%|▊         | 4140/48845 [1:28:15<15:39:51,  1.26s/it]                                                         {'loss': 1.4739, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4140/48845 [1:28:15<15:39:51,  1.26s/it]  8%|▊         | 4141/48845 [1:28:16<15:39:26,  1.26s/it]  8%|▊         | 4142/48845 [1:28:17<15:38:40,  1.26s/it]  8%|▊         | 4143/48845 [1:28:19<15:42:30,  1.27s/it]  8%|▊         | 4144/48845 [1:28:20<15:41:12,  1.26s/it]  8%|▊         | 4145/48845 [1:28:21<15:40:21,  1.26s/it]                                                         {'loss': 1.6617, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4145/48845 [1:28:21<15:40:21,  1.26s/it]  8%|▊         | 4146/48845 [1:28:22<15:40:42,  1.26s/it]  8%|▊         | 4147/48845 [1:28:24<15:39:54,  1.26s/it]  8%|▊         | 4148/48845 [1:28:25<15:40:06,  1.26s/it]  8%|▊         | 4149/48845 [1:28:26<15:38:59,  1.26s/it]  8%|▊         | 4150/48845 [1:28:27<15:38:31,  1.26s/it]                                                         {'loss': 1.6395, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.42}
+  8%|▊         | 4150/48845 [1:28:27<15:38:31,  1.26s/it]  8%|▊         | 4151/48845 [1:28:29<15:38:16,  1.26s/it]  9%|▊         | 4152/48845 [1:28:30<15:37:54,  1.26s/it]  9%|▊         | 4153/48845 [1:28:31<15:39:18,  1.26s/it]  9%|▊         | 4154/48845 [1:28:33<15:40:41,  1.26s/it]  9%|▊         | 4155/48845 [1:28:34<15:39:28,  1.26s/it]                                                         {'loss': 1.6578, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4155/48845 [1:28:34<15:39:28,  1.26s/it]  9%|▊         | 4156/48845 [1:28:35<15:39:59,  1.26s/it]  9%|▊         | 4157/48845 [1:28:36<15:38:43,  1.26s/it]  9%|▊         | 4158/48845 [1:28:38<15:38:02,  1.26s/it]  9%|▊         | 4159/48845 [1:28:39<15:37:33,  1.26s/it]  9%|▊         | 4160/48845 [1:28:40<15:37:48,  1.26s/it]                                                         {'loss': 1.6419, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4160/48845 [1:28:40<15:37:48,  1.26s/it]  9%|▊         | 4161/48845 [1:28:41<15:37:06,  1.26s/it]  9%|▊         | 4162/48845 [1:28:43<15:44:05,  1.27s/it]  9%|▊         | 4163/48845 [1:28:44<15:42:27,  1.27s/it]  9%|▊         | 4164/48845 [1:28:45<15:41:58,  1.26s/it]  9%|▊         | 4165/48845 [1:28:46<15:40:40,  1.26s/it]                                                         {'loss': 1.5966, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4165/48845 [1:28:46<15:40:40,  1.26s/it]  9%|▊         | 4166/48845 [1:28:48<15:40:18,  1.26s/it]  9%|▊         | 4167/48845 [1:28:49<15:39:15,  1.26s/it]  9%|▊         | 4168/48845 [1:28:50<15:38:00,  1.26s/it]  9%|▊         | 4169/48845 [1:28:51<15:38:44,  1.26s/it]  9%|▊         | 4170/48845 [1:28:53<15:38:29,  1.26s/it]                                                         {'loss': 1.699, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4170/48845 [1:28:53<15:38:29,  1.26s/it]  9%|▊         | 4171/48845 [1:28:54<15:39:43,  1.26s/it]  9%|▊         | 4172/48845 [1:28:55<15:38:28,  1.26s/it]  9%|▊         | 4173/48845 [1:28:56<15:37:59,  1.26s/it]  9%|▊         | 4174/48845 [1:28:58<15:37:54,  1.26s/it]  9%|▊         | 4175/48845 [1:28:59<15:38:00,  1.26s/it]                                                         {'loss': 1.8605, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4175/48845 [1:28:59<15:38:00,  1.26s/it]  9%|▊         | 4176/48845 [1:29:00<15:38:35,  1.26s/it]  9%|▊         | 4177/48845 [1:29:02<15:37:36,  1.26s/it]  9%|▊         | 4178/48845 [1:29:03<15:37:50,  1.26s/it]  9%|▊         | 4179/48845 [1:29:04<15:38:40,  1.26s/it]  9%|▊         | 4180/48845 [1:29:05<15:38:07,  1.26s/it]                                                         {'loss': 1.5083, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4180/48845 [1:29:05<15:38:07,  1.26s/it]  9%|▊         | 4181/48845 [1:29:07<15:38:06,  1.26s/it]  9%|▊         | 4182/48845 [1:29:08<15:36:25,  1.26s/it]  9%|▊         | 4183/48845 [1:29:09<15:37:23,  1.26s/it]  9%|▊         | 4184/48845 [1:29:10<15:38:18,  1.26s/it]  9%|▊         | 4185/48845 [1:29:12<15:37:31,  1.26s/it]                                                         {'loss': 1.7095, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4185/48845 [1:29:12<15:37:31,  1.26s/it]  9%|▊         | 4186/48845 [1:29:13<15:38:37,  1.26s/it]  9%|▊         | 4187/48845 [1:29:14<15:38:20,  1.26s/it]  9%|▊         | 4188/48845 [1:29:15<15:38:12,  1.26s/it]  9%|▊         | 4189/48845 [1:29:17<15:37:39,  1.26s/it]  9%|▊         | 4190/48845 [1:29:18<15:37:47,  1.26s/it]                                                         {'loss': 1.5447, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4190/48845 [1:29:18<15:37:47,  1.26s/it]  9%|▊         | 4191/48845 [1:29:19<15:38:14,  1.26s/it]  9%|▊         | 4192/48845 [1:29:20<15:38:45,  1.26s/it]  9%|▊         | 4193/48845 [1:29:22<15:38:54,  1.26s/it]  9%|▊         | 4194/48845 [1:29:23<15:38:31,  1.26s/it]  9%|▊         | 4195/48845 [1:29:24<15:38:00,  1.26s/it]                                                         {'loss': 1.6163, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4195/48845 [1:29:24<15:38:00,  1.26s/it]  9%|▊         | 4196/48845 [1:29:25<15:38:46,  1.26s/it]  9%|▊         | 4197/48845 [1:29:27<15:38:30,  1.26s/it]  9%|▊         | 4198/48845 [1:29:28<15:37:52,  1.26s/it]  9%|▊         | 4199/48845 [1:29:29<15:37:20,  1.26s/it]  9%|▊         | 4200/48845 [1:29:30<15:37:16,  1.26s/it]                                                         {'loss': 1.6245, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4200/48845 [1:29:31<15:37:16,  1.26s/it]  9%|▊         | 4201/48845 [1:29:34<24:22:43,  1.97s/it]  9%|▊         | 4202/48845 [1:29:35<21:44:41,  1.75s/it]  9%|▊         | 4203/48845 [1:29:37<19:55:13,  1.61s/it]  9%|▊         | 4204/48845 [1:29:38<18:36:24,  1.50s/it]  9%|▊         | 4205/48845 [1:29:39<17:43:48,  1.43s/it]                                                         {'loss': 1.5774, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4205/48845 [1:29:39<17:43:48,  1.43s/it]  9%|▊         | 4206/48845 [1:29:40<17:08:17,  1.38s/it]  9%|▊         | 4207/48845 [1:29:42<16:41:19,  1.35s/it]  9%|▊         | 4208/48845 [1:29:43<16:22:03,  1.32s/it]  9%|▊         | 4209/48845 [1:29:44<16:07:32,  1.30s/it]  9%|▊         | 4210/48845 [1:29:45<15:57:38,  1.29s/it]                                                         {'loss': 1.6808, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4210/48845 [1:29:45<15:57:38,  1.29s/it]  9%|▊         | 4211/48845 [1:29:47<15:52:32,  1.28s/it]  9%|▊         | 4212/48845 [1:29:48<15:47:15,  1.27s/it]  9%|▊         | 4213/48845 [1:29:49<15:43:57,  1.27s/it]  9%|▊         | 4214/48845 [1:29:50<15:41:11,  1.27s/it]  9%|▊         | 4215/48845 [1:29:52<15:39:27,  1.26s/it]                                                         {'loss': 1.8127, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4215/48845 [1:29:52<15:39:27,  1.26s/it]  9%|▊         | 4216/48845 [1:29:53<15:44:26,  1.27s/it]  9%|▊         | 4217/48845 [1:29:54<15:41:56,  1.27s/it]  9%|▊         | 4218/48845 [1:29:56<15:39:52,  1.26s/it]  9%|▊         | 4219/48845 [1:29:57<15:39:14,  1.26s/it]  9%|▊         | 4220/48845 [1:29:58<15:38:04,  1.26s/it]                                                         {'loss': 1.7429, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4220/48845 [1:29:58<15:38:04,  1.26s/it]  9%|▊         | 4221/48845 [1:29:59<15:37:38,  1.26s/it]  9%|▊         | 4222/48845 [1:30:01<15:37:15,  1.26s/it]  9%|▊         | 4223/48845 [1:30:02<15:36:36,  1.26s/it]  9%|▊         | 4224/48845 [1:30:03<15:37:03,  1.26s/it]  9%|▊         | 4225/48845 [1:30:04<15:39:03,  1.26s/it]                                                         {'loss': 1.8864, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4225/48845 [1:30:04<15:39:03,  1.26s/it]  9%|▊         | 4226/48845 [1:30:06<15:38:37,  1.26s/it]  9%|▊         | 4227/48845 [1:30:07<15:38:00,  1.26s/it]  9%|▊         | 4228/48845 [1:30:08<15:37:31,  1.26s/it]  9%|▊         | 4229/48845 [1:30:09<15:36:39,  1.26s/it]  9%|▊         | 4230/48845 [1:30:11<15:36:00,  1.26s/it]                                                         {'loss': 1.6645, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4230/48845 [1:30:11<15:36:00,  1.26s/it]  9%|▊         | 4231/48845 [1:30:12<15:35:54,  1.26s/it]  9%|▊         | 4232/48845 [1:30:13<15:35:34,  1.26s/it]  9%|▊         | 4233/48845 [1:30:14<15:35:28,  1.26s/it]  9%|▊         | 4234/48845 [1:30:16<15:35:52,  1.26s/it]  9%|▊         | 4235/48845 [1:30:17<15:36:24,  1.26s/it]                                                         {'loss': 1.6195, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4235/48845 [1:30:17<15:36:24,  1.26s/it]  9%|▊         | 4236/48845 [1:30:18<15:36:27,  1.26s/it]  9%|▊         | 4237/48845 [1:30:19<15:36:49,  1.26s/it]  9%|▊         | 4238/48845 [1:30:21<15:36:42,  1.26s/it]  9%|▊         | 4239/48845 [1:30:22<15:36:47,  1.26s/it]  9%|▊         | 4240/48845 [1:30:23<15:36:23,  1.26s/it]                                                         {'loss': 1.7605, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4240/48845 [1:30:23<15:36:23,  1.26s/it]  9%|▊         | 4241/48845 [1:30:25<15:37:28,  1.26s/it]  9%|▊         | 4242/48845 [1:30:26<15:39:54,  1.26s/it]  9%|▊         | 4243/48845 [1:30:27<15:39:11,  1.26s/it]  9%|▊         | 4244/48845 [1:30:28<15:38:03,  1.26s/it]  9%|▊         | 4245/48845 [1:30:30<15:37:20,  1.26s/it]                                                         {'loss': 1.7087, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.43}
+  9%|▊         | 4245/48845 [1:30:30<15:37:20,  1.26s/it]  9%|▊         | 4246/48845 [1:30:31<15:37:08,  1.26s/it]  9%|▊         | 4247/48845 [1:30:32<15:36:56,  1.26s/it]  9%|▊         | 4248/48845 [1:30:33<15:36:24,  1.26s/it]  9%|▊         | 4249/48845 [1:30:35<15:36:41,  1.26s/it]  9%|▊         | 4250/48845 [1:30:36<15:37:31,  1.26s/it]                                                         {'loss': 1.7537, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.44}
+  9%|▊         | 4250/48845 [1:30:36<15:37:31,  1.26s/it]  9%|▊         | 4251/48845 [1:30:37<15:37:04,  1.26s/it]  9%|▊         | 4252/48845 [1:30:38<15:36:52,  1.26s/it]  9%|▊         | 4253/48845 [1:30:40<15:36:37,  1.26s/it]  9%|▊         | 4254/48845 [1:30:41<15:37:09,  1.26s/it]  9%|▊         | 4255/48845 [1:30:42<15:35:59,  1.26s/it]                                                         {'loss': 1.6194, 'learning_rate': 3.934559549670839e-05, 'epoch': 0.44}
+  9%|▊         | 4255/48845 [1:30:42<15:35:59,  1.26s/it]  9%|▊         | 4256/48845 [1:30:43<15:35:50,  1.26s/it]  9%|▊         | 4257/48845 [1:30:45<15:35:57,  1.26s/it]  9%|▊         | 4258/48845 [1:30:46<15:35:24,  1.26s/it]  9%|▊         | 4259/48845 [1:30:47<15:35:10,  1.26s/it]  9%|▊         | 4260/48845 [1:30:49<16:22:30,  1.32s/it]                                                         {'loss': 1.7002, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▊         | 4260/48845 [1:30:49<16:22:30,  1.32s/it]  9%|▊         | 4261/48845 [1:30:50<16:09:01,  1.30s/it]  9%|▊         | 4262/48845 [1:30:51<15:59:30,  1.29s/it]  9%|▊         | 4263/48845 [1:30:52<15:52:32,  1.28s/it]  9%|▊         | 4264/48845 [1:30:54<15:49:07,  1.28s/it]  9%|▊         | 4265/48845 [1:30:55<15:46:07,  1.27s/it]                                                         {'loss': 1.6025, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▊         | 4265/48845 [1:30:55<15:46:07,  1.27s/it]  9%|▊         | 4266/48845 [1:30:56<15:43:18,  1.27s/it]  9%|▊         | 4267/48845 [1:30:58<15:40:20,  1.27s/it]  9%|▊         | 4268/48845 [1:30:59<15:38:50,  1.26s/it]  9%|▊         | 4269/48845 [1:31:00<15:37:59,  1.26s/it]  9%|▊         | 4270/48845 [1:31:01<15:37:45,  1.26s/it]                                                         {'loss': 1.6361, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▊         | 4270/48845 [1:31:01<15:37:45,  1.26s/it]  9%|▊         | 4271/48845 [1:31:03<15:37:47,  1.26s/it]  9%|▊         | 4272/48845 [1:31:04<15:36:47,  1.26s/it]  9%|▊         | 4273/48845 [1:31:05<15:35:31,  1.26s/it]  9%|▉         | 4274/48845 [1:31:06<15:34:40,  1.26s/it]  9%|▉         | 4275/48845 [1:31:08<15:34:59,  1.26s/it]                                                         {'loss': 1.4709, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4275/48845 [1:31:08<15:34:59,  1.26s/it]  9%|▉         | 4276/48845 [1:31:09<15:34:58,  1.26s/it]  9%|▉         | 4277/48845 [1:31:10<15:35:28,  1.26s/it]  9%|▉         | 4278/48845 [1:31:11<15:35:24,  1.26s/it]  9%|▉         | 4279/48845 [1:31:13<15:35:17,  1.26s/it]  9%|▉         | 4280/48845 [1:31:14<15:35:56,  1.26s/it]                                                         {'loss': 1.4957, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4280/48845 [1:31:14<15:35:56,  1.26s/it]  9%|▉         | 4281/48845 [1:31:15<15:35:24,  1.26s/it]  9%|▉         | 4282/48845 [1:31:16<15:36:42,  1.26s/it]  9%|▉         | 4283/48845 [1:31:18<15:36:18,  1.26s/it]  9%|▉         | 4284/48845 [1:31:19<15:36:01,  1.26s/it]  9%|▉         | 4285/48845 [1:31:20<15:36:35,  1.26s/it]                                                         {'loss': 1.4822, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4285/48845 [1:31:20<15:36:35,  1.26s/it]  9%|▉         | 4286/48845 [1:31:21<15:36:44,  1.26s/it]  9%|▉         | 4287/48845 [1:31:23<15:35:41,  1.26s/it]  9%|▉         | 4288/48845 [1:31:24<15:36:09,  1.26s/it]  9%|▉         | 4289/48845 [1:31:25<15:36:07,  1.26s/it]  9%|▉         | 4290/48845 [1:31:26<15:36:31,  1.26s/it]                                                         {'loss': 1.7332, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4290/48845 [1:31:26<15:36:31,  1.26s/it]  9%|▉         | 4291/48845 [1:31:28<15:36:31,  1.26s/it]  9%|▉         | 4292/48845 [1:31:29<15:36:30,  1.26s/it]  9%|▉         | 4293/48845 [1:31:30<15:36:24,  1.26s/it]  9%|▉         | 4294/48845 [1:31:32<15:36:42,  1.26s/it]  9%|▉         | 4295/48845 [1:31:33<15:37:01,  1.26s/it]                                                         {'loss': 1.4503, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4295/48845 [1:31:33<15:37:01,  1.26s/it]  9%|▉         | 4296/48845 [1:31:34<15:35:48,  1.26s/it]  9%|▉         | 4297/48845 [1:31:35<15:34:42,  1.26s/it]  9%|▉         | 4298/48845 [1:31:37<15:34:43,  1.26s/it]  9%|▉         | 4299/48845 [1:31:38<15:35:25,  1.26s/it]  9%|▉         | 4300/48845 [1:31:39<15:34:48,  1.26s/it]                                                         {'loss': 1.6014, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4300/48845 [1:31:39<15:34:48,  1.26s/it]  9%|▉         | 4301/48845 [1:31:40<15:34:42,  1.26s/it]  9%|▉         | 4302/48845 [1:31:42<15:34:30,  1.26s/it]  9%|▉         | 4303/48845 [1:31:43<15:35:19,  1.26s/it]  9%|▉         | 4304/48845 [1:31:44<15:34:27,  1.26s/it]  9%|▉         | 4305/48845 [1:31:45<15:34:38,  1.26s/it]                                                         {'loss': 1.5698, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4305/48845 [1:31:45<15:34:38,  1.26s/it]  9%|▉         | 4306/48845 [1:31:47<15:35:15,  1.26s/it]  9%|▉         | 4307/48845 [1:31:48<15:35:20,  1.26s/it]  9%|▉         | 4308/48845 [1:31:49<15:35:19,  1.26s/it]  9%|▉         | 4309/48845 [1:31:50<15:35:04,  1.26s/it]  9%|▉         | 4310/48845 [1:31:52<15:36:34,  1.26s/it]                                                         {'loss': 1.524, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4310/48845 [1:31:52<15:36:34,  1.26s/it]  9%|▉         | 4311/48845 [1:31:53<15:36:52,  1.26s/it]  9%|▉         | 4312/48845 [1:31:54<15:36:36,  1.26s/it]  9%|▉         | 4313/48845 [1:31:55<15:35:43,  1.26s/it]  9%|▉         | 4314/48845 [1:31:57<15:36:35,  1.26s/it]  9%|▉         | 4315/48845 [1:31:58<15:35:44,  1.26s/it]                                                         {'loss': 1.6377, 'learning_rate': 3.940586214273439e-05, 'epoch': 0.44}
+  9%|▉         | 4315/48845 [1:31:58<15:35:44,  1.26s/it]  9%|▉         | 4316/48845 [1:31:59<15:35:59,  1.26s/it]  9%|▉         | 4317/48845 [1:32:01<15:35:41,  1.26s/it]  9%|▉         | 4318/48845 [1:32:02<16:22:31,  1.32s/it]  9%|▉         | 4319/48845 [1:32:03<16:08:22,  1.30s/it]  9%|▉         | 4320/48845 [1:32:05<16:00:12,  1.29s/it]                                                         {'loss': 1.5455, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4320/48845 [1:32:05<16:00:12,  1.29s/it]  9%|▉         | 4321/48845 [1:32:06<15:53:47,  1.29s/it]  9%|▉         | 4322/48845 [1:32:07<15:47:55,  1.28s/it]  9%|▉         | 4323/48845 [1:32:08<15:43:00,  1.27s/it]  9%|▉         | 4324/48845 [1:32:10<15:40:42,  1.27s/it]  9%|▉         | 4325/48845 [1:32:11<15:38:44,  1.27s/it]                                                         {'loss': 1.3953, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4325/48845 [1:32:11<15:38:44,  1.27s/it]  9%|▉         | 4326/48845 [1:32:12<15:37:07,  1.26s/it]  9%|▉         | 4327/48845 [1:32:13<15:36:15,  1.26s/it]  9%|▉         | 4328/48845 [1:32:15<15:35:33,  1.26s/it]  9%|▉         | 4329/48845 [1:32:16<15:35:53,  1.26s/it]  9%|▉         | 4330/48845 [1:32:17<15:34:55,  1.26s/it]                                                         {'loss': 1.6996, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4330/48845 [1:32:17<15:34:55,  1.26s/it]  9%|▉         | 4331/48845 [1:32:18<15:34:02,  1.26s/it]  9%|▉         | 4332/48845 [1:32:20<15:33:10,  1.26s/it]  9%|▉         | 4333/48845 [1:32:21<15:33:08,  1.26s/it]  9%|▉         | 4334/48845 [1:32:22<15:32:56,  1.26s/it]  9%|▉         | 4335/48845 [1:32:23<15:33:11,  1.26s/it]                                                         {'loss': 1.5326, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4335/48845 [1:32:23<15:33:11,  1.26s/it]  9%|▉         | 4336/48845 [1:32:25<15:33:49,  1.26s/it]  9%|▉         | 4337/48845 [1:32:26<15:32:42,  1.26s/it]  9%|▉         | 4338/48845 [1:32:27<15:32:57,  1.26s/it]  9%|▉         | 4339/48845 [1:32:28<15:33:30,  1.26s/it]  9%|▉         | 4340/48845 [1:32:30<15:32:59,  1.26s/it]                                                         {'loss': 1.7845, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4340/48845 [1:32:30<15:32:59,  1.26s/it]  9%|▉         | 4341/48845 [1:32:31<15:33:31,  1.26s/it]  9%|▉         | 4342/48845 [1:32:32<15:33:01,  1.26s/it]  9%|▉         | 4343/48845 [1:32:33<15:33:36,  1.26s/it]  9%|▉         | 4344/48845 [1:32:35<15:33:14,  1.26s/it]  9%|▉         | 4345/48845 [1:32:36<15:32:25,  1.26s/it]                                                         {'loss': 1.626, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.44}
+  9%|▉         | 4345/48845 [1:32:36<15:32:25,  1.26s/it]  9%|▉         | 4346/48845 [1:32:37<15:33:08,  1.26s/it]  9%|▉         | 4347/48845 [1:32:39<15:34:54,  1.26s/it]  9%|▉         | 4348/48845 [1:32:40<15:34:49,  1.26s/it]  9%|▉         | 4349/48845 [1:32:41<15:34:15,  1.26s/it]  9%|▉         | 4350/48845 [1:32:42<15:34:00,  1.26s/it]                                                         {'loss': 1.6848, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4350/48845 [1:32:42<15:34:00,  1.26s/it]  9%|▉         | 4351/48845 [1:32:44<15:34:34,  1.26s/it]  9%|▉         | 4352/48845 [1:32:45<15:33:44,  1.26s/it]  9%|▉         | 4353/48845 [1:32:46<15:33:34,  1.26s/it]  9%|▉         | 4354/48845 [1:32:47<15:32:54,  1.26s/it]  9%|▉         | 4355/48845 [1:32:49<15:33:10,  1.26s/it]                                                         {'loss': 1.5985, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4355/48845 [1:32:49<15:33:10,  1.26s/it]  9%|▉         | 4356/48845 [1:32:50<15:33:59,  1.26s/it]  9%|▉         | 4357/48845 [1:32:51<15:33:47,  1.26s/it]  9%|▉         | 4358/48845 [1:32:52<15:33:43,  1.26s/it]  9%|▉         | 4359/48845 [1:32:54<15:32:21,  1.26s/it]  9%|▉         | 4360/48845 [1:32:55<15:32:55,  1.26s/it]                                                         {'loss': 1.5651, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4360/48845 [1:32:55<15:32:55,  1.26s/it]  9%|▉         | 4361/48845 [1:32:56<15:32:49,  1.26s/it]  9%|▉         | 4362/48845 [1:32:57<15:32:53,  1.26s/it]  9%|▉         | 4363/48845 [1:32:59<15:32:45,  1.26s/it]  9%|▉         | 4364/48845 [1:33:00<15:33:03,  1.26s/it]  9%|▉         | 4365/48845 [1:33:01<15:33:00,  1.26s/it]                                                         {'loss': 1.7771, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4365/48845 [1:33:01<15:33:00,  1.26s/it]  9%|▉         | 4366/48845 [1:33:02<15:33:23,  1.26s/it]  9%|▉         | 4367/48845 [1:33:04<15:34:02,  1.26s/it]  9%|▉         | 4368/48845 [1:33:05<15:33:56,  1.26s/it]  9%|▉         | 4369/48845 [1:33:06<15:33:54,  1.26s/it]  9%|▉         | 4370/48845 [1:33:07<15:33:12,  1.26s/it]                                                         {'loss': 1.6149, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4370/48845 [1:33:07<15:33:12,  1.26s/it]  9%|▉         | 4371/48845 [1:33:09<15:33:20,  1.26s/it]  9%|▉         | 4372/48845 [1:33:10<15:32:46,  1.26s/it]  9%|▉         | 4373/48845 [1:33:11<15:33:38,  1.26s/it]  9%|▉         | 4374/48845 [1:33:13<15:33:33,  1.26s/it]  9%|▉         | 4375/48845 [1:33:14<15:32:58,  1.26s/it]                                                         {'loss': 1.4178, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4375/48845 [1:33:14<15:32:58,  1.26s/it]  9%|▉         | 4376/48845 [1:33:15<15:32:31,  1.26s/it]  9%|▉         | 4377/48845 [1:33:16<15:33:16,  1.26s/it]  9%|▉         | 4378/48845 [1:33:18<15:33:41,  1.26s/it]  9%|▉         | 4379/48845 [1:33:19<15:33:35,  1.26s/it]  9%|▉         | 4380/48845 [1:33:20<15:33:26,  1.26s/it]                                                         {'loss': 1.4983, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4380/48845 [1:33:20<15:33:26,  1.26s/it]  9%|▉         | 4381/48845 [1:33:21<15:33:11,  1.26s/it]  9%|▉         | 4382/48845 [1:33:23<15:32:47,  1.26s/it]  9%|▉         | 4383/48845 [1:33:24<15:33:36,  1.26s/it]  9%|▉         | 4384/48845 [1:33:25<15:33:38,  1.26s/it]  9%|▉         | 4385/48845 [1:33:26<15:33:33,  1.26s/it]                                                         {'loss': 1.5718, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4385/48845 [1:33:26<15:33:33,  1.26s/it]  9%|▉         | 4386/48845 [1:33:28<15:33:02,  1.26s/it]  9%|▉         | 4387/48845 [1:33:29<15:33:36,  1.26s/it]  9%|▉         | 4388/48845 [1:33:30<15:33:20,  1.26s/it]  9%|▉         | 4389/48845 [1:33:31<15:33:08,  1.26s/it]  9%|▉         | 4390/48845 [1:33:33<15:33:52,  1.26s/it]                                                         {'loss': 1.6258, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4390/48845 [1:33:33<15:33:52,  1.26s/it]  9%|▉         | 4391/48845 [1:33:34<15:33:40,  1.26s/it]  9%|▉         | 4392/48845 [1:33:35<15:32:23,  1.26s/it]  9%|▉         | 4393/48845 [1:33:36<15:33:31,  1.26s/it]  9%|▉         | 4394/48845 [1:33:38<15:32:46,  1.26s/it]  9%|▉         | 4395/48845 [1:33:39<15:34:11,  1.26s/it]                                                         {'loss': 1.8159, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4395/48845 [1:33:39<15:34:11,  1.26s/it]  9%|▉         | 4396/48845 [1:33:40<15:33:12,  1.26s/it]  9%|▉         | 4397/48845 [1:33:41<15:33:08,  1.26s/it]  9%|▉         | 4398/48845 [1:33:43<15:32:41,  1.26s/it]  9%|▉         | 4399/48845 [1:33:44<15:33:29,  1.26s/it]  9%|▉         | 4400/48845 [1:33:45<15:32:40,  1.26s/it]                                                         {'loss': 1.6906, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4400/48845 [1:33:45<15:32:40,  1.26s/it]  9%|▉         | 4401/48845 [1:33:49<24:48:45,  2.01s/it]  9%|▉         | 4402/48845 [1:33:50<22:01:21,  1.78s/it]  9%|▉         | 4403/48845 [1:33:52<20:05:53,  1.63s/it]  9%|▉         | 4404/48845 [1:33:53<18:43:30,  1.52s/it]  9%|▉         | 4405/48845 [1:33:54<17:46:13,  1.44s/it]                                                         {'loss': 1.5534, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4405/48845 [1:33:54<17:46:13,  1.44s/it]  9%|▉         | 4406/48845 [1:33:55<17:04:36,  1.38s/it]  9%|▉         | 4407/48845 [1:33:57<16:36:59,  1.35s/it]  9%|▉         | 4408/48845 [1:33:58<16:17:21,  1.32s/it]  9%|▉         | 4409/48845 [1:33:59<16:05:01,  1.30s/it]  9%|▉         | 4410/48845 [1:34:00<15:54:54,  1.29s/it]                                                         {'loss': 1.5724, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4410/48845 [1:34:00<15:54:54,  1.29s/it]  9%|▉         | 4411/48845 [1:34:02<15:48:00,  1.28s/it]  9%|▉         | 4412/48845 [1:34:03<15:43:52,  1.27s/it]  9%|▉         | 4413/48845 [1:34:04<15:42:01,  1.27s/it]  9%|▉         | 4414/48845 [1:34:05<15:38:41,  1.27s/it]  9%|▉         | 4415/48845 [1:34:07<15:36:24,  1.26s/it]                                                         {'loss': 1.4768, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4415/48845 [1:34:07<15:36:24,  1.26s/it]  9%|▉         | 4416/48845 [1:34:08<15:35:25,  1.26s/it]  9%|▉         | 4417/48845 [1:34:09<15:35:18,  1.26s/it]  9%|▉         | 4418/48845 [1:34:10<15:35:16,  1.26s/it]  9%|▉         | 4419/48845 [1:34:12<15:33:49,  1.26s/it]  9%|▉         | 4420/48845 [1:34:13<15:33:44,  1.26s/it]                                                         {'loss': 1.6884, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4420/48845 [1:34:13<15:33:44,  1.26s/it]  9%|▉         | 4421/48845 [1:34:14<15:34:16,  1.26s/it]  9%|▉         | 4422/48845 [1:34:15<15:33:09,  1.26s/it]  9%|▉         | 4423/48845 [1:34:17<15:33:38,  1.26s/it]  9%|▉         | 4424/48845 [1:34:18<15:32:21,  1.26s/it]  9%|▉         | 4425/48845 [1:34:19<15:32:22,  1.26s/it]                                                         {'loss': 1.5611, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4425/48845 [1:34:19<15:32:22,  1.26s/it]  9%|▉         | 4426/48845 [1:34:21<15:32:42,  1.26s/it]  9%|▉         | 4427/48845 [1:34:22<15:31:50,  1.26s/it]  9%|▉         | 4428/48845 [1:34:23<15:31:12,  1.26s/it]  9%|▉         | 4429/48845 [1:34:24<15:45:47,  1.28s/it]  9%|▉         | 4430/48845 [1:34:26<15:41:15,  1.27s/it]                                                         {'loss': 1.639, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4430/48845 [1:34:26<15:41:15,  1.27s/it]  9%|▉         | 4431/48845 [1:34:27<15:38:43,  1.27s/it]  9%|▉         | 4432/48845 [1:34:28<15:37:04,  1.27s/it]  9%|▉         | 4433/48845 [1:34:29<15:35:06,  1.26s/it]  9%|▉         | 4434/48845 [1:34:31<15:34:59,  1.26s/it]  9%|▉         | 4435/48845 [1:34:32<15:33:47,  1.26s/it]                                                         {'loss': 1.8951, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4435/48845 [1:34:32<15:33:47,  1.26s/it]  9%|▉         | 4436/48845 [1:34:33<15:32:54,  1.26s/it]  9%|▉         | 4437/48845 [1:34:34<15:34:24,  1.26s/it]  9%|▉         | 4438/48845 [1:34:36<15:33:07,  1.26s/it]  9%|▉         | 4439/48845 [1:34:37<15:34:23,  1.26s/it]  9%|▉         | 4440/48845 [1:34:38<15:34:07,  1.26s/it]                                                         {'loss': 1.5547, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.45}
+  9%|▉         | 4440/48845 [1:34:38<15:34:07,  1.26s/it]  9%|▉         | 4441/48845 [1:34:40<16:11:07,  1.31s/it]  9%|▉         | 4442/48845 [1:34:41<15:58:44,  1.30s/it]  9%|▉         | 4443/48845 [1:34:42<15:49:49,  1.28s/it]  9%|▉         | 4444/48845 [1:34:43<15:44:03,  1.28s/it]  9%|▉         | 4445/48845 [1:34:45<15:41:05,  1.27s/it]                                                         {'loss': 1.5959, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4445/48845 [1:34:45<15:41:05,  1.27s/it]  9%|▉         | 4446/48845 [1:34:46<15:38:14,  1.27s/it]  9%|▉         | 4447/48845 [1:34:47<15:35:25,  1.26s/it]  9%|▉         | 4448/48845 [1:34:48<15:34:40,  1.26s/it]  9%|▉         | 4449/48845 [1:34:50<15:33:47,  1.26s/it]  9%|▉         | 4450/48845 [1:34:51<15:32:15,  1.26s/it]                                                         {'loss': 1.4467, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4450/48845 [1:34:51<15:32:15,  1.26s/it]  9%|▉         | 4451/48845 [1:34:52<15:33:28,  1.26s/it]  9%|▉         | 4452/48845 [1:34:53<15:32:50,  1.26s/it]  9%|▉         | 4453/48845 [1:34:55<15:32:33,  1.26s/it]  9%|▉         | 4454/48845 [1:34:56<15:32:15,  1.26s/it]  9%|▉         | 4455/48845 [1:34:57<15:32:44,  1.26s/it]                                                         {'loss': 1.651, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4455/48845 [1:34:57<15:32:44,  1.26s/it]  9%|▉         | 4456/48845 [1:34:59<15:32:40,  1.26s/it]  9%|▉         | 4457/48845 [1:35:00<15:33:05,  1.26s/it]  9%|▉         | 4458/48845 [1:35:01<15:32:19,  1.26s/it]  9%|▉         | 4459/48845 [1:35:02<15:32:48,  1.26s/it]  9%|▉         | 4460/48845 [1:35:04<15:32:21,  1.26s/it]                                                         {'loss': 1.5443, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4460/48845 [1:35:04<15:32:21,  1.26s/it]  9%|▉         | 4461/48845 [1:35:05<15:33:05,  1.26s/it]  9%|▉         | 4462/48845 [1:35:06<15:32:51,  1.26s/it]  9%|▉         | 4463/48845 [1:35:07<15:32:13,  1.26s/it]  9%|▉         | 4464/48845 [1:35:09<15:32:18,  1.26s/it]  9%|▉         | 4465/48845 [1:35:10<15:33:18,  1.26s/it]                                                         {'loss': 1.6094, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4465/48845 [1:35:10<15:33:18,  1.26s/it]  9%|▉         | 4466/48845 [1:35:11<15:32:31,  1.26s/it]  9%|▉         | 4467/48845 [1:35:12<15:30:55,  1.26s/it]  9%|▉         | 4468/48845 [1:35:14<15:30:24,  1.26s/it]  9%|▉         | 4469/48845 [1:35:15<15:31:22,  1.26s/it]  9%|▉         | 4470/48845 [1:35:16<15:30:47,  1.26s/it]                                                         {'loss': 1.5119, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4470/48845 [1:35:16<15:30:47,  1.26s/it]  9%|▉         | 4471/48845 [1:35:17<15:31:32,  1.26s/it]  9%|▉         | 4472/48845 [1:35:19<15:31:27,  1.26s/it]  9%|▉         | 4473/48845 [1:35:20<15:30:46,  1.26s/it]  9%|▉         | 4474/48845 [1:35:21<15:31:19,  1.26s/it]  9%|▉         | 4475/48845 [1:35:22<15:31:30,  1.26s/it]                                                         {'loss': 1.5924, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4475/48845 [1:35:22<15:31:30,  1.26s/it]  9%|▉         | 4476/48845 [1:35:24<15:30:59,  1.26s/it]  9%|▉         | 4477/48845 [1:35:25<15:30:52,  1.26s/it]  9%|▉         | 4478/48845 [1:35:26<15:30:55,  1.26s/it]  9%|▉         | 4479/48845 [1:35:28<15:32:04,  1.26s/it]  9%|▉         | 4480/48845 [1:35:29<15:31:20,  1.26s/it]                                                         {'loss': 1.6097, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4480/48845 [1:35:29<15:31:20,  1.26s/it]  9%|▉         | 4481/48845 [1:35:30<15:31:17,  1.26s/it]  9%|▉         | 4482/48845 [1:35:31<15:31:11,  1.26s/it]  9%|▉         | 4483/48845 [1:35:33<15:30:56,  1.26s/it]  9%|▉         | 4484/48845 [1:35:34<15:32:24,  1.26s/it]  9%|▉         | 4485/48845 [1:35:35<15:33:02,  1.26s/it]                                                         {'loss': 1.5885, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4485/48845 [1:35:35<15:33:02,  1.26s/it]  9%|▉         | 4486/48845 [1:35:36<15:33:06,  1.26s/it]  9%|▉         | 4487/48845 [1:35:38<15:33:27,  1.26s/it]  9%|▉         | 4488/48845 [1:35:39<15:32:34,  1.26s/it]  9%|▉         | 4489/48845 [1:35:40<15:31:32,  1.26s/it]  9%|▉         | 4490/48845 [1:35:41<15:30:56,  1.26s/it]                                                         {'loss': 1.8776, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4490/48845 [1:35:41<15:30:56,  1.26s/it]  9%|▉         | 4491/48845 [1:35:43<15:31:00,  1.26s/it]  9%|▉         | 4492/48845 [1:35:44<15:31:45,  1.26s/it]  9%|▉         | 4493/48845 [1:35:45<15:31:08,  1.26s/it]  9%|▉         | 4494/48845 [1:35:46<15:30:17,  1.26s/it]  9%|▉         | 4495/48845 [1:35:48<15:29:36,  1.26s/it]                                                         {'loss': 1.5157, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4495/48845 [1:35:48<15:29:36,  1.26s/it]  9%|▉         | 4496/48845 [1:35:49<15:30:58,  1.26s/it]  9%|▉         | 4497/48845 [1:35:50<15:29:58,  1.26s/it]  9%|▉         | 4498/48845 [1:35:51<15:30:19,  1.26s/it]  9%|▉         | 4499/48845 [1:35:53<15:32:00,  1.26s/it]  9%|▉         | 4500/48845 [1:35:54<15:31:49,  1.26s/it]                                                         {'loss': 1.6453, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4500/48845 [1:35:54<15:31:49,  1.26s/it]  9%|▉         | 4501/48845 [1:35:55<15:31:58,  1.26s/it]  9%|▉         | 4502/48845 [1:35:56<15:31:38,  1.26s/it]  9%|▉         | 4503/48845 [1:35:58<15:30:45,  1.26s/it]  9%|▉         | 4504/48845 [1:35:59<15:31:08,  1.26s/it]  9%|▉         | 4505/48845 [1:36:00<15:30:50,  1.26s/it]                                                         {'loss': 1.7374, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4505/48845 [1:36:00<15:30:50,  1.26s/it]  9%|▉         | 4506/48845 [1:36:02<15:31:43,  1.26s/it]  9%|▉         | 4507/48845 [1:36:03<15:30:57,  1.26s/it]  9%|▉         | 4508/48845 [1:36:04<15:32:01,  1.26s/it]  9%|▉         | 4509/48845 [1:36:05<15:31:42,  1.26s/it]  9%|▉         | 4510/48845 [1:36:07<15:31:13,  1.26s/it]                                                         {'loss': 1.6152, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4510/48845 [1:36:07<15:31:13,  1.26s/it]  9%|▉         | 4511/48845 [1:36:08<15:30:07,  1.26s/it]  9%|▉         | 4512/48845 [1:36:09<15:31:53,  1.26s/it]  9%|▉         | 4513/48845 [1:36:10<15:31:10,  1.26s/it]  9%|▉         | 4514/48845 [1:36:12<15:30:38,  1.26s/it]  9%|▉         | 4515/48845 [1:36:13<15:31:43,  1.26s/it]                                                         {'loss': 1.6703, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4515/48845 [1:36:13<15:31:43,  1.26s/it]  9%|▉         | 4516/48845 [1:36:14<15:31:41,  1.26s/it]  9%|▉         | 4517/48845 [1:36:15<15:31:34,  1.26s/it]  9%|▉         | 4518/48845 [1:36:17<15:30:37,  1.26s/it]  9%|▉         | 4519/48845 [1:36:18<15:29:49,  1.26s/it]  9%|▉         | 4520/48845 [1:36:19<15:30:05,  1.26s/it]                                                         {'loss': 1.6232, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4520/48845 [1:36:19<15:30:05,  1.26s/it]  9%|▉         | 4521/48845 [1:36:20<15:30:56,  1.26s/it]  9%|▉         | 4522/48845 [1:36:22<15:31:06,  1.26s/it]  9%|▉         | 4523/48845 [1:36:23<15:30:05,  1.26s/it]  9%|▉         | 4524/48845 [1:36:24<15:31:37,  1.26s/it]  9%|▉         | 4525/48845 [1:36:25<15:30:31,  1.26s/it]                                                         {'loss': 1.5018, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4525/48845 [1:36:25<15:30:31,  1.26s/it]  9%|▉         | 4526/48845 [1:36:27<15:29:35,  1.26s/it]  9%|▉         | 4527/48845 [1:36:28<15:29:47,  1.26s/it]  9%|▉         | 4528/48845 [1:36:29<15:30:08,  1.26s/it]  9%|▉         | 4529/48845 [1:36:31<15:29:42,  1.26s/it]  9%|▉         | 4530/48845 [1:36:32<15:30:15,  1.26s/it]                                                         {'loss': 1.6351, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4530/48845 [1:36:32<15:30:15,  1.26s/it]  9%|▉         | 4531/48845 [1:36:33<15:31:01,  1.26s/it]  9%|▉         | 4532/48845 [1:36:34<15:31:54,  1.26s/it]  9%|▉         | 4533/48845 [1:36:36<15:30:26,  1.26s/it]  9%|▉         | 4534/48845 [1:36:37<15:30:07,  1.26s/it]  9%|▉         | 4535/48845 [1:36:38<15:30:07,  1.26s/it]                                                         {'loss': 1.4433, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4535/48845 [1:36:38<15:30:07,  1.26s/it]  9%|▉         | 4536/48845 [1:36:39<15:29:57,  1.26s/it]  9%|▉         | 4537/48845 [1:36:41<15:30:00,  1.26s/it]  9%|▉         | 4538/48845 [1:36:42<15:29:44,  1.26s/it]  9%|▉         | 4539/48845 [1:36:43<15:30:26,  1.26s/it]  9%|▉         | 4540/48845 [1:36:44<15:30:40,  1.26s/it]                                                         {'loss': 1.7038, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.46}
+  9%|▉         | 4540/48845 [1:36:44<15:30:40,  1.26s/it]  9%|▉         | 4541/48845 [1:36:46<15:29:58,  1.26s/it]  9%|▉         | 4542/48845 [1:36:47<15:30:16,  1.26s/it]  9%|▉         | 4543/48845 [1:36:48<15:30:08,  1.26s/it]  9%|▉         | 4544/48845 [1:36:49<15:29:50,  1.26s/it]  9%|▉         | 4545/48845 [1:36:51<15:29:36,  1.26s/it]                                                         {'loss': 1.4117, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4545/48845 [1:36:51<15:29:36,  1.26s/it]  9%|▉         | 4546/48845 [1:36:52<15:29:46,  1.26s/it]  9%|▉         | 4547/48845 [1:36:53<15:29:50,  1.26s/it]  9%|▉         | 4548/48845 [1:36:54<15:30:17,  1.26s/it]  9%|▉         | 4549/48845 [1:36:56<15:30:04,  1.26s/it]  9%|▉         | 4550/48845 [1:36:57<15:30:18,  1.26s/it]                                                         {'loss': 1.4547, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4550/48845 [1:36:57<15:30:18,  1.26s/it]  9%|▉         | 4551/48845 [1:36:58<15:29:45,  1.26s/it]  9%|▉         | 4552/48845 [1:37:00<15:56:22,  1.30s/it]  9%|▉         | 4553/48845 [1:37:01<15:47:44,  1.28s/it]  9%|▉         | 4554/48845 [1:37:02<15:41:56,  1.28s/it]  9%|▉         | 4555/48845 [1:37:03<15:38:47,  1.27s/it]                                                         {'loss': 1.4993, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4555/48845 [1:37:03<15:38:47,  1.27s/it]  9%|▉         | 4556/48845 [1:37:05<15:36:29,  1.27s/it]  9%|▉         | 4557/48845 [1:37:06<15:34:23,  1.27s/it]  9%|▉         | 4558/48845 [1:37:07<15:32:18,  1.26s/it]  9%|▉         | 4559/48845 [1:37:08<15:31:22,  1.26s/it]  9%|▉         | 4560/48845 [1:37:10<15:31:54,  1.26s/it]                                                         {'loss': 1.4872, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4560/48845 [1:37:10<15:31:54,  1.26s/it]  9%|▉         | 4561/48845 [1:37:11<15:31:33,  1.26s/it]  9%|▉         | 4562/48845 [1:37:12<15:30:19,  1.26s/it]  9%|▉         | 4563/48845 [1:37:13<15:30:08,  1.26s/it]  9%|▉         | 4564/48845 [1:37:15<15:30:15,  1.26s/it]  9%|▉         | 4565/48845 [1:37:16<15:30:30,  1.26s/it]                                                         {'loss': 1.4054, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4565/48845 [1:37:16<15:30:30,  1.26s/it]  9%|▉         | 4566/48845 [1:37:17<15:30:05,  1.26s/it]  9%|▉         | 4567/48845 [1:37:18<15:31:31,  1.26s/it]  9%|▉         | 4568/48845 [1:37:20<15:30:59,  1.26s/it]  9%|▉         | 4569/48845 [1:37:21<15:30:42,  1.26s/it]  9%|▉         | 4570/48845 [1:37:22<15:30:48,  1.26s/it]                                                         {'loss': 1.6595, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4570/48845 [1:37:22<15:30:48,  1.26s/it]  9%|▉         | 4571/48845 [1:37:24<15:29:53,  1.26s/it]  9%|▉         | 4572/48845 [1:37:25<15:29:50,  1.26s/it]  9%|▉         | 4573/48845 [1:37:26<15:29:38,  1.26s/it]  9%|▉         | 4574/48845 [1:37:27<15:28:37,  1.26s/it]  9%|▉         | 4575/48845 [1:37:29<15:29:05,  1.26s/it]                                                         {'loss': 1.4208, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4575/48845 [1:37:29<15:29:05,  1.26s/it]  9%|▉         | 4576/48845 [1:37:30<15:30:19,  1.26s/it]  9%|▉         | 4577/48845 [1:37:31<15:30:21,  1.26s/it]  9%|▉         | 4578/48845 [1:37:32<15:30:20,  1.26s/it]  9%|▉         | 4579/48845 [1:37:34<15:29:59,  1.26s/it]  9%|▉         | 4580/48845 [1:37:35<15:30:11,  1.26s/it]                                                         {'loss': 1.5414, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4580/48845 [1:37:35<15:30:11,  1.26s/it]  9%|▉         | 4581/48845 [1:37:36<15:29:54,  1.26s/it]  9%|▉         | 4582/48845 [1:37:37<15:28:29,  1.26s/it]  9%|▉         | 4583/48845 [1:37:39<15:29:10,  1.26s/it]  9%|▉         | 4584/48845 [1:37:40<15:53:02,  1.29s/it]  9%|▉         | 4585/48845 [1:37:41<15:46:28,  1.28s/it]                                                         {'loss': 1.5265, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4585/48845 [1:37:41<15:46:28,  1.28s/it]  9%|▉         | 4586/48845 [1:37:43<15:41:40,  1.28s/it]  9%|▉         | 4587/48845 [1:37:44<15:37:30,  1.27s/it]  9%|▉         | 4588/48845 [1:37:45<15:35:21,  1.27s/it]  9%|▉         | 4589/48845 [1:37:46<15:32:55,  1.26s/it]  9%|▉         | 4590/48845 [1:37:48<15:31:26,  1.26s/it]                                                         {'loss': 1.633, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4590/48845 [1:37:48<15:31:26,  1.26s/it]  9%|▉         | 4591/48845 [1:37:49<15:31:01,  1.26s/it]  9%|▉         | 4592/48845 [1:37:50<15:30:02,  1.26s/it]  9%|▉         | 4593/48845 [1:37:51<15:29:24,  1.26s/it]  9%|▉         | 4594/48845 [1:37:53<15:28:40,  1.26s/it]  9%|▉         | 4595/48845 [1:37:54<15:28:23,  1.26s/it]                                                         {'loss': 1.4697, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4595/48845 [1:37:54<15:28:23,  1.26s/it]  9%|▉         | 4596/48845 [1:37:55<15:28:39,  1.26s/it]  9%|▉         | 4597/48845 [1:37:56<15:28:06,  1.26s/it]  9%|▉         | 4598/48845 [1:37:58<15:28:45,  1.26s/it]  9%|▉         | 4599/48845 [1:37:59<15:29:08,  1.26s/it]  9%|▉         | 4600/48845 [1:38:00<15:28:14,  1.26s/it]                                                         {'loss': 1.6653, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4600/48845 [1:38:00<15:28:14,  1.26s/it]  9%|▉         | 4601/48845 [1:38:04<24:11:04,  1.97s/it]  9%|▉         | 4602/48845 [1:38:05<21:34:33,  1.76s/it]  9%|▉         | 4603/48845 [1:38:06<19:43:55,  1.61s/it]  9%|▉         | 4604/48845 [1:38:08<18:27:49,  1.50s/it]  9%|▉         | 4605/48845 [1:38:09<17:33:23,  1.43s/it]                                                         {'loss': 1.3834, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4605/48845 [1:38:09<17:33:23,  1.43s/it]  9%|▉         | 4606/48845 [1:38:10<16:55:52,  1.38s/it]  9%|▉         | 4607/48845 [1:38:11<16:28:57,  1.34s/it]  9%|▉         | 4608/48845 [1:38:13<16:10:25,  1.32s/it]  9%|▉         | 4609/48845 [1:38:14<15:57:58,  1.30s/it]  9%|▉         | 4610/48845 [1:38:15<15:48:41,  1.29s/it]                                                         {'loss': 1.5257, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4610/48845 [1:38:15<15:48:41,  1.29s/it]  9%|▉         | 4611/48845 [1:38:16<15:42:27,  1.28s/it]  9%|▉         | 4612/48845 [1:38:18<15:36:47,  1.27s/it]  9%|▉         | 4613/48845 [1:38:19<15:33:50,  1.27s/it]  9%|▉         | 4614/48845 [1:38:20<15:32:49,  1.27s/it]  9%|▉         | 4615/48845 [1:38:21<15:30:24,  1.26s/it]                                                         {'loss': 1.6274, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4615/48845 [1:38:21<15:30:24,  1.26s/it]  9%|▉         | 4616/48845 [1:38:23<15:29:41,  1.26s/it]  9%|▉         | 4617/48845 [1:38:24<15:28:22,  1.26s/it]  9%|▉         | 4618/48845 [1:38:25<15:28:00,  1.26s/it]  9%|▉         | 4619/48845 [1:38:26<15:28:29,  1.26s/it]  9%|▉         | 4620/48845 [1:38:28<15:28:50,  1.26s/it]                                                         {'loss': 1.5162, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4620/48845 [1:38:28<15:28:50,  1.26s/it]  9%|▉         | 4621/48845 [1:38:29<15:29:20,  1.26s/it]  9%|▉         | 4622/48845 [1:38:30<15:29:22,  1.26s/it]  9%|▉         | 4623/48845 [1:38:31<15:28:54,  1.26s/it]  9%|▉         | 4624/48845 [1:38:33<15:28:21,  1.26s/it]  9%|▉         | 4625/48845 [1:38:34<15:27:30,  1.26s/it]                                                         {'loss': 1.5059, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4625/48845 [1:38:34<15:27:30,  1.26s/it]  9%|▉         | 4626/48845 [1:38:35<15:27:48,  1.26s/it]  9%|▉         | 4627/48845 [1:38:37<15:27:51,  1.26s/it]  9%|▉         | 4628/48845 [1:38:38<15:27:27,  1.26s/it]  9%|▉         | 4629/48845 [1:38:39<15:26:25,  1.26s/it]  9%|▉         | 4630/48845 [1:38:40<15:26:27,  1.26s/it]                                                         {'loss': 1.5203, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4630/48845 [1:38:40<15:26:27,  1.26s/it]  9%|▉         | 4631/48845 [1:38:42<15:27:11,  1.26s/it]  9%|▉         | 4632/48845 [1:38:43<15:27:41,  1.26s/it]  9%|▉         | 4633/48845 [1:38:44<15:28:22,  1.26s/it]  9%|▉         | 4634/48845 [1:38:45<15:28:12,  1.26s/it]  9%|▉         | 4635/48845 [1:38:47<15:27:08,  1.26s/it]                                                         {'loss': 1.6684, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4635/48845 [1:38:47<15:27:08,  1.26s/it]  9%|▉         | 4636/48845 [1:38:48<15:28:13,  1.26s/it]  9%|▉         | 4637/48845 [1:38:49<15:27:14,  1.26s/it]  9%|▉         | 4638/48845 [1:38:50<15:27:31,  1.26s/it]  9%|▉         | 4639/48845 [1:38:52<15:27:16,  1.26s/it]  9%|▉         | 4640/48845 [1:38:53<15:28:01,  1.26s/it]                                                         {'loss': 1.5735, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.47}
+  9%|▉         | 4640/48845 [1:38:53<15:28:01,  1.26s/it] 10%|▉         | 4641/48845 [1:38:54<15:28:10,  1.26s/it] 10%|▉         | 4642/48845 [1:38:55<15:27:30,  1.26s/it] 10%|▉         | 4643/48845 [1:38:57<15:27:14,  1.26s/it] 10%|▉         | 4644/48845 [1:38:58<15:26:37,  1.26s/it] 10%|▉         | 4645/48845 [1:38:59<15:26:51,  1.26s/it]                                                         {'loss': 1.7783, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4645/48845 [1:38:59<15:26:51,  1.26s/it] 10%|▉         | 4646/48845 [1:39:00<15:27:17,  1.26s/it] 10%|▉         | 4647/48845 [1:39:02<15:27:31,  1.26s/it] 10%|▉         | 4648/48845 [1:39:03<15:27:57,  1.26s/it] 10%|▉         | 4649/48845 [1:39:04<15:28:05,  1.26s/it] 10%|▉         | 4650/48845 [1:39:05<15:27:38,  1.26s/it]                                                         {'loss': 1.502, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4650/48845 [1:39:05<15:27:38,  1.26s/it] 10%|▉         | 4651/48845 [1:39:07<15:28:41,  1.26s/it] 10%|▉         | 4652/48845 [1:39:08<15:28:43,  1.26s/it] 10%|▉         | 4653/48845 [1:39:09<15:27:41,  1.26s/it] 10%|▉         | 4654/48845 [1:39:11<15:27:58,  1.26s/it] 10%|▉         | 4655/48845 [1:39:12<15:28:10,  1.26s/it]                                                         {'loss': 1.4998, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4655/48845 [1:39:12<15:28:10,  1.26s/it] 10%|▉         | 4656/48845 [1:39:13<15:27:41,  1.26s/it] 10%|▉         | 4657/48845 [1:39:14<15:27:26,  1.26s/it] 10%|▉         | 4658/48845 [1:39:16<15:27:46,  1.26s/it] 10%|▉         | 4659/48845 [1:39:17<15:27:59,  1.26s/it] 10%|▉         | 4660/48845 [1:39:18<15:27:21,  1.26s/it]                                                         {'loss': 1.6258, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4660/48845 [1:39:18<15:27:21,  1.26s/it] 10%|▉         | 4661/48845 [1:39:19<15:28:09,  1.26s/it] 10%|▉         | 4662/48845 [1:39:21<15:27:22,  1.26s/it] 10%|▉         | 4663/48845 [1:39:22<15:26:45,  1.26s/it] 10%|▉         | 4664/48845 [1:39:23<15:27:51,  1.26s/it] 10%|▉         | 4665/48845 [1:39:24<15:27:17,  1.26s/it]                                                         {'loss': 1.5513, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4665/48845 [1:39:24<15:27:17,  1.26s/it] 10%|▉         | 4666/48845 [1:39:26<15:28:11,  1.26s/it] 10%|▉         | 4667/48845 [1:39:27<15:27:48,  1.26s/it] 10%|▉         | 4668/48845 [1:39:28<15:28:41,  1.26s/it] 10%|▉         | 4669/48845 [1:39:29<15:27:20,  1.26s/it] 10%|▉         | 4670/48845 [1:39:31<15:26:28,  1.26s/it]                                                         {'loss': 1.5558, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4670/48845 [1:39:31<15:26:28,  1.26s/it] 10%|▉         | 4671/48845 [1:39:32<15:27:52,  1.26s/it] 10%|▉         | 4672/48845 [1:39:33<15:27:25,  1.26s/it] 10%|▉         | 4673/48845 [1:39:34<15:27:30,  1.26s/it] 10%|▉         | 4674/48845 [1:39:36<15:26:51,  1.26s/it] 10%|▉         | 4675/48845 [1:39:37<15:26:32,  1.26s/it]                                                         {'loss': 1.4197, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4675/48845 [1:39:37<15:26:32,  1.26s/it] 10%|▉         | 4676/48845 [1:39:38<15:28:03,  1.26s/it] 10%|▉         | 4677/48845 [1:39:39<15:27:05,  1.26s/it] 10%|▉         | 4678/48845 [1:39:41<15:26:08,  1.26s/it] 10%|▉         | 4679/48845 [1:39:42<15:27:50,  1.26s/it] 10%|▉         | 4680/48845 [1:39:43<15:27:38,  1.26s/it]                                                         {'loss': 1.5726, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4680/48845 [1:39:43<15:27:38,  1.26s/it] 10%|▉         | 4681/48845 [1:39:45<15:27:34,  1.26s/it] 10%|▉         | 4682/48845 [1:39:46<15:26:55,  1.26s/it] 10%|▉         | 4683/48845 [1:39:47<15:26:56,  1.26s/it] 10%|▉         | 4684/48845 [1:39:48<15:26:17,  1.26s/it] 10%|▉         | 4685/48845 [1:39:50<15:27:02,  1.26s/it]                                                         {'loss': 1.6622, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4685/48845 [1:39:50<15:27:02,  1.26s/it] 10%|▉         | 4686/48845 [1:39:51<15:26:53,  1.26s/it] 10%|▉         | 4687/48845 [1:39:52<15:27:14,  1.26s/it] 10%|▉         | 4688/48845 [1:39:53<15:26:44,  1.26s/it] 10%|▉         | 4689/48845 [1:39:55<15:44:58,  1.28s/it] 10%|▉         | 4690/48845 [1:39:56<15:39:54,  1.28s/it]                                                         {'loss': 1.5496, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4690/48845 [1:39:56<15:39:54,  1.28s/it] 10%|▉         | 4691/48845 [1:39:57<15:36:13,  1.27s/it] 10%|▉         | 4692/48845 [1:39:58<15:33:33,  1.27s/it] 10%|▉         | 4693/48845 [1:40:00<15:32:11,  1.27s/it] 10%|▉         | 4694/48845 [1:40:01<15:29:29,  1.26s/it] 10%|▉         | 4695/48845 [1:40:02<15:28:31,  1.26s/it]                                                         {'loss': 1.4785, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4695/48845 [1:40:02<15:28:31,  1.26s/it] 10%|▉         | 4696/48845 [1:40:03<15:27:20,  1.26s/it] 10%|▉         | 4697/48845 [1:40:05<15:27:26,  1.26s/it] 10%|▉         | 4698/48845 [1:40:06<15:27:31,  1.26s/it] 10%|▉         | 4699/48845 [1:40:07<15:27:28,  1.26s/it] 10%|▉         | 4700/48845 [1:40:09<15:27:05,  1.26s/it]                                                         {'loss': 1.607, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4700/48845 [1:40:09<15:27:05,  1.26s/it] 10%|▉         | 4701/48845 [1:40:10<15:26:58,  1.26s/it] 10%|▉         | 4702/48845 [1:40:11<15:26:17,  1.26s/it] 10%|▉         | 4703/48845 [1:40:12<15:26:42,  1.26s/it] 10%|▉         | 4704/48845 [1:40:14<15:26:14,  1.26s/it] 10%|▉         | 4705/48845 [1:40:15<15:26:28,  1.26s/it]                                                         {'loss': 1.5646, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4705/48845 [1:40:15<15:26:28,  1.26s/it] 10%|▉         | 4706/48845 [1:40:16<15:25:36,  1.26s/it] 10%|▉         | 4707/48845 [1:40:17<15:25:54,  1.26s/it] 10%|▉         | 4708/48845 [1:40:19<15:26:09,  1.26s/it] 10%|▉         | 4709/48845 [1:40:20<15:27:10,  1.26s/it] 10%|▉         | 4710/48845 [1:40:21<15:27:20,  1.26s/it]                                                         {'loss': 1.5145, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4710/48845 [1:40:21<15:27:20,  1.26s/it] 10%|▉         | 4711/48845 [1:40:22<15:26:29,  1.26s/it] 10%|▉         | 4712/48845 [1:40:24<15:26:03,  1.26s/it] 10%|▉         | 4713/48845 [1:40:25<15:26:24,  1.26s/it] 10%|▉         | 4714/48845 [1:40:26<15:25:45,  1.26s/it] 10%|▉         | 4715/48845 [1:40:27<15:26:09,  1.26s/it]                                                         {'loss': 1.6755, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4715/48845 [1:40:27<15:26:09,  1.26s/it] 10%|▉         | 4716/48845 [1:40:29<15:26:10,  1.26s/it] 10%|▉         | 4717/48845 [1:40:30<15:26:50,  1.26s/it] 10%|▉         | 4718/48845 [1:40:31<15:27:19,  1.26s/it] 10%|▉         | 4719/48845 [1:40:32<15:27:01,  1.26s/it] 10%|▉         | 4720/48845 [1:40:34<15:27:10,  1.26s/it]                                                         {'loss': 1.5721, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4720/48845 [1:40:34<15:27:10,  1.26s/it] 10%|▉         | 4721/48845 [1:40:35<15:27:36,  1.26s/it] 10%|▉         | 4722/48845 [1:40:36<15:26:34,  1.26s/it] 10%|▉         | 4723/48845 [1:40:38<15:26:28,  1.26s/it] 10%|▉         | 4724/48845 [1:40:39<15:26:20,  1.26s/it] 10%|▉         | 4725/48845 [1:40:40<15:28:02,  1.26s/it]                                                         {'loss': 1.584, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4725/48845 [1:40:40<15:28:02,  1.26s/it] 10%|▉         | 4726/48845 [1:40:41<15:27:46,  1.26s/it] 10%|▉         | 4727/48845 [1:40:43<15:28:11,  1.26s/it] 10%|▉         | 4728/48845 [1:40:44<15:27:37,  1.26s/it] 10%|▉         | 4729/48845 [1:40:45<15:27:29,  1.26s/it] 10%|▉         | 4730/48845 [1:40:46<15:26:07,  1.26s/it]                                                         {'loss': 1.4593, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4730/48845 [1:40:46<15:26:07,  1.26s/it] 10%|▉         | 4731/48845 [1:40:48<15:26:38,  1.26s/it] 10%|▉         | 4732/48845 [1:40:49<15:26:37,  1.26s/it] 10%|▉         | 4733/48845 [1:40:50<15:25:55,  1.26s/it] 10%|▉         | 4734/48845 [1:40:51<15:25:49,  1.26s/it] 10%|▉         | 4735/48845 [1:40:53<15:24:49,  1.26s/it]                                                         {'loss': 1.5574, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.48}
+ 10%|▉         | 4735/48845 [1:40:53<15:24:49,  1.26s/it] 10%|▉         | 4736/48845 [1:40:54<15:24:17,  1.26s/it] 10%|▉         | 4737/48845 [1:40:55<15:24:37,  1.26s/it] 10%|▉         | 4738/48845 [1:40:56<15:25:17,  1.26s/it] 10%|▉         | 4739/48845 [1:40:58<15:25:09,  1.26s/it] 10%|▉         | 4740/48845 [1:40:59<15:25:36,  1.26s/it]                                                         {'loss': 1.5704, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4740/48845 [1:40:59<15:25:36,  1.26s/it] 10%|▉         | 4741/48845 [1:41:00<15:24:57,  1.26s/it] 10%|▉         | 4742/48845 [1:41:01<15:25:05,  1.26s/it] 10%|▉         | 4743/48845 [1:41:03<15:24:33,  1.26s/it] 10%|▉         | 4744/48845 [1:41:04<15:25:24,  1.26s/it] 10%|▉         | 4745/48845 [1:41:05<15:25:40,  1.26s/it]                                                         {'loss': 1.7501, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4745/48845 [1:41:05<15:25:40,  1.26s/it] 10%|▉         | 4746/48845 [1:41:06<15:25:35,  1.26s/it] 10%|▉         | 4747/48845 [1:41:08<15:25:25,  1.26s/it] 10%|▉         | 4748/48845 [1:41:09<15:28:35,  1.26s/it] 10%|▉         | 4749/48845 [1:41:10<15:28:35,  1.26s/it] 10%|▉         | 4750/48845 [1:41:12<15:26:40,  1.26s/it]                                                         {'loss': 1.5295, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4750/48845 [1:41:12<15:26:40,  1.26s/it] 10%|▉         | 4751/48845 [1:41:13<15:26:23,  1.26s/it] 10%|▉         | 4752/48845 [1:41:14<15:26:05,  1.26s/it] 10%|▉         | 4753/48845 [1:41:15<15:25:29,  1.26s/it] 10%|▉         | 4754/48845 [1:41:17<15:25:02,  1.26s/it] 10%|▉         | 4755/48845 [1:41:18<15:25:23,  1.26s/it]                                                         {'loss': 1.49, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4755/48845 [1:41:18<15:25:23,  1.26s/it] 10%|▉         | 4756/48845 [1:41:19<15:26:51,  1.26s/it] 10%|▉         | 4757/48845 [1:41:20<15:26:15,  1.26s/it] 10%|▉         | 4758/48845 [1:41:22<15:26:44,  1.26s/it] 10%|▉         | 4759/48845 [1:41:23<15:26:45,  1.26s/it] 10%|▉         | 4760/48845 [1:41:24<15:25:39,  1.26s/it]                                                         {'loss': 1.7296, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4760/48845 [1:41:24<15:25:39,  1.26s/it] 10%|▉         | 4761/48845 [1:41:25<15:26:38,  1.26s/it] 10%|▉         | 4762/48845 [1:41:27<15:26:07,  1.26s/it] 10%|▉         | 4763/48845 [1:41:28<15:26:05,  1.26s/it] 10%|▉         | 4764/48845 [1:41:29<15:25:58,  1.26s/it] 10%|▉         | 4765/48845 [1:41:30<15:25:39,  1.26s/it]                                                         {'loss': 1.6807, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4765/48845 [1:41:30<15:25:39,  1.26s/it] 10%|▉         | 4766/48845 [1:41:32<15:27:18,  1.26s/it] 10%|▉         | 4767/48845 [1:41:33<15:26:19,  1.26s/it] 10%|▉         | 4768/48845 [1:41:34<15:26:25,  1.26s/it] 10%|▉         | 4769/48845 [1:41:35<15:25:34,  1.26s/it] 10%|▉         | 4770/48845 [1:41:37<15:25:06,  1.26s/it]                                                         {'loss': 1.5223, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4770/48845 [1:41:37<15:25:06,  1.26s/it] 10%|▉         | 4771/48845 [1:41:38<15:25:45,  1.26s/it] 10%|▉         | 4772/48845 [1:41:39<15:24:55,  1.26s/it] 10%|▉         | 4773/48845 [1:41:41<15:24:15,  1.26s/it] 10%|▉         | 4774/48845 [1:41:42<15:23:46,  1.26s/it] 10%|▉         | 4775/48845 [1:41:43<15:24:11,  1.26s/it]                                                         {'loss': 1.5576, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4775/48845 [1:41:43<15:24:11,  1.26s/it] 10%|▉         | 4776/48845 [1:41:44<15:25:25,  1.26s/it] 10%|▉         | 4777/48845 [1:41:46<15:25:37,  1.26s/it] 10%|▉         | 4778/48845 [1:41:47<15:25:41,  1.26s/it] 10%|▉         | 4779/48845 [1:41:48<15:25:20,  1.26s/it] 10%|▉         | 4780/48845 [1:41:49<15:24:57,  1.26s/it]                                                         {'loss': 1.4099, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4780/48845 [1:41:49<15:24:57,  1.26s/it] 10%|▉         | 4781/48845 [1:41:51<15:25:13,  1.26s/it] 10%|▉         | 4782/48845 [1:41:52<15:24:48,  1.26s/it] 10%|▉         | 4783/48845 [1:41:53<15:24:47,  1.26s/it] 10%|▉         | 4784/48845 [1:41:54<15:24:36,  1.26s/it] 10%|▉         | 4785/48845 [1:41:56<15:25:23,  1.26s/it]                                                         {'loss': 1.7504, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4785/48845 [1:41:56<15:25:23,  1.26s/it] 10%|▉         | 4786/48845 [1:41:57<15:26:24,  1.26s/it] 10%|▉         | 4787/48845 [1:41:58<15:24:58,  1.26s/it] 10%|▉         | 4788/48845 [1:41:59<15:25:26,  1.26s/it] 10%|▉         | 4789/48845 [1:42:01<15:24:06,  1.26s/it] 10%|▉         | 4790/48845 [1:42:02<15:24:05,  1.26s/it]                                                         {'loss': 1.5695, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4790/48845 [1:42:02<15:24:05,  1.26s/it] 10%|▉         | 4791/48845 [1:42:03<15:25:07,  1.26s/it] 10%|▉         | 4792/48845 [1:42:04<15:24:24,  1.26s/it] 10%|▉         | 4793/48845 [1:42:06<15:23:42,  1.26s/it] 10%|▉         | 4794/48845 [1:42:07<15:23:55,  1.26s/it] 10%|▉         | 4795/48845 [1:42:08<15:23:38,  1.26s/it]                                                         {'loss': 1.7695, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4795/48845 [1:42:08<15:23:38,  1.26s/it] 10%|▉         | 4796/48845 [1:42:09<15:24:43,  1.26s/it] 10%|▉         | 4797/48845 [1:42:11<15:24:35,  1.26s/it] 10%|▉         | 4798/48845 [1:42:12<15:27:00,  1.26s/it] 10%|▉         | 4799/48845 [1:42:13<15:25:39,  1.26s/it] 10%|▉         | 4800/48845 [1:42:15<15:24:49,  1.26s/it]                                                         {'loss': 1.5989, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4800/48845 [1:42:15<15:24:49,  1.26s/it] 10%|▉         | 4801/48845 [1:42:18<24:06:29,  1.97s/it] 10%|▉         | 4802/48845 [1:42:19<21:28:55,  1.76s/it] 10%|▉         | 4803/48845 [1:42:21<19:39:09,  1.61s/it] 10%|▉         | 4804/48845 [1:42:22<18:21:39,  1.50s/it] 10%|▉         | 4805/48845 [1:42:23<17:28:39,  1.43s/it]                                                         {'loss': 1.6191, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4805/48845 [1:42:23<17:28:39,  1.43s/it] 10%|▉         | 4806/48845 [1:42:24<16:51:00,  1.38s/it] 10%|▉         | 4807/48845 [1:42:26<16:25:09,  1.34s/it] 10%|▉         | 4808/48845 [1:42:27<16:07:02,  1.32s/it] 10%|▉         | 4809/48845 [1:42:28<15:53:25,  1.30s/it] 10%|▉         | 4810/48845 [1:42:29<15:45:26,  1.29s/it]                                                         {'loss': 1.6396, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4810/48845 [1:42:29<15:45:26,  1.29s/it] 10%|▉         | 4811/48845 [1:42:31<15:39:05,  1.28s/it] 10%|▉         | 4812/48845 [1:42:32<15:34:34,  1.27s/it] 10%|▉         | 4813/48845 [1:42:33<15:31:28,  1.27s/it] 10%|▉         | 4814/48845 [1:42:35<15:29:14,  1.27s/it] 10%|▉         | 4815/48845 [1:42:36<15:28:08,  1.26s/it]                                                         {'loss': 1.5709, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4815/48845 [1:42:36<15:28:08,  1.26s/it] 10%|▉         | 4816/48845 [1:42:37<15:26:54,  1.26s/it] 10%|▉         | 4817/48845 [1:42:38<15:25:54,  1.26s/it] 10%|▉         | 4818/48845 [1:42:40<15:25:02,  1.26s/it] 10%|▉         | 4819/48845 [1:42:41<15:24:37,  1.26s/it] 10%|▉         | 4820/48845 [1:42:42<15:24:30,  1.26s/it]                                                         {'loss': 1.5633, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4820/48845 [1:42:42<15:24:30,  1.26s/it] 10%|▉         | 4821/48845 [1:42:43<15:23:59,  1.26s/it] 10%|▉         | 4822/48845 [1:42:45<15:23:33,  1.26s/it] 10%|▉         | 4823/48845 [1:42:46<15:24:10,  1.26s/it] 10%|▉         | 4824/48845 [1:42:47<15:23:59,  1.26s/it] 10%|▉         | 4825/48845 [1:42:48<15:23:13,  1.26s/it]                                                         {'loss': 1.6439, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4825/48845 [1:42:48<15:23:13,  1.26s/it] 10%|▉         | 4826/48845 [1:42:50<15:22:56,  1.26s/it] 10%|▉         | 4827/48845 [1:42:51<15:23:40,  1.26s/it] 10%|▉         | 4828/48845 [1:42:52<15:22:52,  1.26s/it] 10%|▉         | 4829/48845 [1:42:53<15:22:56,  1.26s/it] 10%|▉         | 4830/48845 [1:42:55<15:22:14,  1.26s/it]                                                         {'loss': 1.5643, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4830/48845 [1:42:55<15:22:14,  1.26s/it] 10%|▉         | 4831/48845 [1:42:56<15:22:48,  1.26s/it] 10%|▉         | 4832/48845 [1:42:57<15:23:48,  1.26s/it] 10%|▉         | 4833/48845 [1:42:58<15:23:04,  1.26s/it] 10%|▉         | 4834/48845 [1:43:00<15:24:22,  1.26s/it] 10%|▉         | 4835/48845 [1:43:01<15:23:17,  1.26s/it]                                                         {'loss': 1.7595, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.49}
+ 10%|▉         | 4835/48845 [1:43:01<15:23:17,  1.26s/it] 10%|▉         | 4836/48845 [1:43:02<15:22:54,  1.26s/it] 10%|▉         | 4837/48845 [1:43:03<15:23:53,  1.26s/it] 10%|▉         | 4838/48845 [1:43:05<15:23:19,  1.26s/it] 10%|▉         | 4839/48845 [1:43:06<15:22:32,  1.26s/it] 10%|▉         | 4840/48845 [1:43:07<15:22:39,  1.26s/it]                                                         {'loss': 1.5828, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4840/48845 [1:43:07<15:22:39,  1.26s/it] 10%|▉         | 4841/48845 [1:43:08<15:22:24,  1.26s/it] 10%|▉         | 4842/48845 [1:43:10<15:22:34,  1.26s/it] 10%|▉         | 4843/48845 [1:43:11<15:22:42,  1.26s/it] 10%|▉         | 4844/48845 [1:43:12<15:22:54,  1.26s/it] 10%|▉         | 4845/48845 [1:43:14<15:22:24,  1.26s/it]                                                         {'loss': 1.5807, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4845/48845 [1:43:14<15:22:24,  1.26s/it] 10%|▉         | 4846/48845 [1:43:15<15:22:49,  1.26s/it] 10%|▉         | 4847/48845 [1:43:16<15:22:10,  1.26s/it] 10%|▉         | 4848/48845 [1:43:17<15:23:48,  1.26s/it] 10%|▉         | 4849/48845 [1:43:19<15:23:49,  1.26s/it] 10%|▉         | 4850/48845 [1:43:20<15:24:08,  1.26s/it]                                                         {'loss': 1.5598, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4850/48845 [1:43:20<15:24:08,  1.26s/it] 10%|▉         | 4851/48845 [1:43:21<15:24:08,  1.26s/it] 10%|▉         | 4852/48845 [1:43:22<15:22:53,  1.26s/it] 10%|▉         | 4853/48845 [1:43:24<15:22:21,  1.26s/it] 10%|▉         | 4854/48845 [1:43:25<15:22:23,  1.26s/it] 10%|▉         | 4855/48845 [1:43:26<15:22:45,  1.26s/it]                                                         {'loss': 1.668, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4855/48845 [1:43:26<15:22:45,  1.26s/it] 10%|▉         | 4856/48845 [1:43:27<15:23:02,  1.26s/it] 10%|▉         | 4857/48845 [1:43:29<15:22:52,  1.26s/it] 10%|▉         | 4858/48845 [1:43:30<15:22:32,  1.26s/it] 10%|▉         | 4859/48845 [1:43:31<15:23:17,  1.26s/it] 10%|▉         | 4860/48845 [1:43:32<15:22:39,  1.26s/it]                                                         {'loss': 1.6372, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4860/48845 [1:43:32<15:22:39,  1.26s/it] 10%|▉         | 4861/48845 [1:43:34<15:22:55,  1.26s/it] 10%|▉         | 4862/48845 [1:43:35<15:23:07,  1.26s/it] 10%|▉         | 4863/48845 [1:43:36<15:22:48,  1.26s/it] 10%|▉         | 4864/48845 [1:43:38<17:09:45,  1.40s/it] 10%|▉         | 4865/48845 [1:43:39<16:43:28,  1.37s/it]                                                         {'loss': 1.4694, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4865/48845 [1:43:39<16:43:28,  1.37s/it] 10%|▉         | 4866/48845 [1:43:40<16:19:21,  1.34s/it] 10%|▉         | 4867/48845 [1:43:42<16:01:38,  1.31s/it] 10%|▉         | 4868/48845 [1:43:43<15:49:21,  1.30s/it] 10%|▉         | 4869/48845 [1:43:44<15:41:34,  1.28s/it] 10%|▉         | 4870/48845 [1:43:46<15:35:56,  1.28s/it]                                                         {'loss': 1.5483, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4870/48845 [1:43:46<15:35:56,  1.28s/it] 10%|▉         | 4871/48845 [1:43:47<15:32:20,  1.27s/it] 10%|▉         | 4872/48845 [1:43:48<15:29:17,  1.27s/it] 10%|▉         | 4873/48845 [1:43:49<15:26:50,  1.26s/it] 10%|▉         | 4874/48845 [1:43:51<15:26:17,  1.26s/it] 10%|▉         | 4875/48845 [1:43:52<15:24:41,  1.26s/it]                                                         {'loss': 1.3877, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4875/48845 [1:43:52<15:24:41,  1.26s/it] 10%|▉         | 4876/48845 [1:43:53<15:24:24,  1.26s/it] 10%|▉         | 4877/48845 [1:43:54<15:23:39,  1.26s/it] 10%|▉         | 4878/48845 [1:43:56<15:23:36,  1.26s/it] 10%|▉         | 4879/48845 [1:43:57<15:24:10,  1.26s/it] 10%|▉         | 4880/48845 [1:43:58<15:24:03,  1.26s/it]                                                         {'loss': 1.596, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|▉         | 4880/48845 [1:43:58<15:24:03,  1.26s/it] 10%|▉         | 4881/48845 [1:43:59<15:23:26,  1.26s/it] 10%|▉         | 4882/48845 [1:44:01<15:23:04,  1.26s/it] 10%|▉         | 4883/48845 [1:44:02<15:22:10,  1.26s/it] 10%|▉         | 4884/48845 [1:44:03<15:22:39,  1.26s/it] 10%|█         | 4885/48845 [1:44:04<15:22:34,  1.26s/it]                                                         {'loss': 1.5112, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4885/48845 [1:44:04<15:22:34,  1.26s/it] 10%|█         | 4886/48845 [1:44:06<15:22:35,  1.26s/it] 10%|█         | 4887/48845 [1:44:07<15:22:06,  1.26s/it] 10%|█         | 4888/48845 [1:44:08<15:21:48,  1.26s/it] 10%|█         | 4889/48845 [1:44:09<15:22:58,  1.26s/it] 10%|█         | 4890/48845 [1:44:11<15:23:11,  1.26s/it]                                                         {'loss': 1.4328, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4890/48845 [1:44:11<15:23:11,  1.26s/it] 10%|█         | 4891/48845 [1:44:12<15:23:19,  1.26s/it] 10%|█         | 4892/48845 [1:44:13<15:22:49,  1.26s/it] 10%|█         | 4893/48845 [1:44:14<15:23:10,  1.26s/it] 10%|█         | 4894/48845 [1:44:16<15:23:37,  1.26s/it] 10%|█         | 4895/48845 [1:44:17<15:23:07,  1.26s/it]                                                         {'loss': 1.4874, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4895/48845 [1:44:17<15:23:07,  1.26s/it] 10%|█         | 4896/48845 [1:44:18<15:24:27,  1.26s/it] 10%|█         | 4897/48845 [1:44:20<15:23:46,  1.26s/it] 10%|█         | 4898/48845 [1:44:21<15:22:20,  1.26s/it] 10%|█         | 4899/48845 [1:44:22<15:24:21,  1.26s/it] 10%|█         | 4900/48845 [1:44:23<15:23:05,  1.26s/it]                                                         {'loss': 1.4308, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4900/48845 [1:44:23<15:23:05,  1.26s/it] 10%|█         | 4901/48845 [1:44:25<15:23:45,  1.26s/it] 10%|█         | 4902/48845 [1:44:26<15:21:17,  1.26s/it] 10%|█         | 4903/48845 [1:44:27<15:21:41,  1.26s/it] 10%|█         | 4904/48845 [1:44:28<15:21:54,  1.26s/it] 10%|█         | 4905/48845 [1:44:30<15:22:27,  1.26s/it]                                                         {'loss': 1.6186, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4905/48845 [1:44:30<15:22:27,  1.26s/it] 10%|█         | 4906/48845 [1:44:31<15:23:14,  1.26s/it] 10%|█         | 4907/48845 [1:44:32<15:21:51,  1.26s/it] 10%|█         | 4908/48845 [1:44:33<15:21:56,  1.26s/it] 10%|█         | 4909/48845 [1:44:35<15:22:29,  1.26s/it] 10%|█         | 4910/48845 [1:44:36<15:21:59,  1.26s/it]                                                         {'loss': 1.5339, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4910/48845 [1:44:36<15:21:59,  1.26s/it] 10%|█         | 4911/48845 [1:44:37<15:22:35,  1.26s/it] 10%|█         | 4912/48845 [1:44:38<15:22:46,  1.26s/it] 10%|█         | 4913/48845 [1:44:40<15:22:59,  1.26s/it] 10%|█         | 4914/48845 [1:44:41<15:22:31,  1.26s/it] 10%|█         | 4915/48845 [1:44:42<15:21:40,  1.26s/it]                                                         {'loss': 1.4279, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4915/48845 [1:44:42<15:21:40,  1.26s/it] 10%|█         | 4916/48845 [1:44:43<15:22:40,  1.26s/it] 10%|█         | 4917/48845 [1:44:45<15:21:58,  1.26s/it] 10%|█         | 4918/48845 [1:44:46<15:22:00,  1.26s/it] 10%|█         | 4919/48845 [1:44:47<15:22:56,  1.26s/it] 10%|█         | 4920/48845 [1:44:48<15:21:47,  1.26s/it]                                                         {'loss': 1.5434, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4920/48845 [1:44:48<15:21:47,  1.26s/it] 10%|█         | 4921/48845 [1:44:50<15:22:03,  1.26s/it] 10%|█         | 4922/48845 [1:44:51<15:22:18,  1.26s/it] 10%|█         | 4923/48845 [1:44:52<15:22:14,  1.26s/it] 10%|█         | 4924/48845 [1:44:54<15:22:13,  1.26s/it] 10%|█         | 4925/48845 [1:44:55<15:20:57,  1.26s/it]                                                         {'loss': 1.4097, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4925/48845 [1:44:55<15:20:57,  1.26s/it] 10%|█         | 4926/48845 [1:44:56<15:22:33,  1.26s/it] 10%|█         | 4927/48845 [1:44:57<15:21:17,  1.26s/it] 10%|█         | 4928/48845 [1:44:59<15:21:38,  1.26s/it] 10%|█         | 4929/48845 [1:45:00<15:33:01,  1.27s/it] 10%|█         | 4930/48845 [1:45:01<15:30:19,  1.27s/it]                                                         {'loss': 1.6976, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.5}
+ 10%|█         | 4930/48845 [1:45:01<15:30:19,  1.27s/it] 10%|█         | 4931/48845 [1:45:02<15:28:29,  1.27s/it] 10%|█         | 4932/48845 [1:45:04<15:26:32,  1.27s/it] 10%|█         | 4933/48845 [1:45:05<15:25:42,  1.26s/it] 10%|█         | 4934/48845 [1:45:06<15:27:57,  1.27s/it] 10%|█         | 4935/48845 [1:45:07<15:25:51,  1.27s/it]                                                         {'loss': 1.6628, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4935/48845 [1:45:07<15:25:51,  1.27s/it] 10%|█         | 4936/48845 [1:45:09<15:25:18,  1.26s/it] 10%|█         | 4937/48845 [1:45:10<15:24:20,  1.26s/it] 10%|█         | 4938/48845 [1:45:11<15:23:14,  1.26s/it] 10%|█         | 4939/48845 [1:45:13<15:22:10,  1.26s/it] 10%|█         | 4940/48845 [1:45:14<15:22:04,  1.26s/it]                                                         {'loss': 1.6161, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4940/48845 [1:45:14<15:22:04,  1.26s/it] 10%|█         | 4941/48845 [1:45:15<15:22:34,  1.26s/it] 10%|█         | 4942/48845 [1:45:16<15:21:45,  1.26s/it] 10%|█         | 4943/48845 [1:45:18<15:22:05,  1.26s/it] 10%|█         | 4944/48845 [1:45:19<15:22:06,  1.26s/it] 10%|█         | 4945/48845 [1:45:20<15:21:24,  1.26s/it]                                                         {'loss': 1.5666, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4945/48845 [1:45:20<15:21:24,  1.26s/it] 10%|█         | 4946/48845 [1:45:21<15:22:57,  1.26s/it] 10%|█         | 4947/48845 [1:45:23<15:22:17,  1.26s/it] 10%|█         | 4948/48845 [1:45:24<15:22:19,  1.26s/it] 10%|█         | 4949/48845 [1:45:25<15:22:07,  1.26s/it] 10%|█         | 4950/48845 [1:45:26<15:21:28,  1.26s/it]                                                         {'loss': 1.5911, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|��         | 4950/48845 [1:45:26<15:21:28,  1.26s/it] 10%|█         | 4951/48845 [1:45:28<15:21:47,  1.26s/it] 10%|█         | 4952/48845 [1:45:29<15:21:18,  1.26s/it] 10%|█         | 4953/48845 [1:45:30<15:20:49,  1.26s/it] 10%|█         | 4954/48845 [1:45:31<15:20:18,  1.26s/it] 10%|█         | 4955/48845 [1:45:33<15:20:19,  1.26s/it]                                                         {'loss': 1.472, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4955/48845 [1:45:33<15:20:19,  1.26s/it] 10%|█         | 4956/48845 [1:45:34<15:21:41,  1.26s/it] 10%|█         | 4957/48845 [1:45:35<15:21:02,  1.26s/it] 10%|█         | 4958/48845 [1:45:36<15:20:41,  1.26s/it] 10%|█         | 4959/48845 [1:45:38<15:20:52,  1.26s/it] 10%|█         | 4960/48845 [1:45:39<15:20:51,  1.26s/it]                                                         {'loss': 1.504, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4960/48845 [1:45:39<15:20:51,  1.26s/it] 10%|█         | 4961/48845 [1:45:40<15:22:13,  1.26s/it] 10%|█         | 4962/48845 [1:45:41<15:21:40,  1.26s/it] 10%|█         | 4963/48845 [1:45:43<15:20:57,  1.26s/it] 10%|█         | 4964/48845 [1:45:44<15:20:48,  1.26s/it] 10%|█         | 4965/48845 [1:45:45<15:20:33,  1.26s/it]                                                         {'loss': 1.7259, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4965/48845 [1:45:45<15:20:33,  1.26s/it] 10%|█         | 4966/48845 [1:45:47<15:21:40,  1.26s/it] 10%|█         | 4967/48845 [1:45:48<15:21:12,  1.26s/it] 10%|█         | 4968/48845 [1:45:49<15:20:45,  1.26s/it] 10%|█         | 4969/48845 [1:45:50<15:20:38,  1.26s/it] 10%|█         | 4970/48845 [1:45:52<15:20:52,  1.26s/it]                                                         {'loss': 1.5689, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4970/48845 [1:45:52<15:20:52,  1.26s/it] 10%|█         | 4971/48845 [1:45:53<15:21:16,  1.26s/it] 10%|█         | 4972/48845 [1:45:54<15:20:40,  1.26s/it] 10%|█         | 4973/48845 [1:45:55<15:21:22,  1.26s/it] 10%|█         | 4974/48845 [1:45:57<15:21:17,  1.26s/it] 10%|█         | 4975/48845 [1:45:58<15:21:17,  1.26s/it]                                                         {'loss': 1.5625, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4975/48845 [1:45:58<15:21:17,  1.26s/it] 10%|█         | 4976/48845 [1:45:59<15:21:40,  1.26s/it] 10%|█         | 4977/48845 [1:46:00<15:21:23,  1.26s/it] 10%|█         | 4978/48845 [1:46:02<15:21:04,  1.26s/it] 10%|█         | 4979/48845 [1:46:03<15:20:28,  1.26s/it] 10%|█         | 4980/48845 [1:46:04<15:20:06,  1.26s/it]                                                         {'loss': 1.526, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4980/48845 [1:46:04<15:20:06,  1.26s/it] 10%|█         | 4981/48845 [1:46:05<15:20:29,  1.26s/it] 10%|█         | 4982/48845 [1:46:07<15:20:31,  1.26s/it] 10%|█         | 4983/48845 [1:46:08<15:20:03,  1.26s/it] 10%|█         | 4984/48845 [1:46:09<15:19:48,  1.26s/it] 10%|█         | 4985/48845 [1:46:10<15:19:03,  1.26s/it]                                                         {'loss': 1.5891, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4985/48845 [1:46:10<15:19:03,  1.26s/it] 10%|█         | 4986/48845 [1:46:12<15:19:00,  1.26s/it] 10%|█         | 4987/48845 [1:46:13<15:18:49,  1.26s/it] 10%|█         | 4988/48845 [1:46:14<15:19:11,  1.26s/it] 10%|█         | 4989/48845 [1:46:15<15:19:31,  1.26s/it] 10%|█         | 4990/48845 [1:46:17<15:19:56,  1.26s/it]                                                         {'loss': 1.6736, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4990/48845 [1:46:17<15:19:56,  1.26s/it] 10%|█         | 4991/48845 [1:46:18<15:19:53,  1.26s/it] 10%|█         | 4992/48845 [1:46:19<15:19:46,  1.26s/it] 10%|█         | 4993/48845 [1:46:21<15:20:24,  1.26s/it] 10%|█         | 4994/48845 [1:46:22<15:19:47,  1.26s/it] 10%|█         | 4995/48845 [1:46:23<15:20:01,  1.26s/it]                                                         {'loss': 1.5577, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 4995/48845 [1:46:23<15:20:01,  1.26s/it] 10%|█         | 4996/48845 [1:46:24<15:20:18,  1.26s/it] 10%|█         | 4997/48845 [1:46:26<15:19:44,  1.26s/it] 10%|█         | 4998/48845 [1:46:27<15:20:57,  1.26s/it] 10%|█         | 4999/48845 [1:46:28<15:20:52,  1.26s/it] 10%|█         | 5000/48845 [1:46:29<15:20:38,  1.26s/it]                                                         {'loss': 1.6509, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5000/48845 [1:46:29<15:20:38,  1.26s/it] 10%|█         | 5001/48845 [1:46:33<24:00:30,  1.97s/it] 10%|█         | 5002/48845 [1:46:34<21:24:43,  1.76s/it] 10%|█         | 5003/48845 [1:46:35<19:35:23,  1.61s/it] 10%|█         | 5004/48845 [1:46:37<18:18:13,  1.50s/it] 10%|█         | 5005/48845 [1:46:38<17:24:20,  1.43s/it]                                                         {'loss': 1.5003, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5005/48845 [1:46:38<17:24:20,  1.43s/it] 10%|█         | 5006/48845 [1:46:39<16:46:50,  1.38s/it] 10%|█         | 5007/48845 [1:46:41<16:21:01,  1.34s/it] 10%|█         | 5008/48845 [1:46:42<16:01:49,  1.32s/it] 10%|█         | 5009/48845 [1:46:43<15:49:51,  1.30s/it] 10%|█         | 5010/48845 [1:46:44<15:40:16,  1.29s/it]                                                         {'loss': 1.4196, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5010/48845 [1:46:44<15:40:16,  1.29s/it] 10%|█         | 5011/48845 [1:46:46<15:33:52,  1.28s/it] 10%|█         | 5012/48845 [1:46:47<15:30:29,  1.27s/it] 10%|█         | 5013/48845 [1:46:48<15:26:58,  1.27s/it] 10%|█         | 5014/48845 [1:46:49<15:24:28,  1.27s/it] 10%|█         | 5015/48845 [1:46:51<15:22:23,  1.26s/it]                                                         {'loss': 1.5295, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5015/48845 [1:46:51<15:22:23,  1.26s/it] 10%|█         | 5016/48845 [1:46:52<15:20:52,  1.26s/it] 10%|█         | 5017/48845 [1:46:53<15:20:16,  1.26s/it] 10%|█         | 5018/48845 [1:46:54<15:20:12,  1.26s/it] 10%|█         | 5019/48845 [1:46:56<15:19:47,  1.26s/it] 10%|█         | 5020/48845 [1:46:57<15:18:16,  1.26s/it]                                                         {'loss': 1.4716, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5020/48845 [1:46:57<15:18:16,  1.26s/it] 10%|█         | 5021/48845 [1:46:58<15:20:06,  1.26s/it] 10%|█         | 5022/48845 [1:46:59<15:19:03,  1.26s/it] 10%|█         | 5023/48845 [1:47:01<15:18:46,  1.26s/it] 10%|█         | 5024/48845 [1:47:02<15:18:42,  1.26s/it] 10%|█         | 5025/48845 [1:47:03<15:19:07,  1.26s/it]                                                         {'loss': 1.5381, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5025/48845 [1:47:03<15:19:07,  1.26s/it] 10%|█         | 5026/48845 [1:47:04<15:18:57,  1.26s/it] 10%|█         | 5027/48845 [1:47:06<15:18:19,  1.26s/it] 10%|█         | 5028/48845 [1:47:07<15:18:12,  1.26s/it] 10%|█         | 5029/48845 [1:47:08<15:17:07,  1.26s/it] 10%|█         | 5030/48845 [1:47:09<15:17:53,  1.26s/it]                                                         {'loss': 1.5784, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.51}
+ 10%|█         | 5030/48845 [1:47:09<15:17:53,  1.26s/it] 10%|█         | 5031/48845 [1:47:11<15:18:48,  1.26s/it] 10%|█         | 5032/48845 [1:47:12<15:18:49,  1.26s/it] 10%|█         | 5033/48845 [1:47:13<15:19:10,  1.26s/it] 10%|█         | 5034/48845 [1:47:14<15:19:10,  1.26s/it] 10%|█         | 5035/48845 [1:47:16<15:19:03,  1.26s/it]                                                         {'loss': 1.4326, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5035/48845 [1:47:16<15:19:03,  1.26s/it] 10%|█         | 5036/48845 [1:47:17<15:20:41,  1.26s/it] 10%|█         | 5037/48845 [1:47:18<15:23:09,  1.26s/it] 10%|█         | 5038/48845 [1:47:20<15:21:34,  1.26s/it] 10%|█         | 5039/48845 [1:47:21<15:21:07,  1.26s/it] 10%|█         | 5040/48845 [1:47:22<15:20:33,  1.26s/it]                                                         {'loss': 1.6155, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5040/48845 [1:47:22<15:20:33,  1.26s/it] 10%|█         | 5041/48845 [1:47:23<15:21:51,  1.26s/it] 10%|█         | 5042/48845 [1:47:25<15:21:17,  1.26s/it] 10%|█         | 5043/48845 [1:47:26<15:20:37,  1.26s/it] 10%|█         | 5044/48845 [1:47:27<15:20:19,  1.26s/it] 10%|█         | 5045/48845 [1:47:28<15:19:59,  1.26s/it]                                                         {'loss': 1.5471, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5045/48845 [1:47:28<15:19:59,  1.26s/it] 10%|█         | 5046/48845 [1:47:30<15:20:07,  1.26s/it] 10%|█         | 5047/48845 [1:47:31<15:19:29,  1.26s/it] 10%|█         | 5048/48845 [1:47:32<15:18:55,  1.26s/it] 10%|█         | 5049/48845 [1:47:33<15:19:24,  1.26s/it] 10%|█         | 5050/48845 [1:47:35<15:18:39,  1.26s/it]                                                         {'loss': 1.5895, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5050/48845 [1:47:35<15:18:39,  1.26s/it] 10%|█         | 5051/48845 [1:47:36<15:18:01,  1.26s/it] 10%|█         | 5052/48845 [1:47:37<15:18:10,  1.26s/it] 10%|█         | 5053/48845 [1:47:38<15:18:24,  1.26s/it] 10%|█         | 5054/48845 [1:47:40<15:20:02,  1.26s/it] 10%|█         | 5055/48845 [1:47:41<15:19:41,  1.26s/it]                                                         {'loss': 1.7716, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5055/48845 [1:47:41<15:19:41,  1.26s/it] 10%|█         | 5056/48845 [1:47:42<15:19:22,  1.26s/it] 10%|█         | 5057/48845 [1:47:43<15:20:28,  1.26s/it] 10%|█         | 5058/48845 [1:47:45<15:19:56,  1.26s/it] 10%|█         | 5059/48845 [1:47:46<15:19:37,  1.26s/it] 10%|█         | 5060/48845 [1:47:47<15:18:31,  1.26s/it]                                                         {'loss': 1.7644, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5060/48845 [1:47:47<15:18:31,  1.26s/it] 10%|█         | 5061/48845 [1:47:49<15:19:44,  1.26s/it] 10%|█         | 5062/48845 [1:47:50<15:19:19,  1.26s/it] 10%|█         | 5063/48845 [1:47:51<15:18:57,  1.26s/it] 10%|█         | 5064/48845 [1:47:52<15:19:43,  1.26s/it] 10%|█         | 5065/48845 [1:47:54<15:19:29,  1.26s/it]                                                         {'loss': 1.52, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5065/48845 [1:47:54<15:19:29,  1.26s/it] 10%|█         | 5066/48845 [1:47:55<15:19:36,  1.26s/it] 10%|█         | 5067/48845 [1:47:56<15:18:22,  1.26s/it] 10%|█         | 5068/48845 [1:47:57<15:18:08,  1.26s/it] 10%|█         | 5069/48845 [1:47:59<15:18:17,  1.26s/it] 10%|█         | 5070/48845 [1:48:00<15:19:07,  1.26s/it]                                                         {'loss': 1.6286, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5070/48845 [1:48:00<15:19:07,  1.26s/it] 10%|█         | 5071/48845 [1:48:01<15:18:33,  1.26s/it] 10%|█         | 5072/48845 [1:48:02<15:17:55,  1.26s/it] 10%|█         | 5073/48845 [1:48:04<15:18:07,  1.26s/it] 10%|█         | 5074/48845 [1:48:05<15:18:11,  1.26s/it] 10%|█         | 5075/48845 [1:48:06<15:18:56,  1.26s/it]                                                         {'loss': 1.7647, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5075/48845 [1:48:06<15:18:56,  1.26s/it] 10%|█         | 5076/48845 [1:48:07<15:18:39,  1.26s/it] 10%|█         | 5077/48845 [1:48:09<15:19:09,  1.26s/it] 10%|█         | 5078/48845 [1:48:10<15:19:00,  1.26s/it] 10%|█         | 5079/48845 [1:48:11<15:19:03,  1.26s/it] 10%|█         | 5080/48845 [1:48:12<15:18:47,  1.26s/it]                                                         {'loss': 1.6387, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5080/48845 [1:48:12<15:18:47,  1.26s/it] 10%|█         | 5081/48845 [1:48:14<15:18:58,  1.26s/it] 10%|█         | 5082/48845 [1:48:15<15:18:03,  1.26s/it] 10%|█         | 5083/48845 [1:48:16<15:18:42,  1.26s/it] 10%|█         | 5084/48845 [1:48:17<15:18:41,  1.26s/it] 10%|█         | 5085/48845 [1:48:19<15:18:02,  1.26s/it]                                                         {'loss': 1.7092, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5085/48845 [1:48:19<15:18:02,  1.26s/it] 10%|█         | 5086/48845 [1:48:20<15:17:30,  1.26s/it] 10%|█         | 5087/48845 [1:48:21<15:17:04,  1.26s/it] 10%|█         | 5088/48845 [1:48:22<15:16:49,  1.26s/it] 10%|█         | 5089/48845 [1:48:24<15:16:24,  1.26s/it] 10%|█         | 5090/48845 [1:48:25<15:16:41,  1.26s/it]                                                         {'loss': 1.5998, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5090/48845 [1:48:25<15:16:41,  1.26s/it] 10%|█         | 5091/48845 [1:48:26<15:18:21,  1.26s/it] 10%|█         | 5092/48845 [1:48:28<15:17:37,  1.26s/it] 10%|█         | 5093/48845 [1:48:29<15:17:57,  1.26s/it] 10%|█         | 5094/48845 [1:48:30<15:18:18,  1.26s/it] 10%|█         | 5095/48845 [1:48:31<15:17:30,  1.26s/it]                                                         {'loss': 1.7819, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5095/48845 [1:48:31<15:17:30,  1.26s/it] 10%|█         | 5096/48845 [1:48:33<15:18:08,  1.26s/it] 10%|█         | 5097/48845 [1:48:34<15:17:49,  1.26s/it] 10%|█         | 5098/48845 [1:48:35<15:17:45,  1.26s/it] 10%|█         | 5099/48845 [1:48:36<15:16:58,  1.26s/it] 10%|█         | 5100/48845 [1:48:38<15:17:14,  1.26s/it]                                                         {'loss': 1.6605, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5100/48845 [1:48:38<15:17:14,  1.26s/it] 10%|█         | 5101/48845 [1:48:39<15:17:53,  1.26s/it] 10%|█         | 5102/48845 [1:48:40<15:17:55,  1.26s/it] 10%|█         | 5103/48845 [1:48:41<15:18:01,  1.26s/it] 10%|█         | 5104/48845 [1:48:43<15:17:37,  1.26s/it] 10%|█         | 5105/48845 [1:48:44<15:17:07,  1.26s/it]                                                         {'loss': 1.4917, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5105/48845 [1:48:44<15:17:07,  1.26s/it] 10%|█         | 5106/48845 [1:48:45<15:17:37,  1.26s/it] 10%|█         | 5107/48845 [1:48:46<15:17:31,  1.26s/it] 10%|█         | 5108/48845 [1:48:48<15:17:06,  1.26s/it] 10%|█         | 5109/48845 [1:48:49<15:16:40,  1.26s/it] 10%|█         | 5110/48845 [1:48:50<15:17:39,  1.26s/it]                                                         {'loss': 1.6423, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5110/48845 [1:48:50<15:17:39,  1.26s/it] 10%|█         | 5111/48845 [1:48:51<15:17:14,  1.26s/it] 10%|█         | 5112/48845 [1:48:53<15:16:56,  1.26s/it] 10%|█         | 5113/48845 [1:48:54<15:17:47,  1.26s/it] 10%|█         | 5114/48845 [1:48:55<15:17:09,  1.26s/it] 10%|█         | 5115/48845 [1:48:56<15:16:43,  1.26s/it]                                                         {'loss': 1.4631, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5115/48845 [1:48:56<15:16:43,  1.26s/it] 10%|█         | 5116/48845 [1:48:58<15:16:34,  1.26s/it] 10%|█         | 5117/48845 [1:48:59<15:17:21,  1.26s/it] 10%|█         | 5118/48845 [1:49:00<15:18:00,  1.26s/it] 10%|█         | 5119/48845 [1:49:02<15:17:53,  1.26s/it] 10%|█         | 5120/48845 [1:49:03<15:17:27,  1.26s/it]                                                         {'loss': 1.5594, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5120/48845 [1:49:03<15:17:27,  1.26s/it] 10%|█         | 5121/48845 [1:49:04<15:18:10,  1.26s/it] 10%|█         | 5122/48845 [1:49:05<15:18:24,  1.26s/it] 10%|█         | 5123/48845 [1:49:07<15:18:09,  1.26s/it] 10%|█         | 5124/48845 [1:49:08<15:18:05,  1.26s/it] 10%|█         | 5125/48845 [1:49:09<15:18:10,  1.26s/it]                                                         {'loss': 1.7832, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.52}
+ 10%|█         | 5125/48845 [1:49:09<15:18:10,  1.26s/it] 10%|█         | 5126/48845 [1:49:10<15:18:36,  1.26s/it] 10%|█         | 5127/48845 [1:49:12<15:18:15,  1.26s/it] 10%|█         | 5128/48845 [1:49:13<15:18:02,  1.26s/it] 11%|█         | 5129/48845 [1:49:14<15:17:42,  1.26s/it] 11%|█         | 5130/48845 [1:49:15<15:17:01,  1.26s/it]                                                         {'loss': 1.6745, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5130/48845 [1:49:15<15:17:01,  1.26s/it] 11%|█         | 5131/48845 [1:49:17<15:17:19,  1.26s/it] 11%|█         | 5132/48845 [1:49:18<15:16:45,  1.26s/it] 11%|█         | 5133/48845 [1:49:19<15:17:39,  1.26s/it] 11%|█         | 5134/48845 [1:49:20<15:17:25,  1.26s/it] 11%|█         | 5135/48845 [1:49:22<15:17:28,  1.26s/it]                                                         {'loss': 1.5973, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5135/48845 [1:49:22<15:17:28,  1.26s/it] 11%|█         | 5136/48845 [1:49:23<15:17:59,  1.26s/it] 11%|█         | 5137/48845 [1:49:24<15:18:57,  1.26s/it] 11%|█         | 5138/48845 [1:49:25<15:20:00,  1.26s/it] 11%|█         | 5139/48845 [1:49:27<15:18:21,  1.26s/it] 11%|█         | 5140/48845 [1:49:28<15:18:04,  1.26s/it]                                                         {'loss': 1.6374, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5140/48845 [1:49:28<15:18:04,  1.26s/it] 11%|█         | 5141/48845 [1:49:29<15:16:59,  1.26s/it] 11%|█         | 5142/48845 [1:49:30<15:16:29,  1.26s/it] 11%|█         | 5143/48845 [1:49:32<15:17:29,  1.26s/it] 11%|█         | 5144/48845 [1:49:33<15:17:46,  1.26s/it] 11%|█         | 5145/48845 [1:49:34<15:17:43,  1.26s/it]                                                         {'loss': 1.7384, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5145/48845 [1:49:34<15:17:43,  1.26s/it] 11%|█         | 5146/48845 [1:49:36<15:18:52,  1.26s/it] 11%|█         | 5147/48845 [1:49:37<15:18:30,  1.26s/it] 11%|█         | 5148/48845 [1:49:38<15:19:13,  1.26s/it] 11%|█         | 5149/48845 [1:49:39<15:18:41,  1.26s/it] 11%|█         | 5150/48845 [1:49:41<15:18:26,  1.26s/it]                                                         {'loss': 1.4932, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5150/48845 [1:49:41<15:18:26,  1.26s/it] 11%|█         | 5151/48845 [1:49:42<15:18:50,  1.26s/it] 11%|█         | 5152/48845 [1:49:43<15:17:48,  1.26s/it] 11%|█         | 5153/48845 [1:49:44<15:18:02,  1.26s/it] 11%|█         | 5154/48845 [1:49:46<15:17:34,  1.26s/it] 11%|█         | 5155/48845 [1:49:47<15:17:14,  1.26s/it]                                                         {'loss': 1.7086, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5155/48845 [1:49:47<15:17:14,  1.26s/it] 11%|█         | 5156/48845 [1:49:48<15:17:40,  1.26s/it] 11%|█         | 5157/48845 [1:49:49<15:17:04,  1.26s/it] 11%|█         | 5158/48845 [1:49:51<15:16:43,  1.26s/it] 11%|█         | 5159/48845 [1:49:52<15:16:56,  1.26s/it] 11%|█         | 5160/48845 [1:49:53<15:16:48,  1.26s/it]                                                         {'loss': 1.6378, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5160/48845 [1:49:53<15:16:48,  1.26s/it] 11%|█         | 5161/48845 [1:49:54<15:18:01,  1.26s/it] 11%|█         | 5162/48845 [1:49:56<15:27:56,  1.27s/it] 11%|█         | 5163/48845 [1:49:57<15:24:36,  1.27s/it] 11%|█         | 5164/48845 [1:49:58<15:22:23,  1.27s/it] 11%|█         | 5165/48845 [1:50:00<15:21:05,  1.27s/it]                                                         {'loss': 1.7601, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5165/48845 [1:50:00<15:21:05,  1.27s/it] 11%|█         | 5166/48845 [1:50:01<15:19:35,  1.26s/it] 11%|█         | 5167/48845 [1:50:02<15:19:31,  1.26s/it] 11%|█         | 5168/48845 [1:50:03<15:17:59,  1.26s/it] 11%|█         | 5169/48845 [1:50:05<15:17:25,  1.26s/it] 11%|█         | 5170/48845 [1:50:06<15:16:37,  1.26s/it]                                                         {'loss': 1.6093, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5170/48845 [1:50:06<15:16:37,  1.26s/it] 11%|█         | 5171/48845 [1:50:07<15:16:06,  1.26s/it] 11%|█         | 5172/48845 [1:50:08<15:17:03,  1.26s/it] 11%|█         | 5173/48845 [1:50:10<15:15:44,  1.26s/it] 11%|█         | 5174/48845 [1:50:11<15:15:33,  1.26s/it] 11%|█         | 5175/48845 [1:50:12<15:15:59,  1.26s/it]                                                         {'loss': 1.5589, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5175/48845 [1:50:12<15:15:59,  1.26s/it] 11%|█         | 5176/48845 [1:50:13<15:15:45,  1.26s/it] 11%|█         | 5177/48845 [1:50:15<15:16:22,  1.26s/it] 11%|█         | 5178/48845 [1:50:16<15:16:19,  1.26s/it] 11%|█         | 5179/48845 [1:50:17<15:16:05,  1.26s/it] 11%|█         | 5180/48845 [1:50:18<15:16:28,  1.26s/it]                                                         {'loss': 1.4696, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5180/48845 [1:50:18<15:16:28,  1.26s/it] 11%|█         | 5181/48845 [1:50:20<15:16:17,  1.26s/it] 11%|█         | 5182/48845 [1:50:21<15:17:26,  1.26s/it] 11%|█         | 5183/48845 [1:50:22<15:16:31,  1.26s/it] 11%|█         | 5184/48845 [1:50:23<15:15:56,  1.26s/it] 11%|█         | 5185/48845 [1:50:25<15:15:49,  1.26s/it]                                                         {'loss': 1.579, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5185/48845 [1:50:25<15:15:49,  1.26s/it] 11%|█         | 5186/48845 [1:50:26<15:16:47,  1.26s/it] 11%|█         | 5187/48845 [1:50:27<15:17:09,  1.26s/it] 11%|█         | 5188/48845 [1:50:28<15:16:30,  1.26s/it] 11%|█         | 5189/48845 [1:50:30<15:16:33,  1.26s/it] 11%|█         | 5190/48845 [1:50:31<15:17:05,  1.26s/it]                                                         {'loss': 1.531, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5190/48845 [1:50:31<15:17:05,  1.26s/it] 11%|█         | 5191/48845 [1:50:32<15:16:52,  1.26s/it] 11%|█         | 5192/48845 [1:50:34<15:16:57,  1.26s/it] 11%|█         | 5193/48845 [1:50:35<15:16:09,  1.26s/it] 11%|█         | 5194/48845 [1:50:36<15:16:32,  1.26s/it] 11%|█         | 5195/48845 [1:50:37<15:15:56,  1.26s/it]                                                         {'loss': 1.6016, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5195/48845 [1:50:37<15:15:56,  1.26s/it] 11%|█         | 5196/48845 [1:50:39<15:15:57,  1.26s/it] 11%|█         | 5197/48845 [1:50:40<15:16:56,  1.26s/it] 11%|█         | 5198/48845 [1:50:41<15:16:13,  1.26s/it] 11%|█         | 5199/48845 [1:50:42<15:16:18,  1.26s/it] 11%|█         | 5200/48845 [1:50:44<15:15:27,  1.26s/it]                                                         {'loss': 1.7412, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5200/48845 [1:50:44<15:15:27,  1.26s/it] 11%|█         | 5201/48845 [1:50:47<23:49:22,  1.97s/it] 11%|█         | 5202/48845 [1:50:48<21:14:38,  1.75s/it] 11%|█         | 5203/48845 [1:50:50<19:26:56,  1.60s/it] 11%|█         | 5204/48845 [1:50:51<18:10:44,  1.50s/it] 11%|█         | 5205/48845 [1:50:52<17:18:56,  1.43s/it]                                                         {'loss': 1.3536, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5205/48845 [1:50:52<17:18:56,  1.43s/it] 11%|█         | 5206/48845 [1:50:54<16:41:31,  1.38s/it] 11%|█         | 5207/48845 [1:50:55<16:15:12,  1.34s/it] 11%|█         | 5208/48845 [1:50:56<15:57:10,  1.32s/it] 11%|█         | 5209/48845 [1:50:57<15:43:44,  1.30s/it] 11%|█         | 5210/48845 [1:50:59<15:34:51,  1.29s/it]                                                         {'loss': 1.5265, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5210/48845 [1:50:59<15:34:51,  1.29s/it] 11%|█         | 5211/48845 [1:51:00<15:28:46,  1.28s/it] 11%|█         | 5212/48845 [1:51:01<15:24:04,  1.27s/it] 11%|█         | 5213/48845 [1:51:02<15:20:41,  1.27s/it] 11%|█         | 5214/48845 [1:51:04<15:18:21,  1.26s/it] 11%|█         | 5215/48845 [1:51:05<15:17:31,  1.26s/it]                                                         {'loss': 1.5029, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5215/48845 [1:51:05<15:17:31,  1.26s/it] 11%|█         | 5216/48845 [1:51:06<15:17:54,  1.26s/it] 11%|█         | 5217/48845 [1:51:07<15:17:07,  1.26s/it] 11%|█         | 5218/48845 [1:51:09<15:16:27,  1.26s/it] 11%|█         | 5219/48845 [1:51:10<15:17:14,  1.26s/it] 11%|█         | 5220/48845 [1:51:11<15:18:38,  1.26s/it]                                                         {'loss': 1.4562, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5220/48845 [1:51:11<15:18:38,  1.26s/it] 11%|█         | 5221/48845 [1:51:12<15:16:25,  1.26s/it] 11%|█         | 5222/48845 [1:51:14<15:16:39,  1.26s/it] 11%|█         | 5223/48845 [1:51:15<15:15:35,  1.26s/it] 11%|█         | 5224/48845 [1:51:16<15:14:56,  1.26s/it] 11%|█         | 5225/48845 [1:51:17<15:15:46,  1.26s/it]                                                         {'loss': 1.7019, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.53}
+ 11%|█         | 5225/48845 [1:51:17<15:15:46,  1.26s/it] 11%|█         | 5226/48845 [1:51:19<15:15:49,  1.26s/it] 11%|█         | 5227/48845 [1:51:20<15:16:41,  1.26s/it] 11%|█         | 5228/48845 [1:51:21<15:15:34,  1.26s/it] 11%|█         | 5229/48845 [1:51:22<15:15:05,  1.26s/it] 11%|█         | 5230/48845 [1:51:24<15:16:32,  1.26s/it]                                                         {'loss': 1.6053, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.54}
+ 11%|█         | 5230/48845 [1:51:24<15:16:32,  1.26s/it] 11%|█         | 5231/48845 [1:51:25<15:16:07,  1.26s/it] 11%|█         | 5232/48845 [1:51:26<15:16:01,  1.26s/it] 11%|█         | 5233/48845 [1:51:27<15:15:36,  1.26s/it] 11%|█         | 5234/48845 [1:51:29<15:14:56,  1.26s/it] 11%|█         | 5235/48845 [1:51:30<15:15:12,  1.26s/it]                                                         {'loss': 1.4488, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.54}
+ 11%|█         | 5235/48845 [1:51:30<15:15:12,  1.26s/it] 11%|█         | 5236/48845 [1:51:31<15:14:52,  1.26s/it] 11%|█         | 5237/48845 [1:51:33<15:14:41,  1.26s/it] 11%|█         | 5238/48845 [1:51:34<15:14:36,  1.26s/it] 11%|█         | 5239/48845 [1:51:35<15:14:27,  1.26s/it] 11%|█         | 5240/48845 [1:51:36<15:15:23,  1.26s/it]                                                         {'loss': 1.7235, 'learning_rate': 3.946568070546408e-05, 'epoch': 0.54}
+ 11%|█         | 5240/48845 [1:51:36<15:15:23,  1.26s/it] 11%|█         | 5241/48845 [1:51:38<15:15:22,  1.26s/it] 11%|█         | 5242/48845 [1:51:39<15:14:41,  1.26s/it] 11%|█         | 5243/48845 [1:51:40<16:03:30,  1.33s/it] 11%|█         | 5244/48845 [1:51:42<15:48:45,  1.31s/it] 11%|█         | 5245/48845 [1:51:43<15:37:57,  1.29s/it]                                                         {'loss': 1.5721, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5245/48845 [1:51:43<15:37:57,  1.29s/it] 11%|█         | 5246/48845 [1:51:44<15:30:58,  1.28s/it] 11%|█         | 5247/48845 [1:51:45<15:25:07,  1.27s/it] 11%|█         | 5248/48845 [1:51:47<15:21:36,  1.27s/it] 11%|█         | 5249/48845 [1:51:48<15:18:51,  1.26s/it] 11%|█         | 5250/48845 [1:51:49<15:29:54,  1.28s/it]                                                         {'loss': 1.5846, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5250/48845 [1:51:49<15:29:54,  1.28s/it] 11%|█         | 5251/48845 [1:51:50<15:25:55,  1.27s/it] 11%|█         | 5252/48845 [1:51:52<15:22:07,  1.27s/it] 11%|█         | 5253/48845 [1:51:53<15:19:53,  1.27s/it] 11%|█         | 5254/48845 [1:51:54<15:18:29,  1.26s/it] 11%|█         | 5255/48845 [1:51:55<15:18:00,  1.26s/it]                                                         {'loss': 1.6675, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5255/48845 [1:51:55<15:18:00,  1.26s/it] 11%|█         | 5256/48845 [1:51:57<15:17:16,  1.26s/it] 11%|█         | 5257/48845 [1:51:58<15:16:32,  1.26s/it] 11%|█         | 5258/48845 [1:51:59<15:16:03,  1.26s/it] 11%|█         | 5259/48845 [1:52:00<15:16:01,  1.26s/it] 11%|█         | 5260/48845 [1:52:02<15:15:10,  1.26s/it]                                                         {'loss': 1.6397, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5260/48845 [1:52:02<15:15:10,  1.26s/it] 11%|█         | 5261/48845 [1:52:03<15:15:13,  1.26s/it] 11%|█         | 5262/48845 [1:52:04<15:14:58,  1.26s/it] 11%|█         | 5263/48845 [1:52:06<15:14:25,  1.26s/it] 11%|█         | 5264/48845 [1:52:07<15:15:22,  1.26s/it] 11%|█         | 5265/48845 [1:52:08<15:15:35,  1.26s/it]                                                         {'loss': 1.6019, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5265/48845 [1:52:08<15:15:35,  1.26s/it] 11%|█         | 5266/48845 [1:52:09<15:15:26,  1.26s/it] 11%|█         | 5267/48845 [1:52:11<15:15:21,  1.26s/it] 11%|█         | 5268/48845 [1:52:12<15:16:08,  1.26s/it] 11%|█         | 5269/48845 [1:52:13<15:15:53,  1.26s/it] 11%|█         | 5270/48845 [1:52:14<15:15:04,  1.26s/it]                                                         {'loss': 1.6172, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5270/48845 [1:52:14<15:15:04,  1.26s/it] 11%|█         | 5271/48845 [1:52:16<15:15:45,  1.26s/it] 11%|█         | 5272/48845 [1:52:17<15:15:29,  1.26s/it] 11%|█         | 5273/48845 [1:52:18<15:15:08,  1.26s/it] 11%|█         | 5274/48845 [1:52:19<15:14:48,  1.26s/it] 11%|█         | 5275/48845 [1:52:21<15:14:32,  1.26s/it]                                                         {'loss': 1.6143, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5275/48845 [1:52:21<15:14:32,  1.26s/it] 11%|█         | 5276/48845 [1:52:22<15:14:44,  1.26s/it] 11%|█         | 5277/48845 [1:52:23<15:14:17,  1.26s/it] 11%|█         | 5278/48845 [1:52:24<15:13:53,  1.26s/it] 11%|█         | 5279/48845 [1:52:26<15:14:41,  1.26s/it] 11%|█         | 5280/48845 [1:52:27<15:14:27,  1.26s/it]                                                         {'loss': 1.5787, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5280/48845 [1:52:27<15:14:27,  1.26s/it] 11%|█         | 5281/48845 [1:52:28<15:15:23,  1.26s/it] 11%|█         | 5282/48845 [1:52:29<15:14:55,  1.26s/it] 11%|█         | 5283/48845 [1:52:31<15:14:43,  1.26s/it] 11%|█         | 5284/48845 [1:52:32<15:14:45,  1.26s/it] 11%|█         | 5285/48845 [1:52:33<15:14:31,  1.26s/it]                                                         {'loss': 1.4229, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5285/48845 [1:52:33<15:14:31,  1.26s/it] 11%|█         | 5286/48845 [1:52:35<15:16:54,  1.26s/it] 11%|█         | 5287/48845 [1:52:36<15:17:30,  1.26s/it] 11%|█         | 5288/48845 [1:52:37<15:16:33,  1.26s/it] 11%|█         | 5289/48845 [1:52:38<15:15:46,  1.26s/it] 11%|█         | 5290/48845 [1:52:40<15:14:57,  1.26s/it]                                                         {'loss': 1.5936, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5290/48845 [1:52:40<15:14:57,  1.26s/it] 11%|█         | 5291/48845 [1:52:41<15:14:01,  1.26s/it] 11%|█         | 5292/48845 [1:52:42<15:14:47,  1.26s/it] 11%|█         | 5293/48845 [1:52:43<15:13:54,  1.26s/it] 11%|█         | 5294/48845 [1:52:45<15:14:01,  1.26s/it] 11%|█         | 5295/48845 [1:52:46<15:14:00,  1.26s/it]                                                         {'loss': 1.4704, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5295/48845 [1:52:46<15:14:00,  1.26s/it] 11%|█         | 5296/48845 [1:52:47<15:14:12,  1.26s/it] 11%|█         | 5297/48845 [1:52:48<15:14:30,  1.26s/it] 11%|█         | 5298/48845 [1:52:50<15:14:37,  1.26s/it] 11%|█         | 5299/48845 [1:52:51<15:14:20,  1.26s/it] 11%|█         | 5300/48845 [1:52:52<15:13:33,  1.26s/it]                                                         {'loss': 1.411, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5300/48845 [1:52:52<15:13:33,  1.26s/it] 11%|█         | 5301/48845 [1:52:53<15:14:35,  1.26s/it] 11%|█         | 5302/48845 [1:52:55<15:14:43,  1.26s/it] 11%|█         | 5303/48845 [1:52:56<15:13:40,  1.26s/it] 11%|█         | 5304/48845 [1:52:57<15:13:32,  1.26s/it] 11%|█         | 5305/48845 [1:52:58<15:13:28,  1.26s/it]                                                         {'loss': 1.5959, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5305/48845 [1:52:58<15:13:28,  1.26s/it] 11%|█         | 5306/48845 [1:53:00<15:13:41,  1.26s/it] 11%|█         | 5307/48845 [1:53:01<15:14:17,  1.26s/it] 11%|█         | 5308/48845 [1:53:02<15:14:17,  1.26s/it] 11%|█         | 5309/48845 [1:53:04<15:14:49,  1.26s/it] 11%|█         | 5310/48845 [1:53:05<15:15:52,  1.26s/it]                                                         {'loss': 1.6087, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5310/48845 [1:53:05<15:15:52,  1.26s/it] 11%|█         | 5311/48845 [1:53:06<15:16:28,  1.26s/it] 11%|█         | 5312/48845 [1:53:07<15:15:53,  1.26s/it] 11%|█         | 5313/48845 [1:53:09<15:15:11,  1.26s/it] 11%|█         | 5314/48845 [1:53:10<15:14:53,  1.26s/it] 11%|█         | 5315/48845 [1:53:11<15:15:00,  1.26s/it]                                                         {'loss': 1.6121, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5315/48845 [1:53:11<15:15:00,  1.26s/it] 11%|█         | 5316/48845 [1:53:12<15:14:02,  1.26s/it] 11%|█         | 5317/48845 [1:53:14<15:14:16,  1.26s/it] 11%|█         | 5318/48845 [1:53:15<15:14:36,  1.26s/it] 11%|█         | 5319/48845 [1:53:16<15:14:01,  1.26s/it] 11%|█         | 5320/48845 [1:53:17<15:14:16,  1.26s/it]                                                         {'loss': 1.48, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.54}
+ 11%|█         | 5320/48845 [1:53:17<15:14:16,  1.26s/it] 11%|█         | 5321/48845 [1:53:19<15:14:00,  1.26s/it] 11%|█         | 5322/48845 [1:53:20<15:13:46,  1.26s/it] 11%|█         | 5323/48845 [1:53:21<15:13:51,  1.26s/it] 11%|█         | 5324/48845 [1:53:22<15:13:50,  1.26s/it] 11%|█         | 5325/48845 [1:53:24<15:14:37,  1.26s/it]                                                         {'loss': 1.3765, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5325/48845 [1:53:24<15:14:37,  1.26s/it] 11%|█         | 5326/48845 [1:53:25<15:13:55,  1.26s/it] 11%|█         | 5327/48845 [1:53:26<15:14:18,  1.26s/it] 11%|█         | 5328/48845 [1:53:27<15:13:38,  1.26s/it] 11%|█         | 5329/48845 [1:53:29<15:14:16,  1.26s/it] 11%|█         | 5330/48845 [1:53:30<15:14:21,  1.26s/it]                                                         {'loss': 1.4931, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5330/48845 [1:53:30<15:14:21,  1.26s/it] 11%|█         | 5331/48845 [1:53:31<15:15:01,  1.26s/it] 11%|█         | 5332/48845 [1:53:33<15:14:26,  1.26s/it] 11%|█         | 5333/48845 [1:53:34<15:15:21,  1.26s/it] 11%|█         | 5334/48845 [1:53:35<15:14:57,  1.26s/it] 11%|█         | 5335/48845 [1:53:36<15:14:25,  1.26s/it]                                                         {'loss': 1.6097, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5335/48845 [1:53:36<15:14:25,  1.26s/it] 11%|█         | 5336/48845 [1:53:38<15:14:52,  1.26s/it] 11%|█         | 5337/48845 [1:53:39<15:14:22,  1.26s/it] 11%|█         | 5338/48845 [1:53:40<15:14:22,  1.26s/it] 11%|█         | 5339/48845 [1:53:41<15:14:47,  1.26s/it] 11%|█         | 5340/48845 [1:53:43<15:14:11,  1.26s/it]                                                         {'loss': 1.7041, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5340/48845 [1:53:43<15:14:11,  1.26s/it] 11%|█         | 5341/48845 [1:53:44<15:13:44,  1.26s/it] 11%|█         | 5342/48845 [1:53:45<15:13:16,  1.26s/it] 11%|█         | 5343/48845 [1:53:46<15:13:56,  1.26s/it] 11%|█         | 5344/48845 [1:53:48<15:13:39,  1.26s/it] 11%|█         | 5345/48845 [1:53:49<15:13:38,  1.26s/it]                                                         {'loss': 1.5731, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5345/48845 [1:53:49<15:13:38,  1.26s/it] 11%|█         | 5346/48845 [1:53:50<15:12:32,  1.26s/it] 11%|█         | 5347/48845 [1:53:51<15:12:12,  1.26s/it] 11%|█         | 5348/48845 [1:53:53<15:12:17,  1.26s/it] 11%|█         | 5349/48845 [1:53:54<15:11:58,  1.26s/it] 11%|█         | 5350/48845 [1:53:55<15:15:03,  1.26s/it]                                                         {'loss': 1.5869, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5350/48845 [1:53:55<15:15:03,  1.26s/it] 11%|█         | 5351/48845 [1:53:56<15:15:32,  1.26s/it] 11%|█         | 5352/48845 [1:53:58<15:15:06,  1.26s/it] 11%|█         | 5353/48845 [1:53:59<15:14:58,  1.26s/it] 11%|█         | 5354/48845 [1:54:00<15:15:00,  1.26s/it] 11%|█         | 5355/48845 [1:54:02<15:14:37,  1.26s/it]                                                         {'loss': 1.4768, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5355/48845 [1:54:02<15:14:37,  1.26s/it] 11%|█         | 5356/48845 [1:54:03<15:15:10,  1.26s/it] 11%|█         | 5357/48845 [1:54:04<15:23:15,  1.27s/it] 11%|█         | 5358/48845 [1:54:05<15:19:20,  1.27s/it] 11%|█         | 5359/48845 [1:54:07<15:17:36,  1.27s/it] 11%|█         | 5360/48845 [1:54:08<15:15:39,  1.26s/it]                                                         {'loss': 1.4744, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5360/48845 [1:54:08<15:15:39,  1.26s/it] 11%|█         | 5361/48845 [1:54:09<15:14:33,  1.26s/it] 11%|█         | 5362/48845 [1:54:10<15:15:35,  1.26s/it] 11%|█         | 5363/48845 [1:54:12<15:14:37,  1.26s/it] 11%|█         | 5364/48845 [1:54:13<15:14:27,  1.26s/it] 11%|█         | 5365/48845 [1:54:14<15:16:01,  1.26s/it]                                                         {'loss': 1.6806, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5365/48845 [1:54:14<15:16:01,  1.26s/it] 11%|█         | 5366/48845 [1:54:15<15:15:28,  1.26s/it] 11%|█         | 5367/48845 [1:54:17<15:14:24,  1.26s/it] 11%|█         | 5368/48845 [1:54:18<15:14:37,  1.26s/it] 11%|█         | 5369/48845 [1:54:19<15:13:52,  1.26s/it] 11%|█         | 5370/48845 [1:54:20<15:13:53,  1.26s/it]                                                         {'loss': 1.6585, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5370/48845 [1:54:20<15:13:53,  1.26s/it] 11%|█         | 5371/48845 [1:54:22<15:13:17,  1.26s/it] 11%|█         | 5372/48845 [1:54:23<15:14:14,  1.26s/it] 11%|█         | 5373/48845 [1:54:24<15:13:43,  1.26s/it] 11%|█         | 5374/48845 [1:54:26<15:13:29,  1.26s/it] 11%|█         | 5375/48845 [1:54:27<15:13:23,  1.26s/it]                                                         {'loss': 1.5064, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5375/48845 [1:54:27<15:13:23,  1.26s/it] 11%|█         | 5376/48845 [1:54:28<15:13:52,  1.26s/it] 11%|█         | 5377/48845 [1:54:29<15:14:02,  1.26s/it] 11%|█         | 5378/48845 [1:54:31<15:14:09,  1.26s/it] 11%|█         | 5379/48845 [1:54:32<15:13:38,  1.26s/it] 11%|█         | 5380/48845 [1:54:33<15:13:09,  1.26s/it]                                                         {'loss': 1.5439, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5380/48845 [1:54:33<15:13:09,  1.26s/it] 11%|█         | 5381/48845 [1:54:34<15:14:06,  1.26s/it] 11%|█         | 5382/48845 [1:54:36<15:14:09,  1.26s/it] 11%|█         | 5383/48845 [1:54:37<15:14:46,  1.26s/it] 11%|█         | 5384/48845 [1:54:38<15:15:05,  1.26s/it] 11%|█         | 5385/48845 [1:54:39<15:15:07,  1.26s/it]                                                         {'loss': 1.5327, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5385/48845 [1:54:39<15:15:07,  1.26s/it] 11%|█         | 5386/48845 [1:54:41<15:15:05,  1.26s/it] 11%|█         | 5387/48845 [1:54:42<15:13:39,  1.26s/it] 11%|█         | 5388/48845 [1:54:43<15:12:56,  1.26s/it] 11%|█         | 5389/48845 [1:54:44<15:12:33,  1.26s/it] 11%|█         | 5390/48845 [1:54:46<15:11:44,  1.26s/it]                                                         {'loss': 1.4625, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5390/48845 [1:54:46<15:11:44,  1.26s/it] 11%|█         | 5391/48845 [1:54:47<15:12:39,  1.26s/it] 11%|█         | 5392/48845 [1:54:48<15:12:31,  1.26s/it] 11%|█         | 5393/48845 [1:54:49<15:12:24,  1.26s/it] 11%|█         | 5394/48845 [1:54:51<15:11:44,  1.26s/it] 11%|█         | 5395/48845 [1:54:52<15:12:10,  1.26s/it]                                                         {'loss': 1.5331, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5395/48845 [1:54:52<15:12:10,  1.26s/it] 11%|█         | 5396/48845 [1:54:53<15:12:38,  1.26s/it] 11%|█         | 5397/48845 [1:54:55<15:13:04,  1.26s/it] 11%|█         | 5398/48845 [1:54:56<15:14:10,  1.26s/it] 11%|█         | 5399/48845 [1:54:57<15:14:02,  1.26s/it] 11%|█         | 5400/48845 [1:54:58<15:13:15,  1.26s/it]                                                         {'loss': 1.6966, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5400/48845 [1:54:58<15:13:15,  1.26s/it] 11%|█         | 5401/48845 [1:55:02<23:45:27,  1.97s/it] 11%|█         | 5402/48845 [1:55:03<21:10:40,  1.75s/it] 11%|█         | 5403/48845 [1:55:04<19:21:54,  1.60s/it] 11%|█         | 5404/48845 [1:55:06<18:06:18,  1.50s/it] 11%|█         | 5405/48845 [1:55:07<17:13:20,  1.43s/it]                                                         {'loss': 1.7003, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5405/48845 [1:55:07<17:13:20,  1.43s/it] 11%|█         | 5406/48845 [1:55:08<16:36:53,  1.38s/it] 11%|█         | 5407/48845 [1:55:09<16:10:55,  1.34s/it] 11%|█         | 5408/48845 [1:55:11<15:52:41,  1.32s/it] 11%|█         | 5409/48845 [1:55:12<15:39:56,  1.30s/it] 11%|█         | 5410/48845 [1:55:13<15:31:21,  1.29s/it]                                                         {'loss': 1.425, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5410/48845 [1:55:13<15:31:21,  1.29s/it] 11%|█         | 5411/48845 [1:55:14<15:25:57,  1.28s/it] 11%|█         | 5412/48845 [1:55:16<15:21:05,  1.27s/it] 11%|█         | 5413/48845 [1:55:17<15:18:21,  1.27s/it] 11%|█         | 5414/48845 [1:55:18<15:16:27,  1.27s/it] 11%|█         | 5415/48845 [1:55:20<15:15:34,  1.26s/it]                                                         {'loss': 1.5188, 'learning_rate': 3.9525057798763787e-05, 'epoch': 0.55}
+ 11%|█         | 5415/48845 [1:55:20<15:15:34,  1.26s/it] 11%|█         | 5416/48845 [1:55:21<16:03:05,  1.33s/it] 11%|█         | 5417/48845 [1:55:22<15:47:50,  1.31s/it] 11%|█         | 5418/48845 [1:55:24<15:37:30,  1.30s/it] 11%|█         | 5419/48845 [1:55:25<15:29:36,  1.28s/it] 11%|��         | 5420/48845 [1:55:26<15:24:27,  1.28s/it]                                                         {'loss': 1.5291, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.55}
+ 11%|█         | 5420/48845 [1:55:26<15:24:27,  1.28s/it] 11%|█         | 5421/48845 [1:55:27<15:20:21,  1.27s/it] 11%|█         | 5422/48845 [1:55:29<15:17:07,  1.27s/it] 11%|█         | 5423/48845 [1:55:30<15:17:38,  1.27s/it] 11%|█         | 5424/48845 [1:55:31<15:15:13,  1.26s/it] 11%|█         | 5425/48845 [1:55:32<15:14:14,  1.26s/it]                                                         {'loss': 1.6034, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5425/48845 [1:55:32<15:14:14,  1.26s/it] 11%|█         | 5426/48845 [1:55:34<15:13:49,  1.26s/it] 11%|█         | 5427/48845 [1:55:35<15:13:36,  1.26s/it] 11%|█         | 5428/48845 [1:55:36<15:11:59,  1.26s/it] 11%|█         | 5429/48845 [1:55:37<15:12:01,  1.26s/it] 11%|█         | 5430/48845 [1:55:39<15:12:04,  1.26s/it]                                                         {'loss': 1.6747, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5430/48845 [1:55:39<15:12:04,  1.26s/it] 11%|█         | 5431/48845 [1:55:40<15:12:39,  1.26s/it] 11%|█         | 5432/48845 [1:55:41<15:11:22,  1.26s/it] 11%|█         | 5433/48845 [1:55:42<15:11:18,  1.26s/it] 11%|█         | 5434/48845 [1:55:44<15:12:19,  1.26s/it] 11%|█         | 5435/48845 [1:55:45<15:13:16,  1.26s/it]                                                         {'loss': 1.6058, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5435/48845 [1:55:45<15:13:16,  1.26s/it] 11%|█         | 5436/48845 [1:55:46<15:12:54,  1.26s/it] 11%|█         | 5437/48845 [1:55:47<15:12:28,  1.26s/it] 11%|█         | 5438/48845 [1:55:49<15:12:17,  1.26s/it] 11%|█         | 5439/48845 [1:55:50<15:11:24,  1.26s/it] 11%|█         | 5440/48845 [1:55:51<15:10:53,  1.26s/it]                                                         {'loss': 1.5713, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5440/48845 [1:55:51<15:10:53,  1.26s/it] 11%|█         | 5441/48845 [1:55:53<15:12:43,  1.26s/it] 11%|█         | 5442/48845 [1:55:54<15:12:07,  1.26s/it] 11%|█         | 5443/48845 [1:55:55<15:12:42,  1.26s/it] 11%|█         | 5444/48845 [1:55:56<15:11:31,  1.26s/it] 11%|█         | 5445/48845 [1:55:58<15:10:48,  1.26s/it]                                                         {'loss': 1.4425, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5445/48845 [1:55:58<15:10:48,  1.26s/it] 11%|█         | 5446/48845 [1:55:59<15:11:20,  1.26s/it] 11%|█         | 5447/48845 [1:56:00<15:10:32,  1.26s/it] 11%|█         | 5448/48845 [1:56:01<15:10:34,  1.26s/it] 11%|█         | 5449/48845 [1:56:03<15:09:49,  1.26s/it] 11%|█         | 5450/48845 [1:56:04<15:09:31,  1.26s/it]                                                         {'loss': 1.4312, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5450/48845 [1:56:04<15:09:31,  1.26s/it] 11%|█         | 5451/48845 [1:56:05<15:09:40,  1.26s/it] 11%|█         | 5452/48845 [1:56:06<15:09:02,  1.26s/it] 11%|█         | 5453/48845 [1:56:08<15:09:49,  1.26s/it] 11%|█         | 5454/48845 [1:56:09<15:10:33,  1.26s/it] 11%|█         | 5455/48845 [1:56:10<15:12:13,  1.26s/it]                                                         {'loss': 1.574, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5455/48845 [1:56:10<15:12:13,  1.26s/it] 11%|█         | 5456/48845 [1:56:11<15:12:25,  1.26s/it] 11%|█         | 5457/48845 [1:56:13<15:12:09,  1.26s/it] 11%|█         | 5458/48845 [1:56:14<15:11:28,  1.26s/it] 11%|█         | 5459/48845 [1:56:15<15:10:49,  1.26s/it] 11%|█         | 5460/48845 [1:56:16<15:10:29,  1.26s/it]                                                         {'loss': 1.409, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5460/48845 [1:56:16<15:10:29,  1.26s/it] 11%|█         | 5461/48845 [1:56:18<15:11:54,  1.26s/it] 11%|█         | 5462/48845 [1:56:19<15:12:13,  1.26s/it] 11%|█         | 5463/48845 [1:56:20<15:12:46,  1.26s/it] 11%|█         | 5464/48845 [1:56:22<15:12:09,  1.26s/it] 11%|█         | 5465/48845 [1:56:23<15:11:07,  1.26s/it]                                                         {'loss': 1.6245, 'learning_rate': 3.95839998911375e-05, 'epoch': 0.56}
+ 11%|█         | 5465/48845 [1:56:23<15:11:07,  1.26s/it] 11%|█         | 5466/48845 [1:56:24<15:10:38,  1.26s/it] 11%|█         | 5467/48845 [1:56:25<15:09:31,  1.26s/it] 11%|█         | 5468/48845 [1:56:27<15:09:32,  1.26s/it] 11%|█         | 5469/48845 [1:56:28<15:09:14,  1.26s/it] 11%|█         | 5470/48845 [1:56:29<15:53:48,  1.32s/it]                                                         {'loss': 1.6588, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5470/48845 [1:56:29<15:53:48,  1.32s/it] 11%|█         | 5471/48845 [1:56:31<15:40:55,  1.30s/it] 11%|█         | 5472/48845 [1:56:32<15:31:56,  1.29s/it] 11%|█         | 5473/48845 [1:56:33<15:26:32,  1.28s/it] 11%|█         | 5474/48845 [1:56:34<15:20:58,  1.27s/it] 11%|█         | 5475/48845 [1:56:36<15:17:36,  1.27s/it]                                                         {'loss': 1.5896, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5475/48845 [1:56:36<15:17:36,  1.27s/it] 11%|█         | 5476/48845 [1:56:37<15:15:53,  1.27s/it] 11%|█         | 5477/48845 [1:56:38<15:13:57,  1.26s/it] 11%|█         | 5478/48845 [1:56:39<15:12:49,  1.26s/it] 11%|█         | 5479/48845 [1:56:41<15:12:25,  1.26s/it] 11%|█         | 5480/48845 [1:56:42<15:11:34,  1.26s/it]                                                         {'loss': 1.6055, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5480/48845 [1:56:42<15:11:34,  1.26s/it] 11%|█         | 5481/48845 [1:56:43<15:12:01,  1.26s/it] 11%|█         | 5482/48845 [1:56:44<15:11:55,  1.26s/it] 11%|█         | 5483/48845 [1:56:46<15:11:25,  1.26s/it] 11%|█         | 5484/48845 [1:56:47<15:11:08,  1.26s/it] 11%|█         | 5485/48845 [1:56:48<15:10:43,  1.26s/it]                                                         {'loss': 1.4801, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5485/48845 [1:56:48<15:10:43,  1.26s/it] 11%|█         | 5486/48845 [1:56:49<15:10:52,  1.26s/it] 11%|█         | 5487/48845 [1:56:51<15:10:20,  1.26s/it] 11%|█         | 5488/48845 [1:56:52<15:10:32,  1.26s/it] 11%|█         | 5489/48845 [1:56:53<15:10:41,  1.26s/it] 11%|█         | 5490/48845 [1:56:54<15:11:02,  1.26s/it]                                                         {'loss': 1.6051, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5490/48845 [1:56:54<15:11:02,  1.26s/it] 11%|█         | 5491/48845 [1:56:56<15:12:13,  1.26s/it] 11%|█         | 5492/48845 [1:56:57<15:11:04,  1.26s/it] 11%|█         | 5493/48845 [1:56:58<15:10:00,  1.26s/it] 11%|█         | 5494/48845 [1:57:00<15:10:34,  1.26s/it] 11%|█         | 5495/48845 [1:57:01<15:10:18,  1.26s/it]                                                         {'loss': 1.608, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█         | 5495/48845 [1:57:01<15:10:18,  1.26s/it] 11%|█▏        | 5496/48845 [1:57:02<15:11:14,  1.26s/it] 11%|█▏        | 5497/48845 [1:57:03<15:10:35,  1.26s/it] 11%|█▏        | 5498/48845 [1:57:05<15:09:59,  1.26s/it] 11%|█▏        | 5499/48845 [1:57:06<15:10:37,  1.26s/it] 11%|█▏        | 5500/48845 [1:57:07<15:09:54,  1.26s/it]                                                         {'loss': 1.461, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█▏        | 5500/48845 [1:57:07<15:09:54,  1.26s/it] 11%|█▏        | 5501/48845 [1:57:08<15:09:48,  1.26s/it] 11%|█▏        | 5502/48845 [1:57:10<15:09:19,  1.26s/it] 11%|█▏        | 5503/48845 [1:57:11<15:09:26,  1.26s/it] 11%|█▏        | 5504/48845 [1:57:12<15:10:03,  1.26s/it] 11%|█▏        | 5505/48845 [1:57:13<15:10:34,  1.26s/it]                                                         {'loss': 1.6036, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█▏        | 5505/48845 [1:57:13<15:10:34,  1.26s/it] 11%|█▏        | 5506/48845 [1:57:15<15:10:18,  1.26s/it] 11%|█▏        | 5507/48845 [1:57:16<15:10:06,  1.26s/it] 11%|█▏        | 5508/48845 [1:57:17<15:10:18,  1.26s/it] 11%|█▏        | 5509/48845 [1:57:18<15:10:20,  1.26s/it] 11%|█▏        | 5510/48845 [1:57:20<15:09:40,  1.26s/it]                                                         {'loss': 1.4602, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█▏        | 5510/48845 [1:57:20<15:09:40,  1.26s/it] 11%|█▏        | 5511/48845 [1:57:21<15:10:00,  1.26s/it] 11%|█▏        | 5512/48845 [1:57:22<15:09:50,  1.26s/it] 11%|█▏        | 5513/48845 [1:57:23<15:09:35,  1.26s/it] 11%|█▏        | 5514/48845 [1:57:25<15:10:18,  1.26s/it] 11%|█▏        | 5515/48845 [1:57:26<15:09:56,  1.26s/it]                                                         {'loss': 1.5429, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.56}
+ 11%|█▏        | 5515/48845 [1:57:26<15:09:56,  1.26s/it] 11%|█▏        | 5516/48845 [1:57:27<15:10:23,  1.26s/it] 11%|█▏        | 5517/48845 [1:57:28<15:09:11,  1.26s/it] 11%|█▏        | 5518/48845 [1:57:30<15:09:04,  1.26s/it] 11%|█▏        | 5519/48845 [1:57:31<15:10:12,  1.26s/it] 11%|█▏        | 5520/48845 [1:57:32<15:09:36,  1.26s/it]                                                         {'loss': 1.5384, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5520/48845 [1:57:32<15:09:36,  1.26s/it] 11%|█▏        | 5521/48845 [1:57:34<15:10:34,  1.26s/it] 11%|█▏        | 5522/48845 [1:57:35<15:09:57,  1.26s/it] 11%|█▏        | 5523/48845 [1:57:36<15:09:49,  1.26s/it] 11%|█▏        | 5524/48845 [1:57:37<15:10:12,  1.26s/it] 11%|█▏        | 5525/48845 [1:57:39<15:08:51,  1.26s/it]                                                         {'loss': 1.6217, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5525/48845 [1:57:39<15:08:51,  1.26s/it] 11%|█▏        | 5526/48845 [1:57:40<15:18:31,  1.27s/it] 11%|█▏        | 5527/48845 [1:57:41<15:16:10,  1.27s/it] 11%|█▏        | 5528/48845 [1:57:42<15:15:31,  1.27s/it] 11%|█▏        | 5529/48845 [1:57:44<15:14:44,  1.27s/it] 11%|█▏        | 5530/48845 [1:57:45<15:15:16,  1.27s/it]                                                         {'loss': 1.6274, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5530/48845 [1:57:45<15:15:16,  1.27s/it] 11%|█▏        | 5531/48845 [1:57:46<15:13:59,  1.27s/it] 11%|█▏        | 5532/48845 [1:57:47<15:11:53,  1.26s/it] 11%|█▏        | 5533/48845 [1:57:49<15:11:09,  1.26s/it] 11%|█▏        | 5534/48845 [1:57:50<15:34:41,  1.29s/it] 11%|█▏        | 5535/48845 [1:57:51<15:26:36,  1.28s/it]                                                         {'loss': 1.5459, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5535/48845 [1:57:51<15:26:36,  1.28s/it] 11%|█▏        | 5536/48845 [1:57:53<15:21:25,  1.28s/it] 11%|█▏        | 5537/48845 [1:57:54<15:17:33,  1.27s/it] 11%|█▏        | 5538/48845 [1:57:55<15:16:00,  1.27s/it] 11%|█▏        | 5539/48845 [1:57:56<15:14:08,  1.27s/it] 11%|█▏        | 5540/48845 [1:57:58<15:12:09,  1.26s/it]                                                         {'loss': 1.5388, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5540/48845 [1:57:58<15:12:09,  1.26s/it] 11%|█▏        | 5541/48845 [1:57:59<15:11:15,  1.26s/it] 11%|█▏        | 5542/48845 [1:58:00<15:11:01,  1.26s/it] 11%|█▏        | 5543/48845 [1:58:01<15:10:18,  1.26s/it] 11%|█▏        | 5544/48845 [1:58:03<15:09:28,  1.26s/it] 11%|█▏        | 5545/48845 [1:58:04<15:08:58,  1.26s/it]                                                         {'loss': 1.5017, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5545/48845 [1:58:04<15:08:58,  1.26s/it] 11%|█▏        | 5546/48845 [1:58:05<15:12:21,  1.26s/it] 11%|█▏        | 5547/48845 [1:58:06<15:11:20,  1.26s/it] 11%|█▏        | 5548/48845 [1:58:08<15:10:46,  1.26s/it] 11%|█▏        | 5549/48845 [1:58:09<15:11:03,  1.26s/it] 11%|█▏        | 5550/48845 [1:58:10<15:10:37,  1.26s/it]                                                         {'loss': 1.7715, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5550/48845 [1:58:10<15:10:37,  1.26s/it] 11%|█▏        | 5551/48845 [1:58:12<15:10:57,  1.26s/it] 11%|█▏        | 5552/48845 [1:58:13<15:09:57,  1.26s/it] 11%|█▏        | 5553/48845 [1:58:14<15:09:13,  1.26s/it] 11%|█▏        | 5554/48845 [1:58:15<15:09:49,  1.26s/it] 11%|█▏        | 5555/48845 [1:58:17<15:09:20,  1.26s/it]                                                         {'loss': 1.6198, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5555/48845 [1:58:17<15:09:20,  1.26s/it] 11%|█▏        | 5556/48845 [1:58:18<15:09:21,  1.26s/it] 11%|█▏        | 5557/48845 [1:58:19<15:10:31,  1.26s/it] 11%|█▏        | 5558/48845 [1:58:20<15:11:06,  1.26s/it] 11%|█▏        | 5559/48845 [1:58:22<15:09:57,  1.26s/it] 11%|█▏        | 5560/48845 [1:58:23<15:09:24,  1.26s/it]                                                         {'loss': 1.6055, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5560/48845 [1:58:23<15:09:24,  1.26s/it] 11%|█▏        | 5561/48845 [1:58:24<15:09:31,  1.26s/it] 11%|█▏        | 5562/48845 [1:58:25<15:09:58,  1.26s/it] 11%|█▏        | 5563/48845 [1:58:27<15:09:15,  1.26s/it] 11%|█▏        | 5564/48845 [1:58:28<15:09:05,  1.26s/it] 11%|█▏        | 5565/48845 [1:58:29<15:09:12,  1.26s/it]                                                         {'loss': 1.848, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5565/48845 [1:58:29<15:09:12,  1.26s/it] 11%|█▏        | 5566/48845 [1:58:30<15:09:13,  1.26s/it] 11%|█▏        | 5567/48845 [1:58:32<15:10:08,  1.26s/it] 11%|█▏        | 5568/48845 [1:58:33<15:09:52,  1.26s/it] 11%|█▏        | 5569/48845 [1:58:34<15:09:36,  1.26s/it] 11%|█▏        | 5570/48845 [1:58:35<15:08:07,  1.26s/it]                                                         {'loss': 1.5112, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5570/48845 [1:58:35<15:08:07,  1.26s/it] 11%|█▏        | 5571/48845 [1:58:37<15:08:23,  1.26s/it] 11%|█▏        | 5572/48845 [1:58:38<15:08:01,  1.26s/it] 11%|█▏        | 5573/48845 [1:58:39<15:08:13,  1.26s/it] 11%|█▏        | 5574/48845 [1:58:40<15:08:26,  1.26s/it] 11%|█▏        | 5575/48845 [1:58:42<15:07:34,  1.26s/it]                                                         {'loss': 1.5951, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5575/48845 [1:58:42<15:07:34,  1.26s/it] 11%|█▏        | 5576/48845 [1:58:43<15:07:49,  1.26s/it] 11%|█▏        | 5577/48845 [1:58:44<15:08:51,  1.26s/it] 11%|█▏        | 5578/48845 [1:58:46<15:07:50,  1.26s/it] 11%|█▏        | 5579/48845 [1:58:47<15:07:23,  1.26s/it] 11%|█▏        | 5580/48845 [1:58:48<15:07:15,  1.26s/it]                                                         {'loss': 1.5764, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5580/48845 [1:58:48<15:07:15,  1.26s/it] 11%|█▏        | 5581/48845 [1:58:49<15:08:16,  1.26s/it] 11%|█▏        | 5582/48845 [1:58:51<15:09:05,  1.26s/it] 11%|█▏        | 5583/48845 [1:58:52<15:08:40,  1.26s/it] 11%|█▏        | 5584/48845 [1:58:53<15:09:28,  1.26s/it] 11%|█▏        | 5585/48845 [1:58:54<15:09:12,  1.26s/it]                                                         {'loss': 1.6608, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5585/48845 [1:58:54<15:09:12,  1.26s/it] 11%|█▏        | 5586/48845 [1:58:56<15:09:55,  1.26s/it] 11%|█▏        | 5587/48845 [1:58:57<15:09:22,  1.26s/it] 11%|█▏        | 5588/48845 [1:58:58<15:08:38,  1.26s/it] 11%|█▏        | 5589/48845 [1:58:59<15:08:15,  1.26s/it] 11%|█▏        | 5590/48845 [1:59:01<15:08:22,  1.26s/it]                                                         {'loss': 1.6338, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5590/48845 [1:59:01<15:08:22,  1.26s/it] 11%|█▏        | 5591/48845 [1:59:02<15:07:49,  1.26s/it] 11%|█▏        | 5592/48845 [1:59:03<15:08:02,  1.26s/it] 11%|█▏        | 5593/48845 [1:59:04<15:07:44,  1.26s/it] 11%|█▏        | 5594/48845 [1:59:06<15:07:45,  1.26s/it] 11%|█▏        | 5595/48845 [1:59:07<15:07:18,  1.26s/it]                                                         {'loss': 1.5492, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5595/48845 [1:59:07<15:07:18,  1.26s/it] 11%|█▏        | 5596/48845 [1:59:08<15:06:58,  1.26s/it] 11%|█▏        | 5597/48845 [1:59:09<15:07:13,  1.26s/it] 11%|█▏        | 5598/48845 [1:59:11<15:06:59,  1.26s/it] 11%|█▏        | 5599/48845 [1:59:12<15:08:07,  1.26s/it] 11%|█▏        | 5600/48845 [1:59:13<15:07:57,  1.26s/it]                                                         {'loss': 1.6172, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5600/48845 [1:59:13<15:07:57,  1.26s/it] 11%|█▏        | 5601/48845 [1:59:17<23:38:56,  1.97s/it] 11%|█▏        | 5602/48845 [1:59:18<21:05:15,  1.76s/it] 11%|█▏        | 5603/48845 [1:59:19<19:18:57,  1.61s/it] 11%|█▏        | 5604/48845 [1:59:21<18:02:31,  1.50s/it] 11%|█▏        | 5605/48845 [1:59:22<17:09:05,  1.43s/it]                                                         {'loss': 1.5735, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5605/48845 [1:59:22<17:09:05,  1.43s/it] 11%|█▏        | 5606/48845 [1:59:23<16:32:52,  1.38s/it] 11%|█▏        | 5607/48845 [1:59:24<16:05:55,  1.34s/it] 11%|█▏        | 5608/48845 [1:59:26<15:48:22,  1.32s/it] 11%|█▏        | 5609/48845 [1:59:27<15:35:21,  1.30s/it] 11%|█▏        | 5610/48845 [1:59:28<15:27:57,  1.29s/it]                                                         {'loss': 1.6957, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5610/48845 [1:59:28<15:27:57,  1.29s/it] 11%|█▏        | 5611/48845 [1:59:29<15:24:01,  1.28s/it] 11%|█▏        | 5612/48845 [1:59:31<15:19:12,  1.28s/it] 11%|█▏        | 5613/48845 [1:59:32<15:15:37,  1.27s/it] 11%|█▏        | 5614/48845 [1:59:33<15:14:00,  1.27s/it] 11%|█▏        | 5615/48845 [1:59:35<15:12:47,  1.27s/it]                                                         {'loss': 1.6339, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.57}
+ 11%|█▏        | 5615/48845 [1:59:35<15:12:47,  1.27s/it] 11%|█▏        | 5616/48845 [1:59:36<15:10:46,  1.26s/it] 11%|█▏        | 5617/48845 [1:59:37<15:10:31,  1.26s/it] 12%|█▏        | 5618/48845 [1:59:38<15:09:20,  1.26s/it] 12%|█▏        | 5619/48845 [1:59:40<15:10:25,  1.26s/it] 12%|█▏        | 5620/48845 [1:59:41<15:09:28,  1.26s/it]                                                         {'loss': 1.4795, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5620/48845 [1:59:41<15:09:28,  1.26s/it] 12%|█▏        | 5621/48845 [1:59:42<15:08:11,  1.26s/it] 12%|█▏        | 5622/48845 [1:59:43<15:07:48,  1.26s/it] 12%|█▏        | 5623/48845 [1:59:45<15:07:42,  1.26s/it] 12%|█▏        | 5624/48845 [1:59:46<15:07:42,  1.26s/it] 12%|█▏        | 5625/48845 [1:59:47<15:07:29,  1.26s/it]                                                         {'loss': 1.731, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5625/48845 [1:59:47<15:07:29,  1.26s/it] 12%|█▏        | 5626/48845 [1:59:48<15:08:28,  1.26s/it] 12%|█▏        | 5627/48845 [1:59:50<15:08:14,  1.26s/it] 12%|█▏        | 5628/48845 [1:59:51<15:08:05,  1.26s/it] 12%|█▏        | 5629/48845 [1:59:52<15:09:01,  1.26s/it] 12%|█▏        | 5630/48845 [1:59:53<15:07:43,  1.26s/it]                                                         {'loss': 1.6028, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5630/48845 [1:59:53<15:07:43,  1.26s/it] 12%|█▏        | 5631/48845 [1:59:55<15:07:21,  1.26s/it] 12%|█▏        | 5632/48845 [1:59:56<15:06:24,  1.26s/it] 12%|█▏        | 5633/48845 [1:59:57<15:06:34,  1.26s/it] 12%|█▏        | 5634/48845 [1:59:58<15:06:29,  1.26s/it] 12%|█▏        | 5635/48845 [2:00:00<15:06:10,  1.26s/it]                                                         {'loss': 1.5711, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5635/48845 [2:00:00<15:06:10,  1.26s/it] 12%|█▏        | 5636/48845 [2:00:01<15:06:11,  1.26s/it] 12%|█▏        | 5637/48845 [2:00:02<15:05:57,  1.26s/it] 12%|█▏        | 5638/48845 [2:00:03<15:06:22,  1.26s/it] 12%|█▏        | 5639/48845 [2:00:05<15:06:51,  1.26s/it] 12%|█▏        | 5640/48845 [2:00:06<15:07:17,  1.26s/it]                                                         {'loss': 1.5248, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5640/48845 [2:00:06<15:07:17,  1.26s/it] 12%|█▏        | 5641/48845 [2:00:07<15:07:23,  1.26s/it] 12%|█▏        | 5642/48845 [2:00:09<15:06:50,  1.26s/it] 12%|█▏        | 5643/48845 [2:00:10<15:06:57,  1.26s/it] 12%|█▏        | 5644/48845 [2:00:11<15:07:05,  1.26s/it] 12%|█▏        | 5645/48845 [2:00:12<15:07:20,  1.26s/it]                                                         {'loss': 1.5432, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5645/48845 [2:00:12<15:07:20,  1.26s/it] 12%|█▏        | 5646/48845 [2:00:14<15:07:55,  1.26s/it] 12%|█▏        | 5647/48845 [2:00:15<15:07:41,  1.26s/it] 12%|█▏        | 5648/48845 [2:00:16<15:07:25,  1.26s/it] 12%|█▏        | 5649/48845 [2:00:17<15:07:55,  1.26s/it] 12%|█▏        | 5650/48845 [2:00:19<15:07:01,  1.26s/it]                                                         {'loss': 1.4938, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5650/48845 [2:00:19<15:07:01,  1.26s/it] 12%|█▏        | 5651/48845 [2:00:20<15:07:23,  1.26s/it] 12%|█▏        | 5652/48845 [2:00:21<15:06:25,  1.26s/it] 12%|█▏        | 5653/48845 [2:00:22<15:07:01,  1.26s/it] 12%|█▏        | 5654/48845 [2:00:24<15:07:18,  1.26s/it] 12%|█▏        | 5655/48845 [2:00:25<15:06:49,  1.26s/it]                                                         {'loss': 1.4406, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5655/48845 [2:00:25<15:06:49,  1.26s/it] 12%|█▏        | 5656/48845 [2:00:26<15:06:55,  1.26s/it] 12%|█▏        | 5657/48845 [2:00:27<15:06:24,  1.26s/it] 12%|█▏        | 5658/48845 [2:00:29<15:06:38,  1.26s/it] 12%|█▏        | 5659/48845 [2:00:30<15:06:52,  1.26s/it] 12%|█▏        | 5660/48845 [2:00:31<15:06:33,  1.26s/it]                                                         {'loss': 1.5187, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5660/48845 [2:00:31<15:06:33,  1.26s/it] 12%|█▏        | 5661/48845 [2:00:32<15:06:59,  1.26s/it] 12%|█▏        | 5662/48845 [2:00:34<15:06:21,  1.26s/it] 12%|█▏        | 5663/48845 [2:00:35<15:06:30,  1.26s/it] 12%|█▏        | 5664/48845 [2:00:36<15:06:21,  1.26s/it] 12%|█▏        | 5665/48845 [2:00:38<15:07:03,  1.26s/it]                                                         {'loss': 1.4946, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5665/48845 [2:00:38<15:07:03,  1.26s/it] 12%|█▏        | 5666/48845 [2:00:39<15:07:06,  1.26s/it] 12%|█▏        | 5667/48845 [2:00:40<15:06:32,  1.26s/it] 12%|█▏        | 5668/48845 [2:00:41<15:06:40,  1.26s/it] 12%|█▏        | 5669/48845 [2:00:43<15:07:25,  1.26s/it] 12%|█▏        | 5670/48845 [2:00:44<15:06:39,  1.26s/it]                                                         {'loss': 1.5168, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5670/48845 [2:00:44<15:06:39,  1.26s/it] 12%|█▏        | 5671/48845 [2:00:45<15:06:39,  1.26s/it] 12%|█▏        | 5672/48845 [2:00:46<15:05:34,  1.26s/it] 12%|█▏        | 5673/48845 [2:00:48<15:05:13,  1.26s/it] 12%|█▏        | 5674/48845 [2:00:49<15:05:44,  1.26s/it] 12%|█▏        | 5675/48845 [2:00:50<15:06:19,  1.26s/it]                                                         {'loss': 1.5836, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5675/48845 [2:00:50<15:06:19,  1.26s/it] 12%|█▏        | 5676/48845 [2:00:51<15:06:13,  1.26s/it] 12%|█▏        | 5677/48845 [2:00:53<15:05:28,  1.26s/it] 12%|█▏        | 5678/48845 [2:00:54<15:05:14,  1.26s/it] 12%|█▏        | 5679/48845 [2:00:55<15:05:26,  1.26s/it] 12%|█▏        | 5680/48845 [2:00:56<15:05:11,  1.26s/it]                                                         {'loss': 1.6217, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5680/48845 [2:00:56<15:05:11,  1.26s/it] 12%|█▏        | 5681/48845 [2:00:58<15:05:16,  1.26s/it] 12%|█▏        | 5682/48845 [2:00:59<15:05:17,  1.26s/it] 12%|█▏        | 5683/48845 [2:01:00<15:05:39,  1.26s/it] 12%|█▏        | 5684/48845 [2:01:01<15:06:26,  1.26s/it] 12%|█▏        | 5685/48845 [2:01:03<15:06:42,  1.26s/it]                                                         {'loss': 1.5211, 'learning_rate': 3.964251330995571e-05, 'epoch': 0.58}
+ 12%|█▏        | 5685/48845 [2:01:03<15:06:42,  1.26s/it] 12%|█▏        | 5686/48845 [2:01:04<15:06:46,  1.26s/it] 12%|█▏        | 5687/48845 [2:01:05<15:06:26,  1.26s/it] 12%|█▏        | 5688/48845 [2:01:06<15:06:29,  1.26s/it] 12%|█▏        | 5689/48845 [2:01:08<15:50:36,  1.32s/it] 12%|█▏        | 5690/48845 [2:01:09<15:37:19,  1.30s/it]                                                         {'loss': 1.5831, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.58}
+ 12%|█▏        | 5690/48845 [2:01:09<15:37:19,  1.30s/it] 12%|█▏        | 5691/48845 [2:01:10<15:28:41,  1.29s/it] 12%|█▏        | 5692/48845 [2:01:12<15:21:50,  1.28s/it] 12%|█▏        | 5693/48845 [2:01:13<15:17:20,  1.28s/it] 12%|█▏        | 5694/48845 [2:01:14<15:14:15,  1.27s/it] 12%|█▏        | 5695/48845 [2:01:16<15:12:14,  1.27s/it]                                                         {'loss': 1.4674, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.58}
+ 12%|█▏        | 5695/48845 [2:01:16<15:12:14,  1.27s/it] 12%|█▏        | 5696/48845 [2:01:17<15:10:41,  1.27s/it] 12%|█▏        | 5697/48845 [2:01:18<15:09:55,  1.27s/it] 12%|█▏        | 5698/48845 [2:01:19<15:08:18,  1.26s/it] 12%|█▏        | 5699/48845 [2:01:21<15:08:29,  1.26s/it] 12%|█▏        | 5700/48845 [2:01:22<15:08:18,  1.26s/it]                                                         {'loss': 1.5959, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.58}
+ 12%|█▏        | 5700/48845 [2:01:22<15:08:18,  1.26s/it] 12%|█▏        | 5701/48845 [2:01:23<15:07:42,  1.26s/it] 12%|█▏        | 5702/48845 [2:01:24<15:07:45,  1.26s/it] 12%|█▏        | 5703/48845 [2:01:26<15:40:59,  1.31s/it] 12%|█▏        | 5704/48845 [2:01:27<15:31:18,  1.30s/it] 12%|█▏        | 5705/48845 [2:01:28<15:23:23,  1.28s/it]                                                         {'loss': 1.5067, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.58}
+ 12%|█▏        | 5705/48845 [2:01:28<15:23:23,  1.28s/it] 12%|█▏        | 5706/48845 [2:01:30<15:19:15,  1.28s/it] 12%|█▏        | 5707/48845 [2:01:31<15:16:32,  1.27s/it] 12%|█▏        | 5708/48845 [2:01:32<15:13:12,  1.27s/it] 12%|█▏        | 5709/48845 [2:01:33<15:11:27,  1.27s/it] 12%|█▏        | 5710/48845 [2:01:35<15:10:05,  1.27s/it]                                                         {'loss': 1.4974, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.58}
+ 12%|█▏        | 5710/48845 [2:01:35<15:10:05,  1.27s/it] 12%|█▏        | 5711/48845 [2:01:36<15:10:59,  1.27s/it] 12%|█▏        | 5712/48845 [2:01:37<15:09:40,  1.27s/it] 12%|█▏        | 5713/48845 [2:01:38<15:08:47,  1.26s/it] 12%|█▏        | 5714/48845 [2:01:40<15:07:17,  1.26s/it] 12%|█▏        | 5715/48845 [2:01:41<15:08:21,  1.26s/it]                                                         {'loss': 1.539, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5715/48845 [2:01:41<15:08:21,  1.26s/it] 12%|█▏        | 5716/48845 [2:01:42<15:08:18,  1.26s/it] 12%|█▏        | 5717/48845 [2:01:43<15:07:07,  1.26s/it] 12%|█▏        | 5718/48845 [2:01:45<15:06:08,  1.26s/it] 12%|█▏        | 5719/48845 [2:01:46<15:07:23,  1.26s/it] 12%|█▏        | 5720/48845 [2:01:47<15:07:17,  1.26s/it]                                                         {'loss': 1.6379, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5720/48845 [2:01:47<15:07:17,  1.26s/it] 12%|█▏        | 5721/48845 [2:01:48<15:06:41,  1.26s/it] 12%|█▏        | 5722/48845 [2:01:50<15:05:43,  1.26s/it] 12%|█▏        | 5723/48845 [2:01:51<15:05:38,  1.26s/it] 12%|█▏        | 5724/48845 [2:01:52<15:05:12,  1.26s/it] 12%|█▏        | 5725/48845 [2:01:54<15:05:33,  1.26s/it]                                                         {'loss': 1.4782, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5725/48845 [2:01:54<15:05:33,  1.26s/it] 12%|█▏        | 5726/48845 [2:01:55<15:05:20,  1.26s/it] 12%|█▏        | 5727/48845 [2:01:56<15:06:17,  1.26s/it] 12%|█▏        | 5728/48845 [2:01:57<15:05:04,  1.26s/it] 12%|█▏        | 5729/48845 [2:01:59<15:05:02,  1.26s/it] 12%|█▏        | 5730/48845 [2:02:00<15:05:08,  1.26s/it]                                                         {'loss': 1.6314, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5730/48845 [2:02:00<15:05:08,  1.26s/it] 12%|█▏        | 5731/48845 [2:02:01<15:07:27,  1.26s/it] 12%|█▏        | 5732/48845 [2:02:02<15:07:05,  1.26s/it] 12%|█▏        | 5733/48845 [2:02:04<15:07:00,  1.26s/it] 12%|█▏        | 5734/48845 [2:02:05<15:06:04,  1.26s/it] 12%|█▏        | 5735/48845 [2:02:06<15:06:30,  1.26s/it]                                                         {'loss': 1.7045, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5735/48845 [2:02:06<15:06:30,  1.26s/it] 12%|█▏        | 5736/48845 [2:02:07<15:07:03,  1.26s/it] 12%|█▏        | 5737/48845 [2:02:09<15:05:51,  1.26s/it] 12%|█▏        | 5738/48845 [2:02:10<15:06:34,  1.26s/it] 12%|█▏        | 5739/48845 [2:02:11<15:18:13,  1.28s/it] 12%|█▏        | 5740/48845 [2:02:12<15:13:32,  1.27s/it]                                                         {'loss': 1.5171, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5740/48845 [2:02:12<15:13:32,  1.27s/it] 12%|█▏        | 5741/48845 [2:02:14<15:10:55,  1.27s/it] 12%|█▏        | 5742/48845 [2:02:15<15:09:44,  1.27s/it] 12%|█▏        | 5743/48845 [2:02:16<15:08:15,  1.26s/it] 12%|█▏        | 5744/48845 [2:02:18<15:07:19,  1.26s/it] 12%|█▏        | 5745/48845 [2:02:19<15:06:01,  1.26s/it]                                                         {'loss': 1.4886, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5745/48845 [2:02:19<15:06:01,  1.26s/it] 12%|█▏        | 5746/48845 [2:02:20<15:05:45,  1.26s/it] 12%|█▏        | 5747/48845 [2:02:21<15:07:15,  1.26s/it] 12%|█▏        | 5748/48845 [2:02:23<15:06:21,  1.26s/it] 12%|█▏        | 5749/48845 [2:02:24<15:06:35,  1.26s/it] 12%|█▏        | 5750/48845 [2:02:25<15:06:08,  1.26s/it]                                                         {'loss': 1.4919, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5750/48845 [2:02:25<15:06:08,  1.26s/it] 12%|█▏        | 5751/48845 [2:02:26<15:06:10,  1.26s/it] 12%|█▏        | 5752/48845 [2:02:28<15:06:22,  1.26s/it] 12%|█▏        | 5753/48845 [2:02:29<15:05:51,  1.26s/it] 12%|█▏        | 5754/48845 [2:02:30<15:04:50,  1.26s/it] 12%|█▏        | 5755/48845 [2:02:31<15:05:20,  1.26s/it]                                                         {'loss': 1.6534, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5755/48845 [2:02:31<15:05:20,  1.26s/it] 12%|█▏        | 5756/48845 [2:02:33<15:05:48,  1.26s/it] 12%|█▏        | 5757/48845 [2:02:34<15:05:35,  1.26s/it] 12%|█▏        | 5758/48845 [2:02:35<15:05:14,  1.26s/it] 12%|█▏        | 5759/48845 [2:02:36<15:04:47,  1.26s/it] 12%|█▏        | 5760/48845 [2:02:38<15:05:54,  1.26s/it]                                                         {'loss': 1.6013, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5760/48845 [2:02:38<15:05:54,  1.26s/it] 12%|█▏        | 5761/48845 [2:02:39<15:05:34,  1.26s/it] 12%|█▏        | 5762/48845 [2:02:40<15:05:37,  1.26s/it] 12%|█▏        | 5763/48845 [2:02:41<15:04:09,  1.26s/it] 12%|█▏        | 5764/48845 [2:02:43<15:04:12,  1.26s/it] 12%|█▏        | 5765/48845 [2:02:44<15:04:11,  1.26s/it]                                                         {'loss': 1.5197, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5765/48845 [2:02:44<15:04:11,  1.26s/it] 12%|█▏        | 5766/48845 [2:02:45<15:03:38,  1.26s/it] 12%|█▏        | 5767/48845 [2:02:47<15:04:02,  1.26s/it] 12%|█▏        | 5768/48845 [2:02:48<15:04:09,  1.26s/it] 12%|█▏        | 5769/48845 [2:02:49<15:04:21,  1.26s/it] 12%|█▏        | 5770/48845 [2:02:50<15:05:16,  1.26s/it]                                                         {'loss': 1.5184, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5770/48845 [2:02:50<15:05:16,  1.26s/it] 12%|█▏        | 5771/48845 [2:02:52<15:04:29,  1.26s/it] 12%|█▏        | 5772/48845 [2:02:53<15:05:39,  1.26s/it] 12%|█▏        | 5773/48845 [2:02:54<15:05:16,  1.26s/it] 12%|█▏        | 5774/48845 [2:02:55<15:04:57,  1.26s/it] 12%|█▏        | 5775/48845 [2:02:57<15:05:07,  1.26s/it]                                                         {'loss': 1.7217, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5775/48845 [2:02:57<15:05:07,  1.26s/it] 12%|█▏        | 5776/48845 [2:02:58<15:07:46,  1.26s/it] 12%|█▏        | 5777/48845 [2:02:59<15:06:59,  1.26s/it] 12%|█▏        | 5778/48845 [2:03:00<15:06:22,  1.26s/it] 12%|█▏        | 5779/48845 [2:03:02<15:05:45,  1.26s/it] 12%|█▏        | 5780/48845 [2:03:03<15:06:29,  1.26s/it]                                                         {'loss': 1.6487, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5780/48845 [2:03:03<15:06:29,  1.26s/it] 12%|█▏        | 5781/48845 [2:03:04<15:06:22,  1.26s/it] 12%|█▏        | 5782/48845 [2:03:05<15:05:47,  1.26s/it] 12%|█▏        | 5783/48845 [2:03:07<15:05:05,  1.26s/it] 12%|█▏        | 5784/48845 [2:03:08<15:05:32,  1.26s/it] 12%|█▏        | 5785/48845 [2:03:09<15:04:29,  1.26s/it]                                                         {'loss': 1.4676, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5785/48845 [2:03:09<15:04:29,  1.26s/it] 12%|█▏        | 5786/48845 [2:03:10<15:06:02,  1.26s/it] 12%|█▏        | 5787/48845 [2:03:12<15:05:00,  1.26s/it] 12%|█▏        | 5788/48845 [2:03:13<15:06:49,  1.26s/it] 12%|█▏        | 5789/48845 [2:03:14<15:05:59,  1.26s/it] 12%|█▏        | 5790/48845 [2:03:16<15:04:45,  1.26s/it]                                                         {'loss': 1.576, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5790/48845 [2:03:16<15:04:45,  1.26s/it] 12%|█▏        | 5791/48845 [2:03:17<15:05:34,  1.26s/it] 12%|█▏        | 5792/48845 [2:03:18<15:05:12,  1.26s/it] 12%|█▏        | 5793/48845 [2:03:19<15:04:38,  1.26s/it] 12%|█▏        | 5794/48845 [2:03:21<15:04:49,  1.26s/it] 12%|█▏        | 5795/48845 [2:03:22<15:04:15,  1.26s/it]                                                         {'loss': 1.4222, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5795/48845 [2:03:22<15:04:15,  1.26s/it] 12%|█▏        | 5796/48845 [2:03:23<15:05:14,  1.26s/it] 12%|█▏        | 5797/48845 [2:03:24<15:04:04,  1.26s/it] 12%|█▏        | 5798/48845 [2:03:26<15:03:28,  1.26s/it] 12%|█▏        | 5799/48845 [2:03:27<15:03:44,  1.26s/it] 12%|█▏        | 5800/48845 [2:03:28<15:03:53,  1.26s/it]                                                         {'loss': 1.4316, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5800/48845 [2:03:28<15:03:53,  1.26s/it] 12%|█▏        | 5801/48845 [2:03:32<23:29:26,  1.96s/it] 12%|█▏        | 5802/48845 [2:03:33<20:57:31,  1.75s/it] 12%|█▏        | 5803/48845 [2:03:34<19:10:04,  1.60s/it] 12%|█▏        | 5804/48845 [2:03:36<17:55:53,  1.50s/it] 12%|█▏        | 5805/48845 [2:03:37<17:04:32,  1.43s/it]                                                         {'loss': 1.5017, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5805/48845 [2:03:37<17:04:32,  1.43s/it] 12%|█▏        | 5806/48845 [2:03:38<16:29:26,  1.38s/it] 12%|█▏        | 5807/48845 [2:03:39<16:03:32,  1.34s/it] 12%|█▏        | 5808/48845 [2:03:41<15:45:54,  1.32s/it] 12%|█▏        | 5809/48845 [2:03:42<15:32:33,  1.30s/it] 12%|█▏        | 5810/48845 [2:03:43<15:23:49,  1.29s/it]                                                         {'loss': 1.5787, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.59}
+ 12%|█▏        | 5810/48845 [2:03:43<15:23:49,  1.29s/it] 12%|█▏        | 5811/48845 [2:03:44<15:17:22,  1.28s/it] 12%|█▏        | 5812/48845 [2:03:46<15:12:34,  1.27s/it] 12%|█▏        | 5813/48845 [2:03:47<15:10:10,  1.27s/it] 12%|█▏        | 5814/48845 [2:03:48<15:07:34,  1.27s/it] 12%|█▏        | 5815/48845 [2:03:49<15:05:55,  1.26s/it]                                                         {'loss': 1.4311, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5815/48845 [2:03:49<15:05:55,  1.26s/it] 12%|█▏        | 5816/48845 [2:03:51<15:05:30,  1.26s/it] 12%|█▏        | 5817/48845 [2:03:52<15:04:59,  1.26s/it] 12%|█▏        | 5818/48845 [2:03:53<15:03:49,  1.26s/it] 12%|█▏        | 5819/48845 [2:03:54<15:03:19,  1.26s/it] 12%|█▏        | 5820/48845 [2:03:56<15:04:15,  1.26s/it]                                                         {'loss': 1.5884, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5820/48845 [2:03:56<15:04:15,  1.26s/it] 12%|█▏        | 5821/48845 [2:03:57<15:04:15,  1.26s/it] 12%|█▏        | 5822/48845 [2:03:58<15:04:52,  1.26s/it] 12%|█▏        | 5823/48845 [2:03:59<15:03:30,  1.26s/it] 12%|█▏        | 5824/48845 [2:04:01<15:02:49,  1.26s/it] 12%|█▏        | 5825/48845 [2:04:02<15:03:21,  1.26s/it]                                                         {'loss': 1.6022, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5825/48845 [2:04:02<15:03:21,  1.26s/it] 12%|█▏        | 5826/48845 [2:04:03<15:02:47,  1.26s/it] 12%|█▏        | 5827/48845 [2:04:04<15:03:32,  1.26s/it] 12%|█▏        | 5828/48845 [2:04:06<15:02:35,  1.26s/it] 12%|█▏        | 5829/48845 [2:04:07<15:02:00,  1.26s/it] 12%|█▏        | 5830/48845 [2:04:08<15:02:50,  1.26s/it]                                                         {'loss': 1.4738, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5830/48845 [2:04:08<15:02:50,  1.26s/it] 12%|█▏        | 5831/48845 [2:04:10<15:03:42,  1.26s/it] 12%|█▏        | 5832/48845 [2:04:11<15:03:25,  1.26s/it] 12%|█▏        | 5833/48845 [2:04:12<15:04:19,  1.26s/it] 12%|█▏        | 5834/48845 [2:04:13<15:02:28,  1.26s/it] 12%|█▏        | 5835/48845 [2:04:15<15:02:37,  1.26s/it]                                                         {'loss': 1.5008, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5835/48845 [2:04:15<15:02:37,  1.26s/it] 12%|█▏        | 5836/48845 [2:04:16<15:03:58,  1.26s/it] 12%|█▏        | 5837/48845 [2:04:17<15:03:33,  1.26s/it] 12%|█▏        | 5838/48845 [2:04:18<15:02:37,  1.26s/it] 12%|█▏        | 5839/48845 [2:04:20<15:01:56,  1.26s/it] 12%|█▏        | 5840/48845 [2:04:21<15:02:00,  1.26s/it]                                                         {'loss': 1.6966, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5840/48845 [2:04:21<15:02:00,  1.26s/it] 12%|█▏        | 5841/48845 [2:04:22<15:01:47,  1.26s/it] 12%|█▏        | 5842/48845 [2:04:23<15:02:02,  1.26s/it] 12%|█▏        | 5843/48845 [2:04:25<15:02:00,  1.26s/it] 12%|█▏        | 5844/48845 [2:04:26<15:01:58,  1.26s/it] 12%|█▏        | 5845/48845 [2:04:27<15:24:59,  1.29s/it]                                                         {'loss': 1.5807, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5845/48845 [2:04:27<15:24:59,  1.29s/it] 12%|█▏        | 5846/48845 [2:04:29<15:19:51,  1.28s/it] 12%|█▏        | 5847/48845 [2:04:30<15:14:23,  1.28s/it] 12%|█▏        | 5848/48845 [2:04:31<15:11:16,  1.27s/it] 12%|█▏        | 5849/48845 [2:04:32<15:08:43,  1.27s/it] 12%|█▏        | 5850/48845 [2:04:34<15:07:03,  1.27s/it]                                                         {'loss': 1.5394, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5850/48845 [2:04:34<15:07:03,  1.27s/it] 12%|█▏        | 5851/48845 [2:04:35<15:06:08,  1.26s/it] 12%|█▏        | 5852/48845 [2:04:36<15:06:05,  1.26s/it] 12%|█▏        | 5853/48845 [2:04:37<15:05:25,  1.26s/it] 12%|█▏        | 5854/48845 [2:04:39<15:04:03,  1.26s/it] 12%|█▏        | 5855/48845 [2:04:40<15:03:51,  1.26s/it]                                                         {'loss': 1.6857, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5855/48845 [2:04:40<15:03:51,  1.26s/it] 12%|█▏        | 5856/48845 [2:04:41<15:03:20,  1.26s/it] 12%|█▏        | 5857/48845 [2:04:42<15:02:55,  1.26s/it] 12%|█▏        | 5858/48845 [2:04:44<15:04:46,  1.26s/it] 12%|█▏        | 5859/48845 [2:04:45<15:04:59,  1.26s/it] 12%|█▏        | 5860/48845 [2:04:46<15:04:36,  1.26s/it]                                                         {'loss': 1.678, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5860/48845 [2:04:46<15:04:36,  1.26s/it] 12%|█▏        | 5861/48845 [2:04:47<15:05:19,  1.26s/it] 12%|█▏        | 5862/48845 [2:04:49<15:04:11,  1.26s/it] 12%|█▏        | 5863/48845 [2:04:50<15:03:39,  1.26s/it] 12%|█▏        | 5864/48845 [2:04:51<15:03:14,  1.26s/it] 12%|█▏        | 5865/48845 [2:04:52<15:02:40,  1.26s/it]                                                         {'loss': 1.8223, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5865/48845 [2:04:52<15:02:40,  1.26s/it] 12%|█▏        | 5866/48845 [2:04:54<15:03:30,  1.26s/it] 12%|█▏        | 5867/48845 [2:04:55<15:02:18,  1.26s/it] 12%|█▏        | 5868/48845 [2:04:56<15:02:14,  1.26s/it] 12%|█▏        | 5869/48845 [2:04:58<15:02:00,  1.26s/it] 12%|█▏        | 5870/48845 [2:04:59<15:01:32,  1.26s/it]                                                         {'loss': 1.5121, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5870/48845 [2:04:59<15:01:32,  1.26s/it] 12%|█▏        | 5871/48845 [2:05:00<15:02:22,  1.26s/it] 12%|█▏        | 5872/48845 [2:05:01<15:01:55,  1.26s/it] 12%|█▏        | 5873/48845 [2:05:03<15:02:16,  1.26s/it] 12%|█▏        | 5874/48845 [2:05:04<15:02:13,  1.26s/it] 12%|█▏        | 5875/48845 [2:05:05<15:02:34,  1.26s/it]                                                         {'loss': 1.6354, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5875/48845 [2:05:05<15:02:34,  1.26s/it] 12%|█▏        | 5876/48845 [2:05:06<15:04:00,  1.26s/it] 12%|█▏        | 5877/48845 [2:05:08<15:02:45,  1.26s/it] 12%|█▏        | 5878/48845 [2:05:09<15:03:06,  1.26s/it] 12%|█▏        | 5879/48845 [2:05:10<15:01:34,  1.26s/it] 12%|█▏        | 5880/48845 [2:05:11<15:01:10,  1.26s/it]                                                         {'loss': 1.4428, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5880/48845 [2:05:11<15:01:10,  1.26s/it] 12%|█▏        | 5881/48845 [2:05:13<15:01:34,  1.26s/it] 12%|█▏        | 5882/48845 [2:05:14<15:01:49,  1.26s/it] 12%|█▏        | 5883/48845 [2:05:15<15:02:32,  1.26s/it] 12%|█▏        | 5884/48845 [2:05:16<15:01:55,  1.26s/it] 12%|█▏        | 5885/48845 [2:05:18<15:00:57,  1.26s/it]                                                         {'loss': 1.6448, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5885/48845 [2:05:18<15:00:57,  1.26s/it] 12%|█▏        | 5886/48845 [2:05:19<15:02:56,  1.26s/it] 12%|█▏        | 5887/48845 [2:05:20<15:02:54,  1.26s/it] 12%|█▏        | 5888/48845 [2:05:21<15:02:44,  1.26s/it] 12%|█▏        | 5889/48845 [2:05:23<15:01:55,  1.26s/it] 12%|█▏        | 5890/48845 [2:05:24<15:01:04,  1.26s/it]                                                         {'loss': 1.5157, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5890/48845 [2:05:24<15:01:04,  1.26s/it] 12%|█▏        | 5891/48845 [2:05:25<15:02:12,  1.26s/it] 12%|█▏        | 5892/48845 [2:05:27<15:01:57,  1.26s/it] 12%|█▏        | 5893/48845 [2:05:28<15:03:20,  1.26s/it] 12%|█▏        | 5894/48845 [2:05:29<15:03:16,  1.26s/it] 12%|█▏        | 5895/48845 [2:05:30<15:02:56,  1.26s/it]                                                         {'loss': 1.6633, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5895/48845 [2:05:30<15:02:56,  1.26s/it] 12%|█▏        | 5896/48845 [2:05:32<15:03:16,  1.26s/it] 12%|█▏        | 5897/48845 [2:05:33<15:02:25,  1.26s/it] 12%|█▏        | 5898/48845 [2:05:34<15:02:17,  1.26s/it] 12%|█▏        | 5899/48845 [2:05:35<15:02:20,  1.26s/it] 12%|█▏        | 5900/48845 [2:05:37<15:02:00,  1.26s/it]                                                         {'loss': 1.529, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5900/48845 [2:05:37<15:02:00,  1.26s/it] 12%|█▏        | 5901/48845 [2:05:38<15:01:49,  1.26s/it] 12%|█▏        | 5902/48845 [2:05:39<15:01:01,  1.26s/it] 12%|█▏        | 5903/48845 [2:05:40<15:01:12,  1.26s/it] 12%|█▏        | 5904/48845 [2:05:42<15:01:58,  1.26s/it] 12%|█▏        | 5905/48845 [2:05:43<15:05:06,  1.26s/it]                                                         {'loss': 1.6672, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5905/48845 [2:05:43<15:05:06,  1.26s/it] 12%|█▏        | 5906/48845 [2:05:44<15:06:14,  1.27s/it] 12%|█▏        | 5907/48845 [2:05:45<15:05:22,  1.27s/it] 12%|█▏        | 5908/48845 [2:05:47<15:03:35,  1.26s/it] 12%|█▏        | 5909/48845 [2:05:48<15:02:52,  1.26s/it] 12%|█▏        | 5910/48845 [2:05:49<15:01:14,  1.26s/it]                                                         {'loss': 1.4712, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.6}
+ 12%|█▏        | 5910/48845 [2:05:49<15:01:14,  1.26s/it] 12%|█▏        | 5911/48845 [2:05:50<15:01:32,  1.26s/it] 12%|█▏        | 5912/48845 [2:05:52<15:01:46,  1.26s/it] 12%|█▏        | 5913/48845 [2:05:53<15:01:02,  1.26s/it] 12%|█▏        | 5914/48845 [2:05:54<15:01:05,  1.26s/it] 12%|█▏        | 5915/48845 [2:05:56<15:00:37,  1.26s/it]                                                         {'loss': 1.5746, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5915/48845 [2:05:56<15:00:37,  1.26s/it] 12%|█▏        | 5916/48845 [2:05:57<15:01:02,  1.26s/it] 12%|█▏        | 5917/48845 [2:05:58<15:01:25,  1.26s/it] 12%|█▏        | 5918/48845 [2:05:59<15:00:46,  1.26s/it] 12%|█▏        | 5919/48845 [2:06:01<15:01:07,  1.26s/it] 12%|█▏        | 5920/48845 [2:06:02<15:00:12,  1.26s/it]                                                         {'loss': 1.6983, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5920/48845 [2:06:02<15:00:12,  1.26s/it] 12%|█▏        | 5921/48845 [2:06:03<15:00:44,  1.26s/it] 12%|█▏        | 5922/48845 [2:06:04<15:01:21,  1.26s/it] 12%|█▏        | 5923/48845 [2:06:06<15:01:02,  1.26s/it] 12%|█▏        | 5924/48845 [2:06:07<15:01:26,  1.26s/it] 12%|█▏        | 5925/48845 [2:06:08<15:00:36,  1.26s/it]                                                         {'loss': 1.5584, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5925/48845 [2:06:08<15:00:36,  1.26s/it] 12%|█▏        | 5926/48845 [2:06:09<15:00:33,  1.26s/it] 12%|█▏        | 5927/48845 [2:06:11<15:01:06,  1.26s/it] 12%|█▏        | 5928/48845 [2:06:12<15:00:55,  1.26s/it] 12%|█▏        | 5929/48845 [2:06:13<15:01:20,  1.26s/it] 12%|█▏        | 5930/48845 [2:06:14<15:00:51,  1.26s/it]                                                         {'loss': 1.4969, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5930/48845 [2:06:14<15:00:51,  1.26s/it] 12%|█▏        | 5931/48845 [2:06:16<15:00:39,  1.26s/it] 12%|█▏        | 5932/48845 [2:06:17<15:01:05,  1.26s/it] 12%|█▏        | 5933/48845 [2:06:18<15:00:48,  1.26s/it] 12%|█▏        | 5934/48845 [2:06:19<15:01:09,  1.26s/it] 12%|█▏        | 5935/48845 [2:06:21<15:00:31,  1.26s/it]                                                         {'loss': 1.5645, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5935/48845 [2:06:21<15:00:31,  1.26s/it] 12%|█▏        | 5936/48845 [2:06:22<15:00:57,  1.26s/it] 12%|█▏        | 5937/48845 [2:06:23<15:01:18,  1.26s/it] 12%|█▏        | 5938/48845 [2:06:24<15:03:06,  1.26s/it] 12%|█▏        | 5939/48845 [2:06:26<15:02:10,  1.26s/it] 12%|█▏        | 5940/48845 [2:06:27<15:00:11,  1.26s/it]                                                         {'loss': 1.6071, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5940/48845 [2:06:27<15:00:11,  1.26s/it] 12%|█▏        | 5941/48845 [2:06:28<14:59:48,  1.26s/it] 12%|█▏        | 5942/48845 [2:06:30<15:00:15,  1.26s/it] 12%|█▏        | 5943/48845 [2:06:31<14:59:50,  1.26s/it] 12%|█▏        | 5944/48845 [2:06:32<15:00:38,  1.26s/it] 12%|█▏        | 5945/48845 [2:06:33<15:00:11,  1.26s/it]                                                         {'loss': 1.4445, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5945/48845 [2:06:33<15:00:11,  1.26s/it] 12%|█▏        | 5946/48845 [2:06:35<15:00:55,  1.26s/it] 12%|█▏        | 5947/48845 [2:06:36<15:01:12,  1.26s/it] 12%|█▏        | 5948/48845 [2:06:37<15:01:41,  1.26s/it] 12%|█▏        | 5949/48845 [2:06:38<15:01:11,  1.26s/it] 12%|█▏        | 5950/48845 [2:06:40<15:02:08,  1.26s/it]                                                         {'loss': 1.5798, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5950/48845 [2:06:40<15:02:08,  1.26s/it] 12%|█▏        | 5951/48845 [2:06:41<15:02:29,  1.26s/it] 12%|█▏        | 5952/48845 [2:06:42<15:02:14,  1.26s/it] 12%|█▏        | 5953/48845 [2:06:43<15:00:58,  1.26s/it] 12%|█▏        | 5954/48845 [2:06:45<15:01:17,  1.26s/it] 12%|█▏        | 5955/48845 [2:06:46<15:01:35,  1.26s/it]                                                         {'loss': 1.5558, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5955/48845 [2:06:46<15:01:35,  1.26s/it] 12%|█▏        | 5956/48845 [2:06:47<15:01:28,  1.26s/it] 12%|█▏        | 5957/48845 [2:06:48<15:01:16,  1.26s/it] 12%|█▏        | 5958/48845 [2:06:50<15:00:43,  1.26s/it] 12%|█▏        | 5959/48845 [2:06:51<15:00:28,  1.26s/it] 12%|█▏        | 5960/48845 [2:06:52<15:00:25,  1.26s/it]                                                         {'loss': 1.6138, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5960/48845 [2:06:52<15:00:25,  1.26s/it] 12%|█▏        | 5961/48845 [2:06:53<15:00:17,  1.26s/it] 12%|█▏        | 5962/48845 [2:06:55<15:00:20,  1.26s/it] 12%|█▏        | 5963/48845 [2:06:56<15:00:53,  1.26s/it] 12%|█▏        | 5964/48845 [2:06:57<15:00:45,  1.26s/it] 12%|█▏        | 5965/48845 [2:06:59<15:01:01,  1.26s/it]                                                         {'loss': 1.4332, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5965/48845 [2:06:59<15:01:01,  1.26s/it] 12%|█▏        | 5966/48845 [2:07:00<14:59:40,  1.26s/it] 12%|█▏        | 5967/48845 [2:07:01<14:59:31,  1.26s/it] 12%|█▏        | 5968/48845 [2:07:02<14:59:17,  1.26s/it] 12%|█▏        | 5969/48845 [2:07:04<14:59:53,  1.26s/it] 12%|█▏        | 5970/48845 [2:07:05<15:00:09,  1.26s/it]                                                         {'loss': 1.5467, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5970/48845 [2:07:05<15:00:09,  1.26s/it] 12%|█▏        | 5971/48845 [2:07:06<14:59:56,  1.26s/it] 12%|█▏        | 5972/48845 [2:07:07<15:00:02,  1.26s/it] 12%|█▏        | 5973/48845 [2:07:09<14:59:35,  1.26s/it] 12%|█▏        | 5974/48845 [2:07:10<14:59:42,  1.26s/it] 12%|█▏        | 5975/48845 [2:07:11<14:59:50,  1.26s/it]                                                         {'loss': 1.5191, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5975/48845 [2:07:11<14:59:50,  1.26s/it] 12%|█▏        | 5976/48845 [2:07:12<14:59:27,  1.26s/it] 12%|█▏        | 5977/48845 [2:07:14<15:00:06,  1.26s/it] 12%|█▏        | 5978/48845 [2:07:15<14:59:29,  1.26s/it] 12%|█▏        | 5979/48845 [2:07:16<15:00:02,  1.26s/it] 12%|█▏        | 5980/48845 [2:07:17<15:00:31,  1.26s/it]                                                         {'loss': 1.5437, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5980/48845 [2:07:17<15:00:31,  1.26s/it] 12%|█▏        | 5981/48845 [2:07:19<15:00:36,  1.26s/it] 12%|█▏        | 5982/48845 [2:07:20<15:01:23,  1.26s/it] 12%|█▏        | 5983/48845 [2:07:21<15:00:09,  1.26s/it] 12%|█▏        | 5984/48845 [2:07:22<14:59:53,  1.26s/it] 12%|█▏        | 5985/48845 [2:07:24<15:00:02,  1.26s/it]                                                         {'loss': 1.6799, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5985/48845 [2:07:24<15:00:02,  1.26s/it] 12%|█▏        | 5986/48845 [2:07:25<14:59:28,  1.26s/it] 12%|█▏        | 5987/48845 [2:07:26<14:59:33,  1.26s/it] 12%|█▏        | 5988/48845 [2:07:27<14:59:29,  1.26s/it] 12%|█▏        | 5989/48845 [2:07:29<14:59:19,  1.26s/it] 12%|█▏        | 5990/48845 [2:07:30<14:59:48,  1.26s/it]                                                         {'loss': 1.4898, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5990/48845 [2:07:30<14:59:48,  1.26s/it] 12%|█▏        | 5991/48845 [2:07:31<14:59:29,  1.26s/it] 12%|█▏        | 5992/48845 [2:07:33<14:59:36,  1.26s/it] 12%|█▏        | 5993/48845 [2:07:34<14:59:34,  1.26s/it] 12%|█▏        | 5994/48845 [2:07:35<14:59:24,  1.26s/it] 12%|█▏        | 5995/48845 [2:07:36<15:00:26,  1.26s/it]                                                         {'loss': 1.5576, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 5995/48845 [2:07:36<15:00:26,  1.26s/it] 12%|█▏        | 5996/48845 [2:07:38<15:00:39,  1.26s/it] 12%|█▏        | 5997/48845 [2:07:39<14:59:55,  1.26s/it] 12%|█▏        | 5998/48845 [2:07:40<14:59:31,  1.26s/it] 12%|█▏        | 5999/48845 [2:07:41<14:59:42,  1.26s/it] 12%|█▏        | 6000/48845 [2:07:43<14:59:22,  1.26s/it]                                                         {'loss': 1.5669, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 6000/48845 [2:07:43<14:59:22,  1.26s/it] 12%|█▏        | 6001/48845 [2:07:46<23:27:26,  1.97s/it] 12%|█▏        | 6002/48845 [2:07:47<20:55:17,  1.76s/it] 12%|█▏        | 6003/48845 [2:07:49<19:09:20,  1.61s/it] 12%|█▏        | 6004/48845 [2:07:50<17:55:01,  1.51s/it] 12%|█▏        | 6005/48845 [2:07:51<17:02:08,  1.43s/it]                                                         {'loss': 1.7215, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.61}
+ 12%|█▏        | 6005/48845 [2:07:51<17:02:08,  1.43s/it] 12%|█▏        | 6006/48845 [2:07:53<16:24:51,  1.38s/it] 12%|█▏        | 6007/48845 [2:07:54<15:58:42,  1.34s/it] 12%|█▏        | 6008/48845 [2:07:55<15:40:50,  1.32s/it] 12%|█▏        | 6009/48845 [2:07:56<15:28:16,  1.30s/it] 12%|█▏        | 6010/48845 [2:07:58<15:19:32,  1.29s/it]                                                         {'loss': 1.6472, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6010/48845 [2:07:58<15:19:32,  1.29s/it] 12%|█▏        | 6011/48845 [2:07:59<15:13:10,  1.28s/it] 12%|█▏        | 6012/48845 [2:08:00<15:09:31,  1.27s/it] 12%|█▏        | 6013/48845 [2:08:01<15:06:25,  1.27s/it] 12%|█▏        | 6014/48845 [2:08:03<15:04:05,  1.27s/it] 12%|█▏        | 6015/48845 [2:08:04<15:02:46,  1.26s/it]                                                         {'loss': 1.5497, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6015/48845 [2:08:04<15:02:46,  1.26s/it] 12%|█▏        | 6016/48845 [2:08:05<15:01:04,  1.26s/it] 12%|█▏        | 6017/48845 [2:08:06<15:00:33,  1.26s/it] 12%|█▏        | 6018/48845 [2:08:08<15:00:00,  1.26s/it] 12%|█▏        | 6019/48845 [2:08:09<15:00:11,  1.26s/it] 12%|█▏        | 6020/48845 [2:08:10<14:59:48,  1.26s/it]                                                         {'loss': 1.4715, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6020/48845 [2:08:10<14:59:48,  1.26s/it] 12%|█▏        | 6021/48845 [2:08:11<15:00:32,  1.26s/it] 12%|█▏        | 6022/48845 [2:08:13<15:00:37,  1.26s/it] 12%|█▏        | 6023/48845 [2:08:14<15:00:16,  1.26s/it] 12%|█▏        | 6024/48845 [2:08:15<15:00:02,  1.26s/it] 12%|█▏        | 6025/48845 [2:08:16<14:58:39,  1.26s/it]                                                         {'loss': 1.7876, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6025/48845 [2:08:16<14:58:39,  1.26s/it] 12%|█▏        | 6026/48845 [2:08:18<14:59:11,  1.26s/it] 12%|█▏        | 6027/48845 [2:08:19<14:59:45,  1.26s/it] 12%|█▏        | 6028/48845 [2:08:20<14:59:14,  1.26s/it] 12%|█▏        | 6029/48845 [2:08:22<14:59:08,  1.26s/it] 12%|█▏        | 6030/48845 [2:08:23<14:58:29,  1.26s/it]                                                         {'loss': 1.5363, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6030/48845 [2:08:23<14:58:29,  1.26s/it] 12%|█▏        | 6031/48845 [2:08:24<14:59:33,  1.26s/it] 12%|█▏        | 6032/48845 [2:08:25<14:59:22,  1.26s/it] 12%|█▏        | 6033/48845 [2:08:27<14:58:36,  1.26s/it] 12%|█▏        | 6034/48845 [2:08:28<14:58:53,  1.26s/it] 12%|█▏        | 6035/48845 [2:08:29<14:58:19,  1.26s/it]                                                         {'loss': 1.6693, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6035/48845 [2:08:29<14:58:19,  1.26s/it] 12%|█▏        | 6036/48845 [2:08:30<14:58:51,  1.26s/it] 12%|█▏        | 6037/48845 [2:08:32<14:59:07,  1.26s/it] 12%|█▏        | 6038/48845 [2:08:33<14:58:34,  1.26s/it] 12%|█▏        | 6039/48845 [2:08:34<14:58:36,  1.26s/it] 12%|█▏        | 6040/48845 [2:08:35<14:58:52,  1.26s/it]                                                         {'loss': 1.6204, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6040/48845 [2:08:35<14:58:52,  1.26s/it] 12%|█▏        | 6041/48845 [2:08:37<15:00:08,  1.26s/it] 12%|█▏        | 6042/48845 [2:08:38<15:00:01,  1.26s/it] 12%|█▏        | 6043/48845 [2:08:39<14:58:50,  1.26s/it] 12%|█▏        | 6044/48845 [2:08:40<14:58:28,  1.26s/it] 12%|█▏        | 6045/48845 [2:08:42<14:59:29,  1.26s/it]                                                         {'loss': 1.603, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6045/48845 [2:08:42<14:59:29,  1.26s/it] 12%|█▏        | 6046/48845 [2:08:43<15:00:42,  1.26s/it] 12%|█▏        | 6047/48845 [2:08:44<15:00:22,  1.26s/it] 12%|█▏        | 6048/48845 [2:08:45<14:59:33,  1.26s/it] 12%|█▏        | 6049/48845 [2:08:47<14:59:28,  1.26s/it] 12%|█▏        | 6050/48845 [2:08:48<14:59:25,  1.26s/it]                                                         {'loss': 1.5676, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6050/48845 [2:08:48<14:59:25,  1.26s/it] 12%|█▏        | 6051/48845 [2:08:49<14:58:50,  1.26s/it] 12%|█▏        | 6052/48845 [2:08:51<14:58:22,  1.26s/it] 12%|█▏        | 6053/48845 [2:08:52<14:57:40,  1.26s/it] 12%|█▏        | 6054/48845 [2:08:53<14:57:25,  1.26s/it] 12%|█▏        | 6055/48845 [2:08:54<14:58:33,  1.26s/it]                                                         {'loss': 1.4549, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6055/48845 [2:08:54<14:58:33,  1.26s/it] 12%|█▏        | 6056/48845 [2:08:56<14:58:01,  1.26s/it] 12%|█▏        | 6057/48845 [2:08:57<14:58:07,  1.26s/it] 12%|█▏        | 6058/48845 [2:08:58<14:57:50,  1.26s/it] 12%|█▏        | 6059/48845 [2:08:59<14:57:44,  1.26s/it] 12%|█▏        | 6060/48845 [2:09:01<14:58:02,  1.26s/it]                                                         {'loss': 1.555, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6060/48845 [2:09:01<14:58:02,  1.26s/it] 12%|█▏        | 6061/48845 [2:09:02<14:58:02,  1.26s/it] 12%|█▏        | 6062/48845 [2:09:03<14:57:41,  1.26s/it] 12%|█▏        | 6063/48845 [2:09:04<14:56:49,  1.26s/it] 12%|█▏        | 6064/48845 [2:09:06<14:57:39,  1.26s/it] 12%|█▏        | 6065/48845 [2:09:07<14:57:59,  1.26s/it]                                                         {'loss': 1.5437, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6065/48845 [2:09:07<14:57:59,  1.26s/it] 12%|█▏        | 6066/48845 [2:09:08<14:58:21,  1.26s/it] 12%|█▏        | 6067/48845 [2:09:09<14:58:01,  1.26s/it] 12%|█▏        | 6068/48845 [2:09:11<14:58:00,  1.26s/it] 12%|█▏        | 6069/48845 [2:09:12<14:57:24,  1.26s/it] 12%|█▏        | 6070/48845 [2:09:13<14:58:26,  1.26s/it]                                                         {'loss': 1.6338, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6070/48845 [2:09:13<14:58:26,  1.26s/it] 12%|█▏        | 6071/48845 [2:09:14<14:58:38,  1.26s/it] 12%|█▏        | 6072/48845 [2:09:16<14:59:36,  1.26s/it] 12%|█▏        | 6073/48845 [2:09:17<14:58:44,  1.26s/it] 12%|█▏        | 6074/48845 [2:09:18<14:58:06,  1.26s/it] 12%|█▏        | 6075/48845 [2:09:19<14:58:25,  1.26s/it]                                                         {'loss': 1.5667, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6075/48845 [2:09:19<14:58:25,  1.26s/it] 12%|█▏        | 6076/48845 [2:09:21<14:58:49,  1.26s/it] 12%|█▏        | 6077/48845 [2:09:22<14:58:37,  1.26s/it] 12%|█▏        | 6078/48845 [2:09:23<14:57:42,  1.26s/it] 12%|█▏        | 6079/48845 [2:09:25<14:57:48,  1.26s/it] 12%|█▏        | 6080/48845 [2:09:26<14:58:44,  1.26s/it]                                                         {'loss': 1.511, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6080/48845 [2:09:26<14:58:44,  1.26s/it] 12%|█▏        | 6081/48845 [2:09:27<14:58:46,  1.26s/it] 12%|█▏        | 6082/48845 [2:09:28<14:58:01,  1.26s/it] 12%|█▏        | 6083/48845 [2:09:30<14:57:48,  1.26s/it] 12%|█▏        | 6084/48845 [2:09:31<14:57:38,  1.26s/it] 12%|█▏        | 6085/48845 [2:09:32<14:57:49,  1.26s/it]                                                         {'loss': 1.6419, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6085/48845 [2:09:32<14:57:49,  1.26s/it] 12%|█▏        | 6086/48845 [2:09:33<14:57:57,  1.26s/it] 12%|█▏        | 6087/48845 [2:09:35<14:58:51,  1.26s/it] 12%|█▏        | 6088/48845 [2:09:36<14:59:28,  1.26s/it] 12%|█▏        | 6089/48845 [2:09:37<14:58:11,  1.26s/it] 12%|█▏        | 6090/48845 [2:09:38<14:58:44,  1.26s/it]                                                         {'loss': 1.6842, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6090/48845 [2:09:38<14:58:44,  1.26s/it] 12%|█▏        | 6091/48845 [2:09:40<14:58:09,  1.26s/it] 12%|█▏        | 6092/48845 [2:09:41<14:57:51,  1.26s/it] 12%|█▏        | 6093/48845 [2:09:42<14:58:10,  1.26s/it] 12%|█▏        | 6094/48845 [2:09:43<14:58:08,  1.26s/it] 12%|█▏        | 6095/48845 [2:09:45<14:58:59,  1.26s/it]                                                         {'loss': 1.6341, 'learning_rate': 3.9700604245531516e-05, 'epoch': 0.62}
+ 12%|█▏        | 6095/48845 [2:09:45<14:58:59,  1.26s/it] 12%|█▏        | 6096/48845 [2:09:46<14:57:44,  1.26s/it] 12%|█▏        | 6097/48845 [2:09:47<15:42:23,  1.32s/it] 12%|█▏        | 6098/48845 [2:09:49<15:29:45,  1.31s/it] 12%|█▏        | 6099/48845 [2:09:50<15:19:50,  1.29s/it] 12%|█▏        | 6100/48845 [2:09:51<15:12:22,  1.28s/it]                                                         {'loss': 1.6825, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.62}
+ 12%|█▏        | 6100/48845 [2:09:51<15:12:22,  1.28s/it] 12%|█▏        | 6101/48845 [2:09:52<15:08:55,  1.28s/it] 12%|█▏        | 6102/48845 [2:09:54<15:05:23,  1.27s/it] 12%|█▏        | 6103/48845 [2:09:55<15:02:52,  1.27s/it] 12%|█▏        | 6104/48845 [2:09:56<15:00:47,  1.26s/it] 12%|█▏        | 6105/48845 [2:09:57<15:00:10,  1.26s/it]                                                         {'loss': 1.68, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.62}
+ 12%|█▏        | 6105/48845 [2:09:57<15:00:10,  1.26s/it] 13%|█▎        | 6106/48845 [2:09:59<15:00:15,  1.26s/it] 13%|█▎        | 6107/48845 [2:10:00<14:58:40,  1.26s/it] 13%|█▎        | 6108/48845 [2:10:01<14:57:43,  1.26s/it] 13%|█▎        | 6109/48845 [2:10:03<14:57:46,  1.26s/it] 13%|█▎        | 6110/48845 [2:10:04<14:57:39,  1.26s/it]                                                         {'loss': 1.62, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6110/48845 [2:10:04<14:57:39,  1.26s/it] 13%|█▎        | 6111/48845 [2:10:05<14:57:50,  1.26s/it] 13%|█▎        | 6112/48845 [2:10:06<14:57:39,  1.26s/it] 13%|█▎        | 6113/48845 [2:10:08<14:57:07,  1.26s/it] 13%|█▎        | 6114/48845 [2:10:09<14:57:20,  1.26s/it] 13%|█▎        | 6115/48845 [2:10:10<14:57:52,  1.26s/it]                                                         {'loss': 1.6415, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6115/48845 [2:10:10<14:57:52,  1.26s/it] 13%|█▎        | 6116/48845 [2:10:11<14:58:03,  1.26s/it] 13%|█▎        | 6117/48845 [2:10:13<14:56:47,  1.26s/it] 13%|█▎        | 6118/48845 [2:10:14<14:57:36,  1.26s/it] 13%|█▎        | 6119/48845 [2:10:15<14:56:58,  1.26s/it] 13%|█▎        | 6120/48845 [2:10:16<14:56:19,  1.26s/it]                                                         {'loss': 1.4826, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6120/48845 [2:10:16<14:56:19,  1.26s/it] 13%|█▎        | 6121/48845 [2:10:18<14:57:18,  1.26s/it] 13%|█▎        | 6122/48845 [2:10:19<14:57:41,  1.26s/it] 13%|█▎        | 6123/48845 [2:10:20<14:57:14,  1.26s/it] 13%|█▎        | 6124/48845 [2:10:21<14:57:14,  1.26s/it] 13%|█▎        | 6125/48845 [2:10:23<14:56:55,  1.26s/it]                                                         {'loss': 1.5729, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6125/48845 [2:10:23<14:56:55,  1.26s/it] 13%|█▎        | 6126/48845 [2:10:24<14:57:28,  1.26s/it] 13%|█▎        | 6127/48845 [2:10:25<14:55:52,  1.26s/it] 13%|█▎        | 6128/48845 [2:10:26<14:56:01,  1.26s/it] 13%|█▎        | 6129/48845 [2:10:28<14:56:14,  1.26s/it] 13%|█▎        | 6130/48845 [2:10:29<14:56:38,  1.26s/it]                                                         {'loss': 1.5263, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6130/48845 [2:10:29<14:56:38,  1.26s/it] 13%|█▎        | 6131/48845 [2:10:30<14:58:27,  1.26s/it] 13%|█▎        | 6132/48845 [2:10:32<14:57:26,  1.26s/it] 13%|█▎        | 6133/48845 [2:10:33<14:57:15,  1.26s/it] 13%|█▎        | 6134/48845 [2:10:34<14:57:26,  1.26s/it] 13%|█▎        | 6135/48845 [2:10:35<14:57:09,  1.26s/it]                                                         {'loss': 1.5664, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6135/48845 [2:10:35<14:57:09,  1.26s/it] 13%|█▎        | 6136/48845 [2:10:37<14:56:51,  1.26s/it] 13%|█▎        | 6137/48845 [2:10:38<14:56:20,  1.26s/it] 13%|█▎        | 6138/48845 [2:10:39<14:57:05,  1.26s/it] 13%|█▎        | 6139/48845 [2:10:40<14:56:33,  1.26s/it] 13%|█▎        | 6140/48845 [2:10:42<14:57:22,  1.26s/it]                                                         {'loss': 1.5271, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6140/48845 [2:10:42<14:57:22,  1.26s/it] 13%|█▎        | 6141/48845 [2:10:43<14:58:17,  1.26s/it] 13%|█▎        | 6142/48845 [2:10:44<15:23:13,  1.30s/it] 13%|█▎        | 6143/48845 [2:10:46<15:16:45,  1.29s/it] 13%|█▎        | 6144/48845 [2:10:47<15:10:37,  1.28s/it] 13%|█▎        | 6145/48845 [2:10:48<15:06:31,  1.27s/it]                                                         {'loss': 1.7002, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6145/48845 [2:10:48<15:06:31,  1.27s/it] 13%|█▎        | 6146/48845 [2:10:49<15:05:12,  1.27s/it] 13%|█▎        | 6147/48845 [2:10:51<15:01:47,  1.27s/it] 13%|█▎        | 6148/48845 [2:10:52<15:00:33,  1.27s/it] 13%|█▎        | 6149/48845 [2:10:53<14:59:19,  1.26s/it] 13%|█▎        | 6150/48845 [2:10:54<15:29:23,  1.31s/it]                                                         {'loss': 1.64, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6150/48845 [2:10:54<15:29:23,  1.31s/it] 13%|█▎        | 6151/48845 [2:10:56<15:19:41,  1.29s/it] 13%|█▎        | 6152/48845 [2:10:57<15:12:55,  1.28s/it] 13%|█▎        | 6153/48845 [2:10:58<15:07:50,  1.28s/it] 13%|█▎        | 6154/48845 [2:11:00<15:04:47,  1.27s/it] 13%|█▎        | 6155/48845 [2:11:01<15:02:09,  1.27s/it]                                                         {'loss': 1.5658, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6155/48845 [2:11:01<15:02:09,  1.27s/it] 13%|█▎        | 6156/48845 [2:11:02<15:00:29,  1.27s/it] 13%|█▎        | 6157/48845 [2:11:03<14:59:02,  1.26s/it] 13%|█▎        | 6158/48845 [2:11:05<14:59:01,  1.26s/it] 13%|█▎        | 6159/48845 [2:11:06<14:57:46,  1.26s/it] 13%|█▎        | 6160/48845 [2:11:07<14:57:38,  1.26s/it]                                                         {'loss': 1.7284, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6160/48845 [2:11:07<14:57:38,  1.26s/it] 13%|█▎        | 6161/48845 [2:11:08<14:58:00,  1.26s/it] 13%|█▎        | 6162/48845 [2:11:10<14:57:06,  1.26s/it] 13%|█▎        | 6163/48845 [2:11:11<14:57:15,  1.26s/it] 13%|█▎        | 6164/48845 [2:11:12<14:56:32,  1.26s/it] 13%|█▎        | 6165/48845 [2:11:13<14:56:09,  1.26s/it]                                                         {'loss': 1.4517, 'learning_rate': 3.975827875505073e-05, 'epoch': 0.63}
+ 13%|█▎        | 6165/48845 [2:11:13<14:56:09,  1.26s/it] 13%|█▎        | 6166/48845 [2:11:15<14:56:46,  1.26s/it] 13%|█▎        | 6167/48845 [2:11:16<14:57:20,  1.26s/it] 13%|█▎        | 6168/48845 [2:11:17<15:40:30,  1.32s/it] 13%|█▎        | 6169/48845 [2:11:19<15:27:08,  1.30s/it] 13%|█▎        | 6170/48845 [2:11:20<15:17:35,  1.29s/it]                                                         {'loss': 1.5318, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6170/48845 [2:11:20<15:17:35,  1.29s/it] 13%|█▎        | 6171/48845 [2:11:21<15:11:09,  1.28s/it] 13%|█▎        | 6172/48845 [2:11:22<15:06:18,  1.27s/it] 13%|█▎        | 6173/48845 [2:11:24<15:03:13,  1.27s/it] 13%|█▎        | 6174/48845 [2:11:25<15:01:27,  1.27s/it] 13%|█▎        | 6175/48845 [2:11:26<14:59:43,  1.27s/it]                                                         {'loss': 1.539, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6175/48845 [2:11:26<14:59:43,  1.27s/it] 13%|█▎        | 6176/48845 [2:11:27<14:59:07,  1.26s/it] 13%|█▎        | 6177/48845 [2:11:29<14:58:36,  1.26s/it] 13%|█▎        | 6178/48845 [2:11:30<14:57:59,  1.26s/it] 13%|█▎        | 6179/48845 [2:11:31<14:57:41,  1.26s/it] 13%|█▎        | 6180/48845 [2:11:32<14:56:55,  1.26s/it]                                                         {'loss': 1.5612, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6180/48845 [2:11:33<14:56:55,  1.26s/it] 13%|█▎        | 6181/48845 [2:11:34<14:59:00,  1.26s/it] 13%|█▎        | 6182/48845 [2:11:35<14:58:59,  1.26s/it] 13%|█▎        | 6183/48845 [2:11:36<14:57:45,  1.26s/it] 13%|█▎        | 6184/48845 [2:11:38<14:57:28,  1.26s/it] 13%|█▎        | 6185/48845 [2:11:39<14:56:51,  1.26s/it]                                                         {'loss': 1.6156, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6185/48845 [2:11:39<14:56:51,  1.26s/it] 13%|█▎        | 6186/48845 [2:11:40<14:55:41,  1.26s/it] 13%|█▎        | 6187/48845 [2:11:41<14:55:40,  1.26s/it] 13%|█▎        | 6188/48845 [2:11:43<14:55:06,  1.26s/it] 13%|█▎        | 6189/48845 [2:11:44<14:55:01,  1.26s/it] 13%|█▎        | 6190/48845 [2:11:45<14:54:36,  1.26s/it]                                                         {'loss': 1.3248, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6190/48845 [2:11:45<14:54:36,  1.26s/it] 13%|█▎        | 6191/48845 [2:11:46<14:54:43,  1.26s/it] 13%|█▎        | 6192/48845 [2:11:48<14:55:53,  1.26s/it] 13%|█▎        | 6193/48845 [2:11:49<14:55:37,  1.26s/it] 13%|█▎        | 6194/48845 [2:11:50<14:58:44,  1.26s/it] 13%|█▎        | 6195/48845 [2:11:51<14:58:14,  1.26s/it]                                                         {'loss': 1.4781, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6195/48845 [2:11:51<14:58:14,  1.26s/it] 13%|█▎        | 6196/48845 [2:11:53<14:58:29,  1.26s/it] 13%|█▎        | 6197/48845 [2:11:54<14:57:51,  1.26s/it] 13%|█▎        | 6198/48845 [2:11:55<14:58:02,  1.26s/it] 13%|█▎        | 6199/48845 [2:11:56<14:57:21,  1.26s/it] 13%|█▎        | 6200/48845 [2:11:58<14:57:49,  1.26s/it]                                                         {'loss': 1.5803, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.63}
+ 13%|█▎        | 6200/48845 [2:11:58<14:57:49,  1.26s/it] 13%|█▎        | 6201/48845 [2:12:01<23:25:28,  1.98s/it] 13%|█▎        | 6202/48845 [2:12:03<20:52:26,  1.76s/it] 13%|█▎        | 6203/48845 [2:12:04<19:04:58,  1.61s/it] 13%|█▎        | 6204/48845 [2:12:05<17:49:08,  1.50s/it] 13%|█▎        | 6205/48845 [2:12:06<16:57:08,  1.43s/it]                                                         {'loss': 1.3776, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6205/48845 [2:12:06<16:57:08,  1.43s/it] 13%|█▎        | 6206/48845 [2:12:08<16:20:50,  1.38s/it] 13%|█▎        | 6207/48845 [2:12:09<15:54:31,  1.34s/it] 13%|█▎        | 6208/48845 [2:12:10<15:36:42,  1.32s/it] 13%|█▎        | 6209/48845 [2:12:11<15:23:46,  1.30s/it] 13%|█▎        | 6210/48845 [2:12:13<15:15:12,  1.29s/it]                                                         {'loss': 1.4857, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6210/48845 [2:12:13<15:15:12,  1.29s/it] 13%|█▎        | 6211/48845 [2:12:14<15:08:46,  1.28s/it] 13%|█▎        | 6212/48845 [2:12:15<15:05:07,  1.27s/it] 13%|█▎        | 6213/48845 [2:12:16<15:02:37,  1.27s/it] 13%|█▎        | 6214/48845 [2:12:18<15:00:28,  1.27s/it] 13%|█▎        | 6215/48845 [2:12:19<14:59:31,  1.27s/it]                                                         {'loss': 1.5397, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6215/48845 [2:12:19<14:59:31,  1.27s/it] 13%|█▎        | 6216/48845 [2:12:20<14:58:12,  1.26s/it] 13%|█▎        | 6217/48845 [2:12:22<14:56:37,  1.26s/it] 13%|█▎        | 6218/48845 [2:12:23<14:55:30,  1.26s/it] 13%|█▎        | 6219/48845 [2:12:24<14:54:48,  1.26s/it] 13%|█▎        | 6220/48845 [2:12:25<14:56:02,  1.26s/it]                                                         {'loss': 1.4969, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6220/48845 [2:12:25<14:56:02,  1.26s/it] 13%|█▎        | 6221/48845 [2:12:27<14:55:46,  1.26s/it] 13%|█▎        | 6222/48845 [2:12:28<14:54:15,  1.26s/it] 13%|█▎        | 6223/48845 [2:12:29<14:53:55,  1.26s/it] 13%|█▎        | 6224/48845 [2:12:30<14:53:52,  1.26s/it] 13%|█▎        | 6225/48845 [2:12:32<14:53:50,  1.26s/it]                                                         {'loss': 1.5115, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6225/48845 [2:12:32<14:53:50,  1.26s/it] 13%|█▎        | 6226/48845 [2:12:33<14:54:39,  1.26s/it] 13%|█▎        | 6227/48845 [2:12:34<14:54:36,  1.26s/it] 13%|█▎        | 6228/48845 [2:12:35<14:54:14,  1.26s/it] 13%|█▎        | 6229/48845 [2:12:37<14:53:57,  1.26s/it] 13%|█▎        | 6230/48845 [2:12:38<14:55:21,  1.26s/it]                                                         {'loss': 1.5089, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6230/48845 [2:12:38<14:55:21,  1.26s/it] 13%|█▎        | 6231/48845 [2:12:39<14:54:58,  1.26s/it] 13%|█▎        | 6232/48845 [2:12:40<14:54:40,  1.26s/it] 13%|█▎        | 6233/48845 [2:12:42<14:54:03,  1.26s/it] 13%|█▎        | 6234/48845 [2:12:43<14:54:27,  1.26s/it] 13%|█▎        | 6235/48845 [2:12:44<14:53:56,  1.26s/it]                                                         {'loss': 1.4821, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6235/48845 [2:12:44<14:53:56,  1.26s/it] 13%|█▎        | 6236/48845 [2:12:45<14:54:31,  1.26s/it] 13%|█▎        | 6237/48845 [2:12:47<14:55:36,  1.26s/it] 13%|█▎        | 6238/48845 [2:12:48<14:55:09,  1.26s/it] 13%|█▎        | 6239/48845 [2:12:49<14:54:55,  1.26s/it] 13%|█▎        | 6240/48845 [2:12:51<14:54:57,  1.26s/it]                                                         {'loss': 1.5487, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6240/48845 [2:12:51<14:54:57,  1.26s/it] 13%|█▎        | 6241/48845 [2:12:52<14:54:35,  1.26s/it] 13%|█▎        | 6242/48845 [2:12:53<14:54:39,  1.26s/it] 13%|█▎        | 6243/48845 [2:12:54<14:54:46,  1.26s/it] 13%|█▎        | 6244/48845 [2:12:56<14:54:15,  1.26s/it] 13%|█▎        | 6245/48845 [2:12:57<14:55:26,  1.26s/it]                                                         {'loss': 1.5449, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6245/48845 [2:12:57<14:55:26,  1.26s/it] 13%|█▎        | 6246/48845 [2:12:58<14:57:28,  1.26s/it] 13%|█▎        | 6247/48845 [2:12:59<14:56:24,  1.26s/it] 13%|█▎        | 6248/48845 [2:13:01<14:55:13,  1.26s/it] 13%|█▎        | 6249/48845 [2:13:02<14:54:34,  1.26s/it] 13%|█▎        | 6250/48845 [2:13:03<14:53:40,  1.26s/it]                                                         {'loss': 1.5434, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6250/48845 [2:13:03<14:53:40,  1.26s/it] 13%|█▎        | 6251/48845 [2:13:04<14:54:37,  1.26s/it] 13%|█▎        | 6252/48845 [2:13:06<14:54:06,  1.26s/it] 13%|█▎        | 6253/48845 [2:13:07<14:53:59,  1.26s/it] 13%|█▎        | 6254/48845 [2:13:08<14:54:11,  1.26s/it] 13%|█▎        | 6255/48845 [2:13:09<14:54:48,  1.26s/it]                                                         {'loss': 1.6896, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6255/48845 [2:13:09<14:54:48,  1.26s/it] 13%|█▎        | 6256/48845 [2:13:11<14:54:15,  1.26s/it] 13%|█▎        | 6257/48845 [2:13:12<14:54:01,  1.26s/it] 13%|█▎        | 6258/48845 [2:13:13<14:53:04,  1.26s/it] 13%|█▎        | 6259/48845 [2:13:14<14:53:05,  1.26s/it] 13%|█▎        | 6260/48845 [2:13:16<14:53:52,  1.26s/it]                                                         {'loss': 1.6204, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6260/48845 [2:13:16<14:53:52,  1.26s/it] 13%|█▎        | 6261/48845 [2:13:17<14:55:36,  1.26s/it] 13%|█▎        | 6262/48845 [2:13:18<14:55:22,  1.26s/it] 13%|█▎        | 6263/48845 [2:13:19<14:55:45,  1.26s/it] 13%|█▎        | 6264/48845 [2:13:21<14:55:10,  1.26s/it] 13%|█▎        | 6265/48845 [2:13:22<14:54:35,  1.26s/it]                                                         {'loss': 1.4085, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6265/48845 [2:13:22<14:54:35,  1.26s/it] 13%|█▎        | 6266/48845 [2:13:23<14:54:20,  1.26s/it] 13%|█▎        | 6267/48845 [2:13:25<14:54:15,  1.26s/it] 13%|█▎        | 6268/48845 [2:13:26<14:54:27,  1.26s/it] 13%|█▎        | 6269/48845 [2:13:27<14:54:35,  1.26s/it] 13%|█▎        | 6270/48845 [2:13:28<14:54:22,  1.26s/it]                                                         {'loss': 1.6212, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6270/48845 [2:13:28<14:54:22,  1.26s/it] 13%|█▎        | 6271/48845 [2:13:30<14:54:10,  1.26s/it] 13%|█▎        | 6272/48845 [2:13:31<14:54:07,  1.26s/it] 13%|█▎        | 6273/48845 [2:13:32<14:53:56,  1.26s/it] 13%|█▎        | 6274/48845 [2:13:33<14:53:58,  1.26s/it] 13%|█▎        | 6275/48845 [2:13:35<14:53:33,  1.26s/it]                                                         {'loss': 1.5225, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6275/48845 [2:13:35<14:53:33,  1.26s/it] 13%|█▎        | 6276/48845 [2:13:36<14:53:40,  1.26s/it] 13%|█▎        | 6277/48845 [2:13:37<14:53:44,  1.26s/it] 13%|█▎        | 6278/48845 [2:13:38<14:53:48,  1.26s/it] 13%|█▎        | 6279/48845 [2:13:40<14:52:59,  1.26s/it] 13%|█▎        | 6280/48845 [2:13:41<14:53:03,  1.26s/it]                                                         {'loss': 1.5598, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6280/48845 [2:13:41<14:53:03,  1.26s/it] 13%|█▎        | 6281/48845 [2:13:42<14:53:19,  1.26s/it] 13%|█▎        | 6282/48845 [2:13:43<14:53:13,  1.26s/it] 13%|█▎        | 6283/48845 [2:13:45<14:54:44,  1.26s/it] 13%|█▎        | 6284/48845 [2:13:46<14:54:46,  1.26s/it] 13%|��▎        | 6285/48845 [2:13:47<14:54:47,  1.26s/it]                                                         {'loss': 1.4239, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6285/48845 [2:13:47<14:54:47,  1.26s/it] 13%|█▎        | 6286/48845 [2:13:48<14:54:10,  1.26s/it] 13%|█▎        | 6287/48845 [2:13:50<14:56:16,  1.26s/it] 13%|█▎        | 6288/48845 [2:13:51<14:55:35,  1.26s/it] 13%|█▎        | 6289/48845 [2:13:52<14:59:44,  1.27s/it] 13%|█▎        | 6290/48845 [2:13:54<14:57:33,  1.27s/it]                                                         {'loss': 1.5721, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6290/48845 [2:13:54<14:57:33,  1.27s/it] 13%|█▎        | 6291/48845 [2:13:55<14:56:30,  1.26s/it] 13%|█▎        | 6292/48845 [2:13:56<14:55:28,  1.26s/it] 13%|█▎        | 6293/48845 [2:13:57<14:55:01,  1.26s/it] 13%|█▎        | 6294/48845 [2:13:59<14:54:54,  1.26s/it] 13%|█▎        | 6295/48845 [2:14:00<14:55:11,  1.26s/it]                                                         {'loss': 1.552, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6295/48845 [2:14:00<14:55:11,  1.26s/it] 13%|█▎        | 6296/48845 [2:14:01<14:56:10,  1.26s/it] 13%|█▎        | 6297/48845 [2:14:02<14:56:24,  1.26s/it] 13%|█▎        | 6298/48845 [2:14:04<14:55:08,  1.26s/it] 13%|█▎        | 6299/48845 [2:14:05<14:54:50,  1.26s/it] 13%|█▎        | 6300/48845 [2:14:06<14:53:37,  1.26s/it]                                                         {'loss': 1.3597, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.64}
+ 13%|█▎        | 6300/48845 [2:14:06<14:53:37,  1.26s/it] 13%|█▎        | 6301/48845 [2:14:07<14:54:31,  1.26s/it] 13%|█▎        | 6302/48845 [2:14:09<14:54:56,  1.26s/it] 13%|█▎        | 6303/48845 [2:14:10<14:53:41,  1.26s/it] 13%|█▎        | 6304/48845 [2:14:11<14:53:07,  1.26s/it] 13%|█▎        | 6305/48845 [2:14:12<14:52:46,  1.26s/it]                                                         {'loss': 1.5141, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6305/48845 [2:14:12<14:52:46,  1.26s/it] 13%|█▎        | 6306/48845 [2:14:14<14:52:59,  1.26s/it] 13%|█▎        | 6307/48845 [2:14:15<14:53:39,  1.26s/it] 13%|█▎        | 6308/48845 [2:14:16<14:53:11,  1.26s/it] 13%|█▎        | 6309/48845 [2:14:18<14:53:34,  1.26s/it] 13%|█▎        | 6310/48845 [2:14:19<14:53:43,  1.26s/it]                                                         {'loss': 1.7356, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6310/48845 [2:14:19<14:53:43,  1.26s/it] 13%|█▎        | 6311/48845 [2:14:20<14:54:05,  1.26s/it] 13%|█▎        | 6312/48845 [2:14:21<14:53:33,  1.26s/it] 13%|█▎        | 6313/48845 [2:14:23<14:53:09,  1.26s/it] 13%|█▎        | 6314/48845 [2:14:24<14:53:01,  1.26s/it] 13%|█▎        | 6315/48845 [2:14:25<14:52:01,  1.26s/it]                                                         {'loss': 1.4552, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6315/48845 [2:14:25<14:52:01,  1.26s/it] 13%|█▎        | 6316/48845 [2:14:26<14:53:06,  1.26s/it] 13%|█▎        | 6317/48845 [2:14:28<14:53:10,  1.26s/it] 13%|█▎        | 6318/48845 [2:14:29<14:53:16,  1.26s/it] 13%|█▎        | 6319/48845 [2:14:30<14:53:04,  1.26s/it] 13%|█▎        | 6320/48845 [2:14:31<14:52:42,  1.26s/it]                                                         {'loss': 1.6725, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6320/48845 [2:14:31<14:52:42,  1.26s/it] 13%|█▎        | 6321/48845 [2:14:33<14:53:02,  1.26s/it] 13%|█▎        | 6322/48845 [2:14:34<14:52:49,  1.26s/it] 13%|█▎        | 6323/48845 [2:14:35<14:52:41,  1.26s/it] 13%|█▎        | 6324/48845 [2:14:36<14:52:48,  1.26s/it] 13%|█▎        | 6325/48845 [2:14:38<14:51:57,  1.26s/it]                                                         {'loss': 1.3199, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6325/48845 [2:14:38<14:51:57,  1.26s/it] 13%|█▎        | 6326/48845 [2:14:39<14:52:32,  1.26s/it] 13%|█▎        | 6327/48845 [2:14:40<14:52:45,  1.26s/it] 13%|█▎        | 6328/48845 [2:14:41<14:51:41,  1.26s/it] 13%|█▎        | 6329/48845 [2:14:43<14:51:30,  1.26s/it] 13%|█▎        | 6330/48845 [2:14:44<14:52:00,  1.26s/it]                                                         {'loss': 1.5426, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6330/48845 [2:14:44<14:52:00,  1.26s/it] 13%|█▎        | 6331/48845 [2:14:45<14:52:33,  1.26s/it] 13%|█▎        | 6332/48845 [2:14:46<14:53:20,  1.26s/it] 13%|█▎        | 6333/48845 [2:14:48<14:53:05,  1.26s/it] 13%|█▎        | 6334/48845 [2:14:49<14:53:24,  1.26s/it] 13%|█▎        | 6335/48845 [2:14:50<14:53:18,  1.26s/it]                                                         {'loss': 1.5912, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6335/48845 [2:14:50<14:53:18,  1.26s/it] 13%|█▎        | 6336/48845 [2:14:52<14:53:17,  1.26s/it] 13%|█▎        | 6337/48845 [2:14:53<14:52:23,  1.26s/it] 13%|█▎        | 6338/48845 [2:14:54<14:51:47,  1.26s/it] 13%|█▎        | 6339/48845 [2:14:55<14:51:45,  1.26s/it] 13%|█▎        | 6340/48845 [2:14:57<14:51:15,  1.26s/it]                                                         {'loss': 1.5023, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6340/48845 [2:14:57<14:51:15,  1.26s/it] 13%|█▎        | 6341/48845 [2:14:58<14:51:19,  1.26s/it] 13%|█▎        | 6342/48845 [2:14:59<14:52:02,  1.26s/it] 13%|█▎        | 6343/48845 [2:15:00<14:52:01,  1.26s/it] 13%|█▎        | 6344/48845 [2:15:02<14:52:29,  1.26s/it] 13%|█▎        | 6345/48845 [2:15:03<14:53:23,  1.26s/it]                                                         {'loss': 1.5548, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6345/48845 [2:15:03<14:53:23,  1.26s/it] 13%|█▎        | 6346/48845 [2:15:04<14:53:15,  1.26s/it] 13%|█▎        | 6347/48845 [2:15:05<14:53:05,  1.26s/it] 13%|█▎        | 6348/48845 [2:15:07<14:52:19,  1.26s/it] 13%|█▎        | 6349/48845 [2:15:08<14:52:40,  1.26s/it] 13%|█▎        | 6350/48845 [2:15:09<14:53:11,  1.26s/it]                                                         {'loss': 1.4273, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6350/48845 [2:15:09<14:53:11,  1.26s/it] 13%|█▎        | 6351/48845 [2:15:10<14:53:03,  1.26s/it] 13%|█▎        | 6352/48845 [2:15:12<14:53:26,  1.26s/it] 13%|█▎        | 6353/48845 [2:15:13<14:52:58,  1.26s/it] 13%|█▎        | 6354/48845 [2:15:14<14:52:49,  1.26s/it] 13%|█▎        | 6355/48845 [2:15:15<14:53:03,  1.26s/it]                                                         {'loss': 1.4527, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6355/48845 [2:15:15<14:53:03,  1.26s/it] 13%|█▎        | 6356/48845 [2:15:17<14:53:59,  1.26s/it] 13%|█▎        | 6357/48845 [2:15:18<14:53:39,  1.26s/it] 13%|█▎        | 6358/48845 [2:15:19<14:54:18,  1.26s/it] 13%|█▎        | 6359/48845 [2:15:21<14:52:59,  1.26s/it] 13%|█▎        | 6360/48845 [2:15:22<14:53:21,  1.26s/it]                                                         {'loss': 1.6099, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6360/48845 [2:15:22<14:53:21,  1.26s/it] 13%|█▎        | 6361/48845 [2:15:23<14:53:38,  1.26s/it] 13%|█▎        | 6362/48845 [2:15:24<14:53:07,  1.26s/it] 13%|█▎        | 6363/48845 [2:15:26<14:52:53,  1.26s/it] 13%|█▎        | 6364/48845 [2:15:27<14:52:15,  1.26s/it] 13%|█▎        | 6365/48845 [2:15:28<14:51:43,  1.26s/it]                                                         {'loss': 1.4374, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6365/48845 [2:15:28<14:51:43,  1.26s/it] 13%|█▎        | 6366/48845 [2:15:29<14:51:47,  1.26s/it] 13%|█▎        | 6367/48845 [2:15:31<14:52:28,  1.26s/it] 13%|█▎        | 6368/48845 [2:15:32<14:52:30,  1.26s/it] 13%|█▎        | 6369/48845 [2:15:33<14:51:39,  1.26s/it] 13%|█▎        | 6370/48845 [2:15:34<14:51:49,  1.26s/it]                                                         {'loss': 1.5234, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6370/48845 [2:15:34<14:51:49,  1.26s/it] 13%|█▎        | 6371/48845 [2:15:36<14:51:16,  1.26s/it] 13%|█▎        | 6372/48845 [2:15:37<14:51:29,  1.26s/it] 13%|█▎        | 6373/48845 [2:15:38<14:51:25,  1.26s/it] 13%|█▎        | 6374/48845 [2:15:39<14:51:28,  1.26s/it] 13%|█▎        | 6375/48845 [2:15:41<14:51:50,  1.26s/it]                                                         {'loss': 1.4584, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6375/48845 [2:15:41<14:51:50,  1.26s/it] 13%|█▎        | 6376/48845 [2:15:42<14:51:32,  1.26s/it] 13%|█▎        | 6377/48845 [2:15:43<14:51:04,  1.26s/it] 13%|█▎        | 6378/48845 [2:15:44<14:51:54,  1.26s/it] 13%|█▎        | 6379/48845 [2:15:46<14:51:54,  1.26s/it] 13%|█▎        | 6380/48845 [2:15:47<14:52:02,  1.26s/it]                                                         {'loss': 1.5388, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6380/48845 [2:15:47<14:52:02,  1.26s/it] 13%|█▎        | 6381/48845 [2:15:48<14:51:25,  1.26s/it] 13%|█▎        | 6382/48845 [2:15:49<14:51:16,  1.26s/it] 13%|█▎        | 6383/48845 [2:15:51<14:51:30,  1.26s/it] 13%|█▎        | 6384/48845 [2:15:52<14:50:53,  1.26s/it] 13%|█▎        | 6385/48845 [2:15:53<14:51:36,  1.26s/it]                                                         {'loss': 1.5029, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6385/48845 [2:15:53<14:51:36,  1.26s/it] 13%|█▎        | 6386/48845 [2:15:55<14:51:55,  1.26s/it] 13%|█▎        | 6387/48845 [2:15:56<14:51:33,  1.26s/it] 13%|█▎        | 6388/48845 [2:15:57<14:52:09,  1.26s/it] 13%|█▎        | 6389/48845 [2:15:58<14:51:22,  1.26s/it] 13%|█▎        | 6390/48845 [2:16:00<14:50:51,  1.26s/it]                                                         {'loss': 1.5651, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6390/48845 [2:16:00<14:50:51,  1.26s/it] 13%|█▎        | 6391/48845 [2:16:01<14:51:02,  1.26s/it] 13%|█▎        | 6392/48845 [2:16:02<14:50:46,  1.26s/it] 13%|█▎        | 6393/48845 [2:16:03<14:53:05,  1.26s/it] 13%|█▎        | 6394/48845 [2:16:05<14:52:52,  1.26s/it] 13%|█▎        | 6395/48845 [2:16:06<14:52:14,  1.26s/it]                                                         {'loss': 1.5861, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.65}
+ 13%|█▎        | 6395/48845 [2:16:06<14:52:14,  1.26s/it] 13%|█▎        | 6396/48845 [2:16:07<14:52:02,  1.26s/it] 13%|█▎        | 6397/48845 [2:16:08<14:51:24,  1.26s/it] 13%|█▎        | 6398/48845 [2:16:10<14:51:46,  1.26s/it] 13%|█▎        | 6399/48845 [2:16:11<14:51:29,  1.26s/it] 13%|█▎        | 6400/48845 [2:16:12<14:51:52,  1.26s/it]                                                         {'loss': 1.5079, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6400/48845 [2:16:12<14:51:52,  1.26s/it] 13%|█▎        | 6401/48845 [2:16:16<23:08:35,  1.96s/it] 13%|█▎        | 6402/48845 [2:16:17<20:39:17,  1.75s/it] 13%|█▎        | 6403/48845 [2:16:18<18:54:37,  1.60s/it] 13%|█▎        | 6404/48845 [2:16:20<17:41:01,  1.50s/it] 13%|█▎        | 6405/48845 [2:16:21<16:50:01,  1.43s/it]                                                         {'loss': 1.4144, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6405/48845 [2:16:21<16:50:01,  1.43s/it] 13%|█▎        | 6406/48845 [2:16:22<16:14:48,  1.38s/it] 13%|█▎        | 6407/48845 [2:16:23<15:49:05,  1.34s/it] 13%|█▎        | 6408/48845 [2:16:25<15:31:07,  1.32s/it] 13%|█▎        | 6409/48845 [2:16:26<15:18:49,  1.30s/it] 13%|█▎        | 6410/48845 [2:16:27<15:10:31,  1.29s/it]                                                         {'loss': 1.427, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6410/48845 [2:16:27<15:10:31,  1.29s/it] 13%|█▎        | 6411/48845 [2:16:28<15:04:22,  1.28s/it] 13%|█▎        | 6412/48845 [2:16:30<14:59:35,  1.27s/it] 13%|█▎        | 6413/48845 [2:16:31<14:56:00,  1.27s/it] 13%|█▎        | 6414/48845 [2:16:32<14:55:13,  1.27s/it] 13%|█▎        | 6415/48845 [2:16:33<14:54:46,  1.27s/it]                                                         {'loss': 1.6201, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6415/48845 [2:16:33<14:54:46,  1.27s/it] 13%|█▎        | 6416/48845 [2:16:35<14:53:31,  1.26s/it] 13%|█▎        | 6417/48845 [2:16:36<14:53:49,  1.26s/it] 13%|█▎        | 6418/48845 [2:16:37<14:53:27,  1.26s/it] 13%|█▎        | 6419/48845 [2:16:38<14:52:48,  1.26s/it] 13%|█▎        | 6420/48845 [2:16:40<14:50:48,  1.26s/it]                                                         {'loss': 1.4664, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6420/48845 [2:16:40<14:50:48,  1.26s/it] 13%|█▎        | 6421/48845 [2:16:41<14:50:51,  1.26s/it] 13%|█▎        | 6422/48845 [2:16:42<14:50:43,  1.26s/it] 13%|█▎        | 6423/48845 [2:16:43<14:50:40,  1.26s/it] 13%|█▎        | 6424/48845 [2:16:45<14:50:22,  1.26s/it] 13%|█▎        | 6425/48845 [2:16:46<14:50:14,  1.26s/it]                                                         {'loss': 1.5563, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6425/48845 [2:16:46<14:50:14,  1.26s/it] 13%|█▎        | 6426/48845 [2:16:47<14:52:26,  1.26s/it] 13%|█▎        | 6427/48845 [2:16:49<14:52:04,  1.26s/it] 13%|█▎        | 6428/48845 [2:16:50<14:51:13,  1.26s/it] 13%|█▎        | 6429/48845 [2:16:51<14:50:55,  1.26s/it] 13%|█▎        | 6430/48845 [2:16:52<14:50:15,  1.26s/it]                                                         {'loss': 1.5203, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6430/48845 [2:16:52<14:50:15,  1.26s/it] 13%|█▎        | 6431/48845 [2:16:54<14:50:02,  1.26s/it] 13%|█▎        | 6432/48845 [2:16:55<14:50:29,  1.26s/it] 13%|█▎        | 6433/48845 [2:16:56<14:50:57,  1.26s/it] 13%|█▎        | 6434/48845 [2:16:57<14:51:51,  1.26s/it] 13%|█▎        | 6435/48845 [2:16:59<14:51:48,  1.26s/it]                                                         {'loss': 1.5565, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6435/48845 [2:16:59<14:51:48,  1.26s/it] 13%|█▎        | 6436/48845 [2:17:00<14:51:14,  1.26s/it] 13%|█▎        | 6437/48845 [2:17:01<14:51:29,  1.26s/it] 13%|█▎        | 6438/48845 [2:17:02<14:52:19,  1.26s/it] 13%|█▎        | 6439/48845 [2:17:04<14:52:14,  1.26s/it] 13%|█▎        | 6440/48845 [2:17:05<14:52:23,  1.26s/it]                                                         {'loss': 1.5466, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6440/48845 [2:17:05<14:52:23,  1.26s/it] 13%|█▎        | 6441/48845 [2:17:06<14:51:55,  1.26s/it] 13%|█▎        | 6442/48845 [2:17:07<14:52:29,  1.26s/it] 13%|█▎        | 6443/48845 [2:17:09<14:52:04,  1.26s/it] 13%|█▎        | 6444/48845 [2:17:10<14:51:34,  1.26s/it] 13%|█▎        | 6445/48845 [2:17:11<14:51:09,  1.26s/it]                                                         {'loss': 1.5362, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6445/48845 [2:17:11<14:51:09,  1.26s/it] 13%|█▎        | 6446/48845 [2:17:12<14:50:28,  1.26s/it] 13%|█▎        | 6447/48845 [2:17:14<14:49:55,  1.26s/it] 13%|█▎        | 6448/48845 [2:17:15<14:49:01,  1.26s/it] 13%|█▎        | 6449/48845 [2:17:16<14:49:45,  1.26s/it] 13%|█▎        | 6450/48845 [2:17:18<14:50:28,  1.26s/it]                                                         {'loss': 1.5017, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6450/48845 [2:17:18<14:50:28,  1.26s/it] 13%|█▎        | 6451/48845 [2:17:19<14:50:06,  1.26s/it] 13%|█▎        | 6452/48845 [2:17:20<14:49:59,  1.26s/it] 13%|█▎        | 6453/48845 [2:17:21<14:51:08,  1.26s/it] 13%|█▎        | 6454/48845 [2:17:23<14:51:35,  1.26s/it] 13%|█▎        | 6455/48845 [2:17:24<14:51:29,  1.26s/it]                                                         {'loss': 1.5143, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6455/48845 [2:17:24<14:51:29,  1.26s/it] 13%|█▎        | 6456/48845 [2:17:25<14:51:16,  1.26s/it] 13%|█▎        | 6457/48845 [2:17:26<14:51:44,  1.26s/it] 13%|█▎        | 6458/48845 [2:17:28<14:52:29,  1.26s/it] 13%|█▎        | 6459/48845 [2:17:29<14:51:59,  1.26s/it] 13%|█▎        | 6460/48845 [2:17:30<14:51:01,  1.26s/it]                                                         {'loss': 1.6096, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6460/48845 [2:17:30<14:51:01,  1.26s/it] 13%|█▎        | 6461/48845 [2:17:31<14:50:54,  1.26s/it] 13%|█▎        | 6462/48845 [2:17:33<14:50:22,  1.26s/it] 13%|█▎        | 6463/48845 [2:17:34<14:51:35,  1.26s/it] 13%|█▎        | 6464/48845 [2:17:35<14:51:45,  1.26s/it] 13%|█▎        | 6465/48845 [2:17:36<14:51:25,  1.26s/it]                                                         {'loss': 1.5597, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6465/48845 [2:17:36<14:51:25,  1.26s/it] 13%|█▎        | 6466/48845 [2:17:38<14:51:21,  1.26s/it] 13%|█▎        | 6467/48845 [2:17:39<14:50:11,  1.26s/it] 13%|█▎        | 6468/48845 [2:17:40<14:49:47,  1.26s/it] 13%|█▎        | 6469/48845 [2:17:41<14:49:17,  1.26s/it] 13%|█▎        | 6470/48845 [2:17:43<14:49:24,  1.26s/it]                                                         {'loss': 1.4073, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6470/48845 [2:17:43<14:49:24,  1.26s/it] 13%|█▎        | 6471/48845 [2:17:44<14:50:32,  1.26s/it] 13%|█▎        | 6472/48845 [2:17:45<14:51:03,  1.26s/it] 13%|█▎        | 6473/48845 [2:17:47<14:51:14,  1.26s/it] 13%|█▎        | 6474/48845 [2:17:48<14:51:02,  1.26s/it] 13%|█▎        | 6475/48845 [2:17:49<14:50:22,  1.26s/it]                                                         {'loss': 1.5145, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6475/48845 [2:17:49<14:50:22,  1.26s/it] 13%|█▎        | 6476/48845 [2:17:50<14:50:45,  1.26s/it] 13%|█▎        | 6477/48845 [2:17:52<14:50:54,  1.26s/it] 13%|█▎        | 6478/48845 [2:17:53<14:50:29,  1.26s/it] 13%|█▎        | 6479/48845 [2:17:54<14:50:56,  1.26s/it] 13%|█▎        | 6480/48845 [2:17:55<14:50:23,  1.26s/it]                                                         {'loss': 1.6411, 'learning_rate': 3.981554276636201e-05, 'epoch': 0.66}
+ 13%|█▎        | 6480/48845 [2:17:55<14:50:23,  1.26s/it] 13%|█▎        | 6481/48845 [2:17:57<14:50:13,  1.26s/it] 13%|█▎        | 6482/48845 [2:17:58<14:50:01,  1.26s/it] 13%|█▎        | 6483/48845 [2:17:59<14:49:57,  1.26s/it] 13%|█▎        | 6484/48845 [2:18:00<14:50:55,  1.26s/it] 13%|█▎        | 6485/48845 [2:18:02<15:35:47,  1.33s/it]                                                         {'loss': 1.6284, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.66}
+ 13%|█▎        | 6485/48845 [2:18:02<15:35:47,  1.33s/it] 13%|█▎        | 6486/48845 [2:18:03<15:22:17,  1.31s/it] 13%|█��        | 6487/48845 [2:18:04<15:12:32,  1.29s/it] 13%|█▎        | 6488/48845 [2:18:06<15:05:10,  1.28s/it] 13%|█▎        | 6489/48845 [2:18:07<15:00:29,  1.28s/it] 13%|█▎        | 6490/48845 [2:18:08<14:57:26,  1.27s/it]                                                         {'loss': 1.5297, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.66}
+ 13%|█▎        | 6490/48845 [2:18:08<14:57:26,  1.27s/it] 13%|█▎        | 6491/48845 [2:18:09<14:55:35,  1.27s/it] 13%|█▎        | 6492/48845 [2:18:11<14:53:19,  1.27s/it] 13%|█▎        | 6493/48845 [2:18:12<14:51:26,  1.26s/it] 13%|█▎        | 6494/48845 [2:18:13<15:39:35,  1.33s/it] 13%|█▎        | 6495/48845 [2:18:15<15:24:05,  1.31s/it]                                                         {'loss': 1.6452, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.66}
+ 13%|█▎        | 6495/48845 [2:18:15<15:24:05,  1.31s/it] 13%|█▎        | 6496/48845 [2:18:16<15:14:40,  1.30s/it] 13%|█▎        | 6497/48845 [2:18:17<15:07:09,  1.29s/it] 13%|█▎        | 6498/48845 [2:18:19<15:02:48,  1.28s/it] 13%|█▎        | 6499/48845 [2:18:20<14:58:01,  1.27s/it] 13%|█▎        | 6500/48845 [2:18:21<14:55:42,  1.27s/it]                                                         {'loss': 1.6342, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6500/48845 [2:18:21<14:55:42,  1.27s/it] 13%|█▎        | 6501/48845 [2:18:22<14:53:05,  1.27s/it] 13%|█▎        | 6502/48845 [2:18:24<14:51:34,  1.26s/it] 13%|█▎        | 6503/48845 [2:18:25<14:50:50,  1.26s/it] 13%|█▎        | 6504/48845 [2:18:26<14:49:59,  1.26s/it] 13%|█▎        | 6505/48845 [2:18:27<14:57:50,  1.27s/it]                                                         {'loss': 1.4592, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6505/48845 [2:18:27<14:57:50,  1.27s/it] 13%|█▎        | 6506/48845 [2:18:29<14:55:01,  1.27s/it] 13%|█▎        | 6507/48845 [2:18:30<14:53:42,  1.27s/it] 13%|█▎        | 6508/48845 [2:18:31<14:52:16,  1.26s/it] 13%|█▎        | 6509/48845 [2:18:32<14:51:06,  1.26s/it] 13%|█▎        | 6510/48845 [2:18:34<14:50:13,  1.26s/it]                                                         {'loss': 1.5507, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6510/48845 [2:18:34<14:50:13,  1.26s/it] 13%|█▎        | 6511/48845 [2:18:35<14:49:52,  1.26s/it] 13%|█▎        | 6512/48845 [2:18:36<14:50:03,  1.26s/it] 13%|█▎        | 6513/48845 [2:18:37<15:02:04,  1.28s/it] 13%|█▎        | 6514/48845 [2:18:39<14:57:35,  1.27s/it] 13%|█▎        | 6515/48845 [2:18:40<14:55:02,  1.27s/it]                                                         {'loss': 1.4824, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6515/48845 [2:18:40<14:55:02,  1.27s/it] 13%|█▎        | 6516/48845 [2:18:41<14:54:19,  1.27s/it] 13%|█▎        | 6517/48845 [2:18:43<14:52:57,  1.27s/it] 13%|█▎        | 6518/48845 [2:18:44<14:52:09,  1.26s/it] 13%|█▎        | 6519/48845 [2:18:45<14:50:39,  1.26s/it] 13%|█▎        | 6520/48845 [2:18:46<14:50:36,  1.26s/it]                                                         {'loss': 1.5157, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6520/48845 [2:18:46<14:50:36,  1.26s/it] 13%|█▎        | 6521/48845 [2:18:48<14:50:56,  1.26s/it] 13%|█▎        | 6522/48845 [2:18:49<14:50:50,  1.26s/it] 13%|█▎        | 6523/48845 [2:18:50<14:50:32,  1.26s/it] 13%|█▎        | 6524/48845 [2:18:51<14:49:58,  1.26s/it] 13%|█▎        | 6525/48845 [2:18:53<14:51:06,  1.26s/it]                                                         {'loss': 1.5846, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6525/48845 [2:18:53<14:51:06,  1.26s/it] 13%|█▎        | 6526/48845 [2:18:54<14:51:02,  1.26s/it] 13%|█▎        | 6527/48845 [2:18:55<14:50:36,  1.26s/it] 13%|█▎        | 6528/48845 [2:18:56<14:50:09,  1.26s/it] 13%|█▎        | 6529/48845 [2:18:58<14:50:56,  1.26s/it] 13%|█▎        | 6530/48845 [2:18:59<14:50:24,  1.26s/it]                                                         {'loss': 1.5232, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6530/48845 [2:18:59<14:50:24,  1.26s/it] 13%|█▎        | 6531/48845 [2:19:00<14:50:34,  1.26s/it] 13%|█▎        | 6532/48845 [2:19:01<14:49:27,  1.26s/it] 13%|█▎        | 6533/48845 [2:19:03<15:29:06,  1.32s/it] 13%|█▎        | 6534/48845 [2:19:04<15:17:24,  1.30s/it] 13%|█▎        | 6535/48845 [2:19:05<15:08:53,  1.29s/it]                                                         {'loss': 1.3979, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6535/48845 [2:19:05<15:08:53,  1.29s/it] 13%|█▎        | 6536/48845 [2:19:07<15:03:28,  1.28s/it] 13%|█▎        | 6537/48845 [2:19:08<14:59:25,  1.28s/it] 13%|█▎        | 6538/48845 [2:19:09<14:55:37,  1.27s/it] 13%|█▎        | 6539/48845 [2:19:10<14:53:34,  1.27s/it] 13%|█▎        | 6540/48845 [2:19:12<14:52:00,  1.27s/it]                                                         {'loss': 1.4598, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6540/48845 [2:19:12<14:52:00,  1.27s/it] 13%|█▎        | 6541/48845 [2:19:13<14:52:18,  1.27s/it] 13%|█▎        | 6542/48845 [2:19:14<14:52:30,  1.27s/it] 13%|█▎        | 6543/48845 [2:19:16<14:51:38,  1.26s/it] 13%|█▎        | 6544/48845 [2:19:17<14:51:02,  1.26s/it] 13%|█▎        | 6545/48845 [2:19:18<14:50:22,  1.26s/it]                                                         {'loss': 1.4819, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6545/48845 [2:19:18<14:50:22,  1.26s/it] 13%|█▎        | 6546/48845 [2:19:19<14:49:20,  1.26s/it] 13%|█▎        | 6547/48845 [2:19:21<14:48:55,  1.26s/it] 13%|█▎        | 6548/48845 [2:19:22<14:48:37,  1.26s/it] 13%|█▎        | 6549/48845 [2:19:23<14:50:11,  1.26s/it] 13%|█▎        | 6550/48845 [2:19:24<14:49:59,  1.26s/it]                                                         {'loss': 1.4286, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6550/48845 [2:19:24<14:49:59,  1.26s/it] 13%|█▎        | 6551/48845 [2:19:26<14:49:50,  1.26s/it] 13%|█▎        | 6552/48845 [2:19:27<14:50:28,  1.26s/it] 13%|█▎        | 6553/48845 [2:19:28<14:50:09,  1.26s/it] 13%|█▎        | 6554/48845 [2:19:29<14:49:30,  1.26s/it] 13%|█▎        | 6555/48845 [2:19:31<14:49:47,  1.26s/it]                                                         {'loss': 1.5422, 'learning_rate': 3.9872402081633126e-05, 'epoch': 0.67}
+ 13%|█▎        | 6555/48845 [2:19:31<14:49:47,  1.26s/it] 13%|█▎        | 6556/48845 [2:19:32<14:49:38,  1.26s/it] 13%|█▎        | 6557/48845 [2:19:33<14:48:59,  1.26s/it] 13%|█▎        | 6558/48845 [2:19:34<14:49:30,  1.26s/it] 13%|█▎        | 6559/48845 [2:19:36<14:49:43,  1.26s/it] 13%|█▎        | 6560/48845 [2:19:37<15:34:46,  1.33s/it]                                                         {'loss': 1.4197, 'learning_rate': 3.992886238087893e-05, 'epoch': 0.67}
+ 13%|█▎        | 6560/48845 [2:19:37<15:34:46,  1.33s/it] 13%|█▎        | 6561/48845 [2:19:38<15:22:23,  1.31s/it] 13%|█▎        | 6562/48845 [2:19:40<15:11:50,  1.29s/it] 13%|█▎        | 6563/48845 [2:19:41<15:04:35,  1.28s/it] 13%|█▎        | 6564/48845 [2:19:42<14:59:14,  1.28s/it] 13%|█▎        | 6565/48845 [2:19:44<14:56:20,  1.27s/it]                                                         {'loss': 1.4685, 'learning_rate': 3.992886238087893e-05, 'epoch': 0.67}
+ 13%|█▎        | 6565/48845 [2:19:44<14:56:20,  1.27s/it] 13%|█▎        | 6566/48845 [2:19:45<14:54:37,  1.27s/it] 13%|█▎        | 6567/48845 [2:19:46<14:52:25,  1.27s/it] 13%|█▎        | 6568/48845 [2:19:47<14:50:56,  1.26s/it] 13%|█▎        | 6569/48845 [2:19:49<14:50:50,  1.26s/it] 13%|█▎        | 6570/48845 [2:19:50<14:49:39,  1.26s/it]                                                         {'loss': 1.4598, 'learning_rate': 3.992886238087893e-05, 'epoch': 0.67}
+ 13%|█▎        | 6570/48845 [2:19:50<14:49:39,  1.26s/it] 13%|█▎        | 6571/48845 [2:19:51<14:49:44,  1.26s/it] 13%|█▎        | 6572/48845 [2:19:52<14:48:46,  1.26s/it] 13%|█▎        | 6573/48845 [2:19:54<14:49:28,  1.26s/it] 13%|█▎        | 6574/48845 [2:19:55<14:49:12,  1.26s/it] 13%|█▎        | 6575/48845 [2:19:56<14:48:31,  1.26s/it]                                                         {'loss': 1.4715, 'learning_rate': 3.992886238087893e-05, 'epoch': 0.67}
+ 13%|█▎        | 6575/48845 [2:19:56<14:48:31,  1.26s/it] 13%|█▎        | 6576/48845 [2:19:57<14:48:20,  1.26s/it] 13%|█▎        | 6577/48845 [2:19:59<14:49:24,  1.26s/it] 13%|█▎        | 6578/48845 [2:20:00<14:48:52,  1.26s/it] 13%|█▎        | 6579/48845 [2:20:01<14:48:43,  1.26s/it] 13%|█▎        | 6580/48845 [2:20:02<14:48:20,  1.26s/it]                                                         {'loss': 1.4223, 'learning_rate': 3.992886238087893e-05, 'epoch': 0.67}
+ 13%|█▎        | 6580/48845 [2:20:02<14:48:20,  1.26s/it] 13%|█▎        | 6581/48845 [2:20:04<14:48:33,  1.26s/it] 13%|█▎        | 6582/48845 [2:20:05<14:47:53,  1.26s/it] 13%|█▎        | 6583/48845 [2:20:06<14:48:23,  1.26s/it] 13%|█▎        | 6584/48845 [2:20:08<15:34:08,  1.33s/it] 13%|█▎        | 6585/48845 [2:20:09<15:21:02,  1.31s/it]                                                         {'loss': 1.5075, 'learning_rate': 3.998492922536637e-05, 'epoch': 0.67}
+ 13%|█▎        | 6585/48845 [2:20:09<15:21:02,  1.31s/it] 13%|█▎        | 6586/48845 [2:20:10<15:12:13,  1.30s/it] 13%|█▎        | 6587/48845 [2:20:11<15:04:19,  1.28s/it] 13%|█▎        | 6588/48845 [2:20:13<14:59:43,  1.28s/it] 13%|█▎        | 6589/48845 [2:20:14<14:56:08,  1.27s/it] 13%|█▎        | 6590/48845 [2:20:15<14:54:43,  1.27s/it]                                                         {'loss': 1.3661, 'learning_rate': 3.998492922536637e-05, 'epoch': 0.67}
+ 13%|█▎        | 6590/48845 [2:20:15<14:54:43,  1.27s/it] 13%|█▎        | 6591/48845 [2:20:17<14:53:01,  1.27s/it] 13%|█▎        | 6592/48845 [2:20:18<14:51:55,  1.27s/it] 13%|█▎        | 6593/48845 [2:20:19<14:51:41,  1.27s/it] 13%|█▎        | 6594/48845 [2:20:20<14:49:57,  1.26s/it] 14%|█▎        | 6595/48845 [2:20:22<14:49:40,  1.26s/it]                                                         {'loss': 1.5264, 'learning_rate': 3.998492922536637e-05, 'epoch': 0.68}
+ 14%|█▎        | 6595/48845 [2:20:22<14:49:40,  1.26s/it] 14%|█▎        | 6596/48845 [2:20:23<14:48:41,  1.26s/it] 14%|█▎        | 6597/48845 [2:20:24<14:48:32,  1.26s/it] 14%|█▎        | 6598/48845 [2:20:25<14:48:17,  1.26s/it] 14%|█▎        | 6599/48845 [2:20:27<14:47:46,  1.26s/it] 14%|█▎        | 6600/48845 [2:20:28<14:48:08,  1.26s/it]                                                         {'loss': 1.3479, 'learning_rate': 3.998492922536637e-05, 'epoch': 0.68}
+ 14%|█▎        | 6600/48845 [2:20:28<14:48:08,  1.26s/it] 14%|█▎        | 6601/48845 [2:20:32<23:06:22,  1.97s/it] 14%|█▎        | 6602/48845 [2:20:33<20:36:03,  1.76s/it] 14%|█▎        | 6603/48845 [2:20:34<18:50:45,  1.61s/it] 14%|█▎        | 6604/48845 [2:20:35<17:37:16,  1.50s/it] 14%|█▎        | 6605/48845 [2:20:37<16:45:19,  1.43s/it]                                                         {'loss': 1.3084, 'learning_rate': 3.998492922536637e-05, 'epoch': 0.68}
+ 14%|█▎        | 6605/48845 [2:20:37<16:45:19,  1.43s/it] 14%|█▎        | 6606/48845 [2:20:38<16:10:48,  1.38s/it] 14%|█▎        | 6607/48845 [2:20:39<15:45:56,  1.34s/it] 14%|█▎        | 6608/48845 [2:20:41<16:11:21,  1.38s/it] 14%|█▎        | 6609/48845 [2:20:42<15:46:40,  1.34s/it] 14%|█▎        | 6610/48845 [2:20:43<15:29:26,  1.32s/it]                                                         {'loss': 1.3992, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6610/48845 [2:20:43<15:29:26,  1.32s/it] 14%|█▎        | 6611/48845 [2:20:44<15:17:08,  1.30s/it] 14%|█▎        | 6612/48845 [2:20:46<15:08:58,  1.29s/it] 14%|█▎        | 6613/48845 [2:20:47<15:03:08,  1.28s/it] 14%|█▎        | 6614/48845 [2:20:48<14:59:10,  1.28s/it] 14%|█▎        | 6615/48845 [2:20:49<14:56:16,  1.27s/it]                                                         {'loss': 1.382, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6615/48845 [2:20:49<14:56:16,  1.27s/it] 14%|█▎        | 6616/48845 [2:20:51<14:53:10,  1.27s/it] 14%|█▎        | 6617/48845 [2:20:52<14:52:22,  1.27s/it] 14%|█▎        | 6618/48845 [2:20:53<14:51:36,  1.27s/it] 14%|█▎        | 6619/48845 [2:20:54<14:50:49,  1.27s/it] 14%|█▎        | 6620/48845 [2:20:56<14:50:00,  1.26s/it]                                                         {'loss': 1.3631, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6620/48845 [2:20:56<14:50:00,  1.26s/it] 14%|█▎        | 6621/48845 [2:20:57<14:49:28,  1.26s/it] 14%|█▎        | 6622/48845 [2:20:58<14:48:54,  1.26s/it] 14%|█▎        | 6623/48845 [2:20:59<14:47:50,  1.26s/it] 14%|█▎        | 6624/48845 [2:21:01<14:46:58,  1.26s/it] 14%|█▎        | 6625/48845 [2:21:02<14:46:46,  1.26s/it]                                                         {'loss': 1.2976, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6625/48845 [2:21:02<14:46:46,  1.26s/it] 14%|█▎        | 6626/48845 [2:21:03<14:48:53,  1.26s/it] 14%|█▎        | 6627/48845 [2:21:05<14:48:11,  1.26s/it] 14%|█▎        | 6628/48845 [2:21:06<14:47:43,  1.26s/it] 14%|█▎        | 6629/48845 [2:21:07<14:47:21,  1.26s/it] 14%|█▎        | 6630/48845 [2:21:08<14:47:07,  1.26s/it]                                                         {'loss': 1.4025, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6630/48845 [2:21:08<14:47:07,  1.26s/it] 14%|█▎        | 6631/48845 [2:21:10<14:47:49,  1.26s/it] 14%|█▎        | 6632/48845 [2:21:11<14:46:27,  1.26s/it] 14%|█▎        | 6633/48845 [2:21:12<14:46:15,  1.26s/it] 14%|█▎        | 6634/48845 [2:21:13<14:47:22,  1.26s/it] 14%|█▎        | 6635/48845 [2:21:15<14:46:22,  1.26s/it]                                                         {'loss': 1.2819, 'learning_rate': 4.004060806090172e-05, 'epoch': 0.68}
+ 14%|█▎        | 6635/48845 [2:21:15<14:46:22,  1.26s/it] 14%|█▎        | 6636/48845 [2:21:16<15:32:49,  1.33s/it] 14%|█▎        | 6637/48845 [2:21:17<15:18:43,  1.31s/it] 14%|█▎        | 6638/48845 [2:21:19<15:09:35,  1.29s/it] 14%|█▎        | 6639/48845 [2:21:20<15:02:51,  1.28s/it] 14%|█▎        | 6640/48845 [2:21:21<14:58:40,  1.28s/it]                                                         {'loss': 1.3173, 'learning_rate': 4.0095904221004775e-05, 'epoch': 0.68}
+ 14%|█▎        | 6640/48845 [2:21:21<14:58:40,  1.28s/it] 14%|█▎        | 6641/48845 [2:21:22<14:54:33,  1.27s/it] 14%|█▎        | 6642/48845 [2:21:24<15:36:54,  1.33s/it] 14%|█▎        | 6643/48845 [2:21:25<15:21:05,  1.31s/it] 14%|█▎        | 6644/48845 [2:21:26<15:10:37,  1.29s/it] 14%|█▎        | 6645/48845 [2:21:28<15:02:56,  1.28s/it]                                                         {'loss': 1.2777, 'learning_rate': 4.01508229299748e-05, 'epoch': 0.68}
+ 14%|█▎        | 6645/48845 [2:21:28<15:02:56,  1.28s/it] 14%|█▎        | 6646/48845 [2:21:29<15:48:01,  1.35s/it] 14%|█▎        | 6647/48845 [2:21:30<15:29:55,  1.32s/it] 14%|█▎        | 6648/48845 [2:21:32<15:18:05,  1.31s/it] 14%|█▎        | 6649/48845 [2:21:33<15:08:51,  1.29s/it] 14%|█▎        | 6650/48845 [2:21:34<15:02:12,  1.28s/it]                                                         {'loss': 1.258, 'learning_rate': 4.020536930585247e-05, 'epoch': 0.68}
+ 14%|█▎        | 6650/48845 [2:21:34<15:02:12,  1.28s/it] 14%|█▎        | 6651/48845 [2:21:35<14:58:08,  1.28s/it] 14%|█▎        | 6652/48845 [2:21:37<14:54:47,  1.27s/it] 14%|█▎        | 6653/48845 [2:21:38<15:37:45,  1.33s/it] 14%|█▎        | 6654/48845 [2:21:39<15:22:58,  1.31s/it] 14%|█▎        | 6655/48845 [2:21:41<15:11:01,  1.30s/it]                                                         {'loss': 1.364, 'learning_rate': 4.0259548363282125e-05, 'epoch': 0.68}
+ 14%|█▎        | 6655/48845 [2:21:41<15:11:01,  1.30s/it] 14%|█▎        | 6656/48845 [2:21:42<15:04:46,  1.29s/it] 14%|█▎        | 6657/48845 [2:21:43<15:42:13,  1.34s/it] 14%|█▎        | 6658/48845 [2:21:45<16:11:34,  1.38s/it] 14%|█▎        | 6659/48845 [2:21:46<15:46:03,  1.35s/it] 14%|█▎        | 6660/48845 [2:21:48<15:42:22,  1.34s/it]                                                         {'loss': 1.2953, 'learning_rate': 4.0366824080900185e-05, 'epoch': 0.68}
+ 14%|█▎        | 6660/48845 [2:21:48<15:42:22,  1.34s/it] 14%|█▎        | 6661/48845 [2:21:49<15:26:25,  1.32s/it] 14%|█▎        | 6662/48845 [2:21:50<15:13:59,  1.30s/it] 14%|█▎        | 6663/48845 [2:21:51<15:05:28,  1.29s/it] 14%|█▎        | 6664/48845 [2:21:53<15:40:43,  1.34s/it] 14%|█▎        | 6665/48845 [2:21:54<15:23:36,  1.31s/it]                                                         {'loss': 1.2057, 'learning_rate': 4.0419930277838236e-05, 'epoch': 0.68}
+ 14%|█▎        | 6665/48845 [2:21:54<15:23:36,  1.31s/it] 14%|█▎        | 6666/48845 [2:21:55<15:52:53,  1.36s/it] 14%|█▎        | 6667/48845 [2:21:57<15:32:10,  1.33s/it] 14%|█▎        | 6668/48845 [2:21:58<15:18:57,  1.31s/it] 14%|█▎        | 6669/48845 [2:21:59<15:09:27,  1.29s/it] 14%|█▎        | 6670/48845 [2:22:00<15:02:01,  1.28s/it]                                                         {'loss': 1.4005, 'learning_rate': 4.0472688234915396e-05, 'epoch': 0.68}
+ 14%|█▎        | 6670/48845 [2:22:00<15:02:01,  1.28s/it] 14%|█▎        | 6671/48845 [2:22:02<14:58:11,  1.28s/it] 14%|█▎        | 6672/48845 [2:22:03<15:39:07,  1.34s/it] 14%|█▎        | 6673/48845 [2:22:04<15:23:15,  1.31s/it] 14%|█▎        | 6674/48845 [2:22:06<15:56:48,  1.36s/it] 14%|█▎        | 6675/48845 [2:22:07<15:35:53,  1.33s/it]                                                         {'loss': 1.3405, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.68}
+ 14%|█▎        | 6675/48845 [2:22:07<15:35:53,  1.33s/it] 14%|█▎        | 6676/48845 [2:22:08<15:21:59,  1.31s/it] 14%|█▎        | 6677/48845 [2:22:10<15:11:07,  1.30s/it] 14%|█▎        | 6678/48845 [2:22:11<15:03:02,  1.28s/it] 14%|█▎        | 6679/48845 [2:22:12<14:57:16,  1.28s/it] 14%|█▎        | 6680/48845 [2:22:14<14:54:11,  1.27s/it]                                                         {'loss': 1.4422, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.68}
+ 14%|█▎        | 6680/48845 [2:22:14<14:54:11,  1.27s/it] 14%|█▎        | 6681/48845 [2:22:15<14:50:47,  1.27s/it] 14%|█▎        | 6682/48845 [2:22:16<14:49:06,  1.27s/it] 14%|█▎        | 6683/48845 [2:22:17<14:47:14,  1.26s/it] 14%|█▎        | 6684/48845 [2:22:19<14:46:33,  1.26s/it] 14%|█▎        | 6685/48845 [2:22:20<14:46:29,  1.26s/it]                                                         {'loss': 1.483, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.68}
+ 14%|█▎        | 6685/48845 [2:22:20<14:46:29,  1.26s/it] 14%|█▎        | 6686/48845 [2:22:21<14:46:03,  1.26s/it] 14%|█▎        | 6687/48845 [2:22:22<14:45:26,  1.26s/it] 14%|█▎        | 6688/48845 [2:22:24<14:45:18,  1.26s/it] 14%|█▎        | 6689/48845 [2:22:25<14:45:02,  1.26s/it] 14%|█▎        | 6690/48845 [2:22:26<14:45:53,  1.26s/it]                                                         {'loss': 1.4918, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.68}
+ 14%|█▎        | 6690/48845 [2:22:26<14:45:53,  1.26s/it] 14%|█▎        | 6691/48845 [2:22:27<14:48:26,  1.26s/it] 14%|█▎        | 6692/48845 [2:22:29<14:48:07,  1.26s/it] 14%|█▎        | 6693/48845 [2:22:30<14:48:00,  1.26s/it] 14%|█▎        | 6694/48845 [2:22:31<14:46:49,  1.26s/it] 14%|█▎        | 6695/48845 [2:22:32<14:47:55,  1.26s/it]                                                         {'loss': 1.4107, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▎        | 6695/48845 [2:22:32<14:47:55,  1.26s/it] 14%|█▎        | 6696/48845 [2:22:34<14:49:22,  1.27s/it] 14%|█▎        | 6697/48845 [2:22:35<14:49:00,  1.27s/it] 14%|█▎        | 6698/48845 [2:22:36<14:50:29,  1.27s/it] 14%|█▎        | 6699/48845 [2:22:38<14:48:53,  1.27s/it] 14%|█▎        | 6700/48845 [2:22:39<14:47:58,  1.26s/it]                                                         {'loss': 1.495, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▎        | 6700/48845 [2:22:39<14:47:58,  1.26s/it] 14%|█▎        | 6701/48845 [2:22:40<14:47:49,  1.26s/it] 14%|█▎        | 6702/48845 [2:22:41<14:46:04,  1.26s/it] 14%|█▎        | 6703/48845 [2:22:43<14:45:30,  1.26s/it] 14%|█▎        | 6704/48845 [2:22:44<14:45:25,  1.26s/it] 14%|█▎        | 6705/48845 [2:22:45<14:45:06,  1.26s/it]                                                         {'loss': 1.5914, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▎        | 6705/48845 [2:22:45<14:45:06,  1.26s/it] 14%|█▎        | 6706/48845 [2:22:46<14:47:24,  1.26s/it] 14%|█▎        | 6707/48845 [2:22:48<14:46:42,  1.26s/it] 14%|█▎        | 6708/48845 [2:22:49<14:46:42,  1.26s/it] 14%|█▎        | 6709/48845 [2:22:50<14:47:04,  1.26s/it] 14%|█▎        | 6710/48845 [2:22:51<14:46:59,  1.26s/it]                                                         {'loss': 1.4734, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▎        | 6710/48845 [2:22:51<14:46:59,  1.26s/it] 14%|█▎        | 6711/48845 [2:22:53<14:46:59,  1.26s/it] 14%|█▎        | 6712/48845 [2:22:54<14:46:29,  1.26s/it] 14%|█▎        | 6713/48845 [2:22:55<14:45:20,  1.26s/it] 14%|█▎        | 6714/48845 [2:22:56<14:45:16,  1.26s/it] 14%|█▎        | 6715/48845 [2:22:58<14:44:53,  1.26s/it]                                                         {'loss': 1.4905, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▎        | 6715/48845 [2:22:58<14:44:53,  1.26s/it] 14%|█▎        | 6716/48845 [2:22:59<14:45:46,  1.26s/it] 14%|█▍        | 6717/48845 [2:23:00<14:45:24,  1.26s/it] 14%|█▍        | 6718/48845 [2:23:01<14:45:13,  1.26s/it] 14%|█▍        | 6719/48845 [2:23:03<14:44:17,  1.26s/it] 14%|█▍        | 6720/48845 [2:23:04<14:44:22,  1.26s/it]                                                         {'loss': 1.4331, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6720/48845 [2:23:04<14:44:22,  1.26s/it] 14%|█▍        | 6721/48845 [2:23:05<14:44:17,  1.26s/it] 14%|█▍        | 6722/48845 [2:23:07<14:44:22,  1.26s/it] 14%|█▍        | 6723/48845 [2:23:08<14:43:47,  1.26s/it] 14%|█▍        | 6724/48845 [2:23:09<14:44:03,  1.26s/it] 14%|█▍        | 6725/48845 [2:23:10<14:43:12,  1.26s/it]                                                         {'loss': 1.4452, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6725/48845 [2:23:10<14:43:12,  1.26s/it] 14%|█▍        | 6726/48845 [2:23:12<14:45:37,  1.26s/it] 14%|█▍        | 6727/48845 [2:23:13<14:46:10,  1.26s/it] 14%|█▍        | 6728/48845 [2:23:14<14:45:53,  1.26s/it] 14%|█▍        | 6729/48845 [2:23:15<14:45:25,  1.26s/it] 14%|█▍        | 6730/48845 [2:23:17<14:44:56,  1.26s/it]                                                         {'loss': 1.5219, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6730/48845 [2:23:17<14:44:56,  1.26s/it] 14%|█▍        | 6731/48845 [2:23:18<14:46:36,  1.26s/it] 14%|█▍        | 6732/48845 [2:23:19<14:46:17,  1.26s/it] 14%|█▍        | 6733/48845 [2:23:20<14:44:15,  1.26s/it] 14%|█▍        | 6734/48845 [2:23:22<14:43:50,  1.26s/it] 14%|█▍        | 6735/48845 [2:23:23<14:43:53,  1.26s/it]                                                         {'loss': 1.4575, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6735/48845 [2:23:23<14:43:53,  1.26s/it] 14%|█▍        | 6736/48845 [2:23:24<14:45:18,  1.26s/it] 14%|█▍        | 6737/48845 [2:23:25<14:44:45,  1.26s/it] 14%|█▍        | 6738/48845 [2:23:27<14:44:01,  1.26s/it] 14%|█▍        | 6739/48845 [2:23:28<14:43:36,  1.26s/it] 14%|█▍        | 6740/48845 [2:23:29<14:43:32,  1.26s/it]                                                         {'loss': 1.5676, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6740/48845 [2:23:29<14:43:32,  1.26s/it] 14%|█▍        | 6741/48845 [2:23:30<14:47:06,  1.26s/it] 14%|█▍        | 6742/48845 [2:23:32<14:45:57,  1.26s/it] 14%|█▍        | 6743/48845 [2:23:33<14:47:02,  1.26s/it] 14%|█▍        | 6744/48845 [2:23:34<14:45:58,  1.26s/it] 14%|█▍        | 6745/48845 [2:23:36<14:45:07,  1.26s/it]                                                         {'loss': 1.4636, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6745/48845 [2:23:36<14:45:07,  1.26s/it] 14%|█▍        | 6746/48845 [2:23:37<14:47:43,  1.27s/it] 14%|█▍        | 6747/48845 [2:23:38<14:46:13,  1.26s/it] 14%|█▍        | 6748/48845 [2:23:39<14:46:29,  1.26s/it] 14%|█▍        | 6749/48845 [2:23:41<14:45:13,  1.26s/it] 14%|█▍        | 6750/48845 [2:23:42<14:44:58,  1.26s/it]                                                         {'loss': 1.513, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6750/48845 [2:23:42<14:44:58,  1.26s/it] 14%|█▍        | 6751/48845 [2:23:43<14:45:40,  1.26s/it] 14%|█▍        | 6752/48845 [2:23:44<14:45:22,  1.26s/it] 14%|█▍        | 6753/48845 [2:23:46<14:45:35,  1.26s/it] 14%|█▍        | 6754/48845 [2:23:47<14:45:57,  1.26s/it] 14%|█▍        | 6755/48845 [2:23:48<14:45:32,  1.26s/it]                                                         {'loss': 1.4247, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6755/48845 [2:23:48<14:45:32,  1.26s/it] 14%|█▍        | 6756/48845 [2:23:49<14:44:59,  1.26s/it] 14%|█▍        | 6757/48845 [2:23:51<14:43:51,  1.26s/it] 14%|█▍        | 6758/48845 [2:23:52<14:43:37,  1.26s/it] 14%|█▍        | 6759/48845 [2:23:53<14:44:04,  1.26s/it] 14%|█▍        | 6760/48845 [2:23:54<14:44:06,  1.26s/it]                                                         {'loss': 1.6142, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6760/48845 [2:23:54<14:44:06,  1.26s/it] 14%|█▍        | 6761/48845 [2:23:56<14:44:26,  1.26s/it] 14%|█▍        | 6762/48845 [2:23:57<14:44:00,  1.26s/it] 14%|█▍        | 6763/48845 [2:23:58<14:43:41,  1.26s/it] 14%|█▍        | 6764/48845 [2:23:59<14:43:55,  1.26s/it] 14%|█▍        | 6765/48845 [2:24:01<14:43:53,  1.26s/it]                                                         {'loss': 1.5517, 'learning_rate': 4.0577177490884e-05, 'epoch': 0.69}
+ 14%|█▍        | 6765/48845 [2:24:01<14:43:53,  1.26s/it] 14%|█▍        | 6766/48845 [2:24:02<14:43:49,  1.26s/it] 14%|█▍        | 6767/48845 [2:24:03<14:43:13,  1.26s/it] 14%|█▍        | 6768/48845 [2:24:05<15:27:49,  1.32s/it] 14%|█▍        | 6769/48845 [2:24:06<15:14:19,  1.30s/it] 14%|█▍        | 6770/48845 [2:24:07<15:04:43,  1.29s/it]                                                         {'loss': 1.5332, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.69}
+ 14%|█▍        | 6770/48845 [2:24:07<15:04:43,  1.29s/it] 14%|█▍        | 6771/48845 [2:24:09<14:59:48,  1.28s/it] 14%|█▍        | 6772/48845 [2:24:10<14:55:32,  1.28s/it] 14%|█▍        | 6773/48845 [2:24:11<14:52:32,  1.27s/it] 14%|█▍        | 6774/48845 [2:24:12<14:49:49,  1.27s/it] 14%|█▍        | 6775/48845 [2:24:14<14:48:02,  1.27s/it]                                                         {'loss': 1.6217, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.69}
+ 14%|█▍        | 6775/48845 [2:24:14<14:48:02,  1.27s/it] 14%|█▍        | 6776/48845 [2:24:15<14:47:56,  1.27s/it] 14%|█▍        | 6777/48845 [2:24:16<14:46:17,  1.26s/it] 14%|█▍        | 6778/48845 [2:24:17<14:45:43,  1.26s/it] 14%|█▍        | 6779/48845 [2:24:19<14:45:27,  1.26s/it] 14%|█▍        | 6780/48845 [2:24:20<14:45:07,  1.26s/it]                                                         {'loss': 1.5989, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.69}
+ 14%|█▍        | 6780/48845 [2:24:20<14:45:07,  1.26s/it] 14%|█▍        | 6781/48845 [2:24:21<14:45:11,  1.26s/it] 14%|█▍        | 6782/48845 [2:24:22<14:44:28,  1.26s/it] 14%|█▍        | 6783/48845 [2:24:24<14:44:17,  1.26s/it] 14%|█▍        | 6784/48845 [2:24:25<14:44:12,  1.26s/it] 14%|█▍        | 6785/48845 [2:24:26<14:44:52,  1.26s/it]                                                         {'loss': 1.4552, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.69}
+ 14%|█▍        | 6785/48845 [2:24:26<14:44:52,  1.26s/it] 14%|█▍        | 6786/48845 [2:24:27<14:44:17,  1.26s/it] 14%|█▍        | 6787/48845 [2:24:29<14:43:52,  1.26s/it] 14%|█▍        | 6788/48845 [2:24:30<14:43:11,  1.26s/it] 14%|█▍        | 6789/48845 [2:24:31<14:43:37,  1.26s/it] 14%|█▍        | 6790/48845 [2:24:32<14:43:30,  1.26s/it]                                                         {'loss': 1.4851, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6790/48845 [2:24:32<14:43:30,  1.26s/it] 14%|█▍        | 6791/48845 [2:24:34<14:44:25,  1.26s/it] 14%|█▍        | 6792/48845 [2:24:35<14:43:38,  1.26s/it] 14%|█▍        | 6793/48845 [2:24:36<14:44:16,  1.26s/it] 14%|█▍        | 6794/48845 [2:24:38<14:45:00,  1.26s/it] 14%|█▍        | 6795/48845 [2:24:39<14:44:50,  1.26s/it]                                                         {'loss': 1.6124, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6795/48845 [2:24:39<14:44:50,  1.26s/it] 14%|█▍        | 6796/48845 [2:24:40<14:44:01,  1.26s/it] 14%|█▍        | 6797/48845 [2:24:41<14:43:26,  1.26s/it] 14%|█▍        | 6798/48845 [2:24:43<14:43:22,  1.26s/it] 14%|█▍        | 6799/48845 [2:24:44<14:43:29,  1.26s/it] 14%|█▍        | 6800/48845 [2:24:45<14:44:01,  1.26s/it]                                                         {'loss': 1.4796, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6800/48845 [2:24:45<14:44:01,  1.26s/it] 14%|█▍        | 6801/48845 [2:24:49<23:04:04,  1.98s/it] 14%|█▍        | 6802/48845 [2:24:50<20:33:10,  1.76s/it] 14%|█▍        | 6803/48845 [2:24:51<18:50:35,  1.61s/it] 14%|█▍        | 6804/48845 [2:24:53<17:37:04,  1.51s/it] 14%|█▍        | 6805/48845 [2:24:54<16:45:07,  1.43s/it]                                                         {'loss': 1.5236, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6805/48845 [2:24:54<16:45:07,  1.43s/it] 14%|█▍        | 6806/48845 [2:24:55<16:08:46,  1.38s/it] 14%|█▍        | 6807/48845 [2:24:56<15:42:19,  1.34s/it] 14%|█▍        | 6808/48845 [2:24:58<15:22:52,  1.32s/it] 14%|█▍        | 6809/48845 [2:24:59<15:10:32,  1.30s/it] 14%|█▍        | 6810/48845 [2:25:00<15:02:05,  1.29s/it]                                                         {'loss': 1.5414, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6810/48845 [2:25:00<15:02:05,  1.29s/it] 14%|█▍        | 6811/48845 [2:25:01<14:55:55,  1.28s/it] 14%|█▍        | 6812/48845 [2:25:03<14:52:24,  1.27s/it] 14%|█▍        | 6813/48845 [2:25:04<14:49:36,  1.27s/it] 14%|█▍        | 6814/48845 [2:25:05<14:47:58,  1.27s/it] 14%|█▍        | 6815/48845 [2:25:06<14:46:43,  1.27s/it]                                                         {'loss': 1.565, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6815/48845 [2:25:06<14:46:43,  1.27s/it] 14%|█▍        | 6816/48845 [2:25:08<14:45:20,  1.26s/it] 14%|█▍        | 6817/48845 [2:25:09<14:44:20,  1.26s/it] 14%|█▍        | 6818/48845 [2:25:10<14:44:27,  1.26s/it] 14%|█▍        | 6819/48845 [2:25:11<14:43:39,  1.26s/it] 14%|█▍        | 6820/48845 [2:25:13<14:43:08,  1.26s/it]                                                         {'loss': 1.5116, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6820/48845 [2:25:13<14:43:08,  1.26s/it] 14%|█▍        | 6821/48845 [2:25:14<14:43:46,  1.26s/it] 14%|█▍        | 6822/48845 [2:25:15<14:43:50,  1.26s/it] 14%|█▍        | 6823/48845 [2:25:16<14:43:35,  1.26s/it] 14%|█▍        | 6824/48845 [2:25:18<14:43:05,  1.26s/it] 14%|█▍        | 6825/48845 [2:25:19<14:42:51,  1.26s/it]                                                         {'loss': 1.5314, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6825/48845 [2:25:19<14:42:51,  1.26s/it] 14%|█▍        | 6826/48845 [2:25:20<14:43:11,  1.26s/it] 14%|█▍        | 6827/48845 [2:25:22<14:42:25,  1.26s/it] 14%|█▍        | 6828/48845 [2:25:23<14:41:39,  1.26s/it] 14%|█▍        | 6829/48845 [2:25:24<14:41:45,  1.26s/it] 14%|█▍        | 6830/48845 [2:25:25<14:41:14,  1.26s/it]                                                         {'loss': 1.5565, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6830/48845 [2:25:25<14:41:14,  1.26s/it] 14%|█▍        | 6831/48845 [2:25:27<14:42:08,  1.26s/it] 14%|█▍        | 6832/48845 [2:25:28<14:41:54,  1.26s/it] 14%|█▍        | 6833/48845 [2:25:29<14:41:40,  1.26s/it] 14%|█▍        | 6834/48845 [2:25:30<14:41:51,  1.26s/it] 14%|█▍        | 6835/48845 [2:25:32<14:41:42,  1.26s/it]                                                         {'loss': 1.4099, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6835/48845 [2:25:32<14:41:42,  1.26s/it] 14%|█▍        | 6836/48845 [2:25:33<15:01:54,  1.29s/it] 14%|█▍        | 6837/48845 [2:25:34<14:55:37,  1.28s/it] 14%|█▍        | 6838/48845 [2:25:35<14:52:51,  1.28s/it] 14%|█▍        | 6839/48845 [2:25:37<14:49:54,  1.27s/it] 14%|█▍        | 6840/48845 [2:25:38<14:47:14,  1.27s/it]                                                         {'loss': 1.6405, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6840/48845 [2:25:38<14:47:14,  1.27s/it] 14%|█▍        | 6841/48845 [2:25:39<14:46:50,  1.27s/it] 14%|█▍        | 6842/48845 [2:25:41<14:45:33,  1.26s/it] 14%|█▍        | 6843/48845 [2:25:42<14:44:41,  1.26s/it] 14%|█▍        | 6844/48845 [2:25:43<14:43:41,  1.26s/it] 14%|█▍        | 6845/48845 [2:25:44<14:43:03,  1.26s/it]                                                         {'loss': 1.5051, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6845/48845 [2:25:44<14:43:03,  1.26s/it] 14%|█▍        | 6846/48845 [2:25:46<14:43:59,  1.26s/it] 14%|█▍        | 6847/48845 [2:25:47<14:43:21,  1.26s/it] 14%|█▍        | 6848/48845 [2:25:48<14:43:07,  1.26s/it] 14%|█▍        | 6849/48845 [2:25:49<14:43:39,  1.26s/it] 14%|█▍        | 6850/48845 [2:25:51<14:44:00,  1.26s/it]                                                         {'loss': 1.559, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6850/48845 [2:25:51<14:44:00,  1.26s/it] 14%|█▍        | 6851/48845 [2:25:52<14:44:03,  1.26s/it] 14%|█▍        | 6852/48845 [2:25:53<14:43:03,  1.26s/it] 14%|█▍        | 6853/48845 [2:25:54<14:42:28,  1.26s/it] 14%|█▍        | 6854/48845 [2:25:56<14:42:53,  1.26s/it] 14%|█▍        | 6855/48845 [2:25:57<14:43:20,  1.26s/it]                                                         {'loss': 1.5172, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6855/48845 [2:25:57<14:43:20,  1.26s/it] 14%|█▍        | 6856/48845 [2:25:58<14:43:08,  1.26s/it] 14%|█▍        | 6857/48845 [2:25:59<14:44:10,  1.26s/it] 14%|█▍        | 6858/48845 [2:26:01<14:43:30,  1.26s/it] 14%|█▍        | 6859/48845 [2:26:02<14:43:36,  1.26s/it] 14%|█▍        | 6860/48845 [2:26:03<14:43:13,  1.26s/it]                                                         {'loss': 1.5851, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6860/48845 [2:26:03<14:43:13,  1.26s/it] 14%|█▍        | 6861/48845 [2:26:05<14:42:46,  1.26s/it] 14%|█▍        | 6862/48845 [2:26:06<14:42:49,  1.26s/it] 14%|█▍        | 6863/48845 [2:26:07<14:42:28,  1.26s/it] 14%|█▍        | 6864/48845 [2:26:08<14:42:25,  1.26s/it] 14%|█▍        | 6865/48845 [2:26:10<15:00:07,  1.29s/it]                                                         {'loss': 1.4629, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6865/48845 [2:26:10<15:00:07,  1.29s/it] 14%|█▍        | 6866/48845 [2:26:11<14:56:33,  1.28s/it] 14%|█▍        | 6867/48845 [2:26:12<14:52:27,  1.28s/it] 14%|█▍        | 6868/48845 [2:26:13<14:48:51,  1.27s/it] 14%|█▍        | 6869/48845 [2:26:15<14:46:08,  1.27s/it] 14%|█▍        | 6870/48845 [2:26:16<14:45:50,  1.27s/it]                                                         {'loss': 1.608, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6870/48845 [2:26:16<14:45:50,  1.27s/it] 14%|█▍        | 6871/48845 [2:26:17<14:45:27,  1.27s/it] 14%|█▍        | 6872/48845 [2:26:18<14:44:52,  1.26s/it] 14%|█▍        | 6873/48845 [2:26:20<14:43:28,  1.26s/it] 14%|█▍        | 6874/48845 [2:26:21<14:43:02,  1.26s/it] 14%|█▍        | 6875/48845 [2:26:22<14:43:56,  1.26s/it]                                                         {'loss': 1.5381, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6875/48845 [2:26:22<14:43:56,  1.26s/it] 14%|█▍        | 6876/48845 [2:26:24<14:43:37,  1.26s/it] 14%|█▍        | 6877/48845 [2:26:25<14:43:30,  1.26s/it] 14%|█▍        | 6878/48845 [2:26:26<14:43:27,  1.26s/it] 14%|█▍        | 6879/48845 [2:26:27<14:43:00,  1.26s/it] 14%|█▍        | 6880/48845 [2:26:29<14:43:40,  1.26s/it]                                                         {'loss': 1.6535, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6880/48845 [2:26:29<14:43:40,  1.26s/it] 14%|█▍        | 6881/48845 [2:26:30<14:42:44,  1.26s/it] 14%|█▍        | 6882/48845 [2:26:31<14:42:26,  1.26s/it] 14%|█▍        | 6883/48845 [2:26:32<14:43:17,  1.26s/it] 14%|█▍        | 6884/48845 [2:26:34<14:42:10,  1.26s/it] 14%|█▍        | 6885/48845 [2:26:35<14:42:59,  1.26s/it]                                                         {'loss': 1.6272, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.7}
+ 14%|█▍        | 6885/48845 [2:26:35<14:42:59,  1.26s/it] 14%|█▍        | 6886/48845 [2:26:36<14:47:16,  1.27s/it] 14%|█▍        | 6887/48845 [2:26:37<14:45:33,  1.27s/it] 14%|█▍        | 6888/48845 [2:26:39<14:44:50,  1.27s/it] 14%|█▍        | 6889/48845 [2:26:40<14:43:34,  1.26s/it] 14%|█▍        | 6890/48845 [2:26:41<14:42:16,  1.26s/it]                                                         {'loss': 1.5638, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6890/48845 [2:26:41<14:42:16,  1.26s/it] 14%|█▍        | 6891/48845 [2:26:42<14:43:23,  1.26s/it] 14%|█▍        | 6892/48845 [2:26:44<14:42:27,  1.26s/it] 14%|█▍        | 6893/48845 [2:26:45<14:41:43,  1.26s/it] 14%|█▍        | 6894/48845 [2:26:46<14:43:01,  1.26s/it] 14%|█���        | 6895/48845 [2:26:48<14:42:31,  1.26s/it]                                                         {'loss': 1.4562, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6895/48845 [2:26:48<14:42:31,  1.26s/it] 14%|█▍        | 6896/48845 [2:26:49<14:42:11,  1.26s/it] 14%|█▍        | 6897/48845 [2:26:50<14:42:24,  1.26s/it] 14%|█▍        | 6898/48845 [2:26:51<14:41:50,  1.26s/it] 14%|█▍        | 6899/48845 [2:26:53<14:42:30,  1.26s/it] 14%|█▍        | 6900/48845 [2:26:54<14:41:18,  1.26s/it]                                                         {'loss': 1.5128, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6900/48845 [2:26:54<14:41:18,  1.26s/it] 14%|█▍        | 6901/48845 [2:26:55<14:41:16,  1.26s/it] 14%|█▍        | 6902/48845 [2:26:56<14:41:21,  1.26s/it] 14%|█▍        | 6903/48845 [2:26:58<14:40:38,  1.26s/it] 14%|█▍        | 6904/48845 [2:26:59<14:40:50,  1.26s/it] 14%|█▍        | 6905/48845 [2:27:00<14:40:27,  1.26s/it]                                                         {'loss': 1.4579, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6905/48845 [2:27:00<14:40:27,  1.26s/it] 14%|█▍        | 6906/48845 [2:27:01<14:40:08,  1.26s/it] 14%|█▍        | 6907/48845 [2:27:03<14:40:16,  1.26s/it] 14%|█▍        | 6908/48845 [2:27:04<14:40:13,  1.26s/it] 14%|█▍        | 6909/48845 [2:27:05<14:40:33,  1.26s/it] 14%|█▍        | 6910/48845 [2:27:06<14:44:09,  1.27s/it]                                                         {'loss': 1.4844, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6910/48845 [2:27:06<14:44:09,  1.27s/it] 14%|█▍        | 6911/48845 [2:27:08<14:43:45,  1.26s/it] 14%|█▍        | 6912/48845 [2:27:09<14:43:43,  1.26s/it] 14%|█▍        | 6913/48845 [2:27:10<14:43:46,  1.26s/it] 14%|█▍        | 6914/48845 [2:27:11<14:43:39,  1.26s/it] 14%|█▍        | 6915/48845 [2:27:13<14:42:48,  1.26s/it]                                                         {'loss': 1.4676, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6915/48845 [2:27:13<14:42:48,  1.26s/it] 14%|█▍        | 6916/48845 [2:27:14<14:42:01,  1.26s/it] 14%|█▍        | 6917/48845 [2:27:15<14:42:16,  1.26s/it] 14%|█▍        | 6918/48845 [2:27:17<15:03:44,  1.29s/it] 14%|█▍        | 6919/48845 [2:27:18<14:56:44,  1.28s/it] 14%|█▍        | 6920/48845 [2:27:19<14:51:53,  1.28s/it]                                                         {'loss': 1.5933, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6920/48845 [2:27:19<14:51:53,  1.28s/it] 14%|█▍        | 6921/48845 [2:27:20<14:50:20,  1.27s/it] 14%|█▍        | 6922/48845 [2:27:22<14:47:11,  1.27s/it] 14%|█▍        | 6923/48845 [2:27:23<14:45:12,  1.27s/it] 14%|█▍        | 6924/48845 [2:27:24<14:46:40,  1.27s/it] 14%|█▍        | 6925/48845 [2:27:25<14:44:29,  1.27s/it]                                                         {'loss': 1.4954, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6925/48845 [2:27:25<14:44:29,  1.27s/it] 14%|█▍        | 6926/48845 [2:27:27<14:45:45,  1.27s/it] 14%|█▍        | 6927/48845 [2:27:28<14:43:38,  1.26s/it] 14%|█▍        | 6928/48845 [2:27:29<14:41:31,  1.26s/it] 14%|█▍        | 6929/48845 [2:27:31<14:42:17,  1.26s/it] 14%|█▍        | 6930/48845 [2:27:32<14:41:26,  1.26s/it]                                                         {'loss': 1.5225, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6930/48845 [2:27:32<14:41:26,  1.26s/it] 14%|█▍        | 6931/48845 [2:27:33<14:41:05,  1.26s/it] 14%|█▍        | 6932/48845 [2:27:34<14:41:41,  1.26s/it] 14%|█▍        | 6933/48845 [2:27:36<14:41:02,  1.26s/it] 14%|█▍        | 6934/48845 [2:27:37<14:40:31,  1.26s/it] 14%|█▍        | 6935/48845 [2:27:38<14:41:06,  1.26s/it]                                                         {'loss': 1.6317, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6935/48845 [2:27:38<14:41:06,  1.26s/it] 14%|█▍        | 6936/48845 [2:27:40<15:19:09,  1.32s/it] 14%|█▍        | 6937/48845 [2:27:41<15:07:30,  1.30s/it] 14%|█▍        | 6938/48845 [2:27:42<14:59:21,  1.29s/it] 14%|█▍        | 6939/48845 [2:27:43<14:54:19,  1.28s/it] 14%|█▍        | 6940/48845 [2:27:45<14:50:53,  1.28s/it]                                                         {'loss': 1.4638, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6940/48845 [2:27:45<14:50:53,  1.28s/it] 14%|█▍        | 6941/48845 [2:27:46<14:48:34,  1.27s/it] 14%|█▍        | 6942/48845 [2:27:47<14:46:27,  1.27s/it] 14%|█▍        | 6943/48845 [2:27:48<14:44:56,  1.27s/it] 14%|█▍        | 6944/48845 [2:27:50<14:52:33,  1.28s/it] 14%|█▍        | 6945/48845 [2:27:51<14:49:20,  1.27s/it]                                                         {'loss': 1.4992, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6945/48845 [2:27:51<14:49:20,  1.27s/it] 14%|█▍        | 6946/48845 [2:27:52<14:46:53,  1.27s/it] 14%|█▍        | 6947/48845 [2:27:53<14:44:43,  1.27s/it] 14%|█▍        | 6948/48845 [2:27:55<14:44:11,  1.27s/it] 14%|█▍        | 6949/48845 [2:27:56<14:42:44,  1.26s/it] 14%|█▍        | 6950/48845 [2:27:57<14:41:48,  1.26s/it]                                                         {'loss': 1.5162, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6950/48845 [2:27:57<14:41:48,  1.26s/it] 14%|█▍        | 6951/48845 [2:27:59<15:16:45,  1.31s/it] 14%|█▍        | 6952/48845 [2:28:00<15:05:52,  1.30s/it] 14%|█▍        | 6953/48845 [2:28:01<14:57:37,  1.29s/it] 14%|█▍        | 6954/48845 [2:28:02<14:52:09,  1.28s/it] 14%|█▍        | 6955/48845 [2:28:04<14:49:36,  1.27s/it]                                                         {'loss': 1.5203, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6955/48845 [2:28:04<14:49:36,  1.27s/it] 14%|█▍        | 6956/48845 [2:28:05<14:46:41,  1.27s/it] 14%|█▍        | 6957/48845 [2:28:06<14:44:18,  1.27s/it] 14%|█▍        | 6958/48845 [2:28:08<14:42:30,  1.26s/it] 14%|█▍        | 6959/48845 [2:28:09<14:41:46,  1.26s/it] 14%|█▍        | 6960/48845 [2:28:10<14:41:39,  1.26s/it]                                                         {'loss': 1.3826, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6960/48845 [2:28:10<14:41:39,  1.26s/it] 14%|█▍        | 6961/48845 [2:28:11<14:42:17,  1.26s/it] 14%|█▍        | 6962/48845 [2:28:13<14:41:58,  1.26s/it] 14%|█▍        | 6963/48845 [2:28:14<14:40:49,  1.26s/it] 14%|█▍        | 6964/48845 [2:28:15<14:41:06,  1.26s/it] 14%|█▍        | 6965/48845 [2:28:16<14:40:30,  1.26s/it]                                                         {'loss': 1.6108, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6965/48845 [2:28:16<14:40:30,  1.26s/it] 14%|█▍        | 6966/48845 [2:28:18<14:40:04,  1.26s/it] 14%|█▍        | 6967/48845 [2:28:19<14:39:06,  1.26s/it] 14%|█▍        | 6968/48845 [2:28:20<14:40:09,  1.26s/it] 14%|█▍        | 6969/48845 [2:28:21<14:39:15,  1.26s/it] 14%|█▍        | 6970/48845 [2:28:23<14:39:58,  1.26s/it]                                                         {'loss': 1.5586, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6970/48845 [2:28:23<14:39:58,  1.26s/it] 14%|█▍        | 6971/48845 [2:28:24<14:39:15,  1.26s/it] 14%|█▍        | 6972/48845 [2:28:25<14:39:11,  1.26s/it] 14%|█▍        | 6973/48845 [2:28:26<14:39:52,  1.26s/it] 14%|█▍        | 6974/48845 [2:28:28<14:38:54,  1.26s/it] 14%|█▍        | 6975/48845 [2:28:29<14:39:48,  1.26s/it]                                                         {'loss': 1.6003, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6975/48845 [2:28:29<14:39:48,  1.26s/it] 14%|█▍        | 6976/48845 [2:28:30<14:39:55,  1.26s/it] 14%|█▍        | 6977/48845 [2:28:31<14:39:53,  1.26s/it] 14%|█▍        | 6978/48845 [2:28:33<14:39:17,  1.26s/it] 14%|█▍        | 6979/48845 [2:28:34<14:39:07,  1.26s/it] 14%|█▍        | 6980/48845 [2:28:35<14:38:52,  1.26s/it]                                                         {'loss': 1.5351, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.71}
+ 14%|█▍        | 6980/48845 [2:28:35<14:38:52,  1.26s/it] 14%|█▍        | 6981/48845 [2:28:37<14:39:08,  1.26s/it] 14%|█▍        | 6982/48845 [2:28:38<14:39:51,  1.26s/it] 14%|█▍        | 6983/48845 [2:28:39<14:40:02,  1.26s/it] 14%|█▍        | 6984/48845 [2:28:40<14:39:29,  1.26s/it] 14%|█▍        | 6985/48845 [2:28:42<14:40:10,  1.26s/it]                                                         {'loss': 1.5514, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 6985/48845 [2:28:42<14:40:10,  1.26s/it] 14%|█▍        | 6986/48845 [2:28:43<14:40:41,  1.26s/it] 14%|█▍        | 6987/48845 [2:28:44<14:40:23,  1.26s/it] 14%|█▍        | 6988/48845 [2:28:45<14:39:50,  1.26s/it] 14%|█▍        | 6989/48845 [2:28:47<14:38:29,  1.26s/it] 14%|█▍        | 6990/48845 [2:28:48<14:38:37,  1.26s/it]                                                         {'loss': 1.6485, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 6990/48845 [2:28:48<14:38:37,  1.26s/it] 14%|█▍        | 6991/48845 [2:28:49<14:39:32,  1.26s/it] 14%|█▍        | 6992/48845 [2:28:50<14:38:32,  1.26s/it] 14%|█▍        | 6993/48845 [2:28:52<14:38:30,  1.26s/it] 14%|█▍        | 6994/48845 [2:28:53<14:38:23,  1.26s/it] 14%|█▍        | 6995/48845 [2:28:54<14:38:15,  1.26s/it]                                                         {'loss': 1.612, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 6995/48845 [2:28:54<14:38:15,  1.26s/it] 14%|█▍        | 6996/48845 [2:28:55<14:39:31,  1.26s/it] 14%|█▍        | 6997/48845 [2:28:57<14:38:10,  1.26s/it] 14%|█▍        | 6998/48845 [2:28:58<14:38:22,  1.26s/it] 14%|█▍        | 6999/48845 [2:28:59<14:38:10,  1.26s/it] 14%|█▍        | 7000/48845 [2:29:00<14:37:59,  1.26s/it]                                                         {'loss': 1.5191, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7000/48845 [2:29:00<14:37:59,  1.26s/it] 14%|█▍        | 7001/48845 [2:29:04<22:55:00,  1.97s/it] 14%|█▍        | 7002/48845 [2:29:05<20:26:30,  1.76s/it] 14%|█▍        | 7003/48845 [2:29:07<18:42:58,  1.61s/it] 14%|█▍        | 7004/48845 [2:29:08<17:30:02,  1.51s/it] 14%|█▍        | 7005/48845 [2:29:09<16:38:40,  1.43s/it]                                                         {'loss': 1.5249, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7005/48845 [2:29:09<16:38:40,  1.43s/it] 14%|█▍        | 7006/48845 [2:29:10<16:03:23,  1.38s/it] 14%|█▍        | 7007/48845 [2:29:12<15:37:49,  1.34s/it] 14%|█▍        | 7008/48845 [2:29:13<15:21:07,  1.32s/it] 14%|█▍        | 7009/48845 [2:29:14<15:08:40,  1.30s/it] 14%|█▍        | 7010/48845 [2:29:15<14:59:59,  1.29s/it]                                                         {'loss': 1.532, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7010/48845 [2:29:15<14:59:59,  1.29s/it] 14%|█▍        | 7011/48845 [2:29:17<14:57:31,  1.29s/it] 14%|█▍        | 7012/48845 [2:29:18<14:52:10,  1.28s/it] 14%|█▍        | 7013/48845 [2:29:19<14:47:53,  1.27s/it] 14%|█▍        | 7014/48845 [2:29:20<14:45:08,  1.27s/it] 14%|█▍        | 7015/48845 [2:29:22<14:44:31,  1.27s/it]                                                         {'loss': 1.4868, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7015/48845 [2:29:22<14:44:31,  1.27s/it] 14%|█▍        | 7016/48845 [2:29:23<14:43:54,  1.27s/it] 14%|█▍        | 7017/48845 [2:29:24<14:42:35,  1.27s/it] 14%|█▍        | 7018/48845 [2:29:26<14:41:52,  1.27s/it] 14%|█▍        | 7019/48845 [2:29:27<14:40:09,  1.26s/it] 14%|█▍        | 7020/48845 [2:29:28<14:39:23,  1.26s/it]                                                         {'loss': 1.5945, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7020/48845 [2:29:28<14:39:23,  1.26s/it] 14%|█▍        | 7021/48845 [2:29:29<14:39:21,  1.26s/it] 14%|█▍        | 7022/48845 [2:29:31<14:39:31,  1.26s/it] 14%|█▍        | 7023/48845 [2:29:32<14:38:02,  1.26s/it] 14%|█▍        | 7024/48845 [2:29:33<14:37:52,  1.26s/it] 14%|█▍        | 7025/48845 [2:29:34<14:37:32,  1.26s/it]                                                         {'loss': 1.4776, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7025/48845 [2:29:34<14:37:32,  1.26s/it] 14%|█▍        | 7026/48845 [2:29:36<14:38:18,  1.26s/it] 14%|█▍        | 7027/48845 [2:29:37<14:38:30,  1.26s/it] 14%|█▍        | 7028/48845 [2:29:38<14:37:24,  1.26s/it] 14%|█▍        | 7029/48845 [2:29:40<14:57:24,  1.29s/it] 14%|█▍        | 7030/48845 [2:29:41<14:52:37,  1.28s/it]                                                         {'loss': 1.573, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7030/48845 [2:29:41<14:52:37,  1.28s/it] 14%|█▍        | 7031/48845 [2:29:42<14:48:42,  1.28s/it] 14%|█▍        | 7032/48845 [2:29:43<14:45:42,  1.27s/it] 14%|█▍        | 7033/48845 [2:29:45<14:43:44,  1.27s/it] 14%|█▍        | 7034/48845 [2:29:46<14:42:08,  1.27s/it] 14%|█▍        | 7035/48845 [2:29:47<14:40:48,  1.26s/it]                                                         {'loss': 1.5917, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7035/48845 [2:29:47<14:40:48,  1.26s/it] 14%|█▍        | 7036/48845 [2:29:48<14:39:53,  1.26s/it] 14%|█▍        | 7037/48845 [2:29:50<14:40:02,  1.26s/it] 14%|█▍        | 7038/48845 [2:29:51<14:38:31,  1.26s/it] 14%|█▍        | 7039/48845 [2:29:52<14:38:31,  1.26s/it] 14%|█▍        | 7040/48845 [2:29:53<14:37:53,  1.26s/it]                                                         {'loss': 1.6042, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7040/48845 [2:29:53<14:37:53,  1.26s/it] 14%|█▍        | 7041/48845 [2:29:55<14:37:25,  1.26s/it] 14%|█▍        | 7042/48845 [2:29:56<14:38:34,  1.26s/it] 14%|█▍        | 7043/48845 [2:29:57<14:38:27,  1.26s/it] 14%|█▍        | 7044/48845 [2:29:58<14:38:09,  1.26s/it] 14%|█▍        | 7045/48845 [2:30:00<14:37:52,  1.26s/it]                                                         {'loss': 1.5591, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7045/48845 [2:30:00<14:37:52,  1.26s/it] 14%|█▍        | 7046/48845 [2:30:01<14:40:48,  1.26s/it] 14%|█▍        | 7047/48845 [2:30:02<14:39:23,  1.26s/it] 14%|█▍        | 7048/48845 [2:30:03<14:38:18,  1.26s/it] 14%|█▍        | 7049/48845 [2:30:05<14:37:44,  1.26s/it] 14%|█▍        | 7050/48845 [2:30:06<14:38:12,  1.26s/it]                                                         {'loss': 1.5303, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7050/48845 [2:30:06<14:38:12,  1.26s/it] 14%|█▍        | 7051/48845 [2:30:07<14:38:02,  1.26s/it] 14%|█▍        | 7052/48845 [2:30:09<14:38:07,  1.26s/it] 14%|█▍        | 7053/48845 [2:30:10<14:37:46,  1.26s/it] 14%|█▍        | 7054/48845 [2:30:11<14:38:12,  1.26s/it] 14%|█▍        | 7055/48845 [2:30:12<14:38:38,  1.26s/it]                                                         {'loss': 1.574, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7055/48845 [2:30:12<14:38:38,  1.26s/it] 14%|█▍        | 7056/48845 [2:30:14<14:38:09,  1.26s/it] 14%|█▍        | 7057/48845 [2:30:15<14:38:41,  1.26s/it] 14%|█▍        | 7058/48845 [2:30:16<14:38:30,  1.26s/it] 14%|█▍        | 7059/48845 [2:30:17<14:38:28,  1.26s/it] 14%|█▍        | 7060/48845 [2:30:19<14:39:23,  1.26s/it]                                                         {'loss': 1.6038, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7060/48845 [2:30:19<14:39:23,  1.26s/it] 14%|█▍        | 7061/48845 [2:30:20<14:40:50,  1.26s/it] 14%|█▍        | 7062/48845 [2:30:21<14:39:09,  1.26s/it] 14%|█▍        | 7063/48845 [2:30:22<14:38:22,  1.26s/it] 14%|█▍        | 7064/48845 [2:30:24<14:38:59,  1.26s/it] 14%|█▍        | 7065/48845 [2:30:25<14:39:27,  1.26s/it]                                                         {'loss': 1.5545, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7065/48845 [2:30:25<14:39:27,  1.26s/it] 14%|█▍        | 7066/48845 [2:30:26<14:39:58,  1.26s/it] 14%|█▍        | 7067/48845 [2:30:27<14:39:41,  1.26s/it] 14%|█▍        | 7068/48845 [2:30:29<14:39:29,  1.26s/it] 14%|█▍        | 7069/48845 [2:30:30<14:40:19,  1.26s/it] 14%|█▍        | 7070/48845 [2:30:31<14:39:48,  1.26s/it]                                                         {'loss': 1.5412, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7070/48845 [2:30:31<14:39:48,  1.26s/it] 14%|█▍        | 7071/48845 [2:30:32<14:39:16,  1.26s/it] 14%|█▍        | 7072/48845 [2:30:34<14:38:05,  1.26s/it] 14%|█▍        | 7073/48845 [2:30:35<14:37:36,  1.26s/it] 14%|█▍        | 7074/48845 [2:30:36<14:38:13,  1.26s/it] 14%|█▍        | 7075/48845 [2:30:38<14:37:29,  1.26s/it]                                                         {'loss': 1.5027, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7075/48845 [2:30:38<14:37:29,  1.26s/it] 14%|█▍        | 7076/48845 [2:30:39<14:39:21,  1.26s/it] 14%|█▍        | 7077/48845 [2:30:40<14:39:03,  1.26s/it] 14%|█▍        | 7078/48845 [2:30:41<14:37:37,  1.26s/it] 14%|█▍        | 7079/48845 [2:30:43<14:37:31,  1.26s/it] 14%|█▍        | 7080/48845 [2:30:44<14:37:51,  1.26s/it]                                                         {'loss': 1.5412, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.72}
+ 14%|█▍        | 7080/48845 [2:30:44<14:37:51,  1.26s/it] 14%|█▍        | 7081/48845 [2:30:45<14:37:09,  1.26s/it] 14%|█▍        | 7082/48845 [2:30:46<14:37:25,  1.26s/it] 15%|█▍        | 7083/48845 [2:30:48<14:37:47,  1.26s/it] 15%|█▍        | 7084/48845 [2:30:49<14:37:33,  1.26s/it] 15%|█▍        | 7085/48845 [2:30:50<14:37:52,  1.26s/it]                                                         {'loss': 1.3702, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7085/48845 [2:30:50<14:37:52,  1.26s/it] 15%|█▍        | 7086/48845 [2:30:51<14:38:37,  1.26s/it] 15%|█▍        | 7087/48845 [2:30:53<14:38:37,  1.26s/it] 15%|█▍        | 7088/48845 [2:30:54<14:37:10,  1.26s/it] 15%|█▍        | 7089/48845 [2:30:55<14:36:43,  1.26s/it] 15%|█▍        | 7090/48845 [2:30:56<14:36:37,  1.26s/it]                                                         {'loss': 1.5475, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7090/48845 [2:30:56<14:36:37,  1.26s/it] 15%|█▍        | 7091/48845 [2:30:58<14:37:44,  1.26s/it] 15%|█▍        | 7092/48845 [2:30:59<14:37:16,  1.26s/it] 15%|█▍        | 7093/48845 [2:31:00<14:36:23,  1.26s/it] 15%|█▍        | 7094/48845 [2:31:01<14:37:37,  1.26s/it] 15%|█▍        | 7095/48845 [2:31:03<14:36:11,  1.26s/it]                                                         {'loss': 1.4707, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7095/48845 [2:31:03<14:36:11,  1.26s/it] 15%|█▍        | 7096/48845 [2:31:04<14:36:04,  1.26s/it] 15%|█▍        | 7097/48845 [2:31:05<14:36:49,  1.26s/it] 15%|█▍        | 7098/48845 [2:31:07<14:36:09,  1.26s/it] 15%|█▍        | 7099/48845 [2:31:08<14:35:55,  1.26s/it] 15%|█▍        | 7100/48845 [2:31:09<14:35:48,  1.26s/it]                                                         {'loss': 1.4903, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7100/48845 [2:31:09<14:35:48,  1.26s/it] 15%|█▍        | 7101/48845 [2:31:10<14:35:54,  1.26s/it] 15%|█▍        | 7102/48845 [2:31:12<14:36:04,  1.26s/it] 15%|█▍        | 7103/48845 [2:31:13<14:36:08,  1.26s/it] 15%|█▍        | 7104/48845 [2:31:14<14:36:01,  1.26s/it] 15%|█▍        | 7105/48845 [2:31:15<14:36:33,  1.26s/it]                                                         {'loss': 1.4772, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7105/48845 [2:31:15<14:36:33,  1.26s/it] 15%|█▍        | 7106/48845 [2:31:17<14:37:38,  1.26s/it] 15%|█▍        | 7107/48845 [2:31:18<14:37:04,  1.26s/it] 15%|█▍        | 7108/48845 [2:31:19<14:35:35,  1.26s/it] 15%|█▍        | 7109/48845 [2:31:20<14:37:27,  1.26s/it] 15%|█▍        | 7110/48845 [2:31:22<14:40:56,  1.27s/it]                                                         {'loss': 1.6553, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7110/48845 [2:31:22<14:40:56,  1.27s/it] 15%|█▍        | 7111/48845 [2:31:23<14:41:13,  1.27s/it] 15%|█▍        | 7112/48845 [2:31:24<14:38:49,  1.26s/it] 15%|█▍        | 7113/48845 [2:31:25<14:39:18,  1.26s/it] 15%|█▍        | 7114/48845 [2:31:27<14:38:39,  1.26s/it] 15%|█▍        | 7115/48845 [2:31:28<14:38:03,  1.26s/it]                                                         {'loss': 1.619, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7115/48845 [2:31:28<14:38:03,  1.26s/it] 15%|█▍        | 7116/48845 [2:31:29<14:38:41,  1.26s/it] 15%|█▍        | 7117/48845 [2:31:31<14:38:59,  1.26s/it] 15%|█▍        | 7118/48845 [2:31:32<14:39:17,  1.26s/it] 15%|█▍        | 7119/48845 [2:31:33<14:38:08,  1.26s/it] 15%|█▍        | 7120/48845 [2:31:34<14:37:16,  1.26s/it]                                                         {'loss': 1.5968, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7120/48845 [2:31:34<14:37:16,  1.26s/it] 15%|█▍        | 7121/48845 [2:31:36<15:03:53,  1.30s/it] 15%|█▍        | 7122/48845 [2:31:37<14:54:23,  1.29s/it] 15%|█▍        | 7123/48845 [2:31:38<14:48:11,  1.28s/it] 15%|█▍        | 7124/48845 [2:31:39<14:45:18,  1.27s/it] 15%|█▍        | 7125/48845 [2:31:41<15:19:39,  1.32s/it]                                                         {'loss': 1.4507, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7125/48845 [2:31:41<15:19:39,  1.32s/it] 15%|█▍        | 7126/48845 [2:31:42<15:06:38,  1.30s/it] 15%|█▍        | 7127/48845 [2:31:43<14:57:42,  1.29s/it] 15%|█▍        | 7128/48845 [2:31:45<14:51:33,  1.28s/it] 15%|█▍        | 7129/48845 [2:31:46<14:46:19,  1.27s/it] 15%|█▍        | 7130/48845 [2:31:47<14:42:44,  1.27s/it]                                                         {'loss': 1.4845, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7130/48845 [2:31:47<14:42:44,  1.27s/it] 15%|█▍        | 7131/48845 [2:31:48<14:41:27,  1.27s/it] 15%|█▍        | 7132/48845 [2:31:50<14:39:47,  1.27s/it] 15%|█▍        | 7133/48845 [2:31:51<14:38:38,  1.26s/it] 15%|█▍        | 7134/48845 [2:31:52<14:37:29,  1.26s/it] 15%|█▍        | 7135/48845 [2:31:53<14:36:17,  1.26s/it]                                                         {'loss': 1.573, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7135/48845 [2:31:53<14:36:17,  1.26s/it] 15%|█▍        | 7136/48845 [2:31:55<14:37:47,  1.26s/it] 15%|█▍        | 7137/48845 [2:31:56<14:35:58,  1.26s/it] 15%|█▍        | 7138/48845 [2:31:57<14:36:08,  1.26s/it] 15%|█▍        | 7139/48845 [2:31:59<14:35:05,  1.26s/it] 15%|█▍        | 7140/48845 [2:32:00<14:35:10,  1.26s/it]                                                         {'loss': 1.6374, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7140/48845 [2:32:00<14:35:10,  1.26s/it] 15%|█▍        | 7141/48845 [2:32:01<14:37:49,  1.26s/it] 15%|█▍        | 7142/48845 [2:32:02<14:36:54,  1.26s/it] 15%|█▍        | 7143/48845 [2:32:04<14:36:03,  1.26s/it] 15%|█▍        | 7144/48845 [2:32:05<14:34:36,  1.26s/it] 15%|█▍        | 7145/48845 [2:32:06<14:35:09,  1.26s/it]                                                         {'loss': 1.5661, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7145/48845 [2:32:06<14:35:09,  1.26s/it] 15%|█▍        | 7146/48845 [2:32:07<14:37:07,  1.26s/it] 15%|█▍        | 7147/48845 [2:32:09<14:36:17,  1.26s/it] 15%|█▍        | 7148/48845 [2:32:10<14:35:52,  1.26s/it] 15%|█▍        | 7149/48845 [2:32:11<14:36:00,  1.26s/it] 15%|█▍        | 7150/48845 [2:32:12<14:36:17,  1.26s/it]                                                         {'loss': 1.4957, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7150/48845 [2:32:12<14:36:17,  1.26s/it] 15%|█▍        | 7151/48845 [2:32:14<14:36:48,  1.26s/it] 15%|█▍        | 7152/48845 [2:32:15<14:35:55,  1.26s/it] 15%|█▍        | 7153/48845 [2:32:16<14:35:52,  1.26s/it] 15%|█▍        | 7154/48845 [2:32:17<14:35:41,  1.26s/it] 15%|█▍        | 7155/48845 [2:32:19<14:35:35,  1.26s/it]                                                         {'loss': 1.7016, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7155/48845 [2:32:19<14:35:35,  1.26s/it] 15%|█▍        | 7156/48845 [2:32:20<14:35:43,  1.26s/it] 15%|█▍        | 7157/48845 [2:32:21<14:35:22,  1.26s/it] 15%|█▍        | 7158/48845 [2:32:22<14:35:00,  1.26s/it] 15%|█▍        | 7159/48845 [2:32:24<14:35:26,  1.26s/it] 15%|█▍        | 7160/48845 [2:32:25<14:35:58,  1.26s/it]                                                         {'loss': 1.4251, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7160/48845 [2:32:25<14:35:58,  1.26s/it] 15%|█▍        | 7161/48845 [2:32:26<14:36:33,  1.26s/it] 15%|█▍        | 7162/48845 [2:32:28<14:35:20,  1.26s/it] 15%|█▍        | 7163/48845 [2:32:29<14:34:48,  1.26s/it] 15%|█▍        | 7164/48845 [2:32:30<14:35:46,  1.26s/it] 15%|█▍        | 7165/48845 [2:32:31<14:36:15,  1.26s/it]                                                         {'loss': 1.4161, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7165/48845 [2:32:31<14:36:15,  1.26s/it] 15%|█▍        | 7166/48845 [2:32:33<14:36:03,  1.26s/it] 15%|█▍        | 7167/48845 [2:32:34<14:35:30,  1.26s/it] 15%|█▍        | 7168/48845 [2:32:35<14:35:54,  1.26s/it] 15%|█▍        | 7169/48845 [2:32:36<14:36:43,  1.26s/it] 15%|█▍        | 7170/48845 [2:32:38<14:36:15,  1.26s/it]                                                         {'loss': 1.5601, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7170/48845 [2:32:38<14:36:15,  1.26s/it] 15%|█▍        | 7171/48845 [2:32:39<14:35:43,  1.26s/it] 15%|█▍        | 7172/48845 [2:32:40<14:36:19,  1.26s/it] 15%|█▍        | 7173/48845 [2:32:41<14:36:27,  1.26s/it] 15%|█▍        | 7174/48845 [2:32:43<14:36:34,  1.26s/it] 15%|█▍        | 7175/48845 [2:32:44<14:36:02,  1.26s/it]                                                         {'loss': 1.4699, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7175/48845 [2:32:44<14:36:02,  1.26s/it] 15%|█▍        | 7176/48845 [2:32:45<14:35:45,  1.26s/it] 15%|█▍        | 7177/48845 [2:32:46<14:36:10,  1.26s/it] 15%|█▍        | 7178/48845 [2:32:48<14:35:59,  1.26s/it] 15%|█▍        | 7179/48845 [2:32:49<14:36:26,  1.26s/it] 15%|█▍        | 7180/48845 [2:32:50<14:37:11,  1.26s/it]                                                         {'loss': 1.5847, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.73}
+ 15%|█▍        | 7180/48845 [2:32:50<14:37:11,  1.26s/it] 15%|█▍        | 7181/48845 [2:32:52<14:49:47,  1.28s/it] 15%|█▍        | 7182/48845 [2:32:53<14:45:23,  1.28s/it] 15%|█▍        | 7183/48845 [2:32:54<14:40:43,  1.27s/it] 15%|█▍        | 7184/48845 [2:32:55<14:38:53,  1.27s/it] 15%|█▍        | 7185/48845 [2:32:57<14:38:19,  1.27s/it]                                                         {'loss': 1.5318, 'learning_rate': 4.062891760247626e-05, 'epoch': 0.74}
+ 15%|█▍        | 7185/48845 [2:32:57<14:38:19,  1.27s/it] 15%|█▍        | 7186/48845 [2:32:58<14:37:42,  1.26s/it] 15%|█▍        | 7187/48845 [2:32:59<14:37:23,  1.26s/it] 15%|█▍        | 7188/48845 [2:33:00<14:36:21,  1.26s/it] 15%|█▍        | 7189/48845 [2:33:02<14:37:35,  1.26s/it] 15%|█▍        | 7190/48845 [2:33:03<15:20:50,  1.33s/it]                                                         {'loss': 1.6524, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7190/48845 [2:33:03<15:20:50,  1.33s/it] 15%|█▍        | 7191/48845 [2:33:04<15:06:33,  1.31s/it] 15%|█▍        | 7192/48845 [2:33:06<14:57:03,  1.29s/it] 15%|█▍        | 7193/48845 [2:33:07<14:50:56,  1.28s/it] 15%|█▍        | 7194/48845 [2:33:08<14:46:51,  1.28s/it] 15%|█▍        | 7195/48845 [2:33:09<14:44:16,  1.27s/it]                                                         {'loss': 1.6333, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7195/48845 [2:33:09<14:44:16,  1.27s/it] 15%|█▍        | 7196/48845 [2:33:11<14:41:02,  1.27s/it] 15%|█▍        | 7197/48845 [2:33:12<14:39:34,  1.27s/it] 15%|█▍        | 7198/48845 [2:33:13<14:37:43,  1.26s/it] 15%|█▍        | 7199/48845 [2:33:14<14:36:21,  1.26s/it] 15%|█▍        | 7200/48845 [2:33:16<14:36:12,  1.26s/it]                                                         {'loss': 1.507, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7200/48845 [2:33:16<14:36:12,  1.26s/it] 15%|█▍        | 7201/48845 [2:33:19<22:52:46,  1.98s/it] 15%|█▍        | 7202/48845 [2:33:21<20:36:53,  1.78s/it] 15%|█▍        | 7203/48845 [2:33:22<18:47:54,  1.63s/it] 15%|█▍        | 7204/48845 [2:33:23<17:33:51,  1.52s/it] 15%|█▍        | 7205/48845 [2:33:24<16:39:40,  1.44s/it]                                                         {'loss': 1.7354, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7205/48845 [2:33:24<16:39:40,  1.44s/it] 15%|█▍        | 7206/48845 [2:33:26<16:03:30,  1.39s/it] 15%|█▍        | 7207/48845 [2:33:27<15:37:23,  1.35s/it] 15%|█▍        | 7208/48845 [2:33:28<15:18:14,  1.32s/it] 15%|█▍        | 7209/48845 [2:33:30<15:05:11,  1.30s/it] 15%|█▍        | 7210/48845 [2:33:31<14:56:29,  1.29s/it]                                                         {'loss': 1.5608, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7210/48845 [2:33:31<14:56:29,  1.29s/it] 15%|█▍        | 7211/48845 [2:33:32<14:49:25,  1.28s/it] 15%|█▍        | 7212/48845 [2:33:33<14:47:26,  1.28s/it] 15%|█▍        | 7213/48845 [2:33:35<14:43:02,  1.27s/it] 15%|█▍        | 7214/48845 [2:33:36<14:39:57,  1.27s/it] 15%|█▍        | 7215/48845 [2:33:37<14:37:52,  1.27s/it]                                                         {'loss': 1.6421, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7215/48845 [2:33:37<14:37:52,  1.27s/it] 15%|█▍        | 7216/48845 [2:33:38<14:36:56,  1.26s/it] 15%|█▍        | 7217/48845 [2:33:40<14:36:13,  1.26s/it] 15%|█▍        | 7218/48845 [2:33:41<14:33:55,  1.26s/it] 15%|█▍        | 7219/48845 [2:33:42<14:33:52,  1.26s/it] 15%|█▍        | 7220/48845 [2:33:43<14:33:37,  1.26s/it]                                                         {'loss': 1.5599, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7220/48845 [2:33:43<14:33:37,  1.26s/it] 15%|█▍        | 7221/48845 [2:33:45<14:33:05,  1.26s/it] 15%|█▍        | 7222/48845 [2:33:46<14:33:32,  1.26s/it] 15%|█▍        | 7223/48845 [2:33:47<14:33:06,  1.26s/it] 15%|█▍        | 7224/48845 [2:33:48<14:33:01,  1.26s/it] 15%|█▍        | 7225/48845 [2:33:50<14:33:05,  1.26s/it]                                                         {'loss': 1.5361, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7225/48845 [2:33:50<14:33:05,  1.26s/it] 15%|█▍        | 7226/48845 [2:33:51<14:33:39,  1.26s/it] 15%|█▍        | 7227/48845 [2:33:52<14:34:14,  1.26s/it] 15%|█▍        | 7228/48845 [2:33:53<14:33:40,  1.26s/it] 15%|█▍        | 7229/48845 [2:33:55<14:33:31,  1.26s/it] 15%|█▍        | 7230/48845 [2:33:56<14:33:11,  1.26s/it]                                                         {'loss': 1.6194, 'learning_rate': 4.068032710406971e-05, 'epoch': 0.74}
+ 15%|█▍        | 7230/48845 [2:33:56<14:33:11,  1.26s/it] 15%|█▍        | 7231/48845 [2:33:57<14:32:52,  1.26s/it] 15%|█▍        | 7232/48845 [2:33:59<14:33:30,  1.26s/it] 15%|█▍        | 7233/48845 [2:34:00<15:16:36,  1.32s/it] 15%|█▍        | 7234/48845 [2:34:01<15:03:48,  1.30s/it] 15%|█▍        | 7235/48845 [2:34:02<14:54:13,  1.29s/it]                                                         {'loss': 1.8417, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7235/48845 [2:34:02<14:54:13,  1.29s/it] 15%|█▍        | 7236/48845 [2:34:04<14:47:53,  1.28s/it] 15%|█▍        | 7237/48845 [2:34:05<14:43:36,  1.27s/it] 15%|█▍        | 7238/48845 [2:34:06<14:39:52,  1.27s/it] 15%|█▍        | 7239/48845 [2:34:08<14:37:51,  1.27s/it] 15%|█▍        | 7240/48845 [2:34:09<14:35:55,  1.26s/it]                                                         {'loss': 1.757, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7240/48845 [2:34:09<14:35:55,  1.26s/it] 15%|█▍        | 7241/48845 [2:34:10<14:34:33,  1.26s/it] 15%|█▍        | 7242/48845 [2:34:11<14:33:30,  1.26s/it] 15%|█▍        | 7243/48845 [2:34:13<14:33:09,  1.26s/it] 15%|█▍        | 7244/48845 [2:34:14<14:33:04,  1.26s/it] 15%|█▍        | 7245/48845 [2:34:15<14:32:07,  1.26s/it]                                                         {'loss': 1.7449, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7245/48845 [2:34:15<14:32:07,  1.26s/it] 15%|█▍        | 7246/48845 [2:34:16<14:32:25,  1.26s/it] 15%|█▍        | 7247/48845 [2:34:18<14:32:17,  1.26s/it] 15%|█▍        | 7248/48845 [2:34:19<14:32:12,  1.26s/it] 15%|█▍        | 7249/48845 [2:34:20<14:33:39,  1.26s/it] 15%|█▍        | 7250/48845 [2:34:21<14:32:32,  1.26s/it]                                                         {'loss': 1.9378, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7250/48845 [2:34:21<14:32:32,  1.26s/it] 15%|█▍        | 7251/48845 [2:34:23<14:32:39,  1.26s/it] 15%|█▍        | 7252/48845 [2:34:24<14:34:40,  1.26s/it] 15%|█▍        | 7253/48845 [2:34:25<14:33:55,  1.26s/it] 15%|█▍        | 7254/48845 [2:34:26<14:33:56,  1.26s/it] 15%|█▍        | 7255/48845 [2:34:28<14:33:33,  1.26s/it]                                                         {'loss': 1.7343, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7255/48845 [2:34:28<14:33:33,  1.26s/it] 15%|█▍        | 7256/48845 [2:34:29<14:34:27,  1.26s/it] 15%|█▍        | 7257/48845 [2:34:30<14:34:02,  1.26s/it] 15%|█▍        | 7258/48845 [2:34:31<14:34:07,  1.26s/it] 15%|█▍        | 7259/48845 [2:34:33<14:33:50,  1.26s/it] 15%|█▍        | 7260/48845 [2:34:34<14:32:51,  1.26s/it]                                                         {'loss': 1.6201, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7260/48845 [2:34:34<14:32:51,  1.26s/it] 15%|█▍        | 7261/48845 [2:34:35<14:32:29,  1.26s/it] 15%|█▍        | 7262/48845 [2:34:36<14:32:29,  1.26s/it] 15%|█▍        | 7263/48845 [2:34:38<14:34:38,  1.26s/it] 15%|█▍        | 7264/48845 [2:34:39<14:33:21,  1.26s/it] 15%|█▍        | 7265/48845 [2:34:40<14:32:54,  1.26s/it]                                                         {'loss': 1.7091, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7265/48845 [2:34:40<14:32:54,  1.26s/it] 15%|█▍        | 7266/48845 [2:34:42<14:33:12,  1.26s/it] 15%|█▍        | 7267/48845 [2:34:43<14:34:14,  1.26s/it] 15%|█▍        | 7268/48845 [2:34:44<14:33:50,  1.26s/it] 15%|█▍        | 7269/48845 [2:34:45<14:34:03,  1.26s/it] 15%|█▍        | 7270/48845 [2:34:47<14:32:56,  1.26s/it]                                                         {'loss': 1.5825, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7270/48845 [2:34:47<14:32:56,  1.26s/it] 15%|█▍        | 7271/48845 [2:34:48<14:32:54,  1.26s/it] 15%|█▍        | 7272/48845 [2:34:49<14:32:49,  1.26s/it] 15%|█▍        | 7273/48845 [2:34:50<14:32:55,  1.26s/it] 15%|█▍        | 7274/48845 [2:34:52<14:54:16,  1.29s/it] 15%|█▍        | 7275/48845 [2:34:53<14:46:39,  1.28s/it]                                                         {'loss': 1.7508, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.74}
+ 15%|█▍        | 7275/48845 [2:34:53<14:46:39,  1.28s/it] 15%|█▍        | 7276/48845 [2:34:54<14:42:29,  1.27s/it] 15%|█▍        | 7277/48845 [2:34:55<14:40:38,  1.27s/it] 15%|█▍        | 7278/48845 [2:34:57<14:37:20,  1.27s/it] 15%|█▍        | 7279/48845 [2:34:58<14:35:34,  1.26s/it] 15%|█▍        | 7280/48845 [2:34:59<14:34:21,  1.26s/it]                                                         {'loss': 1.821, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7280/48845 [2:34:59<14:34:21,  1.26s/it] 15%|█▍        | 7281/48845 [2:35:01<14:33:20,  1.26s/it] 15%|█▍        | 7282/48845 [2:35:02<14:32:55,  1.26s/it] 15%|█▍        | 7283/48845 [2:35:03<14:32:04,  1.26s/it] 15%|█▍        | 7284/48845 [2:35:04<14:31:58,  1.26s/it] 15%|█▍        | 7285/48845 [2:35:06<14:32:32,  1.26s/it]                                                         {'loss': 1.7627, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7285/48845 [2:35:06<14:32:32,  1.26s/it] 15%|█▍        | 7286/48845 [2:35:07<14:32:31,  1.26s/it] 15%|█▍        | 7287/48845 [2:35:08<14:32:02,  1.26s/it] 15%|█▍        | 7288/48845 [2:35:09<14:32:44,  1.26s/it] 15%|█▍        | 7289/48845 [2:35:11<14:31:59,  1.26s/it] 15%|█▍        | 7290/48845 [2:35:12<14:31:38,  1.26s/it]                                                         {'loss': 1.7339, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7290/48845 [2:35:12<14:31:38,  1.26s/it] 15%|█▍        | 7291/48845 [2:35:13<14:31:56,  1.26s/it] 15%|█▍        | 7292/48845 [2:35:14<14:30:47,  1.26s/it] 15%|█▍        | 7293/48845 [2:35:16<14:30:57,  1.26s/it] 15%|█▍        | 7294/48845 [2:35:17<14:31:40,  1.26s/it] 15%|█▍        | 7295/48845 [2:35:18<14:32:19,  1.26s/it]                                                         {'loss': 1.675, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7295/48845 [2:35:18<14:32:19,  1.26s/it] 15%|█▍        | 7296/48845 [2:35:19<14:33:13,  1.26s/it] 15%|█▍        | 7297/48845 [2:35:21<14:32:19,  1.26s/it] 15%|█▍        | 7298/48845 [2:35:22<14:32:24,  1.26s/it] 15%|█▍        | 7299/48845 [2:35:23<14:32:25,  1.26s/it] 15%|█▍        | 7300/48845 [2:35:24<14:32:44,  1.26s/it]                                                         {'loss': 1.8136, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7300/48845 [2:35:24<14:32:44,  1.26s/it] 15%|█▍        | 7301/48845 [2:35:26<14:32:12,  1.26s/it] 15%|█▍        | 7302/48845 [2:35:27<14:31:31,  1.26s/it] 15%|█▍        | 7303/48845 [2:35:28<14:31:40,  1.26s/it] 15%|█▍        | 7304/48845 [2:35:29<14:32:15,  1.26s/it] 15%|█▍        | 7305/48845 [2:35:31<14:31:19,  1.26s/it]                                                         {'loss': 1.7935, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7305/48845 [2:35:31<14:31:19,  1.26s/it] 15%|█▍        | 7306/48845 [2:35:32<14:31:32,  1.26s/it] 15%|█▍        | 7307/48845 [2:35:33<14:30:50,  1.26s/it] 15%|█▍        | 7308/48845 [2:35:35<14:30:55,  1.26s/it] 15%|█▍        | 7309/48845 [2:35:36<14:31:24,  1.26s/it] 15%|█▍        | 7310/48845 [2:35:37<14:31:05,  1.26s/it]                                                         {'loss': 1.8451, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7310/48845 [2:35:37<14:31:05,  1.26s/it] 15%|█▍        | 7311/48845 [2:35:38<14:31:39,  1.26s/it] 15%|█▍        | 7312/48845 [2:35:40<14:31:50,  1.26s/it] 15%|█▍        | 7313/48845 [2:35:41<14:31:23,  1.26s/it] 15%|█▍        | 7314/48845 [2:35:42<14:31:27,  1.26s/it] 15%|█▍        | 7315/48845 [2:35:43<14:31:31,  1.26s/it]                                                         {'loss': 1.7571, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7315/48845 [2:35:43<14:31:31,  1.26s/it] 15%|█▍        | 7316/48845 [2:35:45<14:31:30,  1.26s/it] 15%|█▍        | 7317/48845 [2:35:46<14:31:16,  1.26s/it] 15%|█▍        | 7318/48845 [2:35:47<14:31:35,  1.26s/it] 15%|█▍        | 7319/48845 [2:35:48<14:32:54,  1.26s/it] 15%|█▍        | 7320/48845 [2:35:50<14:32:06,  1.26s/it]                                                         {'loss': 1.7923, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7320/48845 [2:35:50<14:32:06,  1.26s/it] 15%|█▍        | 7321/48845 [2:35:51<14:32:02,  1.26s/it] 15%|█▍        | 7322/48845 [2:35:52<14:31:10,  1.26s/it] 15%|█▍        | 7323/48845 [2:35:53<14:31:49,  1.26s/it] 15%|█▍        | 7324/48845 [2:35:55<14:31:58,  1.26s/it] 15%|█▍        | 7325/48845 [2:35:56<14:31:45,  1.26s/it]                                                         {'loss': 1.658, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▍        | 7325/48845 [2:35:56<14:31:45,  1.26s/it] 15%|█▍        | 7326/48845 [2:35:57<14:32:46,  1.26s/it] 15%|█▌        | 7327/48845 [2:35:58<14:32:27,  1.26s/it] 15%|█▌        | 7328/48845 [2:36:00<14:31:52,  1.26s/it] 15%|█▌        | 7329/48845 [2:36:01<14:32:36,  1.26s/it] 15%|█▌        | 7330/48845 [2:36:02<14:32:03,  1.26s/it]                                                         {'loss': 1.6753, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7330/48845 [2:36:02<14:32:03,  1.26s/it] 15%|█▌        | 7331/48845 [2:36:03<14:31:42,  1.26s/it] 15%|█▌        | 7332/48845 [2:36:05<14:30:51,  1.26s/it] 15%|█▌        | 7333/48845 [2:36:06<14:30:47,  1.26s/it] 15%|█▌        | 7334/48845 [2:36:07<14:31:09,  1.26s/it] 15%|█▌        | 7335/48845 [2:36:09<14:31:06,  1.26s/it]                                                         {'loss': 1.6148, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7335/48845 [2:36:09<14:31:06,  1.26s/it] 15%|█▌        | 7336/48845 [2:36:10<14:31:55,  1.26s/it] 15%|█▌        | 7337/48845 [2:36:11<14:30:57,  1.26s/it] 15%|█▌        | 7338/48845 [2:36:12<14:31:00,  1.26s/it] 15%|█▌        | 7339/48845 [2:36:14<14:31:21,  1.26s/it] 15%|█▌        | 7340/48845 [2:36:15<14:31:20,  1.26s/it]                                                         {'loss': 1.6705, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7340/48845 [2:36:15<14:31:20,  1.26s/it] 15%|█▌        | 7341/48845 [2:36:16<14:32:08,  1.26s/it] 15%|█▌        | 7342/48845 [2:36:17<14:31:14,  1.26s/it] 15%|█▌        | 7343/48845 [2:36:19<14:30:31,  1.26s/it] 15%|█▌        | 7344/48845 [2:36:20<14:30:51,  1.26s/it] 15%|█▌        | 7345/48845 [2:36:21<14:30:37,  1.26s/it]                                                         {'loss': 1.7778, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7345/48845 [2:36:21<14:30:37,  1.26s/it] 15%|█▌        | 7346/48845 [2:36:22<14:31:23,  1.26s/it] 15%|█▌        | 7347/48845 [2:36:24<14:31:15,  1.26s/it] 15%|█▌        | 7348/48845 [2:36:25<14:31:24,  1.26s/it] 15%|█▌        | 7349/48845 [2:36:26<14:31:41,  1.26s/it] 15%|█▌        | 7350/48845 [2:36:27<14:30:46,  1.26s/it]                                                         {'loss': 1.8218, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7350/48845 [2:36:27<14:30:46,  1.26s/it] 15%|█▌        | 7351/48845 [2:36:29<14:31:35,  1.26s/it] 15%|█▌        | 7352/48845 [2:36:30<14:30:59,  1.26s/it] 15%|█▌        | 7353/48845 [2:36:31<14:30:48,  1.26s/it] 15%|█▌        | 7354/48845 [2:36:33<14:48:59,  1.29s/it] 15%|█▌        | 7355/48845 [2:36:34<14:43:12,  1.28s/it]                                                         {'loss': 1.7059, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7355/48845 [2:36:34<14:43:12,  1.28s/it] 15%|█▌        | 7356/48845 [2:36:35<14:39:05,  1.27s/it] 15%|█▌        | 7357/48845 [2:36:36<14:35:46,  1.27s/it] 15%|█▌        | 7358/48845 [2:36:38<14:34:19,  1.26s/it] 15%|█▌        | 7359/48845 [2:36:39<14:32:37,  1.26s/it] 15%|█▌        | 7360/48845 [2:36:40<14:31:23,  1.26s/it]                                                         {'loss': 1.8238, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7360/48845 [2:36:40<14:31:23,  1.26s/it] 15%|█▌        | 7361/48845 [2:36:41<14:31:58,  1.26s/it] 15%|█▌        | 7362/48845 [2:36:43<14:30:59,  1.26s/it] 15%|█▌        | 7363/48845 [2:36:44<14:30:23,  1.26s/it] 15%|█▌        | 7364/48845 [2:36:45<14:29:44,  1.26s/it] 15%|█▌        | 7365/48845 [2:36:46<14:29:49,  1.26s/it]                                                         {'loss': 1.7324, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7365/48845 [2:36:46<14:29:49,  1.26s/it] 15%|█▌        | 7366/48845 [2:36:48<14:29:21,  1.26s/it] 15%|█▌        | 7367/48845 [2:36:49<14:29:31,  1.26s/it] 15%|█▌        | 7368/48845 [2:36:50<14:31:40,  1.26s/it] 15%|█▌        | 7369/48845 [2:36:51<14:30:21,  1.26s/it] 15%|█▌        | 7370/48845 [2:36:53<14:30:01,  1.26s/it]                                                         {'loss': 1.6781, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7370/48845 [2:36:53<14:30:01,  1.26s/it] 15%|█▌        | 7371/48845 [2:36:54<14:30:01,  1.26s/it] 15%|█▌        | 7372/48845 [2:36:55<14:30:05,  1.26s/it] 15%|█▌        | 7373/48845 [2:36:56<14:29:56,  1.26s/it] 15%|█▌        | 7374/48845 [2:36:58<14:29:24,  1.26s/it] 15%|█▌        | 7375/48845 [2:36:59<14:29:55,  1.26s/it]                                                         {'loss': 1.6691, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.75}
+ 15%|█▌        | 7375/48845 [2:36:59<14:29:55,  1.26s/it] 15%|█▌        | 7376/48845 [2:37:00<14:30:39,  1.26s/it] 15%|█▌        | 7377/48845 [2:37:01<14:30:15,  1.26s/it] 15%|█▌        | 7378/48845 [2:37:03<14:30:26,  1.26s/it] 15%|█▌        | 7379/48845 [2:37:04<14:30:13,  1.26s/it] 15%|█▌        | 7380/48845 [2:37:05<14:29:50,  1.26s/it]                                                         {'loss': 1.6484, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7380/48845 [2:37:05<14:29:50,  1.26s/it] 15%|█▌        | 7381/48845 [2:37:07<14:30:35,  1.26s/it] 15%|█▌        | 7382/48845 [2:37:08<14:30:16,  1.26s/it] 15%|█▌        | 7383/48845 [2:37:09<14:30:27,  1.26s/it] 15%|█▌        | 7384/48845 [2:37:10<14:30:41,  1.26s/it] 15%|█▌        | 7385/48845 [2:37:12<14:30:39,  1.26s/it]                                                         {'loss': 1.7097, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7385/48845 [2:37:12<14:30:39,  1.26s/it] 15%|█▌        | 7386/48845 [2:37:13<14:30:17,  1.26s/it] 15%|█▌        | 7387/48845 [2:37:14<14:30:21,  1.26s/it] 15%|█▌        | 7388/48845 [2:37:15<14:30:45,  1.26s/it] 15%|█▌        | 7389/48845 [2:37:17<14:30:59,  1.26s/it] 15%|█▌        | 7390/48845 [2:37:18<14:30:12,  1.26s/it]                                                         {'loss': 1.577, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7390/48845 [2:37:18<14:30:12,  1.26s/it] 15%|█▌        | 7391/48845 [2:37:19<14:29:39,  1.26s/it] 15%|█▌        | 7392/48845 [2:37:20<14:29:33,  1.26s/it] 15%|█▌        | 7393/48845 [2:37:22<14:31:10,  1.26s/it] 15%|█▌        | 7394/48845 [2:37:23<14:31:52,  1.26s/it] 15%|█▌        | 7395/48845 [2:37:24<14:31:48,  1.26s/it]                                                         {'loss': 1.7515, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7395/48845 [2:37:24<14:31:48,  1.26s/it] 15%|█▌        | 7396/48845 [2:37:25<14:29:33,  1.26s/it] 15%|█▌        | 7397/48845 [2:37:27<14:29:06,  1.26s/it] 15%|█▌        | 7398/48845 [2:37:28<14:29:31,  1.26s/it] 15%|█▌        | 7399/48845 [2:37:29<14:29:00,  1.26s/it] 15%|█▌        | 7400/48845 [2:37:30<14:30:05,  1.26s/it]                                                         {'loss': 1.6464, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7400/48845 [2:37:30<14:30:05,  1.26s/it] 15%|█▌        | 7401/48845 [2:37:34<22:45:15,  1.98s/it] 15%|█▌        | 7402/48845 [2:37:35<20:22:16,  1.77s/it] 15%|█▌        | 7403/48845 [2:37:37<18:36:05,  1.62s/it] 15%|█▌        | 7404/48845 [2:37:38<17:21:37,  1.51s/it] 15%|█▌        | 7405/48845 [2:37:39<16:29:27,  1.43s/it]                                                         {'loss': 1.6577, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7405/48845 [2:37:39<16:29:27,  1.43s/it] 15%|█▌        | 7406/48845 [2:37:40<15:54:20,  1.38s/it] 15%|█▌        | 7407/48845 [2:37:42<15:28:07,  1.34s/it] 15%|█▌        | 7408/48845 [2:37:43<15:09:59,  1.32s/it] 15%|█▌        | 7409/48845 [2:37:44<14:56:46,  1.30s/it] 15%|█▌        | 7410/48845 [2:37:45<14:47:59,  1.29s/it]                                                         {'loss': 1.7996, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7410/48845 [2:37:45<14:47:59,  1.29s/it] 15%|█▌        | 7411/48845 [2:37:47<14:42:35,  1.28s/it] 15%|█▌        | 7412/48845 [2:37:48<14:38:22,  1.27s/it] 15%|█▌        | 7413/48845 [2:37:49<14:36:11,  1.27s/it] 15%|█▌        | 7414/48845 [2:37:50<14:33:37,  1.27s/it] 15%|█▌        | 7415/48845 [2:37:52<14:33:10,  1.26s/it]                                                         {'loss': 1.6261, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7415/48845 [2:37:52<14:33:10,  1.26s/it] 15%|█▌        | 7416/48845 [2:37:53<14:32:31,  1.26s/it] 15%|█▌        | 7417/48845 [2:37:54<14:31:54,  1.26s/it] 15%|█▌        | 7418/48845 [2:37:56<14:31:21,  1.26s/it] 15%|█▌        | 7419/48845 [2:37:57<14:30:37,  1.26s/it] 15%|█▌        | 7420/48845 [2:37:58<14:30:20,  1.26s/it]                                                         {'loss': 1.7174, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7420/48845 [2:37:58<14:30:20,  1.26s/it] 15%|█▌        | 7421/48845 [2:37:59<14:30:06,  1.26s/it] 15%|█▌        | 7422/48845 [2:38:01<14:29:42,  1.26s/it] 15%|█▌        | 7423/48845 [2:38:02<14:30:05,  1.26s/it] 15%|█▌        | 7424/48845 [2:38:03<14:28:50,  1.26s/it] 15%|█▌        | 7425/48845 [2:38:04<14:28:30,  1.26s/it]                                                         {'loss': 1.6145, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7425/48845 [2:38:04<14:28:30,  1.26s/it] 15%|█▌        | 7426/48845 [2:38:06<14:28:39,  1.26s/it] 15%|█▌        | 7427/48845 [2:38:07<14:29:25,  1.26s/it] 15%|█▌        | 7428/48845 [2:38:08<14:30:34,  1.26s/it] 15%|█▌        | 7429/48845 [2:38:09<14:30:13,  1.26s/it] 15%|█▌        | 7430/48845 [2:38:11<14:29:29,  1.26s/it]                                                         {'loss': 1.764, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7430/48845 [2:38:11<14:29:29,  1.26s/it] 15%|█▌        | 7431/48845 [2:38:12<14:31:01,  1.26s/it] 15%|█▌        | 7432/48845 [2:38:13<14:30:13,  1.26s/it] 15%|█▌        | 7433/48845 [2:38:14<14:30:00,  1.26s/it] 15%|█▌        | 7434/48845 [2:38:16<14:48:14,  1.29s/it] 15%|█▌        | 7435/48845 [2:38:17<14:42:45,  1.28s/it]                                                         {'loss': 1.7911, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7435/48845 [2:38:17<14:42:45,  1.28s/it] 15%|█▌        | 7436/48845 [2:38:18<14:38:44,  1.27s/it] 15%|█▌        | 7437/48845 [2:38:20<14:35:11,  1.27s/it] 15%|█▌        | 7438/48845 [2:38:21<14:33:39,  1.27s/it] 15%|█▌        | 7439/48845 [2:38:22<14:32:00,  1.26s/it] 15%|█▌        | 7440/48845 [2:38:23<14:30:57,  1.26s/it]                                                         {'loss': 1.821, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7440/48845 [2:38:23<14:30:57,  1.26s/it] 15%|█▌        | 7441/48845 [2:38:25<14:31:12,  1.26s/it] 15%|█▌        | 7442/48845 [2:38:26<14:30:09,  1.26s/it] 15%|█▌        | 7443/48845 [2:38:27<14:30:37,  1.26s/it] 15%|█▌        | 7444/48845 [2:38:28<14:30:19,  1.26s/it] 15%|█▌        | 7445/48845 [2:38:30<14:30:35,  1.26s/it]                                                         {'loss': 1.8381, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7445/48845 [2:38:30<14:30:35,  1.26s/it] 15%|█▌        | 7446/48845 [2:38:31<14:29:56,  1.26s/it] 15%|█▌        | 7447/48845 [2:38:32<14:29:42,  1.26s/it] 15%|█▌        | 7448/48845 [2:38:33<14:30:46,  1.26s/it] 15%|█▌        | 7449/48845 [2:38:35<14:28:58,  1.26s/it] 15%|█▌        | 7450/48845 [2:38:36<14:28:59,  1.26s/it]                                                         {'loss': 1.7673, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7450/48845 [2:38:36<14:28:59,  1.26s/it] 15%|█▌        | 7451/48845 [2:38:37<14:29:58,  1.26s/it] 15%|█▌        | 7452/48845 [2:38:38<14:28:58,  1.26s/it] 15%|█▌        | 7453/48845 [2:38:40<14:28:58,  1.26s/it] 15%|█▌        | 7454/48845 [2:38:41<14:28:23,  1.26s/it] 15%|█▌        | 7455/48845 [2:38:42<14:29:01,  1.26s/it]                                                         {'loss': 1.8868, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7455/48845 [2:38:42<14:29:01,  1.26s/it] 15%|█▌        | 7456/48845 [2:38:43<14:28:40,  1.26s/it] 15%|█▌        | 7457/48845 [2:38:45<14:28:54,  1.26s/it] 15%|█▌        | 7458/48845 [2:38:46<14:29:34,  1.26s/it] 15%|█▌        | 7459/48845 [2:38:47<14:29:45,  1.26s/it] 15%|█▌        | 7460/48845 [2:38:49<14:29:50,  1.26s/it]                                                         {'loss': 1.8476, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7460/48845 [2:38:49<14:29:50,  1.26s/it] 15%|█▌        | 7461/48845 [2:38:50<14:30:09,  1.26s/it] 15%|█▌        | 7462/48845 [2:38:51<14:27:48,  1.26s/it] 15%|█▌        | 7463/48845 [2:38:52<14:29:01,  1.26s/it] 15%|█▌        | 7464/48845 [2:38:54<14:27:49,  1.26s/it] 15%|█▌        | 7465/48845 [2:38:55<14:27:55,  1.26s/it]                                                         {'loss': 1.6655, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7465/48845 [2:38:55<14:27:55,  1.26s/it] 15%|█▌        | 7466/48845 [2:38:56<14:27:36,  1.26s/it] 15%|█▌        | 7467/48845 [2:38:57<14:32:02,  1.26s/it] 15%|█▌        | 7468/48845 [2:38:59<14:31:35,  1.26s/it] 15%|█▌        | 7469/48845 [2:39:00<14:30:16,  1.26s/it] 15%|█▌        | 7470/48845 [2:39:01<14:29:13,  1.26s/it]                                                         {'loss': 1.7254, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.76}
+ 15%|█▌        | 7470/48845 [2:39:01<14:29:13,  1.26s/it] 15%|█▌        | 7471/48845 [2:39:02<14:30:17,  1.26s/it] 15%|█▌        | 7472/48845 [2:39:04<14:29:14,  1.26s/it] 15%|█▌        | 7473/48845 [2:39:05<14:31:05,  1.26s/it] 15%|█▌        | 7474/48845 [2:39:06<14:29:42,  1.26s/it] 15%|█▌        | 7475/48845 [2:39:08<15:01:42,  1.31s/it]                                                         {'loss': 1.7101, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7475/48845 [2:39:08<15:01:42,  1.31s/it] 15%|█▌        | 7476/48845 [2:39:09<14:51:06,  1.29s/it] 15%|█▌        | 7477/48845 [2:39:10<14:44:17,  1.28s/it] 15%|█▌        | 7478/48845 [2:39:11<14:39:28,  1.28s/it] 15%|█▌        | 7479/48845 [2:39:13<14:53:59,  1.30s/it] 15%|█▌        | 7480/48845 [2:39:14<14:45:33,  1.28s/it]                                                         {'loss': 1.7225, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7480/48845 [2:39:14<14:45:33,  1.28s/it] 15%|█▌        | 7481/48845 [2:39:15<14:39:57,  1.28s/it] 15%|█▌        | 7482/48845 [2:39:17<14:36:48,  1.27s/it] 15%|█▌        | 7483/48845 [2:39:18<14:34:22,  1.27s/it] 15%|█▌        | 7484/48845 [2:39:19<14:32:46,  1.27s/it] 15%|█▌        | 7485/48845 [2:39:20<14:31:19,  1.26s/it]                                                         {'loss': 1.912, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7485/48845 [2:39:20<14:31:19,  1.26s/it] 15%|█▌        | 7486/48845 [2:39:22<14:29:46,  1.26s/it] 15%|█▌        | 7487/48845 [2:39:23<15:03:56,  1.31s/it] 15%|█▌        | 7488/48845 [2:39:24<14:53:46,  1.30s/it] 15%|█▌        | 7489/48845 [2:39:25<14:46:10,  1.29s/it] 15%|█▌        | 7490/48845 [2:39:27<14:57:17,  1.30s/it]                                                         {'loss': 1.7436, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7490/48845 [2:39:27<14:57:17,  1.30s/it] 15%|█▌        | 7491/48845 [2:39:28<14:48:54,  1.29s/it] 15%|█▌        | 7492/48845 [2:39:29<14:41:37,  1.28s/it] 15%|█▌        | 7493/48845 [2:39:31<14:37:48,  1.27s/it] 15%|█▌        | 7494/48845 [2:39:32<14:34:56,  1.27s/it] 15%|█▌        | 7495/48845 [2:39:33<14:33:05,  1.27s/it]                                                         {'loss': 1.6913, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7495/48845 [2:39:33<14:33:05,  1.27s/it] 15%|█▌        | 7496/48845 [2:39:34<14:31:32,  1.26s/it] 15%|█▌        | 7497/48845 [2:39:36<14:30:06,  1.26s/it] 15%|█▌        | 7498/48845 [2:39:37<14:29:40,  1.26s/it] 15%|█▌        | 7499/48845 [2:39:38<14:29:49,  1.26s/it] 15%|█▌        | 7500/48845 [2:39:39<14:28:55,  1.26s/it]                                                         {'loss': 1.6766, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7500/48845 [2:39:39<14:28:55,  1.26s/it] 15%|█▌        | 7501/48845 [2:39:41<14:28:26,  1.26s/it] 15%|█▌        | 7502/48845 [2:39:42<14:27:37,  1.26s/it] 15%|█▌        | 7503/48845 [2:39:43<14:27:33,  1.26s/it] 15%|█▌        | 7504/48845 [2:39:44<14:26:33,  1.26s/it] 15%|█▌        | 7505/48845 [2:39:46<14:25:45,  1.26s/it]                                                         {'loss': 1.7354, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7505/48845 [2:39:46<14:25:45,  1.26s/it] 15%|█▌        | 7506/48845 [2:39:47<14:27:15,  1.26s/it] 15%|█▌        | 7507/48845 [2:39:48<14:26:59,  1.26s/it] 15%|█▌        | 7508/48845 [2:39:49<14:27:25,  1.26s/it] 15%|█▌        | 7509/48845 [2:39:51<14:26:52,  1.26s/it] 15%|█▌        | 7510/48845 [2:39:52<14:27:27,  1.26s/it]                                                         {'loss': 1.7682, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7510/48845 [2:39:52<14:27:27,  1.26s/it] 15%|█▌        | 7511/48845 [2:39:53<14:27:50,  1.26s/it] 15%|█▌        | 7512/48845 [2:39:55<14:26:55,  1.26s/it] 15%|█▌        | 7513/48845 [2:39:56<14:27:46,  1.26s/it] 15%|█▌        | 7514/48845 [2:39:57<14:27:00,  1.26s/it] 15%|█▌        | 7515/48845 [2:39:58<14:28:16,  1.26s/it]                                                         {'loss': 1.6153, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7515/48845 [2:39:58<14:28:16,  1.26s/it] 15%|█▌        | 7516/48845 [2:40:00<14:27:49,  1.26s/it] 15%|█▌        | 7517/48845 [2:40:01<14:27:18,  1.26s/it] 15%|█▌        | 7518/48845 [2:40:02<14:28:38,  1.26s/it] 15%|█▌        | 7519/48845 [2:40:03<14:27:40,  1.26s/it] 15%|█▌        | 7520/48845 [2:40:05<14:27:20,  1.26s/it]                                                         {'loss': 1.6732, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7520/48845 [2:40:05<14:27:20,  1.26s/it] 15%|█▌        | 7521/48845 [2:40:06<14:26:54,  1.26s/it] 15%|█▌        | 7522/48845 [2:40:07<14:27:04,  1.26s/it] 15%|█▌        | 7523/48845 [2:40:08<14:28:15,  1.26s/it] 15%|█▌        | 7524/48845 [2:40:10<14:27:23,  1.26s/it] 15%|█▌        | 7525/48845 [2:40:11<14:26:47,  1.26s/it]                                                         {'loss': 1.7658, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7525/48845 [2:40:11<14:26:47,  1.26s/it] 15%|█▌        | 7526/48845 [2:40:12<14:27:15,  1.26s/it] 15%|█▌        | 7527/48845 [2:40:13<14:27:21,  1.26s/it] 15%|█▌        | 7528/48845 [2:40:15<14:30:15,  1.26s/it] 15%|█▌        | 7529/48845 [2:40:16<14:28:55,  1.26s/it] 15%|█▌        | 7530/48845 [2:40:17<14:29:11,  1.26s/it]                                                         {'loss': 1.7379, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7530/48845 [2:40:17<14:29:11,  1.26s/it] 15%|█▌        | 7531/48845 [2:40:18<14:29:14,  1.26s/it] 15%|█▌        | 7532/48845 [2:40:20<14:28:34,  1.26s/it] 15%|█▌        | 7533/48845 [2:40:21<14:28:16,  1.26s/it] 15%|█▌        | 7534/48845 [2:40:22<14:28:22,  1.26s/it] 15%|█▌        | 7535/48845 [2:40:24<14:28:16,  1.26s/it]                                                         {'loss': 1.7275, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7535/48845 [2:40:24<14:28:16,  1.26s/it] 15%|█▌        | 7536/48845 [2:40:25<14:28:51,  1.26s/it] 15%|█▌        | 7537/48845 [2:40:26<14:27:47,  1.26s/it] 15%|█▌        | 7538/48845 [2:40:27<14:27:41,  1.26s/it] 15%|█▌        | 7539/48845 [2:40:29<14:27:31,  1.26s/it] 15%|█▌        | 7540/48845 [2:40:30<14:26:35,  1.26s/it]                                                         {'loss': 1.6681, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7540/48845 [2:40:30<14:26:35,  1.26s/it] 15%|█▌        | 7541/48845 [2:40:31<14:27:15,  1.26s/it] 15%|█▌        | 7542/48845 [2:40:32<14:27:13,  1.26s/it] 15%|█▌        | 7543/48845 [2:40:34<14:27:05,  1.26s/it] 15%|█▌        | 7544/48845 [2:40:35<14:26:26,  1.26s/it] 15%|█▌        | 7545/48845 [2:40:36<14:26:34,  1.26s/it]                                                         {'loss': 1.737, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7545/48845 [2:40:36<14:26:34,  1.26s/it] 15%|█▌        | 7546/48845 [2:40:37<14:27:41,  1.26s/it] 15%|█▌        | 7547/48845 [2:40:39<14:27:03,  1.26s/it] 15%|█▌        | 7548/48845 [2:40:40<14:27:34,  1.26s/it] 15%|█▌        | 7549/48845 [2:40:41<14:26:51,  1.26s/it] 15%|█▌        | 7550/48845 [2:40:42<14:26:40,  1.26s/it]                                                         {'loss': 1.9355, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7550/48845 [2:40:42<14:26:40,  1.26s/it] 15%|█▌        | 7551/48845 [2:40:44<14:27:17,  1.26s/it] 15%|█▌        | 7552/48845 [2:40:45<14:27:10,  1.26s/it] 15%|█▌        | 7553/48845 [2:40:46<14:28:07,  1.26s/it] 15%|█▌        | 7554/48845 [2:40:47<14:27:11,  1.26s/it] 15%|█▌        | 7555/48845 [2:40:49<14:26:56,  1.26s/it]                                                         {'loss': 1.7937, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7555/48845 [2:40:49<14:26:56,  1.26s/it] 15%|█▌        | 7556/48845 [2:40:50<14:27:22,  1.26s/it] 15%|█▌        | 7557/48845 [2:40:51<14:26:26,  1.26s/it] 15%|█▌        | 7558/48845 [2:40:53<14:27:33,  1.26s/it] 15%|█▌        | 7559/48845 [2:40:54<14:27:55,  1.26s/it] 15%|█▌        | 7560/48845 [2:40:55<14:28:29,  1.26s/it]                                                         {'loss': 1.6828, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7560/48845 [2:40:55<14:28:29,  1.26s/it] 15%|█▌        | 7561/48845 [2:40:56<14:28:47,  1.26s/it] 15%|█▌        | 7562/48845 [2:40:58<14:27:37,  1.26s/it] 15%|█▌        | 7563/48845 [2:40:59<14:28:19,  1.26s/it] 15%|█▌        | 7564/48845 [2:41:00<14:27:46,  1.26s/it] 15%|█▌        | 7565/48845 [2:41:01<14:27:00,  1.26s/it]                                                         {'loss': 1.8011, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7565/48845 [2:41:01<14:27:00,  1.26s/it] 15%|█▌        | 7566/48845 [2:41:03<14:27:41,  1.26s/it] 15%|█▌        | 7567/48845 [2:41:04<14:27:27,  1.26s/it] 15%|█▌        | 7568/48845 [2:41:05<14:27:43,  1.26s/it] 15%|█▌        | 7569/48845 [2:41:06<14:27:50,  1.26s/it] 15%|█▌        | 7570/48845 [2:41:08<14:26:27,  1.26s/it]                                                         {'loss': 1.8371, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.77}
+ 15%|█▌        | 7570/48845 [2:41:08<14:26:27,  1.26s/it] 16%|█▌        | 7571/48845 [2:41:09<14:27:26,  1.26s/it] 16%|█▌        | 7572/48845 [2:41:10<14:26:22,  1.26s/it] 16%|█▌        | 7573/48845 [2:41:11<14:25:33,  1.26s/it] 16%|█▌        | 7574/48845 [2:41:13<14:25:43,  1.26s/it] 16%|█▌        | 7575/48845 [2:41:14<14:26:22,  1.26s/it]                                                         {'loss': 1.7395, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7575/48845 [2:41:14<14:26:22,  1.26s/it] 16%|█▌        | 7576/48845 [2:41:15<14:26:27,  1.26s/it] 16%|█▌        | 7577/48845 [2:41:16<14:25:38,  1.26s/it] 16%|█▌        | 7578/48845 [2:41:18<14:36:08,  1.27s/it] 16%|█▌        | 7579/48845 [2:41:19<14:32:43,  1.27s/it] 16%|█▌        | 7580/48845 [2:41:20<14:31:13,  1.27s/it]                                                         {'loss': 1.6965, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7580/48845 [2:41:20<14:31:13,  1.27s/it] 16%|█▌        | 7581/48845 [2:41:22<14:29:54,  1.26s/it] 16%|█▌        | 7582/48845 [2:41:23<14:28:42,  1.26s/it] 16%|█▌        | 7583/48845 [2:41:24<14:27:09,  1.26s/it] 16%|█▌        | 7584/48845 [2:41:25<14:27:32,  1.26s/it] 16%|█▌        | 7585/48845 [2:41:27<14:26:41,  1.26s/it]                                                         {'loss': 1.6849, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7585/48845 [2:41:27<14:26:41,  1.26s/it] 16%|█▌        | 7586/48845 [2:41:28<14:26:26,  1.26s/it] 16%|█▌        | 7587/48845 [2:41:29<14:26:39,  1.26s/it] 16%|█▌        | 7588/48845 [2:41:30<14:25:47,  1.26s/it] 16%|█▌        | 7589/48845 [2:41:32<14:25:13,  1.26s/it] 16%|█▌        | 7590/48845 [2:41:33<14:25:49,  1.26s/it]                                                         {'loss': 1.7314, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7590/48845 [2:41:33<14:25:49,  1.26s/it] 16%|█▌        | 7591/48845 [2:41:34<14:25:20,  1.26s/it] 16%|█▌        | 7592/48845 [2:41:35<14:26:00,  1.26s/it] 16%|█▌        | 7593/48845 [2:41:37<14:25:11,  1.26s/it] 16%|█▌        | 7594/48845 [2:41:38<14:25:20,  1.26s/it] 16%|█▌        | 7595/48845 [2:41:39<14:25:07,  1.26s/it]                                                         {'loss': 1.6615, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7595/48845 [2:41:39<14:25:07,  1.26s/it] 16%|█▌        | 7596/48845 [2:41:40<14:25:42,  1.26s/it] 16%|█▌        | 7597/48845 [2:41:42<14:25:48,  1.26s/it] 16%|█▌        | 7598/48845 [2:41:43<14:25:32,  1.26s/it] 16%|█▌        | 7599/48845 [2:41:44<14:25:11,  1.26s/it] 16%|█▌        | 7600/48845 [2:41:45<14:25:56,  1.26s/it]                                                         {'loss': 1.6612, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7600/48845 [2:41:45<14:25:56,  1.26s/it] 16%|█▌        | 7601/48845 [2:41:49<22:40:48,  1.98s/it] 16%|█▌        | 7602/48845 [2:41:50<20:11:48,  1.76s/it] 16%|█▌        | 7603/48845 [2:41:52<18:28:02,  1.61s/it] 16%|█▌        | 7604/48845 [2:41:53<17:15:23,  1.51s/it] 16%|█▌        | 7605/48845 [2:41:54<16:24:43,  1.43s/it]                                                         {'loss': 1.6573, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7605/48845 [2:41:54<16:24:43,  1.43s/it] 16%|█▌        | 7606/48845 [2:41:55<15:48:35,  1.38s/it] 16%|█▌        | 7607/48845 [2:41:57<15:23:31,  1.34s/it] 16%|█▌        | 7608/48845 [2:41:58<15:05:24,  1.32s/it] 16%|█▌        | 7609/48845 [2:41:59<14:54:17,  1.30s/it] 16%|█▌        | 7610/48845 [2:42:00<14:46:03,  1.29s/it]                                                         {'loss': 1.7808, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7610/48845 [2:42:00<14:46:03,  1.29s/it] 16%|█▌        | 7611/48845 [2:42:02<14:39:35,  1.28s/it] 16%|█▌        | 7612/48845 [2:42:03<14:34:58,  1.27s/it] 16%|█▌        | 7613/48845 [2:42:04<14:31:54,  1.27s/it] 16%|█▌        | 7614/48845 [2:42:05<14:29:25,  1.27s/it] 16%|█▌        | 7615/48845 [2:42:07<14:29:38,  1.27s/it]                                                         {'loss': 1.7428, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7615/48845 [2:42:07<14:29:38,  1.27s/it] 16%|█▌        | 7616/48845 [2:42:08<14:28:06,  1.26s/it] 16%|█▌        | 7617/48845 [2:42:09<14:28:10,  1.26s/it] 16%|█▌        | 7618/48845 [2:42:11<14:27:17,  1.26s/it] 16%|█▌        | 7619/48845 [2:42:12<14:26:38,  1.26s/it] 16%|█▌        | 7620/48845 [2:42:13<14:26:45,  1.26s/it]                                                         {'loss': 1.5558, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7620/48845 [2:42:13<14:26:45,  1.26s/it] 16%|█▌        | 7621/48845 [2:42:14<14:26:20,  1.26s/it] 16%|█▌        | 7622/48845 [2:42:16<14:25:55,  1.26s/it] 16%|█▌        | 7623/48845 [2:42:17<14:24:51,  1.26s/it] 16%|█▌        | 7624/48845 [2:42:18<14:25:12,  1.26s/it] 16%|█▌        | 7625/48845 [2:42:19<14:25:51,  1.26s/it]                                                         {'loss': 1.7183, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7625/48845 [2:42:19<14:25:51,  1.26s/it] 16%|█▌        | 7626/48845 [2:42:21<14:25:31,  1.26s/it] 16%|█▌        | 7627/48845 [2:42:22<14:25:21,  1.26s/it] 16%|█▌        | 7628/48845 [2:42:23<14:24:36,  1.26s/it] 16%|█▌        | 7629/48845 [2:42:24<14:24:09,  1.26s/it] 16%|█▌        | 7630/48845 [2:42:26<14:48:19,  1.29s/it]                                                         {'loss': 1.7685, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7630/48845 [2:42:26<14:48:19,  1.29s/it] 16%|█▌        | 7631/48845 [2:42:27<14:41:20,  1.28s/it] 16%|█▌        | 7632/48845 [2:42:28<14:36:46,  1.28s/it] 16%|█▌        | 7633/48845 [2:42:30<14:33:48,  1.27s/it] 16%|█▌        | 7634/48845 [2:42:31<14:31:14,  1.27s/it] 16%|█▌        | 7635/48845 [2:42:32<14:29:19,  1.27s/it]                                                         {'loss': 1.6469, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7635/48845 [2:42:32<14:29:19,  1.27s/it] 16%|█▌        | 7636/48845 [2:42:33<14:27:36,  1.26s/it] 16%|█▌        | 7637/48845 [2:42:35<14:26:43,  1.26s/it] 16%|█▌        | 7638/48845 [2:42:36<14:26:10,  1.26s/it] 16%|█▌        | 7639/48845 [2:42:37<14:24:33,  1.26s/it] 16%|█▌        | 7640/48845 [2:42:38<14:25:08,  1.26s/it]                                                         {'loss': 1.7309, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7640/48845 [2:42:38<14:25:08,  1.26s/it] 16%|█▌        | 7641/48845 [2:42:40<14:24:17,  1.26s/it] 16%|█▌        | 7642/48845 [2:42:41<14:24:00,  1.26s/it] 16%|█▌        | 7643/48845 [2:42:42<14:24:03,  1.26s/it] 16%|█▌        | 7644/48845 [2:42:43<14:23:44,  1.26s/it] 16%|█▌        | 7645/48845 [2:42:45<14:24:40,  1.26s/it]                                                         {'loss': 1.8156, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7645/48845 [2:42:45<14:24:40,  1.26s/it] 16%|█▌        | 7646/48845 [2:42:46<14:25:50,  1.26s/it] 16%|█▌        | 7647/48845 [2:42:47<14:25:31,  1.26s/it] 16%|█▌        | 7648/48845 [2:42:48<14:24:33,  1.26s/it] 16%|█▌        | 7649/48845 [2:42:50<14:24:38,  1.26s/it] 16%|█▌        | 7650/48845 [2:42:51<14:54:59,  1.30s/it]                                                         {'loss': 1.8239, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7650/48845 [2:42:51<14:54:59,  1.30s/it] 16%|█▌        | 7651/48845 [2:42:52<14:45:57,  1.29s/it] 16%|█▌        | 7652/48845 [2:42:54<14:38:47,  1.28s/it] 16%|█▌        | 7653/48845 [2:42:55<14:33:45,  1.27s/it] 16%|█▌        | 7654/48845 [2:42:56<14:30:04,  1.27s/it] 16%|█▌        | 7655/48845 [2:42:57<14:27:12,  1.26s/it]                                                         {'loss': 1.7007, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7655/48845 [2:42:57<14:27:12,  1.26s/it] 16%|█▌        | 7656/48845 [2:42:59<14:27:01,  1.26s/it] 16%|█▌        | 7657/48845 [2:43:00<14:26:21,  1.26s/it] 16%|█▌        | 7658/48845 [2:43:01<14:25:29,  1.26s/it] 16%|█▌        | 7659/48845 [2:43:02<14:24:34,  1.26s/it] 16%|█▌        | 7660/48845 [2:43:04<14:25:20,  1.26s/it]                                                         {'loss': 1.6649, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7660/48845 [2:43:04<14:25:20,  1.26s/it] 16%|█▌        | 7661/48845 [2:43:05<14:24:55,  1.26s/it] 16%|█▌        | 7662/48845 [2:43:06<14:24:49,  1.26s/it] 16%|█▌        | 7663/48845 [2:43:07<14:26:12,  1.26s/it] 16%|█▌        | 7664/48845 [2:43:09<14:24:43,  1.26s/it] 16%|█▌        | 7665/48845 [2:43:10<14:25:30,  1.26s/it]                                                         {'loss': 1.6891, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.78}
+ 16%|█▌        | 7665/48845 [2:43:10<14:25:30,  1.26s/it] 16%|█▌        | 7666/48845 [2:43:11<14:26:01,  1.26s/it] 16%|█▌        | 7667/48845 [2:43:12<14:25:16,  1.26s/it] 16%|█▌        | 7668/48845 [2:43:14<14:24:32,  1.26s/it] 16%|█▌        | 7669/48845 [2:43:15<14:24:05,  1.26s/it] 16%|█▌        | 7670/48845 [2:43:16<14:24:08,  1.26s/it]                                                         {'loss': 1.7031, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7670/48845 [2:43:16<14:24:08,  1.26s/it] 16%|█▌        | 7671/48845 [2:43:18<14:26:13,  1.26s/it] 16%|█▌        | 7672/48845 [2:43:19<14:26:06,  1.26s/it] 16%|█▌        | 7673/48845 [2:43:20<14:25:40,  1.26s/it] 16%|█▌        | 7674/48845 [2:43:21<14:24:09,  1.26s/it] 16%|█▌        | 7675/48845 [2:43:23<14:23:54,  1.26s/it]                                                         {'loss': 1.7992, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7675/48845 [2:43:23<14:23:54,  1.26s/it] 16%|█▌        | 7676/48845 [2:43:24<14:25:07,  1.26s/it] 16%|█▌        | 7677/48845 [2:43:25<14:24:01,  1.26s/it] 16%|█▌        | 7678/48845 [2:43:26<14:24:48,  1.26s/it] 16%|█▌        | 7679/48845 [2:43:28<14:24:00,  1.26s/it] 16%|█▌        | 7680/48845 [2:43:29<14:23:57,  1.26s/it]                                                         {'loss': 1.6863, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7680/48845 [2:43:29<14:23:57,  1.26s/it] 16%|█▌        | 7681/48845 [2:43:30<14:24:26,  1.26s/it] 16%|█▌        | 7682/48845 [2:43:31<14:23:37,  1.26s/it] 16%|█▌        | 7683/48845 [2:43:33<14:24:36,  1.26s/it] 16%|█▌        | 7684/48845 [2:43:34<14:24:48,  1.26s/it] 16%|█▌        | 7685/48845 [2:43:35<14:23:57,  1.26s/it]                                                         {'loss': 1.7226, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7685/48845 [2:43:35<14:23:57,  1.26s/it] 16%|█▌        | 7686/48845 [2:43:36<14:24:46,  1.26s/it] 16%|█▌        | 7687/48845 [2:43:38<14:23:14,  1.26s/it] 16%|█▌        | 7688/48845 [2:43:39<14:22:59,  1.26s/it] 16%|█▌        | 7689/48845 [2:43:40<14:22:49,  1.26s/it] 16%|█▌        | 7690/48845 [2:43:41<14:22:59,  1.26s/it]                                                         {'loss': 1.6716, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7690/48845 [2:43:41<14:22:59,  1.26s/it] 16%|█▌        | 7691/48845 [2:43:43<14:24:02,  1.26s/it] 16%|█▌        | 7692/48845 [2:43:44<14:24:44,  1.26s/it] 16%|█▌        | 7693/48845 [2:43:45<14:24:17,  1.26s/it] 16%|█▌        | 7694/48845 [2:43:47<14:23:41,  1.26s/it] 16%|█▌        | 7695/48845 [2:43:48<14:23:45,  1.26s/it]                                                         {'loss': 1.6119, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7695/48845 [2:43:48<14:23:45,  1.26s/it] 16%|█▌        | 7696/48845 [2:43:49<14:24:29,  1.26s/it] 16%|█▌        | 7697/48845 [2:43:50<14:24:00,  1.26s/it] 16%|█▌        | 7698/48845 [2:43:52<14:24:01,  1.26s/it] 16%|█▌        | 7699/48845 [2:43:53<14:23:14,  1.26s/it] 16%|█▌        | 7700/48845 [2:43:54<14:22:43,  1.26s/it]                                                         {'loss': 1.6926, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7700/48845 [2:43:54<14:22:43,  1.26s/it] 16%|█▌        | 7701/48845 [2:43:55<14:23:32,  1.26s/it] 16%|█▌        | 7702/48845 [2:43:57<14:23:37,  1.26s/it] 16%|█▌        | 7703/48845 [2:43:58<14:22:52,  1.26s/it] 16%|█▌        | 7704/48845 [2:43:59<14:23:15,  1.26s/it] 16%|█▌        | 7705/48845 [2:44:00<14:23:43,  1.26s/it]                                                         {'loss': 1.6466, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7705/48845 [2:44:00<14:23:43,  1.26s/it] 16%|█▌        | 7706/48845 [2:44:02<14:24:17,  1.26s/it] 16%|█▌        | 7707/48845 [2:44:03<14:23:33,  1.26s/it] 16%|█▌        | 7708/48845 [2:44:04<14:23:39,  1.26s/it] 16%|█▌        | 7709/48845 [2:44:05<14:24:31,  1.26s/it] 16%|█▌        | 7710/48845 [2:44:07<14:23:54,  1.26s/it]                                                         {'loss': 1.8121, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7710/48845 [2:44:07<14:23:54,  1.26s/it] 16%|█▌        | 7711/48845 [2:44:08<14:24:21,  1.26s/it] 16%|█▌        | 7712/48845 [2:44:09<14:23:08,  1.26s/it] 16%|█▌        | 7713/48845 [2:44:10<14:23:35,  1.26s/it] 16%|█▌        | 7714/48845 [2:44:12<14:22:35,  1.26s/it] 16%|█▌        | 7715/48845 [2:44:13<14:22:40,  1.26s/it]                                                         {'loss': 1.6434, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7715/48845 [2:44:13<14:22:40,  1.26s/it] 16%|█▌        | 7716/48845 [2:44:14<14:23:55,  1.26s/it] 16%|█▌        | 7717/48845 [2:44:15<14:23:36,  1.26s/it] 16%|█▌        | 7718/48845 [2:44:17<14:23:17,  1.26s/it] 16%|█▌        | 7719/48845 [2:44:18<14:22:44,  1.26s/it] 16%|█▌        | 7720/48845 [2:44:19<14:22:24,  1.26s/it]                                                         {'loss': 1.7838, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7720/48845 [2:44:19<14:22:24,  1.26s/it] 16%|█▌        | 7721/48845 [2:44:21<14:24:41,  1.26s/it] 16%|█▌        | 7722/48845 [2:44:22<14:23:37,  1.26s/it] 16%|█▌        | 7723/48845 [2:44:23<14:23:16,  1.26s/it] 16%|█▌        | 7724/48845 [2:44:24<14:22:37,  1.26s/it] 16%|█▌        | 7725/48845 [2:44:26<14:22:36,  1.26s/it]                                                         {'loss': 1.5999, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7725/48845 [2:44:26<14:22:36,  1.26s/it] 16%|█▌        | 7726/48845 [2:44:27<14:23:32,  1.26s/it] 16%|█▌        | 7727/48845 [2:44:28<14:23:23,  1.26s/it] 16%|█▌        | 7728/48845 [2:44:29<14:23:11,  1.26s/it] 16%|█▌        | 7729/48845 [2:44:31<14:31:34,  1.27s/it] 16%|█▌        | 7730/48845 [2:44:32<14:28:59,  1.27s/it]                                                         {'loss': 1.6876, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7730/48845 [2:44:32<14:28:59,  1.27s/it] 16%|█▌        | 7731/48845 [2:44:33<14:27:13,  1.27s/it] 16%|█▌        | 7732/48845 [2:44:34<14:25:48,  1.26s/it] 16%|█▌        | 7733/48845 [2:44:36<14:24:50,  1.26s/it] 16%|█▌        | 7734/48845 [2:44:37<14:24:12,  1.26s/it] 16%|█▌        | 7735/48845 [2:44:38<14:23:52,  1.26s/it]                                                         {'loss': 1.7186, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7735/48845 [2:44:38<14:23:52,  1.26s/it] 16%|█▌        | 7736/48845 [2:44:39<14:23:45,  1.26s/it] 16%|█▌        | 7737/48845 [2:44:41<14:23:32,  1.26s/it] 16%|█▌        | 7738/48845 [2:44:42<14:23:04,  1.26s/it] 16%|█▌        | 7739/48845 [2:44:43<14:22:42,  1.26s/it] 16%|█▌        | 7740/48845 [2:44:44<14:21:40,  1.26s/it]                                                         {'loss': 1.8888, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7740/48845 [2:44:44<14:21:40,  1.26s/it] 16%|█▌        | 7741/48845 [2:44:46<14:21:29,  1.26s/it] 16%|█▌        | 7742/48845 [2:44:47<14:22:13,  1.26s/it] 16%|█▌        | 7743/48845 [2:44:48<14:22:34,  1.26s/it] 16%|█▌        | 7744/48845 [2:44:50<14:22:41,  1.26s/it] 16%|█▌        | 7745/48845 [2:44:51<14:23:35,  1.26s/it]                                                         {'loss': 1.7066, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7745/48845 [2:44:51<14:23:35,  1.26s/it] 16%|█▌        | 7746/48845 [2:44:52<14:23:24,  1.26s/it] 16%|█▌        | 7747/48845 [2:44:53<14:23:52,  1.26s/it] 16%|█▌        | 7748/48845 [2:44:55<14:22:55,  1.26s/it] 16%|█▌        | 7749/48845 [2:44:56<14:23:18,  1.26s/it] 16%|█▌        | 7750/48845 [2:44:57<14:22:45,  1.26s/it]                                                         {'loss': 1.6956, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7750/48845 [2:44:57<14:22:45,  1.26s/it] 16%|█▌        | 7751/48845 [2:44:58<14:23:06,  1.26s/it] 16%|█▌        | 7752/48845 [2:45:00<14:22:48,  1.26s/it] 16%|█▌        | 7753/48845 [2:45:01<14:22:33,  1.26s/it] 16%|█▌        | 7754/48845 [2:45:02<14:22:59,  1.26s/it] 16%|█▌        | 7755/48845 [2:45:03<14:22:14,  1.26s/it]                                                         {'loss': 1.6014, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7755/48845 [2:45:03<14:22:14,  1.26s/it] 16%|█▌        | 7756/48845 [2:45:05<14:22:24,  1.26s/it] 16%|█▌        | 7757/48845 [2:45:06<14:23:11,  1.26s/it] 16%|█▌        | 7758/48845 [2:45:07<14:23:00,  1.26s/it] 16%|█▌        | 7759/48845 [2:45:08<14:22:48,  1.26s/it] 16%|█▌        | 7760/48845 [2:45:10<14:22:17,  1.26s/it]                                                         {'loss': 1.7164, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7760/48845 [2:45:10<14:22:17,  1.26s/it] 16%|█▌        | 7761/48845 [2:45:11<14:23:49,  1.26s/it] 16%|█▌        | 7762/48845 [2:45:12<14:23:55,  1.26s/it] 16%|█▌        | 7763/48845 [2:45:13<14:22:13,  1.26s/it] 16%|█▌        | 7764/48845 [2:45:15<14:22:42,  1.26s/it] 16%|█▌        | 7765/48845 [2:45:16<14:21:56,  1.26s/it]                                                         {'loss': 1.7942, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.79}
+ 16%|█▌        | 7765/48845 [2:45:16<14:21:56,  1.26s/it] 16%|█▌        | 7766/48845 [2:45:17<14:21:53,  1.26s/it] 16%|█▌        | 7767/48845 [2:45:18<14:22:13,  1.26s/it] 16%|█▌        | 7768/48845 [2:45:20<14:44:45,  1.29s/it] 16%|█▌        | 7769/48845 [2:45:21<14:37:41,  1.28s/it] 16%|█▌        | 7770/48845 [2:45:22<14:33:45,  1.28s/it]                                                         {'loss': 1.6577, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7770/48845 [2:45:22<14:33:45,  1.28s/it] 16%|█▌        | 7771/48845 [2:45:24<14:30:16,  1.27s/it] 16%|█▌        | 7772/48845 [2:45:25<14:27:19,  1.27s/it] 16%|█▌        | 7773/48845 [2:45:26<14:26:24,  1.27s/it] 16%|█▌        | 7774/48845 [2:45:27<14:25:59,  1.27s/it] 16%|█▌        | 7775/48845 [2:45:29<14:25:32,  1.26s/it]                                                         {'loss': 1.7607, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7775/48845 [2:45:29<14:25:32,  1.26s/it] 16%|█▌        | 7776/48845 [2:45:30<14:24:43,  1.26s/it] 16%|█▌        | 7777/48845 [2:45:31<14:23:42,  1.26s/it] 16%|█▌        | 7778/48845 [2:45:32<14:23:21,  1.26s/it] 16%|█▌        | 7779/48845 [2:45:34<14:22:28,  1.26s/it] 16%|█▌        | 7780/48845 [2:45:35<14:23:29,  1.26s/it]                                                         {'loss': 1.6468, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7780/48845 [2:45:35<14:23:29,  1.26s/it] 16%|█▌        | 7781/48845 [2:45:36<14:22:56,  1.26s/it] 16%|█▌        | 7782/48845 [2:45:38<14:23:00,  1.26s/it] 16%|█▌        | 7783/48845 [2:45:39<14:21:56,  1.26s/it] 16%|█▌        | 7784/48845 [2:45:40<14:21:22,  1.26s/it] 16%|█▌        | 7785/48845 [2:45:41<14:22:24,  1.26s/it]                                                         {'loss': 1.6741, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7785/48845 [2:45:41<14:22:24,  1.26s/it] 16%|█▌        | 7786/48845 [2:45:43<14:21:47,  1.26s/it] 16%|█▌        | 7787/48845 [2:45:44<14:21:21,  1.26s/it] 16%|█▌        | 7788/48845 [2:45:45<14:21:06,  1.26s/it] 16%|█▌        | 7789/48845 [2:45:46<14:20:21,  1.26s/it] 16%|█▌        | 7790/48845 [2:45:48<14:19:18,  1.26s/it]                                                         {'loss': 1.6803, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7790/48845 [2:45:48<14:19:18,  1.26s/it] 16%|█▌        | 7791/48845 [2:45:49<14:19:40,  1.26s/it] 16%|█▌        | 7792/48845 [2:45:50<14:20:46,  1.26s/it] 16%|█▌        | 7793/48845 [2:45:51<14:20:34,  1.26s/it] 16%|█▌        | 7794/48845 [2:45:53<14:20:16,  1.26s/it] 16%|█▌        | 7795/48845 [2:45:54<14:20:02,  1.26s/it]                                                         {'loss': 1.6908, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7795/48845 [2:45:54<14:20:02,  1.26s/it] 16%|█▌        | 7796/48845 [2:45:55<14:21:17,  1.26s/it] 16%|█▌        | 7797/48845 [2:45:56<14:21:20,  1.26s/it] 16%|█▌        | 7798/48845 [2:45:58<14:21:57,  1.26s/it] 16%|█▌        | 7799/48845 [2:45:59<14:21:45,  1.26s/it] 16%|█▌        | 7800/48845 [2:46:00<14:21:04,  1.26s/it]                                                         {'loss': 1.7769, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7800/48845 [2:46:00<14:21:04,  1.26s/it] 16%|█▌        | 7801/48845 [2:46:04<22:25:55,  1.97s/it] 16%|█▌        | 7802/48845 [2:46:05<20:00:00,  1.75s/it] 16%|█▌        | 7803/48845 [2:46:06<18:18:31,  1.61s/it] 16%|█▌        | 7804/48845 [2:46:08<17:08:01,  1.50s/it] 16%|█▌        | 7805/48845 [2:46:09<16:21:38,  1.44s/it]                                                         {'loss': 1.772, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7805/48845 [2:46:09<16:21:38,  1.44s/it] 16%|█▌        | 7806/48845 [2:46:10<15:45:27,  1.38s/it] 16%|█▌        | 7807/48845 [2:46:11<15:19:49,  1.34s/it] 16%|█▌        | 7808/48845 [2:46:13<15:02:07,  1.32s/it] 16%|█▌        | 7809/48845 [2:46:14<14:51:00,  1.30s/it] 16%|█▌        | 7810/48845 [2:46:15<14:41:48,  1.29s/it]                                                         {'loss': 1.7528, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7810/48845 [2:46:15<14:41:48,  1.29s/it] 16%|█▌        | 7811/48845 [2:46:16<14:36:36,  1.28s/it] 16%|█▌        | 7812/48845 [2:46:18<14:31:25,  1.27s/it] 16%|█▌        | 7813/48845 [2:46:19<14:28:26,  1.27s/it] 16%|█▌        | 7814/48845 [2:46:20<14:26:15,  1.27s/it] 16%|█▌        | 7815/48845 [2:46:21<14:24:50,  1.26s/it]                                                         {'loss': 1.6661, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7815/48845 [2:46:21<14:24:50,  1.26s/it] 16%|█▌        | 7816/48845 [2:46:23<14:25:14,  1.27s/it] 16%|█▌        | 7817/48845 [2:46:24<14:23:41,  1.26s/it] 16%|█▌        | 7818/48845 [2:46:25<14:22:59,  1.26s/it] 16%|█▌        | 7819/48845 [2:46:26<14:22:16,  1.26s/it] 16%|█▌        | 7820/48845 [2:46:28<14:21:46,  1.26s/it]                                                         {'loss': 1.6434, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7820/48845 [2:46:28<14:21:46,  1.26s/it] 16%|█▌        | 7821/48845 [2:46:29<14:23:32,  1.26s/it] 16%|█▌        | 7822/48845 [2:46:30<14:24:50,  1.26s/it] 16%|█▌        | 7823/48845 [2:46:32<14:23:38,  1.26s/it] 16%|█▌        | 7824/48845 [2:46:33<14:24:07,  1.26s/it] 16%|█▌        | 7825/48845 [2:46:34<14:22:51,  1.26s/it]                                                         {'loss': 1.8206, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7825/48845 [2:46:34<14:22:51,  1.26s/it] 16%|█▌        | 7826/48845 [2:46:35<14:23:07,  1.26s/it] 16%|█▌        | 7827/48845 [2:46:37<14:22:08,  1.26s/it] 16%|█▌        | 7828/48845 [2:46:38<14:20:31,  1.26s/it] 16%|█▌        | 7829/48845 [2:46:39<14:20:51,  1.26s/it] 16%|█▌        | 7830/48845 [2:46:40<14:21:43,  1.26s/it]                                                         {'loss': 1.8324, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7830/48845 [2:46:40<14:21:43,  1.26s/it] 16%|█▌        | 7831/48845 [2:46:42<14:20:39,  1.26s/it] 16%|█▌        | 7832/48845 [2:46:43<14:21:29,  1.26s/it] 16%|█▌        | 7833/48845 [2:46:44<14:20:08,  1.26s/it] 16%|█▌        | 7834/48845 [2:46:45<14:20:15,  1.26s/it] 16%|█▌        | 7835/48845 [2:46:47<14:20:04,  1.26s/it]                                                         {'loss': 1.6728, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7835/48845 [2:46:47<14:20:04,  1.26s/it] 16%|█▌        | 7836/48845 [2:46:48<14:20:21,  1.26s/it] 16%|█▌        | 7837/48845 [2:46:49<14:20:50,  1.26s/it] 16%|█▌        | 7838/48845 [2:46:50<14:20:56,  1.26s/it] 16%|█▌        | 7839/48845 [2:46:52<14:20:56,  1.26s/it] 16%|█▌        | 7840/48845 [2:46:53<14:20:53,  1.26s/it]                                                         {'loss': 1.6566, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7840/48845 [2:46:53<14:20:53,  1.26s/it] 16%|█▌        | 7841/48845 [2:46:54<14:22:16,  1.26s/it] 16%|█▌        | 7842/48845 [2:46:55<14:22:04,  1.26s/it] 16%|█▌        | 7843/48845 [2:46:57<14:21:41,  1.26s/it] 16%|█▌        | 7844/48845 [2:46:58<14:21:42,  1.26s/it] 16%|█▌        | 7845/48845 [2:46:59<14:21:12,  1.26s/it]                                                         {'loss': 1.8532, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7845/48845 [2:46:59<14:21:12,  1.26s/it] 16%|█▌        | 7846/48845 [2:47:01<14:20:54,  1.26s/it] 16%|█▌        | 7847/48845 [2:47:02<14:20:52,  1.26s/it] 16%|█▌        | 7848/48845 [2:47:03<14:20:06,  1.26s/it] 16%|█▌        | 7849/48845 [2:47:04<14:20:05,  1.26s/it] 16%|█▌        | 7850/48845 [2:47:06<14:19:31,  1.26s/it]                                                         {'loss': 1.772, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7850/48845 [2:47:06<14:19:31,  1.26s/it] 16%|█▌        | 7851/48845 [2:47:07<14:20:40,  1.26s/it] 16%|█▌        | 7852/48845 [2:47:08<14:21:10,  1.26s/it] 16%|█▌        | 7853/48845 [2:47:09<14:21:13,  1.26s/it] 16%|█▌        | 7854/48845 [2:47:11<14:20:49,  1.26s/it] 16%|█▌        | 7855/48845 [2:47:12<14:20:54,  1.26s/it]                                                         {'loss': 1.6375, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7855/48845 [2:47:12<14:20:54,  1.26s/it] 16%|█▌        | 7856/48845 [2:47:13<14:20:43,  1.26s/it] 16%|█▌        | 7857/48845 [2:47:14<14:21:04,  1.26s/it] 16%|█▌        | 7858/48845 [2:47:16<14:20:12,  1.26s/it] 16%|█▌        | 7859/48845 [2:47:17<14:20:01,  1.26s/it] 16%|█▌        | 7860/48845 [2:47:18<14:19:42,  1.26s/it]                                                         {'loss': 1.7946, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.8}
+ 16%|█▌        | 7860/48845 [2:47:18<14:19:42,  1.26s/it] 16%|█▌        | 7861/48845 [2:47:19<14:21:45,  1.26s/it] 16%|█▌        | 7862/48845 [2:47:21<14:21:35,  1.26s/it] 16%|█▌        | 7863/48845 [2:47:22<14:20:57,  1.26s/it] 16%|█▌        | 7864/48845 [2:47:23<14:21:10,  1.26s/it] 16%|█▌        | 7865/48845 [2:47:24<14:21:11,  1.26s/it]                                                         {'loss': 1.7406, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7865/48845 [2:47:24<14:21:11,  1.26s/it] 16%|█▌        | 7866/48845 [2:47:26<14:20:44,  1.26s/it] 16%|█▌        | 7867/48845 [2:47:27<14:20:18,  1.26s/it] 16%|█▌        | 7868/48845 [2:47:28<14:20:04,  1.26s/it] 16%|█▌        | 7869/48845 [2:47:29<14:20:09,  1.26s/it] 16%|█▌        | 7870/48845 [2:47:31<14:20:49,  1.26s/it]                                                         {'loss': 1.7713, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7870/48845 [2:47:31<14:20:49,  1.26s/it] 16%|█▌        | 7871/48845 [2:47:32<14:21:02,  1.26s/it] 16%|█▌        | 7872/48845 [2:47:33<14:20:36,  1.26s/it] 16%|█▌        | 7873/48845 [2:47:35<14:20:10,  1.26s/it] 16%|█▌        | 7874/48845 [2:47:36<14:19:13,  1.26s/it] 16%|█▌        | 7875/48845 [2:47:37<14:20:24,  1.26s/it]                                                         {'loss': 1.7994, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7875/48845 [2:47:37<14:20:24,  1.26s/it] 16%|█▌        | 7876/48845 [2:47:38<14:20:15,  1.26s/it] 16%|█▌        | 7877/48845 [2:47:40<14:19:45,  1.26s/it] 16%|█▌        | 7878/48845 [2:47:41<14:20:29,  1.26s/it] 16%|█▌        | 7879/48845 [2:47:42<14:20:29,  1.26s/it] 16%|█▌        | 7880/48845 [2:47:43<14:21:28,  1.26s/it]                                                         {'loss': 1.6428, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7880/48845 [2:47:43<14:21:28,  1.26s/it] 16%|█▌        | 7881/48845 [2:47:45<14:23:06,  1.26s/it] 16%|█▌        | 7882/48845 [2:47:46<14:22:11,  1.26s/it] 16%|█▌        | 7883/48845 [2:47:47<14:23:12,  1.26s/it] 16%|█▌        | 7884/48845 [2:47:48<14:21:17,  1.26s/it] 16%|█▌        | 7885/48845 [2:47:50<14:32:54,  1.28s/it]                                                         {'loss': 1.829, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7885/48845 [2:47:50<14:32:54,  1.28s/it] 16%|█▌        | 7886/48845 [2:47:51<14:28:51,  1.27s/it] 16%|█▌        | 7887/48845 [2:47:52<14:25:41,  1.27s/it] 16%|█▌        | 7888/48845 [2:47:54<14:24:06,  1.27s/it] 16%|█▌        | 7889/48845 [2:47:55<14:23:12,  1.26s/it] 16%|█▌        | 7890/48845 [2:47:56<14:22:13,  1.26s/it]                                                         {'loss': 1.6112, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7890/48845 [2:47:56<14:22:13,  1.26s/it] 16%|█▌        | 7891/48845 [2:47:57<14:22:03,  1.26s/it] 16%|█▌        | 7892/48845 [2:47:59<14:21:44,  1.26s/it] 16%|█▌        | 7893/48845 [2:48:00<14:21:19,  1.26s/it] 16%|█▌        | 7894/48845 [2:48:01<14:21:03,  1.26s/it] 16%|█▌        | 7895/48845 [2:48:02<14:20:33,  1.26s/it]                                                         {'loss': 1.5978, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7895/48845 [2:48:02<14:20:33,  1.26s/it] 16%|█▌        | 7896/48845 [2:48:04<14:22:49,  1.26s/it] 16%|█▌        | 7897/48845 [2:48:05<14:21:46,  1.26s/it] 16%|█▌        | 7898/48845 [2:48:06<14:21:35,  1.26s/it] 16%|█▌        | 7899/48845 [2:48:07<14:20:58,  1.26s/it] 16%|█▌        | 7900/48845 [2:48:09<14:20:45,  1.26s/it]                                                         {'loss': 1.6458, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7900/48845 [2:48:09<14:20:45,  1.26s/it] 16%|█▌        | 7901/48845 [2:48:10<14:20:28,  1.26s/it] 16%|█▌        | 7902/48845 [2:48:11<14:20:18,  1.26s/it] 16%|█▌        | 7903/48845 [2:48:12<14:19:25,  1.26s/it] 16%|█▌        | 7904/48845 [2:48:14<14:19:18,  1.26s/it] 16%|█▌        | 7905/48845 [2:48:15<14:19:47,  1.26s/it]                                                         {'loss': 1.8083, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7905/48845 [2:48:15<14:19:47,  1.26s/it] 16%|█▌        | 7906/48845 [2:48:16<14:19:48,  1.26s/it] 16%|█▌        | 7907/48845 [2:48:17<14:19:59,  1.26s/it] 16%|█▌        | 7908/48845 [2:48:19<14:19:33,  1.26s/it] 16%|█▌        | 7909/48845 [2:48:20<14:20:26,  1.26s/it] 16%|█▌        | 7910/48845 [2:48:21<14:20:57,  1.26s/it]                                                         {'loss': 1.6696, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7910/48845 [2:48:21<14:20:57,  1.26s/it] 16%|█▌        | 7911/48845 [2:48:23<14:20:22,  1.26s/it] 16%|█▌        | 7912/48845 [2:48:24<14:19:51,  1.26s/it] 16%|█▌        | 7913/48845 [2:48:25<14:19:50,  1.26s/it] 16%|█▌        | 7914/48845 [2:48:26<14:19:09,  1.26s/it] 16%|█▌        | 7915/48845 [2:48:28<14:19:42,  1.26s/it]                                                         {'loss': 1.79, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7915/48845 [2:48:28<14:19:42,  1.26s/it] 16%|█▌        | 7916/48845 [2:48:29<14:33:58,  1.28s/it] 16%|█▌        | 7917/48845 [2:48:30<14:30:40,  1.28s/it] 16%|█▌        | 7918/48845 [2:48:31<14:27:28,  1.27s/it] 16%|█▌        | 7919/48845 [2:48:33<14:25:46,  1.27s/it] 16%|█▌        | 7920/48845 [2:48:34<14:25:37,  1.27s/it]                                                         {'loss': 1.6539, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7920/48845 [2:48:34<14:25:37,  1.27s/it] 16%|█▌        | 7921/48845 [2:48:35<14:23:34,  1.27s/it] 16%|█▌        | 7922/48845 [2:48:36<14:21:58,  1.26s/it] 16%|█▌        | 7923/48845 [2:48:38<14:21:16,  1.26s/it] 16%|█▌        | 7924/48845 [2:48:39<14:20:04,  1.26s/it] 16%|█▌        | 7925/48845 [2:48:40<14:19:34,  1.26s/it]                                                         {'loss': 1.8129, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7925/48845 [2:48:40<14:19:34,  1.26s/it] 16%|█▌        | 7926/48845 [2:48:41<14:20:05,  1.26s/it] 16%|█▌        | 7927/48845 [2:48:43<14:19:32,  1.26s/it] 16%|█▌        | 7928/48845 [2:48:44<14:19:30,  1.26s/it] 16%|█▌        | 7929/48845 [2:48:45<14:19:19,  1.26s/it] 16%|█▌        | 7930/48845 [2:48:47<14:19:45,  1.26s/it]                                                         {'loss': 1.8185, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7930/48845 [2:48:47<14:19:45,  1.26s/it] 16%|█▌        | 7931/48845 [2:48:48<14:19:38,  1.26s/it] 16%|█▌        | 7932/48845 [2:48:49<14:19:37,  1.26s/it] 16%|█▌        | 7933/48845 [2:48:50<14:19:10,  1.26s/it] 16%|█▌        | 7934/48845 [2:48:52<14:18:41,  1.26s/it] 16%|█▌        | 7935/48845 [2:48:53<14:18:45,  1.26s/it]                                                         {'loss': 1.6357, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▌        | 7935/48845 [2:48:53<14:18:45,  1.26s/it] 16%|█▌        | 7936/48845 [2:48:54<14:19:51,  1.26s/it] 16%|█▌        | 7937/48845 [2:48:55<14:19:44,  1.26s/it] 16%|█▋        | 7938/48845 [2:48:57<14:19:44,  1.26s/it] 16%|█▋        | 7939/48845 [2:48:58<14:20:04,  1.26s/it] 16%|█▋        | 7940/48845 [2:48:59<14:20:40,  1.26s/it]                                                         {'loss': 1.7817, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▋        | 7940/48845 [2:48:59<14:20:40,  1.26s/it] 16%|█▋        | 7941/48845 [2:49:00<14:19:58,  1.26s/it] 16%|█▋        | 7942/48845 [2:49:02<14:19:21,  1.26s/it] 16%|█▋        | 7943/48845 [2:49:03<14:19:55,  1.26s/it] 16%|█▋        | 7944/48845 [2:49:04<14:19:30,  1.26s/it] 16%|█▋        | 7945/48845 [2:49:05<14:19:14,  1.26s/it]                                                         {'loss': 1.8808, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▋        | 7945/48845 [2:49:05<14:19:14,  1.26s/it] 16%|█▋        | 7946/48845 [2:49:07<14:20:10,  1.26s/it] 16%|█▋        | 7947/48845 [2:49:08<14:19:12,  1.26s/it] 16%|█▋        | 7948/48845 [2:49:09<14:19:39,  1.26s/it] 16%|█▋        | 7949/48845 [2:49:10<14:19:07,  1.26s/it] 16%|█▋        | 7950/48845 [2:49:12<14:19:06,  1.26s/it]                                                         {'loss': 1.8406, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▋        | 7950/48845 [2:49:12<14:19:06,  1.26s/it] 16%|█▋        | 7951/48845 [2:49:13<14:18:15,  1.26s/it] 16%|█▋        | 7952/48845 [2:49:14<14:18:19,  1.26s/it] 16%|█▋        | 7953/48845 [2:49:16<14:19:05,  1.26s/it] 16%|█▋        | 7954/48845 [2:49:17<14:18:47,  1.26s/it] 16%|█▋        | 7955/48845 [2:49:18<14:18:38,  1.26s/it]                                                         {'loss': 1.6759, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▋        | 7955/48845 [2:49:18<14:18:38,  1.26s/it] 16%|█▋        | 7956/48845 [2:49:19<14:21:11,  1.26s/it] 16%|█▋        | 7957/48845 [2:49:21<14:20:02,  1.26s/it] 16%|█▋        | 7958/48845 [2:49:22<14:20:08,  1.26s/it] 16%|█▋        | 7959/48845 [2:49:23<14:19:16,  1.26s/it] 16%|█▋        | 7960/48845 [2:49:24<14:18:35,  1.26s/it]                                                         {'loss': 1.6793, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.81}
+ 16%|█▋        | 7960/48845 [2:49:24<14:18:35,  1.26s/it] 16%|█▋        | 7961/48845 [2:49:26<14:19:04,  1.26s/it] 16%|█▋        | 7962/48845 [2:49:27<14:19:05,  1.26s/it] 16%|█▋        | 7963/48845 [2:49:28<14:19:29,  1.26s/it] 16%|█▋        | 7964/48845 [2:49:29<14:19:44,  1.26s/it] 16%|█▋        | 7965/48845 [2:49:31<14:18:34,  1.26s/it]                                                         {'loss': 1.6334, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7965/48845 [2:49:31<14:18:34,  1.26s/it] 16%|█▋        | 7966/48845 [2:49:32<14:18:38,  1.26s/it] 16%|█▋        | 7967/48845 [2:49:33<14:17:43,  1.26s/it] 16%|█▋        | 7968/48845 [2:49:34<14:18:56,  1.26s/it] 16%|█▋        | 7969/48845 [2:49:36<14:17:59,  1.26s/it] 16%|█▋        | 7970/48845 [2:49:37<14:17:14,  1.26s/it]                                                         {'loss': 1.8439, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7970/48845 [2:49:37<14:17:14,  1.26s/it] 16%|█▋        | 7971/48845 [2:49:38<14:17:51,  1.26s/it] 16%|█▋        | 7972/48845 [2:49:39<14:18:26,  1.26s/it] 16%|█▋        | 7973/48845 [2:49:41<14:18:14,  1.26s/it] 16%|█▋        | 7974/48845 [2:49:42<14:17:30,  1.26s/it] 16%|█▋        | 7975/48845 [2:49:43<14:17:22,  1.26s/it]                                                         {'loss': 1.7014, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7975/48845 [2:49:43<14:17:22,  1.26s/it] 16%|█▋        | 7976/48845 [2:49:45<14:19:11,  1.26s/it] 16%|█▋        | 7977/48845 [2:49:46<14:19:05,  1.26s/it] 16%|█▋        | 7978/48845 [2:49:47<14:18:17,  1.26s/it] 16%|█▋        | 7979/48845 [2:49:48<14:18:29,  1.26s/it] 16%|█▋        | 7980/48845 [2:49:50<14:16:48,  1.26s/it]                                                         {'loss': 1.7602, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7980/48845 [2:49:50<14:16:48,  1.26s/it] 16%|█▋        | 7981/48845 [2:49:51<14:20:20,  1.26s/it] 16%|█▋        | 7982/48845 [2:49:52<14:19:16,  1.26s/it] 16%|█▋        | 7983/48845 [2:49:53<14:18:55,  1.26s/it] 16%|█▋        | 7984/48845 [2:49:55<14:19:22,  1.26s/it] 16%|█▋        | 7985/48845 [2:49:56<14:18:36,  1.26s/it]                                                         {'loss': 1.7719, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7985/48845 [2:49:56<14:18:36,  1.26s/it] 16%|█▋        | 7986/48845 [2:49:57<14:19:45,  1.26s/it] 16%|█▋        | 7987/48845 [2:49:58<14:18:56,  1.26s/it] 16%|█▋        | 7988/48845 [2:50:00<14:18:26,  1.26s/it] 16%|█▋        | 7989/48845 [2:50:01<14:18:48,  1.26s/it] 16%|█▋        | 7990/48845 [2:50:02<14:18:42,  1.26s/it]                                                         {'loss': 1.7613, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7990/48845 [2:50:02<14:18:42,  1.26s/it] 16%|█▋        | 7991/48845 [2:50:04<14:41:46,  1.30s/it] 16%|█▋        | 7992/48845 [2:50:05<14:34:40,  1.28s/it] 16%|█▋        | 7993/48845 [2:50:06<14:28:55,  1.28s/it] 16%|█▋        | 7994/48845 [2:50:07<14:29:12,  1.28s/it] 16%|█▋        | 7995/48845 [2:50:09<14:26:01,  1.27s/it]                                                         {'loss': 1.7802, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 7995/48845 [2:50:09<14:26:01,  1.27s/it] 16%|█▋        | 7996/48845 [2:50:10<14:23:30,  1.27s/it] 16%|█▋        | 7997/48845 [2:50:11<14:21:29,  1.27s/it] 16%|█▋        | 7998/48845 [2:50:12<14:19:35,  1.26s/it] 16%|█▋        | 7999/48845 [2:50:14<14:19:34,  1.26s/it] 16%|█▋        | 8000/48845 [2:50:15<14:20:53,  1.26s/it]                                                         {'loss': 1.7193, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8000/48845 [2:50:15<14:20:53,  1.26s/it] 16%|█▋        | 8001/48845 [2:50:19<22:26:06,  1.98s/it] 16%|█▋        | 8002/48845 [2:50:20<19:59:10,  1.76s/it] 16%|█▋        | 8003/48845 [2:50:21<18:15:56,  1.61s/it] 16%|█▋        | 8004/48845 [2:50:22<17:03:37,  1.50s/it] 16%|█▋        | 8005/48845 [2:50:24<16:13:30,  1.43s/it]                                                         {'loss': 1.7669, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8005/48845 [2:50:24<16:13:30,  1.43s/it] 16%|█▋        | 8006/48845 [2:50:25<15:38:24,  1.38s/it] 16%|█▋        | 8007/48845 [2:50:26<15:14:49,  1.34s/it] 16%|█▋        | 8008/48845 [2:50:27<14:56:56,  1.32s/it] 16%|█▋        | 8009/48845 [2:50:29<14:44:55,  1.30s/it] 16%|█▋        | 8010/48845 [2:50:30<14:36:38,  1.29s/it]                                                         {'loss': 1.792, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8010/48845 [2:50:30<14:36:38,  1.29s/it] 16%|█▋        | 8011/48845 [2:50:31<14:30:55,  1.28s/it] 16%|█▋        | 8012/48845 [2:50:32<14:27:52,  1.28s/it] 16%|█▋        | 8013/48845 [2:50:34<14:24:29,  1.27s/it] 16%|█▋        | 8014/48845 [2:50:35<14:22:54,  1.27s/it] 16%|█▋        | 8015/48845 [2:50:36<14:21:09,  1.27s/it]                                                         {'loss': 1.8, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8015/48845 [2:50:36<14:21:09,  1.27s/it] 16%|█▋        | 8016/48845 [2:50:37<14:21:41,  1.27s/it] 16%|█▋        | 8017/48845 [2:50:39<14:22:45,  1.27s/it] 16%|█▋        | 8018/48845 [2:50:40<14:21:31,  1.27s/it] 16%|█▋        | 8019/48845 [2:50:41<14:22:11,  1.27s/it] 16%|█▋        | 8020/48845 [2:50:43<14:20:11,  1.26s/it]                                                         {'loss': 1.7204, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8020/48845 [2:50:43<14:20:11,  1.26s/it] 16%|█▋        | 8021/48845 [2:50:44<14:19:55,  1.26s/it] 16%|█▋        | 8022/48845 [2:50:45<14:18:48,  1.26s/it] 16%|█▋        | 8023/48845 [2:50:46<14:18:52,  1.26s/it] 16%|█▋        | 8024/48845 [2:50:48<14:19:52,  1.26s/it] 16%|█▋        | 8025/48845 [2:50:49<14:20:19,  1.26s/it]                                                         {'loss': 1.7346, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8025/48845 [2:50:49<14:20:19,  1.26s/it] 16%|█▋        | 8026/48845 [2:50:50<14:21:26,  1.27s/it] 16%|█▋        | 8027/48845 [2:50:51<14:20:18,  1.26s/it] 16%|█▋        | 8028/48845 [2:50:53<14:19:22,  1.26s/it] 16%|█▋        | 8029/48845 [2:50:54<14:18:34,  1.26s/it] 16%|█▋        | 8030/48845 [2:50:55<14:17:42,  1.26s/it]                                                         {'loss': 1.6727, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8030/48845 [2:50:55<14:17:42,  1.26s/it] 16%|█▋        | 8031/48845 [2:50:56<14:18:50,  1.26s/it] 16%|█▋        | 8032/48845 [2:50:58<14:18:33,  1.26s/it] 16%|█▋        | 8033/48845 [2:50:59<14:18:05,  1.26s/it] 16%|█▋        | 8034/48845 [2:51:00<14:18:12,  1.26s/it] 16%|█▋        | 8035/48845 [2:51:01<14:17:58,  1.26s/it]                                                         {'loss': 1.8033, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8035/48845 [2:51:01<14:17:58,  1.26s/it] 16%|█▋        | 8036/48845 [2:51:03<14:18:29,  1.26s/it] 16%|█▋        | 8037/48845 [2:51:04<14:17:22,  1.26s/it] 16%|█▋        | 8038/48845 [2:51:05<14:17:08,  1.26s/it] 16%|█▋        | 8039/48845 [2:51:06<14:16:59,  1.26s/it] 16%|█▋        | 8040/48845 [2:51:08<14:17:01,  1.26s/it]                                                         {'loss': 1.9175, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8040/48845 [2:51:08<14:17:01,  1.26s/it] 16%|█▋        | 8041/48845 [2:51:09<14:18:56,  1.26s/it] 16%|█▋        | 8042/48845 [2:51:10<14:19:04,  1.26s/it] 16%|█▋        | 8043/48845 [2:51:12<14:18:17,  1.26s/it] 16%|█▋        | 8044/48845 [2:51:13<14:17:32,  1.26s/it] 16%|█▋        | 8045/48845 [2:51:14<14:17:47,  1.26s/it]                                                         {'loss': 1.6707, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8045/48845 [2:51:14<14:17:47,  1.26s/it] 16%|█▋        | 8046/48845 [2:51:15<14:17:26,  1.26s/it] 16%|█▋        | 8047/48845 [2:51:17<14:17:45,  1.26s/it] 16%|█▋        | 8048/48845 [2:51:18<14:17:11,  1.26s/it] 16%|█▋        | 8049/48845 [2:51:19<14:18:33,  1.26s/it] 16%|█▋        | 8050/48845 [2:51:20<14:17:57,  1.26s/it]                                                         {'loss': 1.715, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8050/48845 [2:51:20<14:17:57,  1.26s/it] 16%|█▋        | 8051/48845 [2:51:22<14:18:54,  1.26s/it] 16%|█▋        | 8052/48845 [2:51:23<14:18:39,  1.26s/it] 16%|█▋        | 8053/48845 [2:51:24<14:17:26,  1.26s/it] 16%|█▋        | 8054/48845 [2:51:25<14:17:38,  1.26s/it] 16%|█▋        | 8055/48845 [2:51:27<14:18:32,  1.26s/it]                                                         {'loss': 1.7487, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.82}
+ 16%|█▋        | 8055/48845 [2:51:27<14:18:32,  1.26s/it] 16%|█▋        | 8056/48845 [2:51:28<14:17:46,  1.26s/it] 16%|█▋        | 8057/48845 [2:51:29<14:17:16,  1.26s/it] 16%|█▋        | 8058/48845 [2:51:30<14:16:06,  1.26s/it] 16%|█▋        | 8059/48845 [2:51:32<14:16:07,  1.26s/it] 17%|█▋        | 8060/48845 [2:51:33<14:17:48,  1.26s/it]                                                         {'loss': 1.6917, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8060/48845 [2:51:33<14:17:48,  1.26s/it] 17%|█▋        | 8061/48845 [2:51:34<14:20:05,  1.27s/it] 17%|█▋        | 8062/48845 [2:51:36<14:18:20,  1.26s/it] 17%|█▋        | 8063/48845 [2:51:37<14:18:01,  1.26s/it] 17%|█▋        | 8064/48845 [2:51:38<14:17:49,  1.26s/it] 17%|█▋        | 8065/48845 [2:51:39<14:17:17,  1.26s/it]                                                         {'loss': 1.7637, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8065/48845 [2:51:39<14:17:17,  1.26s/it] 17%|█▋        | 8066/48845 [2:51:41<14:20:19,  1.27s/it] 17%|█▋        | 8067/48845 [2:51:42<14:19:36,  1.26s/it] 17%|█▋        | 8068/48845 [2:51:43<14:18:31,  1.26s/it] 17%|█▋        | 8069/48845 [2:51:44<14:17:25,  1.26s/it] 17%|█▋        | 8070/48845 [2:51:46<14:17:24,  1.26s/it]                                                         {'loss': 1.6926, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8070/48845 [2:51:46<14:17:24,  1.26s/it] 17%|█▋        | 8071/48845 [2:51:47<14:17:42,  1.26s/it] 17%|█▋        | 8072/48845 [2:51:48<14:19:31,  1.26s/it] 17%|█▋        | 8073/48845 [2:51:49<14:18:01,  1.26s/it] 17%|█▋        | 8074/48845 [2:51:51<14:16:38,  1.26s/it] 17%|█▋        | 8075/48845 [2:51:52<14:16:29,  1.26s/it]                                                         {'loss': 1.7963, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8075/48845 [2:51:52<14:16:29,  1.26s/it] 17%|█▋        | 8076/48845 [2:51:53<14:17:02,  1.26s/it] 17%|█▋        | 8077/48845 [2:51:54<14:16:26,  1.26s/it] 17%|█▋        | 8078/48845 [2:51:56<14:16:17,  1.26s/it] 17%|█▋        | 8079/48845 [2:51:57<14:16:48,  1.26s/it] 17%|█▋        | 8080/48845 [2:51:58<14:16:51,  1.26s/it]                                                         {'loss': 1.7128, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8080/48845 [2:51:58<14:16:51,  1.26s/it] 17%|█▋        | 8081/48845 [2:51:59<14:16:40,  1.26s/it] 17%|█▋        | 8082/48845 [2:52:01<14:16:05,  1.26s/it] 17%|█▋        | 8083/48845 [2:52:02<14:16:21,  1.26s/it] 17%|█▋        | 8084/48845 [2:52:03<14:16:37,  1.26s/it] 17%|█▋        | 8085/48845 [2:52:05<14:15:50,  1.26s/it]                                                         {'loss': 1.6102, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8085/48845 [2:52:05<14:15:50,  1.26s/it] 17%|█▋        | 8086/48845 [2:52:06<14:17:09,  1.26s/it] 17%|█▋        | 8087/48845 [2:52:07<14:16:54,  1.26s/it] 17%|█▋        | 8088/48845 [2:52:08<14:17:15,  1.26s/it] 17%|█▋        | 8089/48845 [2:52:10<14:17:10,  1.26s/it] 17%|█▋        | 8090/48845 [2:52:11<14:16:40,  1.26s/it]                                                         {'loss': 1.7285, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8090/48845 [2:52:11<14:16:40,  1.26s/it] 17%|█▋        | 8091/48845 [2:52:12<14:17:02,  1.26s/it] 17%|█▋        | 8092/48845 [2:52:13<14:17:12,  1.26s/it] 17%|█▋        | 8093/48845 [2:52:15<14:17:01,  1.26s/it] 17%|█▋        | 8094/48845 [2:52:16<14:16:57,  1.26s/it] 17%|█▋        | 8095/48845 [2:52:17<14:17:20,  1.26s/it]                                                         {'loss': 1.8227, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8095/48845 [2:52:17<14:17:20,  1.26s/it] 17%|█▋        | 8096/48845 [2:52:18<14:18:18,  1.26s/it] 17%|█▋        | 8097/48845 [2:52:20<14:17:51,  1.26s/it] 17%|█▋        | 8098/48845 [2:52:21<14:16:55,  1.26s/it] 17%|█▋        | 8099/48845 [2:52:22<14:16:24,  1.26s/it] 17%|█▋        | 8100/48845 [2:52:23<14:16:20,  1.26s/it]                                                         {'loss': 1.8332, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8100/48845 [2:52:23<14:16:20,  1.26s/it] 17%|█▋        | 8101/48845 [2:52:25<14:16:32,  1.26s/it] 17%|█▋        | 8102/48845 [2:52:26<14:16:37,  1.26s/it] 17%|█▋        | 8103/48845 [2:52:27<14:15:58,  1.26s/it] 17%|█▋        | 8104/48845 [2:52:29<14:15:37,  1.26s/it] 17%|█▋        | 8105/48845 [2:52:30<14:15:38,  1.26s/it]                                                         {'loss': 1.7391, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8105/48845 [2:52:30<14:15:38,  1.26s/it] 17%|█▋        | 8106/48845 [2:52:31<14:15:42,  1.26s/it] 17%|█▋        | 8107/48845 [2:52:32<14:15:45,  1.26s/it] 17%|█▋        | 8108/48845 [2:52:34<14:15:19,  1.26s/it] 17%|█▋        | 8109/48845 [2:52:35<14:15:14,  1.26s/it] 17%|█▋        | 8110/48845 [2:52:36<14:16:11,  1.26s/it]                                                         {'loss': 1.76, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8110/48845 [2:52:36<14:16:11,  1.26s/it] 17%|█▋        | 8111/48845 [2:52:37<14:16:37,  1.26s/it] 17%|█▋        | 8112/48845 [2:52:39<14:15:35,  1.26s/it] 17%|█▋        | 8113/48845 [2:52:40<14:15:24,  1.26s/it] 17%|█▋        | 8114/48845 [2:52:41<14:15:04,  1.26s/it] 17%|█▋        | 8115/48845 [2:52:42<14:15:28,  1.26s/it]                                                         {'loss': 1.7542, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8115/48845 [2:52:42<14:15:28,  1.26s/it] 17%|█▋        | 8116/48845 [2:52:44<14:16:24,  1.26s/it] 17%|█▋        | 8117/48845 [2:52:45<14:16:15,  1.26s/it] 17%|█▋        | 8118/48845 [2:52:46<14:16:17,  1.26s/it] 17%|█▋        | 8119/48845 [2:52:47<14:15:36,  1.26s/it] 17%|█▋        | 8120/48845 [2:52:49<14:40:05,  1.30s/it]                                                         {'loss': 1.7303, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8120/48845 [2:52:49<14:40:05,  1.30s/it] 17%|█▋        | 8121/48845 [2:52:50<14:32:59,  1.29s/it] 17%|█▋        | 8122/48845 [2:52:51<14:27:03,  1.28s/it] 17%|█▋        | 8123/48845 [2:52:53<14:23:13,  1.27s/it] 17%|█▋        | 8124/48845 [2:52:54<14:20:38,  1.27s/it] 17%|█▋        | 8125/48845 [2:52:55<14:19:01,  1.27s/it]                                                         {'loss': 1.7147, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8125/48845 [2:52:55<14:19:01,  1.27s/it] 17%|█▋        | 8126/48845 [2:52:56<14:20:47,  1.27s/it] 17%|█▋        | 8127/48845 [2:52:58<14:18:42,  1.27s/it] 17%|█▋        | 8128/48845 [2:52:59<14:17:53,  1.26s/it] 17%|█▋        | 8129/48845 [2:53:00<14:18:05,  1.26s/it] 17%|█▋        | 8130/48845 [2:53:01<14:16:51,  1.26s/it]                                                         {'loss': 1.7632, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8130/48845 [2:53:01<14:16:51,  1.26s/it] 17%|█▋        | 8131/48845 [2:53:03<14:18:02,  1.26s/it] 17%|█▋        | 8132/48845 [2:53:04<14:17:06,  1.26s/it] 17%|█▋        | 8133/48845 [2:53:05<14:17:19,  1.26s/it] 17%|█▋        | 8134/48845 [2:53:06<14:16:28,  1.26s/it] 17%|█▋        | 8135/48845 [2:53:08<14:16:28,  1.26s/it]                                                         {'loss': 1.7131, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8135/48845 [2:53:08<14:16:28,  1.26s/it] 17%|█▋        | 8136/48845 [2:53:09<14:16:35,  1.26s/it] 17%|█▋        | 8137/48845 [2:53:10<14:18:04,  1.26s/it] 17%|█▋        | 8138/48845 [2:53:12<14:18:01,  1.26s/it] 17%|█▋        | 8139/48845 [2:53:13<14:16:49,  1.26s/it] 17%|█▋        | 8140/48845 [2:53:14<14:17:24,  1.26s/it]                                                         {'loss': 1.726, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8140/48845 [2:53:14<14:17:24,  1.26s/it] 17%|█▋        | 8141/48845 [2:53:15<14:16:27,  1.26s/it] 17%|█▋        | 8142/48845 [2:53:17<14:17:04,  1.26s/it] 17%|█▋        | 8143/48845 [2:53:18<14:53:43,  1.32s/it] 17%|█▋        | 8144/48845 [2:53:19<14:43:32,  1.30s/it] 17%|█▋        | 8145/48845 [2:53:21<14:35:01,  1.29s/it]                                                         {'loss': 1.6699, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8145/48845 [2:53:21<14:35:01,  1.29s/it] 17%|█▋        | 8146/48845 [2:53:22<14:29:59,  1.28s/it] 17%|█▋        | 8147/48845 [2:53:23<14:24:47,  1.27s/it] 17%|█▋        | 8148/48845 [2:53:24<14:21:08,  1.27s/it] 17%|█▋        | 8149/48845 [2:53:26<14:19:32,  1.27s/it] 17%|█▋        | 8150/48845 [2:53:27<14:19:01,  1.27s/it]                                                         {'loss': 1.8544, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8150/48845 [2:53:27<14:19:01,  1.27s/it] 17%|█▋        | 8151/48845 [2:53:28<14:17:57,  1.26s/it] 17%|█▋        | 8152/48845 [2:53:29<14:17:10,  1.26s/it] 17%|█▋        | 8153/48845 [2:53:31<14:16:29,  1.26s/it] 17%|█▋        | 8154/48845 [2:53:32<14:15:52,  1.26s/it] 17%|█▋        | 8155/48845 [2:53:33<14:15:52,  1.26s/it]                                                         {'loss': 1.6421, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.83}
+ 17%|█▋        | 8155/48845 [2:53:33<14:15:52,  1.26s/it] 17%|█▋        | 8156/48845 [2:53:34<14:15:25,  1.26s/it] 17%|█▋        | 8157/48845 [2:53:36<14:14:23,  1.26s/it] 17%|█▋        | 8158/48845 [2:53:37<14:15:24,  1.26s/it] 17%|█▋        | 8159/48845 [2:53:38<14:14:40,  1.26s/it] 17%|█▋        | 8160/48845 [2:53:39<14:15:00,  1.26s/it]                                                         {'loss': 1.7588, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8160/48845 [2:53:39<14:15:00,  1.26s/it] 17%|█▋        | 8161/48845 [2:53:41<14:14:29,  1.26s/it] 17%|█▋        | 8162/48845 [2:53:42<14:13:33,  1.26s/it] 17%|█▋        | 8163/48845 [2:53:43<14:13:39,  1.26s/it] 17%|█▋        | 8164/48845 [2:53:44<14:13:57,  1.26s/it] 17%|█▋        | 8165/48845 [2:53:46<14:14:05,  1.26s/it]                                                         {'loss': 1.6835, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8165/48845 [2:53:46<14:14:05,  1.26s/it] 17%|█▋        | 8166/48845 [2:53:47<14:14:32,  1.26s/it] 17%|█▋        | 8167/48845 [2:53:48<14:14:14,  1.26s/it] 17%|█▋        | 8168/48845 [2:53:50<14:14:35,  1.26s/it] 17%|█▋        | 8169/48845 [2:53:51<14:14:15,  1.26s/it] 17%|█▋        | 8170/48845 [2:53:52<14:13:12,  1.26s/it]                                                         {'loss': 1.6941, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8170/48845 [2:53:52<14:13:12,  1.26s/it] 17%|█▋        | 8171/48845 [2:53:53<14:13:40,  1.26s/it] 17%|█▋        | 8172/48845 [2:53:55<14:13:51,  1.26s/it] 17%|█▋        | 8173/48845 [2:53:56<14:14:06,  1.26s/it] 17%|█▋        | 8174/48845 [2:53:57<14:14:01,  1.26s/it] 17%|█▋        | 8175/48845 [2:53:58<14:13:28,  1.26s/it]                                                         {'loss': 1.5211, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8175/48845 [2:53:58<14:13:28,  1.26s/it] 17%|█▋        | 8176/48845 [2:54:00<14:13:52,  1.26s/it] 17%|█▋        | 8177/48845 [2:54:01<14:13:46,  1.26s/it] 17%|█▋        | 8178/48845 [2:54:02<14:14:04,  1.26s/it] 17%|█▋        | 8179/48845 [2:54:03<14:14:08,  1.26s/it] 17%|█▋        | 8180/48845 [2:54:05<14:13:49,  1.26s/it]                                                         {'loss': 1.7581, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8180/48845 [2:54:05<14:13:49,  1.26s/it] 17%|█▋        | 8181/48845 [2:54:06<14:13:52,  1.26s/it] 17%|█▋        | 8182/48845 [2:54:07<14:13:28,  1.26s/it] 17%|█▋        | 8183/48845 [2:54:08<14:14:20,  1.26s/it] 17%|█▋        | 8184/48845 [2:54:10<14:13:43,  1.26s/it] 17%|█▋        | 8185/48845 [2:54:11<14:12:47,  1.26s/it]                                                         {'loss': 1.789, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8185/48845 [2:54:11<14:12:47,  1.26s/it] 17%|█▋        | 8186/48845 [2:54:12<14:12:57,  1.26s/it] 17%|█▋        | 8187/48845 [2:54:13<14:13:01,  1.26s/it] 17%|█▋        | 8188/48845 [2:54:15<14:13:41,  1.26s/it] 17%|█▋        | 8189/48845 [2:54:16<14:14:02,  1.26s/it] 17%|█▋        | 8190/48845 [2:54:17<14:14:02,  1.26s/it]                                                         {'loss': 1.5943, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8190/48845 [2:54:17<14:14:02,  1.26s/it] 17%|█▋        | 8191/48845 [2:54:19<14:14:26,  1.26s/it] 17%|█▋        | 8192/48845 [2:54:20<14:14:34,  1.26s/it] 17%|█▋        | 8193/48845 [2:54:21<14:14:24,  1.26s/it] 17%|█▋        | 8194/48845 [2:54:22<14:14:11,  1.26s/it] 17%|█▋        | 8195/48845 [2:54:24<14:16:31,  1.26s/it]                                                         {'loss': 1.7208, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8195/48845 [2:54:24<14:16:31,  1.26s/it] 17%|█▋        | 8196/48845 [2:54:25<14:16:04,  1.26s/it] 17%|█▋        | 8197/48845 [2:54:26<14:14:51,  1.26s/it] 17%|█▋        | 8198/48845 [2:54:27<14:15:50,  1.26s/it] 17%|█▋        | 8199/48845 [2:54:29<14:14:36,  1.26s/it] 17%|█▋        | 8200/48845 [2:54:30<14:13:42,  1.26s/it]                                                         {'loss': 1.706, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8200/48845 [2:54:30<14:13:42,  1.26s/it] 17%|█▋        | 8201/48845 [2:54:34<22:18:05,  1.98s/it] 17%|█▋        | 8202/48845 [2:54:35<19:52:47,  1.76s/it] 17%|█▋        | 8203/48845 [2:54:36<18:10:26,  1.61s/it] 17%|█▋        | 8204/48845 [2:54:37<16:59:46,  1.51s/it] 17%|█▋        | 8205/48845 [2:54:39<16:10:04,  1.43s/it]                                                         {'loss': 1.6915, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8205/48845 [2:54:39<16:10:04,  1.43s/it] 17%|█▋        | 8206/48845 [2:54:40<15:36:32,  1.38s/it] 17%|█▋        | 8207/48845 [2:54:41<15:11:20,  1.35s/it] 17%|█▋        | 8208/48845 [2:54:42<14:53:33,  1.32s/it] 17%|█▋        | 8209/48845 [2:54:44<14:40:41,  1.30s/it] 17%|█▋        | 8210/48845 [2:54:45<14:33:08,  1.29s/it]                                                         {'loss': 1.7361, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8210/48845 [2:54:45<14:33:08,  1.29s/it] 17%|█▋        | 8211/48845 [2:54:46<14:27:56,  1.28s/it] 17%|█▋        | 8212/48845 [2:54:47<14:22:50,  1.27s/it] 17%|█▋        | 8213/48845 [2:54:49<14:20:07,  1.27s/it] 17%|█▋        | 8214/48845 [2:54:50<14:18:25,  1.27s/it] 17%|█▋        | 8215/48845 [2:54:51<14:16:31,  1.26s/it]                                                         {'loss': 1.6535, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8215/48845 [2:54:51<14:16:31,  1.26s/it] 17%|█▋        | 8216/48845 [2:54:52<14:15:36,  1.26s/it] 17%|█▋        | 8217/48845 [2:54:54<14:14:36,  1.26s/it] 17%|█▋        | 8218/48845 [2:54:55<14:14:55,  1.26s/it] 17%|█▋        | 8219/48845 [2:54:56<14:13:52,  1.26s/it] 17%|█▋        | 8220/48845 [2:54:57<14:12:40,  1.26s/it]                                                         {'loss': 1.5844, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8220/48845 [2:54:57<14:12:40,  1.26s/it] 17%|█▋        | 8221/48845 [2:54:59<14:12:46,  1.26s/it] 17%|█▋        | 8222/48845 [2:55:00<14:37:07,  1.30s/it] 17%|█▋        | 8223/48845 [2:55:01<14:29:32,  1.28s/it] 17%|█▋        | 8224/48845 [2:55:03<14:25:08,  1.28s/it] 17%|█▋        | 8225/48845 [2:55:04<14:21:08,  1.27s/it]                                                         {'loss': 1.823, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8225/48845 [2:55:04<14:21:08,  1.27s/it] 17%|█▋        | 8226/48845 [2:55:05<14:18:38,  1.27s/it] 17%|█▋        | 8227/48845 [2:55:06<14:16:18,  1.26s/it] 17%|█▋        | 8228/48845 [2:55:08<14:14:05,  1.26s/it] 17%|█▋        | 8229/48845 [2:55:09<14:37:02,  1.30s/it] 17%|█▋        | 8230/48845 [2:55:10<14:28:56,  1.28s/it]                                                         {'loss': 1.802, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8230/48845 [2:55:10<14:28:56,  1.28s/it] 17%|█▋        | 8231/48845 [2:55:12<14:24:43,  1.28s/it] 17%|█▋        | 8232/48845 [2:55:13<14:20:43,  1.27s/it] 17%|█▋        | 8233/48845 [2:55:14<14:18:24,  1.27s/it] 17%|█▋        | 8234/48845 [2:55:15<14:16:49,  1.27s/it] 17%|█▋        | 8235/48845 [2:55:17<14:14:52,  1.26s/it]                                                         {'loss': 1.7513, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8235/48845 [2:55:17<14:14:52,  1.26s/it] 17%|█▋        | 8236/48845 [2:55:18<14:14:24,  1.26s/it] 17%|█▋        | 8237/48845 [2:55:19<14:13:25,  1.26s/it] 17%|█▋        | 8238/48845 [2:55:20<14:12:53,  1.26s/it] 17%|█▋        | 8239/48845 [2:55:22<14:13:00,  1.26s/it] 17%|█▋        | 8240/48845 [2:55:23<14:12:27,  1.26s/it]                                                         {'loss': 1.6609, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8240/48845 [2:55:23<14:12:27,  1.26s/it] 17%|█▋        | 8241/48845 [2:55:24<14:12:29,  1.26s/it] 17%|█▋        | 8242/48845 [2:55:25<14:12:40,  1.26s/it] 17%|█▋        | 8243/48845 [2:55:27<14:12:31,  1.26s/it] 17%|█▋        | 8244/48845 [2:55:28<14:12:34,  1.26s/it] 17%|█▋        | 8245/48845 [2:55:29<14:12:12,  1.26s/it]                                                         {'loss': 1.7447, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8245/48845 [2:55:29<14:12:12,  1.26s/it] 17%|█▋        | 8246/48845 [2:55:30<14:13:27,  1.26s/it] 17%|█▋        | 8247/48845 [2:55:32<14:13:22,  1.26s/it] 17%|█▋        | 8248/48845 [2:55:33<14:12:10,  1.26s/it] 17%|█▋        | 8249/48845 [2:55:34<14:12:29,  1.26s/it] 17%|█▋        | 8250/48845 [2:55:35<14:11:51,  1.26s/it]                                                         {'loss': 1.5977, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.84}
+ 17%|█▋        | 8250/48845 [2:55:35<14:11:51,  1.26s/it] 17%|█▋        | 8251/48845 [2:55:37<14:12:07,  1.26s/it] 17%|█▋        | 8252/48845 [2:55:38<14:11:56,  1.26s/it] 17%|█▋        | 8253/48845 [2:55:39<14:11:59,  1.26s/it] 17%|█▋        | 8254/48845 [2:55:41<14:11:51,  1.26s/it] 17%|█▋        | 8255/48845 [2:55:42<14:12:25,  1.26s/it]                                                         {'loss': 1.7131, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8255/48845 [2:55:42<14:12:25,  1.26s/it] 17%|█▋        | 8256/48845 [2:55:43<14:12:15,  1.26s/it] 17%|█▋        | 8257/48845 [2:55:44<14:11:55,  1.26s/it] 17%|█▋        | 8258/48845 [2:55:46<14:11:55,  1.26s/it] 17%|█▋        | 8259/48845 [2:55:47<14:13:11,  1.26s/it] 17%|█▋        | 8260/48845 [2:55:48<14:12:55,  1.26s/it]                                                         {'loss': 1.6591, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8260/48845 [2:55:48<14:12:55,  1.26s/it] 17%|█▋        | 8261/48845 [2:55:49<14:13:08,  1.26s/it] 17%|█▋        | 8262/48845 [2:55:51<14:13:33,  1.26s/it] 17%|█▋        | 8263/48845 [2:55:52<14:13:22,  1.26s/it] 17%|█▋        | 8264/48845 [2:55:53<14:13:15,  1.26s/it] 17%|█▋        | 8265/48845 [2:55:54<14:12:40,  1.26s/it]                                                         {'loss': 1.7504, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8265/48845 [2:55:54<14:12:40,  1.26s/it] 17%|█▋        | 8266/48845 [2:55:56<14:12:21,  1.26s/it] 17%|█▋        | 8267/48845 [2:55:57<14:12:48,  1.26s/it] 17%|█▋        | 8268/48845 [2:55:58<14:12:23,  1.26s/it] 17%|█▋        | 8269/48845 [2:55:59<14:11:39,  1.26s/it] 17%|█▋        | 8270/48845 [2:56:01<14:11:24,  1.26s/it]                                                         {'loss': 1.8005, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8270/48845 [2:56:01<14:11:24,  1.26s/it] 17%|█▋        | 8271/48845 [2:56:02<14:12:06,  1.26s/it] 17%|█▋        | 8272/48845 [2:56:03<14:12:53,  1.26s/it] 17%|█▋        | 8273/48845 [2:56:04<14:12:15,  1.26s/it] 17%|█▋        | 8274/48845 [2:56:06<14:13:19,  1.26s/it] 17%|█▋        | 8275/48845 [2:56:07<14:12:58,  1.26s/it]                                                         {'loss': 1.7327, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8275/48845 [2:56:07<14:12:58,  1.26s/it] 17%|█▋        | 8276/48845 [2:56:08<14:12:48,  1.26s/it] 17%|█▋        | 8277/48845 [2:56:10<14:12:36,  1.26s/it] 17%|█▋        | 8278/48845 [2:56:11<14:12:19,  1.26s/it] 17%|█▋        | 8279/48845 [2:56:12<14:12:09,  1.26s/it] 17%|█▋        | 8280/48845 [2:56:13<14:11:26,  1.26s/it]                                                         {'loss': 1.6244, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8280/48845 [2:56:13<14:11:26,  1.26s/it] 17%|█▋        | 8281/48845 [2:56:15<14:10:28,  1.26s/it] 17%|█▋        | 8282/48845 [2:56:16<14:11:05,  1.26s/it] 17%|█▋        | 8283/48845 [2:56:17<14:10:40,  1.26s/it] 17%|█▋        | 8284/48845 [2:56:18<14:12:29,  1.26s/it] 17%|█▋        | 8285/48845 [2:56:20<14:12:04,  1.26s/it]                                                         {'loss': 1.6875, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8285/48845 [2:56:20<14:12:04,  1.26s/it] 17%|█▋        | 8286/48845 [2:56:21<14:12:21,  1.26s/it] 17%|█▋        | 8287/48845 [2:56:22<14:12:45,  1.26s/it] 17%|█▋        | 8288/48845 [2:56:23<14:12:50,  1.26s/it] 17%|█▋        | 8289/48845 [2:56:25<14:13:09,  1.26s/it] 17%|█▋        | 8290/48845 [2:56:26<14:13:44,  1.26s/it]                                                         {'loss': 1.8935, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8290/48845 [2:56:26<14:13:44,  1.26s/it] 17%|█▋        | 8291/48845 [2:56:27<14:13:23,  1.26s/it] 17%|█▋        | 8292/48845 [2:56:28<14:12:23,  1.26s/it] 17%|█▋        | 8293/48845 [2:56:30<14:11:56,  1.26s/it] 17%|█▋        | 8294/48845 [2:56:31<14:11:46,  1.26s/it] 17%|█▋        | 8295/48845 [2:56:32<14:11:33,  1.26s/it]                                                         {'loss': 1.7282, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8295/48845 [2:56:32<14:11:33,  1.26s/it] 17%|█▋        | 8296/48845 [2:56:33<14:10:46,  1.26s/it] 17%|█▋        | 8297/48845 [2:56:35<14:11:11,  1.26s/it] 17%|█▋        | 8298/48845 [2:56:36<14:10:38,  1.26s/it] 17%|█▋        | 8299/48845 [2:56:37<14:10:31,  1.26s/it] 17%|█▋        | 8300/48845 [2:56:38<14:11:39,  1.26s/it]                                                         {'loss': 1.8405, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8300/48845 [2:56:38<14:11:39,  1.26s/it] 17%|█▋        | 8301/48845 [2:56:40<14:11:31,  1.26s/it] 17%|█▋        | 8302/48845 [2:56:41<14:12:11,  1.26s/it] 17%|█▋        | 8303/48845 [2:56:42<14:11:28,  1.26s/it] 17%|█▋        | 8304/48845 [2:56:44<14:11:12,  1.26s/it] 17%|█▋        | 8305/48845 [2:56:45<14:11:11,  1.26s/it]                                                         {'loss': 1.6158, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8305/48845 [2:56:45<14:11:11,  1.26s/it] 17%|█▋        | 8306/48845 [2:56:46<14:10:17,  1.26s/it] 17%|█▋        | 8307/48845 [2:56:47<14:11:19,  1.26s/it] 17%|█▋        | 8308/48845 [2:56:49<14:12:01,  1.26s/it] 17%|█▋        | 8309/48845 [2:56:50<14:12:17,  1.26s/it] 17%|█▋        | 8310/48845 [2:56:51<14:11:50,  1.26s/it]                                                         {'loss': 1.729, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8310/48845 [2:56:51<14:11:50,  1.26s/it] 17%|█▋        | 8311/48845 [2:56:52<14:12:14,  1.26s/it] 17%|█▋        | 8312/48845 [2:56:54<14:11:57,  1.26s/it] 17%|█▋        | 8313/48845 [2:56:55<14:12:31,  1.26s/it] 17%|█▋        | 8314/48845 [2:56:56<14:11:57,  1.26s/it] 17%|█▋        | 8315/48845 [2:56:57<14:11:36,  1.26s/it]                                                         {'loss': 1.6865, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8315/48845 [2:56:57<14:11:36,  1.26s/it] 17%|█▋        | 8316/48845 [2:56:59<14:11:30,  1.26s/it] 17%|█▋        | 8317/48845 [2:57:00<14:11:02,  1.26s/it] 17%|█▋        | 8318/48845 [2:57:01<14:11:17,  1.26s/it] 17%|█▋        | 8319/48845 [2:57:02<14:11:03,  1.26s/it] 17%|█▋        | 8320/48845 [2:57:04<14:11:05,  1.26s/it]                                                         {'loss': 1.6762, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8320/48845 [2:57:04<14:11:05,  1.26s/it] 17%|█▋        | 8321/48845 [2:57:05<14:11:02,  1.26s/it] 17%|█▋        | 8322/48845 [2:57:06<14:11:09,  1.26s/it] 17%|█▋        | 8323/48845 [2:57:07<14:11:15,  1.26s/it] 17%|█▋        | 8324/48845 [2:57:09<14:10:48,  1.26s/it] 17%|█▋        | 8325/48845 [2:57:10<14:10:46,  1.26s/it]                                                         {'loss': 1.7741, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8325/48845 [2:57:10<14:10:46,  1.26s/it] 17%|█▋        | 8326/48845 [2:57:11<14:09:49,  1.26s/it] 17%|█▋        | 8327/48845 [2:57:13<14:09:45,  1.26s/it] 17%|█▋        | 8328/48845 [2:57:14<14:10:14,  1.26s/it] 17%|█▋        | 8329/48845 [2:57:15<14:10:39,  1.26s/it] 17%|█▋        | 8330/48845 [2:57:16<14:10:46,  1.26s/it]                                                         {'loss': 1.9634, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8330/48845 [2:57:16<14:10:46,  1.26s/it] 17%|█▋        | 8331/48845 [2:57:18<14:10:33,  1.26s/it] 17%|█▋        | 8332/48845 [2:57:19<14:10:10,  1.26s/it] 17%|█▋        | 8333/48845 [2:57:20<14:10:27,  1.26s/it] 17%|█▋        | 8334/48845 [2:57:21<14:10:25,  1.26s/it] 17%|█▋        | 8335/48845 [2:57:23<14:10:01,  1.26s/it]                                                         {'loss': 1.666, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8335/48845 [2:57:23<14:10:01,  1.26s/it] 17%|█▋        | 8336/48845 [2:57:24<14:10:16,  1.26s/it] 17%|█▋        | 8337/48845 [2:57:25<14:10:02,  1.26s/it] 17%|█▋        | 8338/48845 [2:57:26<14:10:31,  1.26s/it] 17%|█▋        | 8339/48845 [2:57:28<14:12:57,  1.26s/it] 17%|█▋        | 8340/48845 [2:57:29<14:11:59,  1.26s/it]                                                         {'loss': 1.6979, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8340/48845 [2:57:29<14:11:59,  1.26s/it] 17%|█▋        | 8341/48845 [2:57:30<14:12:47,  1.26s/it] 17%|█▋        | 8342/48845 [2:57:31<14:11:58,  1.26s/it] 17%|█▋        | 8343/48845 [2:57:33<14:11:39,  1.26s/it] 17%|█▋        | 8344/48845 [2:57:34<14:11:15,  1.26s/it] 17%|█▋        | 8345/48845 [2:57:35<14:10:41,  1.26s/it]                                                         {'loss': 1.5945, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8345/48845 [2:57:35<14:10:41,  1.26s/it] 17%|█▋        | 8346/48845 [2:57:36<14:10:40,  1.26s/it] 17%|█▋        | 8347/48845 [2:57:38<14:10:42,  1.26s/it] 17%|█▋        | 8348/48845 [2:57:39<14:10:36,  1.26s/it] 17%|█▋        | 8349/48845 [2:57:40<14:11:10,  1.26s/it] 17%|█▋        | 8350/48845 [2:57:42<14:09:51,  1.26s/it]                                                         {'loss': 1.8013, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.85}
+ 17%|█▋        | 8350/48845 [2:57:42<14:09:51,  1.26s/it] 17%|█▋        | 8351/48845 [2:57:43<14:10:21,  1.26s/it] 17%|█▋        | 8352/48845 [2:57:44<14:10:02,  1.26s/it] 17%|█▋        | 8353/48845 [2:57:45<14:09:41,  1.26s/it] 17%|█▋        | 8354/48845 [2:57:47<14:09:40,  1.26s/it] 17%|█▋        | 8355/48845 [2:57:48<14:09:38,  1.26s/it]                                                         {'loss': 1.7307, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8355/48845 [2:57:48<14:09:38,  1.26s/it] 17%|█▋        | 8356/48845 [2:57:49<14:10:32,  1.26s/it] 17%|█▋        | 8357/48845 [2:57:50<14:09:56,  1.26s/it] 17%|█▋        | 8358/48845 [2:57:52<14:09:42,  1.26s/it] 17%|█▋        | 8359/48845 [2:57:53<14:09:12,  1.26s/it] 17%|█▋        | 8360/48845 [2:57:54<14:09:29,  1.26s/it]                                                         {'loss': 1.9745, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8360/48845 [2:57:54<14:09:29,  1.26s/it] 17%|█▋        | 8361/48845 [2:57:55<14:10:50,  1.26s/it] 17%|█▋        | 8362/48845 [2:57:57<14:10:42,  1.26s/it] 17%|█▋        | 8363/48845 [2:57:58<14:10:44,  1.26s/it] 17%|█▋        | 8364/48845 [2:57:59<14:09:55,  1.26s/it] 17%|█▋        | 8365/48845 [2:58:00<14:10:01,  1.26s/it]                                                         {'loss': 1.6364, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8365/48845 [2:58:00<14:10:01,  1.26s/it] 17%|█▋        | 8366/48845 [2:58:02<14:10:03,  1.26s/it] 17%|█▋        | 8367/48845 [2:58:03<14:09:59,  1.26s/it] 17%|█▋        | 8368/48845 [2:58:04<14:09:59,  1.26s/it] 17%|█▋        | 8369/48845 [2:58:05<14:10:01,  1.26s/it] 17%|█▋        | 8370/48845 [2:58:07<14:09:27,  1.26s/it]                                                         {'loss': 1.6481, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8370/48845 [2:58:07<14:09:27,  1.26s/it] 17%|█▋        | 8371/48845 [2:58:08<14:09:40,  1.26s/it] 17%|█▋        | 8372/48845 [2:58:09<14:09:10,  1.26s/it] 17%|█▋        | 8373/48845 [2:58:10<14:09:55,  1.26s/it] 17%|█▋        | 8374/48845 [2:58:12<14:08:53,  1.26s/it] 17%|█▋        | 8375/48845 [2:58:13<14:08:32,  1.26s/it]                                                         {'loss': 1.8163, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8375/48845 [2:58:13<14:08:32,  1.26s/it] 17%|█▋        | 8376/48845 [2:58:14<14:09:52,  1.26s/it] 17%|█▋        | 8377/48845 [2:58:16<14:09:11,  1.26s/it] 17%|█▋        | 8378/48845 [2:58:17<14:09:58,  1.26s/it] 17%|█▋        | 8379/48845 [2:58:18<14:09:22,  1.26s/it] 17%|█▋        | 8380/48845 [2:58:19<14:09:55,  1.26s/it]                                                         {'loss': 1.6236, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8380/48845 [2:58:19<14:09:55,  1.26s/it] 17%|█▋        | 8381/48845 [2:58:21<14:11:10,  1.26s/it] 17%|█▋        | 8382/48845 [2:58:22<14:10:15,  1.26s/it] 17%|█▋        | 8383/48845 [2:58:23<14:10:19,  1.26s/it] 17%|█▋        | 8384/48845 [2:58:24<14:10:27,  1.26s/it] 17%|█▋        | 8385/48845 [2:58:26<14:09:28,  1.26s/it]                                                         {'loss': 1.6739, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8385/48845 [2:58:26<14:09:28,  1.26s/it] 17%|█▋        | 8386/48845 [2:58:27<14:10:05,  1.26s/it] 17%|█▋        | 8387/48845 [2:58:28<14:10:05,  1.26s/it] 17%|█▋        | 8388/48845 [2:58:29<14:09:38,  1.26s/it] 17%|█▋        | 8389/48845 [2:58:31<14:09:13,  1.26s/it] 17%|█▋        | 8390/48845 [2:58:32<14:09:10,  1.26s/it]                                                         {'loss': 1.6226, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8390/48845 [2:58:32<14:09:10,  1.26s/it] 17%|█▋        | 8391/48845 [2:58:33<14:09:18,  1.26s/it] 17%|█▋        | 8392/48845 [2:58:34<14:09:07,  1.26s/it] 17%|█▋        | 8393/48845 [2:58:36<14:09:18,  1.26s/it] 17%|█▋        | 8394/48845 [2:58:37<14:08:29,  1.26s/it] 17%|█▋        | 8395/48845 [2:58:38<14:09:02,  1.26s/it]                                                         {'loss': 1.7821, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8395/48845 [2:58:38<14:09:02,  1.26s/it] 17%|█▋        | 8396/48845 [2:58:39<14:09:47,  1.26s/it] 17%|█▋        | 8397/48845 [2:58:41<14:09:35,  1.26s/it] 17%|█▋        | 8398/48845 [2:58:42<14:10:02,  1.26s/it] 17%|█▋        | 8399/48845 [2:58:43<14:10:16,  1.26s/it] 17%|█▋        | 8400/48845 [2:58:44<14:09:48,  1.26s/it]                                                         {'loss': 1.8966, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8400/48845 [2:58:44<14:09:48,  1.26s/it] 17%|█▋        | 8401/48845 [2:58:48<22:11:44,  1.98s/it] 17%|█▋        | 8402/48845 [2:58:49<19:46:23,  1.76s/it] 17%|█▋        | 8403/48845 [2:58:51<18:04:37,  1.61s/it] 17%|█▋        | 8404/48845 [2:58:52<16:53:42,  1.50s/it] 17%|█▋        | 8405/48845 [2:58:53<16:03:53,  1.43s/it]                                                         {'loss': 1.7916, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8405/48845 [2:58:53<16:03:53,  1.43s/it] 17%|█▋        | 8406/48845 [2:58:54<15:29:24,  1.38s/it] 17%|█▋        | 8407/48845 [2:58:56<15:05:10,  1.34s/it] 17%|█▋        | 8408/48845 [2:58:57<14:49:13,  1.32s/it] 17%|█▋        | 8409/48845 [2:58:58<14:37:23,  1.30s/it] 17%|█▋        | 8410/48845 [2:58:59<14:28:45,  1.29s/it]                                                         {'loss': 1.8211, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8410/48845 [2:58:59<14:28:45,  1.29s/it] 17%|█▋        | 8411/48845 [2:59:01<14:22:57,  1.28s/it] 17%|█▋        | 8412/48845 [2:59:02<14:17:46,  1.27s/it] 17%|█▋        | 8413/48845 [2:59:03<14:15:06,  1.27s/it] 17%|█▋        | 8414/48845 [2:59:05<14:13:01,  1.27s/it] 17%|█▋        | 8415/48845 [2:59:06<14:11:38,  1.26s/it]                                                         {'loss': 1.861, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8415/48845 [2:59:06<14:11:38,  1.26s/it] 17%|█▋        | 8416/48845 [2:59:07<14:11:33,  1.26s/it] 17%|█▋        | 8417/48845 [2:59:08<14:10:44,  1.26s/it] 17%|█▋        | 8418/48845 [2:59:10<14:10:05,  1.26s/it] 17%|���▋        | 8419/48845 [2:59:11<14:09:22,  1.26s/it] 17%|█▋        | 8420/48845 [2:59:12<14:08:41,  1.26s/it]                                                         {'loss': 1.7997, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8420/48845 [2:59:12<14:08:41,  1.26s/it] 17%|█▋        | 8421/48845 [2:59:13<14:08:51,  1.26s/it] 17%|█▋        | 8422/48845 [2:59:15<14:08:17,  1.26s/it] 17%|█▋        | 8423/48845 [2:59:16<14:08:01,  1.26s/it] 17%|█▋        | 8424/48845 [2:59:17<14:08:22,  1.26s/it] 17%|█▋        | 8425/48845 [2:59:18<14:08:13,  1.26s/it]                                                         {'loss': 1.7501, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8425/48845 [2:59:18<14:08:13,  1.26s/it] 17%|█▋        | 8426/48845 [2:59:20<14:09:24,  1.26s/it] 17%|█▋        | 8427/48845 [2:59:21<14:09:26,  1.26s/it] 17%|█▋        | 8428/48845 [2:59:22<14:09:06,  1.26s/it] 17%|█▋        | 8429/48845 [2:59:23<14:08:49,  1.26s/it] 17%|█▋        | 8430/48845 [2:59:25<14:08:48,  1.26s/it]                                                         {'loss': 1.6419, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8430/48845 [2:59:25<14:08:48,  1.26s/it] 17%|█▋        | 8431/48845 [2:59:26<14:09:44,  1.26s/it] 17%|█▋        | 8432/48845 [2:59:27<14:09:08,  1.26s/it] 17%|█▋        | 8433/48845 [2:59:28<14:09:06,  1.26s/it] 17%|█▋        | 8434/48845 [2:59:30<14:08:14,  1.26s/it] 17%|█▋        | 8435/48845 [2:59:31<14:08:20,  1.26s/it]                                                         {'loss': 1.7207, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8435/48845 [2:59:31<14:08:20,  1.26s/it] 17%|█▋        | 8436/48845 [2:59:32<14:08:40,  1.26s/it] 17%|█▋        | 8437/48845 [2:59:33<14:08:10,  1.26s/it] 17%|█▋        | 8438/48845 [2:59:35<14:09:52,  1.26s/it] 17%|█▋        | 8439/48845 [2:59:36<14:09:56,  1.26s/it] 17%|█▋        | 8440/48845 [2:59:37<14:09:55,  1.26s/it]                                                         {'loss': 1.7221, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8440/48845 [2:59:37<14:09:55,  1.26s/it] 17%|█▋        | 8441/48845 [2:59:39<14:09:57,  1.26s/it] 17%|█▋        | 8442/48845 [2:59:40<14:09:40,  1.26s/it] 17%|█▋        | 8443/48845 [2:59:41<14:13:09,  1.27s/it] 17%|█▋        | 8444/48845 [2:59:42<14:11:46,  1.26s/it] 17%|█▋        | 8445/48845 [2:59:44<14:10:57,  1.26s/it]                                                         {'loss': 1.7654, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8445/48845 [2:59:44<14:10:57,  1.26s/it] 17%|█▋        | 8446/48845 [2:59:45<14:10:31,  1.26s/it] 17%|█▋        | 8447/48845 [2:59:46<14:10:48,  1.26s/it] 17%|█▋        | 8448/48845 [2:59:47<14:09:34,  1.26s/it] 17%|█▋        | 8449/48845 [2:59:49<14:09:41,  1.26s/it] 17%|█▋        | 8450/48845 [2:59:50<14:10:34,  1.26s/it]                                                         {'loss': 1.8352, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.86}
+ 17%|█▋        | 8450/48845 [2:59:50<14:10:34,  1.26s/it] 17%|█▋        | 8451/48845 [2:59:51<14:09:44,  1.26s/it] 17%|█▋        | 8452/48845 [2:59:52<14:10:00,  1.26s/it] 17%|█▋        | 8453/48845 [2:59:54<14:09:28,  1.26s/it] 17%|█▋        | 8454/48845 [2:59:55<14:09:25,  1.26s/it] 17%|█▋        | 8455/48845 [2:59:56<14:09:51,  1.26s/it]                                                         {'loss': 1.649, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8455/48845 [2:59:56<14:09:51,  1.26s/it] 17%|█▋        | 8456/48845 [2:59:57<14:09:35,  1.26s/it] 17%|█▋        | 8457/48845 [2:59:59<14:08:46,  1.26s/it] 17%|█▋        | 8458/48845 [3:00:00<14:08:52,  1.26s/it] 17%|█▋        | 8459/48845 [3:00:01<14:08:30,  1.26s/it] 17%|█▋        | 8460/48845 [3:00:03<14:08:16,  1.26s/it]                                                         {'loss': 1.6438, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8460/48845 [3:00:03<14:08:16,  1.26s/it] 17%|█▋        | 8461/48845 [3:00:04<14:07:47,  1.26s/it] 17%|█▋        | 8462/48845 [3:00:05<14:06:46,  1.26s/it] 17%|█▋        | 8463/48845 [3:00:06<14:07:12,  1.26s/it] 17%|█▋        | 8464/48845 [3:00:08<14:07:10,  1.26s/it] 17%|█▋        | 8465/48845 [3:00:09<14:08:01,  1.26s/it]                                                         {'loss': 1.6623, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8465/48845 [3:00:09<14:08:01,  1.26s/it] 17%|█▋        | 8466/48845 [3:00:10<14:08:00,  1.26s/it] 17%|█▋        | 8467/48845 [3:00:11<14:09:06,  1.26s/it] 17%|█▋        | 8468/48845 [3:00:13<14:09:15,  1.26s/it] 17%|█▋        | 8469/48845 [3:00:14<14:09:06,  1.26s/it] 17%|█▋        | 8470/48845 [3:00:15<14:08:29,  1.26s/it]                                                         {'loss': 1.7557, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8470/48845 [3:00:15<14:08:29,  1.26s/it] 17%|█▋        | 8471/48845 [3:00:16<14:08:05,  1.26s/it] 17%|█▋        | 8472/48845 [3:00:18<14:07:21,  1.26s/it] 17%|█▋        | 8473/48845 [3:00:19<14:07:13,  1.26s/it] 17%|█▋        | 8474/48845 [3:00:20<14:07:02,  1.26s/it] 17%|█▋        | 8475/48845 [3:00:21<14:07:22,  1.26s/it]                                                         {'loss': 1.6335, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8475/48845 [3:00:21<14:07:22,  1.26s/it] 17%|█▋        | 8476/48845 [3:00:23<14:07:35,  1.26s/it] 17%|█▋        | 8477/48845 [3:00:24<14:08:44,  1.26s/it] 17%|█▋        | 8478/48845 [3:00:25<14:08:42,  1.26s/it] 17%|█▋        | 8479/48845 [3:00:26<14:09:22,  1.26s/it] 17%|█▋        | 8480/48845 [3:00:28<14:09:46,  1.26s/it]                                                         {'loss': 1.6879, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8480/48845 [3:00:28<14:09:46,  1.26s/it] 17%|█▋        | 8481/48845 [3:00:29<14:08:36,  1.26s/it] 17%|█▋        | 8482/48845 [3:00:30<14:07:41,  1.26s/it] 17%|█▋        | 8483/48845 [3:00:32<14:07:12,  1.26s/it] 17%|█▋        | 8484/48845 [3:00:33<14:06:50,  1.26s/it] 17%|█▋        | 8485/48845 [3:00:34<14:06:20,  1.26s/it]                                                         {'loss': 1.7756, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8485/48845 [3:00:34<14:06:20,  1.26s/it] 17%|█▋        | 8486/48845 [3:00:35<14:06:29,  1.26s/it] 17%|█▋        | 8487/48845 [3:00:37<14:06:31,  1.26s/it] 17%|█▋        | 8488/48845 [3:00:38<14:07:17,  1.26s/it] 17%|█▋        | 8489/48845 [3:00:39<14:07:41,  1.26s/it] 17%|█▋        | 8490/48845 [3:00:40<14:07:46,  1.26s/it]                                                         {'loss': 1.7734, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8490/48845 [3:00:40<14:07:46,  1.26s/it] 17%|█▋        | 8491/48845 [3:00:42<14:07:10,  1.26s/it] 17%|█▋        | 8492/48845 [3:00:43<14:08:08,  1.26s/it] 17%|█▋        | 8493/48845 [3:00:44<14:08:11,  1.26s/it] 17%|█▋        | 8494/48845 [3:00:45<14:07:05,  1.26s/it] 17%|█▋        | 8495/48845 [3:00:47<14:07:11,  1.26s/it]                                                         {'loss': 1.7309, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8495/48845 [3:00:47<14:07:11,  1.26s/it] 17%|█▋        | 8496/48845 [3:00:48<14:07:51,  1.26s/it] 17%|█▋        | 8497/48845 [3:00:49<14:07:08,  1.26s/it] 17%|█▋        | 8498/48845 [3:00:50<14:07:23,  1.26s/it] 17%|█▋        | 8499/48845 [3:00:52<14:06:39,  1.26s/it] 17%|█▋        | 8500/48845 [3:00:53<14:06:34,  1.26s/it]                                                         {'loss': 1.6784, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8500/48845 [3:00:53<14:06:34,  1.26s/it] 17%|█▋        | 8501/48845 [3:00:54<14:06:40,  1.26s/it] 17%|█▋        | 8502/48845 [3:00:55<14:06:54,  1.26s/it] 17%|█▋        | 8503/48845 [3:00:57<14:07:11,  1.26s/it] 17%|█▋        | 8504/48845 [3:00:58<14:07:46,  1.26s/it] 17%|█▋        | 8505/48845 [3:00:59<14:07:55,  1.26s/it]                                                         {'loss': 1.7015, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8505/48845 [3:00:59<14:07:55,  1.26s/it] 17%|█▋        | 8506/48845 [3:01:00<14:08:50,  1.26s/it] 17%|█▋        | 8507/48845 [3:01:02<14:08:11,  1.26s/it] 17%|█▋        | 8508/48845 [3:01:03<14:07:59,  1.26s/it] 17%|█▋        | 8509/48845 [3:01:04<14:06:59,  1.26s/it] 17%|█▋        | 8510/48845 [3:01:06<14:07:45,  1.26s/it]                                                         {'loss': 1.7747, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8510/48845 [3:01:06<14:07:45,  1.26s/it] 17%|█▋        | 8511/48845 [3:01:07<14:08:39,  1.26s/it] 17%|█▋        | 8512/48845 [3:01:08<14:08:30,  1.26s/it] 17%|█▋        | 8513/48845 [3:01:09<14:07:50,  1.26s/it] 17%|█▋        | 8514/48845 [3:01:11<14:07:50,  1.26s/it] 17%|█▋        | 8515/48845 [3:01:12<14:07:33,  1.26s/it]                                                         {'loss': 1.7202, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8515/48845 [3:01:12<14:07:33,  1.26s/it] 17%|█▋        | 8516/48845 [3:01:13<14:07:35,  1.26s/it] 17%|█▋        | 8517/48845 [3:01:14<14:06:58,  1.26s/it] 17%|█▋        | 8518/48845 [3:01:16<14:06:55,  1.26s/it] 17%|█▋        | 8519/48845 [3:01:17<14:06:15,  1.26s/it] 17%|█▋        | 8520/48845 [3:01:18<14:06:54,  1.26s/it]                                                         {'loss': 1.9183, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8520/48845 [3:01:18<14:06:54,  1.26s/it] 17%|█▋        | 8521/48845 [3:01:19<14:08:08,  1.26s/it] 17%|█▋        | 8522/48845 [3:01:21<14:07:32,  1.26s/it] 17%|█▋        | 8523/48845 [3:01:22<14:06:47,  1.26s/it] 17%|█▋        | 8524/48845 [3:01:23<14:10:38,  1.27s/it] 17%|█▋        | 8525/48845 [3:01:24<14:11:19,  1.27s/it]                                                         {'loss': 1.6754, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8525/48845 [3:01:24<14:11:19,  1.27s/it] 17%|█▋        | 8526/48845 [3:01:26<14:09:53,  1.26s/it] 17%|█▋        | 8527/48845 [3:01:27<14:09:59,  1.26s/it] 17%|█▋        | 8528/48845 [3:01:28<14:09:17,  1.26s/it] 17%|█▋        | 8529/48845 [3:01:30<14:09:03,  1.26s/it] 17%|█▋        | 8530/48845 [3:01:31<14:08:52,  1.26s/it]                                                         {'loss': 1.8117, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8530/48845 [3:01:31<14:08:52,  1.26s/it] 17%|█▋        | 8531/48845 [3:01:32<14:07:58,  1.26s/it] 17%|█▋        | 8532/48845 [3:01:33<14:06:38,  1.26s/it] 17%|█▋        | 8533/48845 [3:01:35<14:06:45,  1.26s/it] 17%|█▋        | 8534/48845 [3:01:36<14:07:02,  1.26s/it] 17%|█▋        | 8535/48845 [3:01:37<14:06:55,  1.26s/it]                                                         {'loss': 1.6478, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8535/48845 [3:01:37<14:06:55,  1.26s/it] 17%|█▋        | 8536/48845 [3:01:38<14:06:32,  1.26s/it] 17%|█▋        | 8537/48845 [3:01:40<14:06:46,  1.26s/it] 17%|█▋        | 8538/48845 [3:01:41<14:06:15,  1.26s/it] 17%|█▋        | 8539/48845 [3:01:42<14:05:53,  1.26s/it] 17%|█▋        | 8540/48845 [3:01:43<14:06:23,  1.26s/it]                                                         {'loss': 1.7575, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8540/48845 [3:01:43<14:06:23,  1.26s/it] 17%|█▋        | 8541/48845 [3:01:45<14:06:28,  1.26s/it] 17%|█▋        | 8542/48845 [3:01:46<14:05:54,  1.26s/it] 17%|█▋        | 8543/48845 [3:01:47<14:05:32,  1.26s/it] 17%|█▋        | 8544/48845 [3:01:48<14:05:35,  1.26s/it] 17%|█▋        | 8545/48845 [3:01:50<14:06:09,  1.26s/it]                                                         {'loss': 1.7582, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.87}
+ 17%|█▋        | 8545/48845 [3:01:50<14:06:09,  1.26s/it] 17%|█▋        | 8546/48845 [3:01:51<14:06:14,  1.26s/it] 17%|█▋        | 8547/48845 [3:01:52<14:05:30,  1.26s/it] 18%|█▊        | 8548/48845 [3:01:53<14:05:40,  1.26s/it] 18%|█▊        | 8549/48845 [3:01:55<14:05:45,  1.26s/it] 18%|█▊        | 8550/48845 [3:01:56<14:05:58,  1.26s/it]                                                         {'loss': 1.6984, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8550/48845 [3:01:56<14:05:58,  1.26s/it] 18%|█▊        | 8551/48845 [3:01:57<14:06:07,  1.26s/it] 18%|█▊        | 8552/48845 [3:01:58<14:06:33,  1.26s/it] 18%|█▊        | 8553/48845 [3:02:00<14:06:38,  1.26s/it] 18%|█▊        | 8554/48845 [3:02:01<14:06:29,  1.26s/it] 18%|█▊        | 8555/48845 [3:02:02<14:06:21,  1.26s/it]                                                         {'loss': 1.685, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8555/48845 [3:02:02<14:06:21,  1.26s/it] 18%|█▊        | 8556/48845 [3:02:04<14:06:19,  1.26s/it] 18%|█▊        | 8557/48845 [3:02:05<14:06:44,  1.26s/it] 18%|█▊        | 8558/48845 [3:02:06<14:05:28,  1.26s/it] 18%|█▊        | 8559/48845 [3:02:07<14:05:07,  1.26s/it] 18%|█▊        | 8560/48845 [3:02:09<14:06:06,  1.26s/it]                                                         {'loss': 1.8422, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8560/48845 [3:02:09<14:06:06,  1.26s/it] 18%|█▊        | 8561/48845 [3:02:10<14:06:04,  1.26s/it] 18%|█▊        | 8562/48845 [3:02:11<14:06:18,  1.26s/it] 18%|█▊        | 8563/48845 [3:02:12<14:05:22,  1.26s/it] 18%|█▊        | 8564/48845 [3:02:14<14:05:26,  1.26s/it] 18%|█▊        | 8565/48845 [3:02:15<14:05:45,  1.26s/it]                                                         {'loss': 1.6677, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8565/48845 [3:02:15<14:05:45,  1.26s/it] 18%|█▊        | 8566/48845 [3:02:16<14:05:33,  1.26s/it] 18%|█▊        | 8567/48845 [3:02:17<14:04:46,  1.26s/it] 18%|█▊        | 8568/48845 [3:02:19<14:04:33,  1.26s/it] 18%|█▊        | 8569/48845 [3:02:20<14:04:00,  1.26s/it] 18%|█▊        | 8570/48845 [3:02:21<14:04:52,  1.26s/it]                                                         {'loss': 1.5712, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8570/48845 [3:02:21<14:04:52,  1.26s/it] 18%|█▊        | 8571/48845 [3:02:22<14:05:18,  1.26s/it] 18%|█▊        | 8572/48845 [3:02:24<14:05:11,  1.26s/it] 18%|█▊        | 8573/48845 [3:02:25<14:05:21,  1.26s/it] 18%|█▊        | 8574/48845 [3:02:26<14:05:05,  1.26s/it] 18%|█▊        | 8575/48845 [3:02:27<14:05:32,  1.26s/it]                                                         {'loss': 1.7669, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8575/48845 [3:02:27<14:05:32,  1.26s/it] 18%|█▊        | 8576/48845 [3:02:29<14:05:26,  1.26s/it] 18%|█▊        | 8577/48845 [3:02:30<14:05:35,  1.26s/it] 18%|█▊        | 8578/48845 [3:02:31<14:05:14,  1.26s/it] 18%|█▊        | 8579/48845 [3:02:33<14:05:01,  1.26s/it] 18%|█▊        | 8580/48845 [3:02:34<14:06:01,  1.26s/it]                                                         {'loss': 1.6946, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8580/48845 [3:02:34<14:06:01,  1.26s/it] 18%|█▊        | 8581/48845 [3:02:35<14:05:13,  1.26s/it] 18%|█▊        | 8582/48845 [3:02:36<14:05:41,  1.26s/it] 18%|█▊        | 8583/48845 [3:02:38<14:05:10,  1.26s/it] 18%|█▊        | 8584/48845 [3:02:39<14:04:52,  1.26s/it] 18%|█▊        | 8585/48845 [3:02:40<14:05:26,  1.26s/it]                                                         {'loss': 1.6785, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8585/48845 [3:02:40<14:05:26,  1.26s/it] 18%|█▊        | 8586/48845 [3:02:41<14:05:59,  1.26s/it] 18%|█▊        | 8587/48845 [3:02:43<14:05:20,  1.26s/it] 18%|█▊        | 8588/48845 [3:02:44<14:05:32,  1.26s/it] 18%|█▊        | 8589/48845 [3:02:45<14:05:55,  1.26s/it] 18%|█▊        | 8590/48845 [3:02:46<14:06:48,  1.26s/it]                                                         {'loss': 1.7477, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8590/48845 [3:02:46<14:06:48,  1.26s/it] 18%|█▊        | 8591/48845 [3:02:48<14:06:21,  1.26s/it] 18%|█▊        | 8592/48845 [3:02:49<14:05:39,  1.26s/it] 18%|█▊        | 8593/48845 [3:02:50<14:04:58,  1.26s/it] 18%|█▊        | 8594/48845 [3:02:51<14:04:58,  1.26s/it] 18%|█▊        | 8595/48845 [3:02:53<14:05:05,  1.26s/it]                                                         {'loss': 1.6817, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8595/48845 [3:02:53<14:05:05,  1.26s/it] 18%|█▊        | 8596/48845 [3:02:54<14:04:57,  1.26s/it] 18%|█▊        | 8597/48845 [3:02:55<14:04:44,  1.26s/it] 18%|█▊        | 8598/48845 [3:02:56<14:04:45,  1.26s/it] 18%|█▊        | 8599/48845 [3:02:58<14:04:40,  1.26s/it] 18%|█▊        | 8600/48845 [3:02:59<14:05:14,  1.26s/it]                                                         {'loss': 1.6596, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8600/48845 [3:02:59<14:05:14,  1.26s/it] 18%|█▊        | 8601/48845 [3:03:03<22:02:31,  1.97s/it] 18%|█▊        | 8602/48845 [3:03:04<19:39:57,  1.76s/it] 18%|█▊        | 8603/48845 [3:03:05<17:59:46,  1.61s/it] 18%|█▊        | 8604/48845 [3:03:06<16:49:43,  1.51s/it] 18%|█▊        | 8605/48845 [3:03:08<15:59:45,  1.43s/it]                                                         {'loss': 1.5444, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8605/48845 [3:03:08<15:59:45,  1.43s/it] 18%|█▊        | 8606/48845 [3:03:09<15:24:39,  1.38s/it] 18%|█▊        | 8607/48845 [3:03:10<15:01:19,  1.34s/it] 18%|█▊        | 8608/48845 [3:03:11<14:44:12,  1.32s/it] 18%|█▊        | 8609/48845 [3:03:13<14:31:59,  1.30s/it] 18%|█▊        | 8610/48845 [3:03:14<14:23:07,  1.29s/it]                                                         {'loss': 1.6897, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8610/48845 [3:03:14<14:23:07,  1.29s/it] 18%|█▊        | 8611/48845 [3:03:15<14:18:12,  1.28s/it] 18%|█▊        | 8612/48845 [3:03:16<14:14:18,  1.27s/it] 18%|█▊        | 8613/48845 [3:03:18<14:10:26,  1.27s/it] 18%|█▊        | 8614/48845 [3:03:19<14:08:41,  1.27s/it] 18%|█▊        | 8615/48845 [3:03:20<14:07:09,  1.26s/it]                                                         {'loss': 1.8686, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8615/48845 [3:03:20<14:07:09,  1.26s/it] 18%|█▊        | 8616/48845 [3:03:21<14:06:20,  1.26s/it] 18%|█▊        | 8617/48845 [3:03:23<14:06:17,  1.26s/it] 18%|█▊        | 8618/48845 [3:03:24<14:05:28,  1.26s/it] 18%|█▊        | 8619/48845 [3:03:25<14:05:58,  1.26s/it] 18%|█▊        | 8620/48845 [3:03:27<14:04:54,  1.26s/it]                                                         {'loss': 1.8031, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8620/48845 [3:03:27<14:04:54,  1.26s/it] 18%|█��        | 8621/48845 [3:03:28<14:04:24,  1.26s/it] 18%|█▊        | 8622/48845 [3:03:29<14:04:42,  1.26s/it] 18%|█▊        | 8623/48845 [3:03:30<14:05:26,  1.26s/it] 18%|█▊        | 8624/48845 [3:03:32<14:05:25,  1.26s/it] 18%|█▊        | 8625/48845 [3:03:33<14:04:20,  1.26s/it]                                                         {'loss': 1.7773, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8625/48845 [3:03:33<14:04:20,  1.26s/it] 18%|█▊        | 8626/48845 [3:03:34<14:03:45,  1.26s/it] 18%|█▊        | 8627/48845 [3:03:35<14:04:48,  1.26s/it] 18%|█▊        | 8628/48845 [3:03:37<14:10:24,  1.27s/it] 18%|█▊        | 8629/48845 [3:03:38<14:09:10,  1.27s/it] 18%|█▊        | 8630/48845 [3:03:39<14:08:06,  1.27s/it]                                                         {'loss': 1.7034, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8630/48845 [3:03:39<14:08:06,  1.27s/it] 18%|█▊        | 8631/48845 [3:03:40<14:06:48,  1.26s/it] 18%|█▊        | 8632/48845 [3:03:42<14:06:13,  1.26s/it] 18%|█▊        | 8633/48845 [3:03:43<14:06:06,  1.26s/it] 18%|█▊        | 8634/48845 [3:03:44<14:05:12,  1.26s/it] 18%|█▊        | 8635/48845 [3:03:45<14:04:53,  1.26s/it]                                                         {'loss': 1.6861, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8635/48845 [3:03:45<14:04:53,  1.26s/it] 18%|█▊        | 8636/48845 [3:03:47<14:04:13,  1.26s/it] 18%|█▊        | 8637/48845 [3:03:48<14:04:30,  1.26s/it] 18%|█▊        | 8638/48845 [3:03:49<14:06:06,  1.26s/it] 18%|█▊        | 8639/48845 [3:03:51<14:05:06,  1.26s/it] 18%|█▊        | 8640/48845 [3:03:52<14:05:00,  1.26s/it]                                                         {'loss': 1.8291, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8640/48845 [3:03:52<14:05:00,  1.26s/it] 18%|█▊        | 8641/48845 [3:03:53<14:05:13,  1.26s/it] 18%|█▊        | 8642/48845 [3:03:54<14:05:07,  1.26s/it] 18%|█▊        | 8643/48845 [3:03:56<14:05:51,  1.26s/it] 18%|█▊        | 8644/48845 [3:03:57<14:05:28,  1.26s/it] 18%|█▊        | 8645/48845 [3:03:58<14:05:18,  1.26s/it]                                                         {'loss': 1.7007, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.88}
+ 18%|█▊        | 8645/48845 [3:03:58<14:05:18,  1.26s/it] 18%|█▊        | 8646/48845 [3:03:59<14:05:18,  1.26s/it] 18%|█▊        | 8647/48845 [3:04:01<14:04:41,  1.26s/it] 18%|█▊        | 8648/48845 [3:04:02<14:05:04,  1.26s/it] 18%|█▊        | 8649/48845 [3:04:03<14:04:47,  1.26s/it] 18%|█▊        | 8650/48845 [3:04:04<14:03:29,  1.26s/it]                                                         {'loss': 1.7141, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8650/48845 [3:04:04<14:03:29,  1.26s/it] 18%|█▊        | 8651/48845 [3:04:06<14:04:22,  1.26s/it] 18%|█▊        | 8652/48845 [3:04:07<14:03:44,  1.26s/it] 18%|█▊        | 8653/48845 [3:04:08<14:03:24,  1.26s/it] 18%|█▊        | 8654/48845 [3:04:09<14:03:56,  1.26s/it] 18%|█▊        | 8655/48845 [3:04:11<14:04:43,  1.26s/it]                                                         {'loss': 1.6823, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8655/48845 [3:04:11<14:04:43,  1.26s/it] 18%|█▊        | 8656/48845 [3:04:12<14:05:18,  1.26s/it] 18%|█▊        | 8657/48845 [3:04:13<14:04:14,  1.26s/it] 18%|█▊        | 8658/48845 [3:04:14<14:04:31,  1.26s/it] 18%|█▊        | 8659/48845 [3:04:16<14:05:02,  1.26s/it] 18%|█▊        | 8660/48845 [3:04:17<14:04:08,  1.26s/it]                                                         {'loss': 1.6374, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8660/48845 [3:04:17<14:04:08,  1.26s/it] 18%|█▊        | 8661/48845 [3:04:18<14:04:40,  1.26s/it] 18%|█▊        | 8662/48845 [3:04:20<14:04:12,  1.26s/it] 18%|█▊        | 8663/48845 [3:04:21<14:04:06,  1.26s/it] 18%|█▊        | 8664/48845 [3:04:22<14:04:25,  1.26s/it] 18%|█▊        | 8665/48845 [3:04:23<14:03:39,  1.26s/it]                                                         {'loss': 1.6839, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8665/48845 [3:04:23<14:03:39,  1.26s/it] 18%|█▊        | 8666/48845 [3:04:25<14:04:34,  1.26s/it] 18%|█▊        | 8667/48845 [3:04:26<14:04:16,  1.26s/it] 18%|█▊        | 8668/48845 [3:04:27<14:03:49,  1.26s/it] 18%|█▊        | 8669/48845 [3:04:28<14:04:59,  1.26s/it] 18%|█▊        | 8670/48845 [3:04:30<14:05:02,  1.26s/it]                                                         {'loss': 1.6898, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8670/48845 [3:04:30<14:05:02,  1.26s/it] 18%|█▊        | 8671/48845 [3:04:31<14:04:34,  1.26s/it] 18%|█▊        | 8672/48845 [3:04:32<14:04:21,  1.26s/it] 18%|█▊        | 8673/48845 [3:04:34<14:30:00,  1.30s/it] 18%|█▊        | 8674/48845 [3:04:35<14:22:38,  1.29s/it] 18%|█▊        | 8675/48845 [3:04:36<14:17:30,  1.28s/it]                                                         {'loss': 1.6752, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8675/48845 [3:04:36<14:17:30,  1.28s/it] 18%|█▊        | 8676/48845 [3:04:37<14:13:16,  1.27s/it] 18%|█▊        | 8677/48845 [3:04:39<14:10:01,  1.27s/it] 18%|█▊        | 8678/48845 [3:04:40<14:07:39,  1.27s/it] 18%|█▊        | 8679/48845 [3:04:41<14:06:33,  1.26s/it] 18%|█▊        | 8680/48845 [3:04:42<14:06:30,  1.26s/it]                                                         {'loss': 1.6921, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8680/48845 [3:04:42<14:06:30,  1.26s/it] 18%|█▊        | 8681/48845 [3:04:44<14:05:58,  1.26s/it] 18%|█▊        | 8682/48845 [3:04:45<14:05:55,  1.26s/it] 18%|█▊        | 8683/48845 [3:04:46<14:06:20,  1.26s/it] 18%|█▊        | 8684/48845 [3:04:47<14:05:03,  1.26s/it] 18%|█▊        | 8685/48845 [3:04:49<14:05:13,  1.26s/it]                                                         {'loss': 1.7652, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8685/48845 [3:04:49<14:05:13,  1.26s/it] 18%|█▊        | 8686/48845 [3:04:50<14:04:48,  1.26s/it] 18%|█▊        | 8687/48845 [3:04:51<14:05:10,  1.26s/it] 18%|█▊        | 8688/48845 [3:04:52<14:05:31,  1.26s/it] 18%|█▊        | 8689/48845 [3:04:54<14:04:43,  1.26s/it] 18%|█▊        | 8690/48845 [3:04:55<14:04:51,  1.26s/it]                                                         {'loss': 1.8163, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8690/48845 [3:04:55<14:04:51,  1.26s/it] 18%|█▊        | 8691/48845 [3:04:56<14:05:45,  1.26s/it] 18%|█▊        | 8692/48845 [3:04:57<14:04:40,  1.26s/it] 18%|█▊        | 8693/48845 [3:04:59<14:04:11,  1.26s/it] 18%|█▊        | 8694/48845 [3:05:00<14:02:51,  1.26s/it] 18%|█▊        | 8695/48845 [3:05:01<14:02:53,  1.26s/it]                                                         {'loss': 1.7456, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8695/48845 [3:05:01<14:02:53,  1.26s/it] 18%|█▊        | 8696/48845 [3:05:03<14:02:55,  1.26s/it] 18%|█▊        | 8697/48845 [3:05:04<14:03:16,  1.26s/it] 18%|█▊        | 8698/48845 [3:05:05<14:03:53,  1.26s/it] 18%|█▊        | 8699/48845 [3:05:06<14:03:16,  1.26s/it] 18%|█▊        | 8700/48845 [3:05:08<14:03:14,  1.26s/it]                                                         {'loss': 1.7357, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8700/48845 [3:05:08<14:03:14,  1.26s/it] 18%|█▊        | 8701/48845 [3:05:09<14:03:41,  1.26s/it] 18%|█▊        | 8702/48845 [3:05:10<14:03:46,  1.26s/it] 18%|█▊        | 8703/48845 [3:05:11<14:03:41,  1.26s/it] 18%|█▊        | 8704/48845 [3:05:13<14:03:09,  1.26s/it] 18%|█▊        | 8705/48845 [3:05:14<14:03:57,  1.26s/it]                                                         {'loss': 1.6556, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8705/48845 [3:05:14<14:03:57,  1.26s/it] 18%|█▊        | 8706/48845 [3:05:15<14:03:57,  1.26s/it] 18%|█▊        | 8707/48845 [3:05:16<14:04:08,  1.26s/it] 18%|█▊        | 8708/48845 [3:05:18<14:04:11,  1.26s/it] 18%|█▊        | 8709/48845 [3:05:19<14:03:55,  1.26s/it] 18%|█▊        | 8710/48845 [3:05:20<14:03:07,  1.26s/it]                                                         {'loss': 1.746, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8710/48845 [3:05:20<14:03:07,  1.26s/it] 18%|█▊        | 8711/48845 [3:05:21<14:02:56,  1.26s/it] 18%|█▊        | 8712/48845 [3:05:23<14:02:32,  1.26s/it] 18%|█▊        | 8713/48845 [3:05:24<14:02:07,  1.26s/it] 18%|█▊        | 8714/48845 [3:05:25<14:03:12,  1.26s/it] 18%|█▊        | 8715/48845 [3:05:26<14:03:24,  1.26s/it]                                                         {'loss': 1.6973, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8715/48845 [3:05:26<14:03:24,  1.26s/it] 18%|█▊        | 8716/48845 [3:05:28<14:04:19,  1.26s/it] 18%|█▊        | 8717/48845 [3:05:29<14:03:45,  1.26s/it] 18%|█▊        | 8718/48845 [3:05:30<14:03:51,  1.26s/it] 18%|█▊        | 8719/48845 [3:05:32<14:03:58,  1.26s/it] 18%|█▊        | 8720/48845 [3:05:33<14:03:26,  1.26s/it]                                                         {'loss': 1.7433, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8720/48845 [3:05:33<14:03:26,  1.26s/it] 18%|█▊        | 8721/48845 [3:05:34<14:02:38,  1.26s/it] 18%|█▊        | 8722/48845 [3:05:35<14:03:06,  1.26s/it] 18%|█▊        | 8723/48845 [3:05:37<14:03:06,  1.26s/it] 18%|█▊        | 8724/48845 [3:05:38<14:04:23,  1.26s/it] 18%|█▊        | 8725/48845 [3:05:39<14:03:24,  1.26s/it]                                                         {'loss': 1.7029, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8725/48845 [3:05:39<14:03:24,  1.26s/it] 18%|█▊        | 8726/48845 [3:05:40<14:02:48,  1.26s/it] 18%|█▊        | 8727/48845 [3:05:42<14:03:12,  1.26s/it] 18%|█▊        | 8728/48845 [3:05:43<14:02:02,  1.26s/it] 18%|█▊        | 8729/48845 [3:05:44<14:02:10,  1.26s/it] 18%|█▊        | 8730/48845 [3:05:45<14:01:23,  1.26s/it]                                                         {'loss': 1.6856, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8730/48845 [3:05:45<14:01:23,  1.26s/it] 18%|█▊        | 8731/48845 [3:05:47<14:02:15,  1.26s/it] 18%|█▊        | 8732/48845 [3:05:48<14:02:55,  1.26s/it] 18%|█▊        | 8733/48845 [3:05:49<14:02:35,  1.26s/it] 18%|█▊        | 8734/48845 [3:05:50<14:02:48,  1.26s/it] 18%|█▊        | 8735/48845 [3:05:52<14:03:05,  1.26s/it]                                                         {'loss': 1.6036, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8735/48845 [3:05:52<14:03:05,  1.26s/it] 18%|█▊        | 8736/48845 [3:05:53<14:02:52,  1.26s/it] 18%|█▊        | 8737/48845 [3:05:54<14:03:29,  1.26s/it] 18%|█▊        | 8738/48845 [3:05:55<14:02:44,  1.26s/it] 18%|█▊        | 8739/48845 [3:05:57<14:02:06,  1.26s/it] 18%|█▊        | 8740/48845 [3:05:58<14:02:38,  1.26s/it]                                                         {'loss': 1.9042, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.89}
+ 18%|█▊        | 8740/48845 [3:05:58<14:02:38,  1.26s/it] 18%|█▊        | 8741/48845 [3:05:59<14:03:04,  1.26s/it] 18%|█▊        | 8742/48845 [3:06:01<14:02:31,  1.26s/it] 18%|█▊        | 8743/48845 [3:06:02<14:02:08,  1.26s/it] 18%|█▊        | 8744/48845 [3:06:03<14:01:40,  1.26s/it] 18%|█▊        | 8745/48845 [3:06:04<14:06:20,  1.27s/it]                                                         {'loss': 1.7115, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8745/48845 [3:06:04<14:06:20,  1.27s/it] 18%|█▊        | 8746/48845 [3:06:06<14:04:44,  1.26s/it] 18%|█▊        | 8747/48845 [3:06:07<14:03:22,  1.26s/it] 18%|█▊        | 8748/48845 [3:06:08<14:03:31,  1.26s/it] 18%|█▊        | 8749/48845 [3:06:09<14:02:55,  1.26s/it] 18%|█▊        | 8750/48845 [3:06:11<14:02:48,  1.26s/it]                                                         {'loss': 1.6991, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8750/48845 [3:06:11<14:02:48,  1.26s/it] 18%|█▊        | 8751/48845 [3:06:12<14:02:51,  1.26s/it] 18%|█▊        | 8752/48845 [3:06:13<14:02:32,  1.26s/it] 18%|█▊        | 8753/48845 [3:06:14<14:02:46,  1.26s/it] 18%|█▊        | 8754/48845 [3:06:16<14:03:13,  1.26s/it] 18%|█▊        | 8755/48845 [3:06:17<14:02:15,  1.26s/it]                                                         {'loss': 1.7659, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8755/48845 [3:06:17<14:02:15,  1.26s/it] 18%|█▊        | 8756/48845 [3:06:18<14:02:52,  1.26s/it] 18%|█▊        | 8757/48845 [3:06:19<14:02:02,  1.26s/it] 18%|█▊        | 8758/48845 [3:06:21<14:03:13,  1.26s/it] 18%|█▊        | 8759/48845 [3:06:22<14:03:07,  1.26s/it] 18%|█▊        | 8760/48845 [3:06:23<14:02:29,  1.26s/it]                                                         {'loss': 1.6138, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8760/48845 [3:06:23<14:02:29,  1.26s/it] 18%|█▊        | 8761/48845 [3:06:25<14:03:49,  1.26s/it] 18%|█▊        | 8762/48845 [3:06:26<14:02:43,  1.26s/it] 18%|█▊        | 8763/48845 [3:06:27<14:02:23,  1.26s/it] 18%|█▊        | 8764/48845 [3:06:28<14:01:56,  1.26s/it] 18%|█▊        | 8765/48845 [3:06:30<14:01:44,  1.26s/it]                                                         {'loss': 1.6707, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8765/48845 [3:06:30<14:01:44,  1.26s/it] 18%|█▊        | 8766/48845 [3:06:31<14:02:02,  1.26s/it] 18%|█▊        | 8767/48845 [3:06:32<14:02:56,  1.26s/it] 18%|█▊        | 8768/48845 [3:06:33<14:02:52,  1.26s/it] 18%|█▊        | 8769/48845 [3:06:35<14:01:46,  1.26s/it] 18%|█▊        | 8770/48845 [3:06:36<14:01:49,  1.26s/it]                                                         {'loss': 1.6797, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8770/48845 [3:06:36<14:01:49,  1.26s/it] 18%|█▊        | 8771/48845 [3:06:37<14:03:17,  1.26s/it] 18%|█▊        | 8772/48845 [3:06:38<14:02:39,  1.26s/it] 18%|█▊        | 8773/48845 [3:06:40<14:01:52,  1.26s/it] 18%|█▊        | 8774/48845 [3:06:41<14:01:51,  1.26s/it] 18%|█���        | 8775/48845 [3:06:42<14:01:24,  1.26s/it]                                                         {'loss': 1.8216, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8775/48845 [3:06:42<14:01:24,  1.26s/it] 18%|█▊        | 8776/48845 [3:06:43<14:01:24,  1.26s/it] 18%|█▊        | 8777/48845 [3:06:45<14:01:24,  1.26s/it] 18%|█▊        | 8778/48845 [3:06:46<14:02:21,  1.26s/it] 18%|█▊        | 8779/48845 [3:06:47<14:02:23,  1.26s/it] 18%|█▊        | 8780/48845 [3:06:48<14:02:19,  1.26s/it]                                                         {'loss': 1.6997, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8780/48845 [3:06:48<14:02:19,  1.26s/it] 18%|█▊        | 8781/48845 [3:06:50<14:02:39,  1.26s/it] 18%|█▊        | 8782/48845 [3:06:51<14:02:21,  1.26s/it] 18%|█▊        | 8783/48845 [3:06:52<14:03:18,  1.26s/it] 18%|█▊        | 8784/48845 [3:06:54<14:02:54,  1.26s/it] 18%|█▊        | 8785/48845 [3:06:55<14:02:33,  1.26s/it]                                                         {'loss': 1.7354, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8785/48845 [3:06:55<14:02:33,  1.26s/it] 18%|█▊        | 8786/48845 [3:06:56<14:02:41,  1.26s/it] 18%|█▊        | 8787/48845 [3:06:57<14:03:04,  1.26s/it] 18%|█▊        | 8788/48845 [3:06:59<14:02:41,  1.26s/it] 18%|█▊        | 8789/48845 [3:07:00<14:01:55,  1.26s/it] 18%|█▊        | 8790/48845 [3:07:01<14:01:20,  1.26s/it]                                                         {'loss': 1.6555, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8790/48845 [3:07:01<14:01:20,  1.26s/it] 18%|█▊        | 8791/48845 [3:07:02<14:01:46,  1.26s/it] 18%|█▊        | 8792/48845 [3:07:04<14:02:09,  1.26s/it] 18%|█▊        | 8793/48845 [3:07:05<14:02:27,  1.26s/it] 18%|█▊        | 8794/48845 [3:07:06<14:02:01,  1.26s/it] 18%|█▊        | 8795/48845 [3:07:07<14:02:02,  1.26s/it]                                                         {'loss': 1.9078, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8795/48845 [3:07:07<14:02:02,  1.26s/it] 18%|█▊        | 8796/48845 [3:07:09<14:02:24,  1.26s/it] 18%|█▊        | 8797/48845 [3:07:10<14:02:17,  1.26s/it] 18%|█▊        | 8798/48845 [3:07:11<14:01:41,  1.26s/it] 18%|█▊        | 8799/48845 [3:07:12<14:02:21,  1.26s/it] 18%|█▊        | 8800/48845 [3:07:14<14:01:56,  1.26s/it]                                                         {'loss': 1.623, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8800/48845 [3:07:14<14:01:56,  1.26s/it] 18%|█▊        | 8801/48845 [3:07:17<21:59:47,  1.98s/it] 18%|█▊        | 8802/48845 [3:07:19<19:36:12,  1.76s/it] 18%|█▊        | 8803/48845 [3:07:20<17:55:24,  1.61s/it] 18%|█▊        | 8804/48845 [3:07:21<16:44:51,  1.51s/it] 18%|█▊        | 8805/48845 [3:07:22<15:56:20,  1.43s/it]                                                         {'loss': 1.6661, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8805/48845 [3:07:22<15:56:20,  1.43s/it] 18%|█▊        | 8806/48845 [3:07:24<15:21:07,  1.38s/it] 18%|█▊        | 8807/48845 [3:07:25<14:56:46,  1.34s/it] 18%|█▊        | 8808/48845 [3:07:26<14:42:00,  1.32s/it] 18%|█▊        | 8809/48845 [3:07:27<14:28:34,  1.30s/it] 18%|█▊        | 8810/48845 [3:07:29<14:20:34,  1.29s/it]                                                         {'loss': 1.686, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8810/48845 [3:07:29<14:20:34,  1.29s/it] 18%|█▊        | 8811/48845 [3:07:30<14:14:46,  1.28s/it] 18%|█▊        | 8812/48845 [3:07:31<14:10:35,  1.27s/it] 18%|█▊        | 8813/48845 [3:07:32<14:06:53,  1.27s/it] 18%|█▊        | 8814/48845 [3:07:34<14:04:26,  1.27s/it] 18%|█▊        | 8815/48845 [3:07:35<14:03:07,  1.26s/it]                                                         {'loss': 1.7626, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8815/48845 [3:07:35<14:03:07,  1.26s/it] 18%|█▊        | 8816/48845 [3:07:36<14:02:18,  1.26s/it] 18%|█▊        | 8817/48845 [3:07:37<14:01:21,  1.26s/it] 18%|█▊        | 8818/48845 [3:07:39<14:01:47,  1.26s/it] 18%|█▊        | 8819/48845 [3:07:40<14:01:06,  1.26s/it] 18%|█▊        | 8820/48845 [3:07:41<14:00:40,  1.26s/it]                                                         {'loss': 1.7495, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8820/48845 [3:07:41<14:00:40,  1.26s/it] 18%|█▊        | 8821/48845 [3:07:43<13:59:56,  1.26s/it] 18%|█▊        | 8822/48845 [3:07:44<13:59:44,  1.26s/it] 18%|█▊        | 8823/48845 [3:07:45<13:59:56,  1.26s/it] 18%|█▊        | 8824/48845 [3:07:46<13:59:47,  1.26s/it] 18%|█▊        | 8825/48845 [3:07:48<14:00:17,  1.26s/it]                                                         {'loss': 1.7002, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8825/48845 [3:07:48<14:00:17,  1.26s/it] 18%|█▊        | 8826/48845 [3:07:49<13:59:48,  1.26s/it] 18%|█▊        | 8827/48845 [3:07:50<13:59:48,  1.26s/it] 18%|█▊        | 8828/48845 [3:07:51<13:59:39,  1.26s/it] 18%|█▊        | 8829/48845 [3:07:53<14:00:38,  1.26s/it] 18%|█▊        | 8830/48845 [3:07:54<14:00:32,  1.26s/it]                                                         {'loss': 1.8285, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8830/48845 [3:07:54<14:00:32,  1.26s/it] 18%|█▊        | 8831/48845 [3:07:55<13:59:42,  1.26s/it] 18%|█▊        | 8832/48845 [3:07:56<13:59:42,  1.26s/it] 18%|█▊        | 8833/48845 [3:07:58<13:59:49,  1.26s/it] 18%|█▊        | 8834/48845 [3:07:59<13:59:24,  1.26s/it] 18%|█▊        | 8835/48845 [3:08:00<13:59:49,  1.26s/it]                                                         {'loss': 1.6575, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8835/48845 [3:08:00<13:59:49,  1.26s/it] 18%|█▊        | 8836/48845 [3:08:01<13:59:47,  1.26s/it] 18%|█▊        | 8837/48845 [3:08:03<13:59:51,  1.26s/it] 18%|█▊        | 8838/48845 [3:08:04<14:00:06,  1.26s/it] 18%|█▊        | 8839/48845 [3:08:05<13:59:35,  1.26s/it] 18%|█▊        | 8840/48845 [3:08:06<14:00:17,  1.26s/it]                                                         {'loss': 1.6244, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.9}
+ 18%|█▊        | 8840/48845 [3:08:06<14:00:17,  1.26s/it] 18%|█▊        | 8841/48845 [3:08:08<13:59:46,  1.26s/it] 18%|█▊        | 8842/48845 [3:08:09<13:59:37,  1.26s/it] 18%|█▊        | 8843/48845 [3:08:10<13:59:12,  1.26s/it] 18%|█▊        | 8844/48845 [3:08:11<13:59:10,  1.26s/it] 18%|█▊        | 8845/48845 [3:08:13<13:59:40,  1.26s/it]                                                         {'loss': 1.5483, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8845/48845 [3:08:13<13:59:40,  1.26s/it] 18%|█▊        | 8846/48845 [3:08:14<13:59:52,  1.26s/it] 18%|█▊        | 8847/48845 [3:08:15<13:59:07,  1.26s/it] 18%|█▊        | 8848/48845 [3:08:17<13:59:27,  1.26s/it] 18%|█▊        | 8849/48845 [3:08:18<13:58:58,  1.26s/it] 18%|█▊        | 8850/48845 [3:08:19<13:59:26,  1.26s/it]                                                         {'loss': 1.7615, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8850/48845 [3:08:19<13:59:26,  1.26s/it] 18%|█▊        | 8851/48845 [3:08:20<13:59:49,  1.26s/it] 18%|█▊        | 8852/48845 [3:08:22<13:59:23,  1.26s/it] 18%|█▊        | 8853/48845 [3:08:23<13:59:34,  1.26s/it] 18%|█▊        | 8854/48845 [3:08:24<13:58:41,  1.26s/it] 18%|█▊        | 8855/48845 [3:08:25<13:57:38,  1.26s/it]                                                         {'loss': 1.767, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8855/48845 [3:08:25<13:57:38,  1.26s/it] 18%|█▊        | 8856/48845 [3:08:27<13:57:53,  1.26s/it] 18%|█▊        | 8857/48845 [3:08:28<13:58:46,  1.26s/it] 18%|█▊        | 8858/48845 [3:08:29<13:58:27,  1.26s/it] 18%|█▊        | 8859/48845 [3:08:30<13:58:50,  1.26s/it] 18%|█▊        | 8860/48845 [3:08:32<13:58:53,  1.26s/it]                                                         {'loss': 1.6162, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8860/48845 [3:08:32<13:58:53,  1.26s/it] 18%|█▊        | 8861/48845 [3:08:33<13:59:19,  1.26s/it] 18%|█▊        | 8862/48845 [3:08:34<14:00:00,  1.26s/it] 18%|█▊        | 8863/48845 [3:08:35<13:59:11,  1.26s/it] 18%|█▊        | 8864/48845 [3:08:37<13:59:14,  1.26s/it] 18%|█▊        | 8865/48845 [3:08:38<13:58:35,  1.26s/it]                                                         {'loss': 1.6238, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8865/48845 [3:08:38<13:58:35,  1.26s/it] 18%|█▊        | 8866/48845 [3:08:39<13:58:26,  1.26s/it] 18%|█▊        | 8867/48845 [3:08:40<13:58:53,  1.26s/it] 18%|█▊        | 8868/48845 [3:08:42<13:58:26,  1.26s/it] 18%|█▊        | 8869/48845 [3:08:43<13:58:34,  1.26s/it] 18%|█▊        | 8870/48845 [3:08:44<13:58:58,  1.26s/it]                                                         {'loss': 1.6691, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8870/48845 [3:08:44<13:58:58,  1.26s/it] 18%|█▊        | 8871/48845 [3:08:45<13:59:08,  1.26s/it] 18%|█▊        | 8872/48845 [3:08:47<13:59:30,  1.26s/it] 18%|█▊        | 8873/48845 [3:08:48<13:59:11,  1.26s/it] 18%|█▊        | 8874/48845 [3:08:49<13:58:57,  1.26s/it] 18%|█▊        | 8875/48845 [3:08:51<13:58:57,  1.26s/it]                                                         {'loss': 1.643, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8875/48845 [3:08:51<13:58:57,  1.26s/it] 18%|█▊        | 8876/48845 [3:08:52<13:59:05,  1.26s/it] 18%|█▊        | 8877/48845 [3:08:53<13:59:52,  1.26s/it] 18%|█▊        | 8878/48845 [3:08:54<13:59:45,  1.26s/it] 18%|█▊        | 8879/48845 [3:08:56<14:00:03,  1.26s/it] 18%|█▊        | 8880/48845 [3:08:57<14:00:39,  1.26s/it]                                                         {'loss': 1.7587, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8880/48845 [3:08:57<14:00:39,  1.26s/it] 18%|█▊        | 8881/48845 [3:08:58<14:00:07,  1.26s/it] 18%|█▊        | 8882/48845 [3:08:59<14:00:50,  1.26s/it] 18%|█▊        | 8883/48845 [3:09:01<14:00:11,  1.26s/it] 18%|█▊        | 8884/48845 [3:09:02<13:59:48,  1.26s/it] 18%|█▊        | 8885/48845 [3:09:03<13:59:24,  1.26s/it]                                                         {'loss': 1.8971, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8885/48845 [3:09:03<13:59:24,  1.26s/it] 18%|█▊        | 8886/48845 [3:09:04<13:59:39,  1.26s/it] 18%|█▊        | 8887/48845 [3:09:06<13:59:30,  1.26s/it] 18%|█▊        | 8888/48845 [3:09:07<13:59:04,  1.26s/it] 18%|█▊        | 8889/48845 [3:09:08<13:59:22,  1.26s/it] 18%|█▊        | 8890/48845 [3:09:09<14:01:17,  1.26s/it]                                                         {'loss': 1.7708, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8890/48845 [3:09:09<14:01:17,  1.26s/it] 18%|█▊        | 8891/48845 [3:09:11<14:00:14,  1.26s/it] 18%|█▊        | 8892/48845 [3:09:12<13:59:17,  1.26s/it] 18%|█▊        | 8893/48845 [3:09:13<13:58:23,  1.26s/it] 18%|█▊        | 8894/48845 [3:09:14<13:58:15,  1.26s/it] 18%|█▊        | 8895/48845 [3:09:16<13:59:32,  1.26s/it]                                                         {'loss': 1.6545, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8895/48845 [3:09:16<13:59:32,  1.26s/it] 18%|█▊        | 8896/48845 [3:09:17<13:59:29,  1.26s/it] 18%|█▊        | 8897/48845 [3:09:18<13:59:06,  1.26s/it] 18%|█▊        | 8898/48845 [3:09:20<13:58:27,  1.26s/it] 18%|█▊        | 8899/48845 [3:09:21<13:58:43,  1.26s/it] 18%|█▊        | 8900/48845 [3:09:22<13:59:26,  1.26s/it]                                                         {'loss': 1.6504, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8900/48845 [3:09:22<13:59:26,  1.26s/it] 18%|█▊        | 8901/48845 [3:09:23<14:00:12,  1.26s/it] 18%|█▊        | 8902/48845 [3:09:25<13:59:55,  1.26s/it] 18%|█▊        | 8903/48845 [3:09:26<13:59:42,  1.26s/it] 18%|█▊        | 8904/48845 [3:09:27<13:59:29,  1.26s/it] 18%|█▊        | 8905/48845 [3:09:28<13:58:53,  1.26s/it]                                                         {'loss': 1.592, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8905/48845 [3:09:28<13:58:53,  1.26s/it] 18%|█▊        | 8906/48845 [3:09:30<13:58:30,  1.26s/it] 18%|█▊        | 8907/48845 [3:09:31<13:57:26,  1.26s/it] 18%|█▊        | 8908/48845 [3:09:32<13:57:08,  1.26s/it] 18%|█▊        | 8909/48845 [3:09:33<13:57:18,  1.26s/it] 18%|█▊        | 8910/48845 [3:09:35<13:58:10,  1.26s/it]                                                         {'loss': 1.6187, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8910/48845 [3:09:35<13:58:10,  1.26s/it] 18%|█▊        | 8911/48845 [3:09:36<13:58:29,  1.26s/it] 18%|█▊        | 8912/48845 [3:09:37<13:59:19,  1.26s/it] 18%|█▊        | 8913/48845 [3:09:38<14:00:22,  1.26s/it] 18%|█▊        | 8914/48845 [3:09:40<14:00:39,  1.26s/it] 18%|█▊        | 8915/48845 [3:09:41<14:00:36,  1.26s/it]                                                         {'loss': 1.7463, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8915/48845 [3:09:41<14:00:36,  1.26s/it] 18%|█▊        | 8916/48845 [3:09:42<14:01:49,  1.26s/it] 18%|█▊        | 8917/48845 [3:09:43<14:00:46,  1.26s/it] 18%|█▊        | 8918/48845 [3:09:45<14:00:15,  1.26s/it] 18%|█▊        | 8919/48845 [3:09:46<13:59:08,  1.26s/it] 18%|█▊        | 8920/48845 [3:09:47<13:58:42,  1.26s/it]                                                         {'loss': 1.7374, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8920/48845 [3:09:47<13:58:42,  1.26s/it] 18%|█▊        | 8921/48845 [3:09:49<13:59:14,  1.26s/it] 18%|█▊        | 8922/48845 [3:09:50<13:58:40,  1.26s/it] 18%|█▊        | 8923/48845 [3:09:51<13:58:05,  1.26s/it] 18%|█▊        | 8924/48845 [3:09:52<13:57:57,  1.26s/it] 18%|█▊        | 8925/48845 [3:09:54<13:57:34,  1.26s/it]                                                         {'loss': 1.8032, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8925/48845 [3:09:54<13:57:34,  1.26s/it] 18%|█▊        | 8926/48845 [3:09:55<13:58:38,  1.26s/it] 18%|█▊        | 8927/48845 [3:09:56<13:58:44,  1.26s/it] 18%|█▊        | 8928/48845 [3:09:57<13:57:49,  1.26s/it] 18%|█▊        | 8929/48845 [3:09:59<13:57:52,  1.26s/it] 18%|█▊        | 8930/48845 [3:10:00<13:57:50,  1.26s/it]                                                         {'loss': 1.7381, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8930/48845 [3:10:00<13:57:50,  1.26s/it] 18%|█▊        | 8931/48845 [3:10:01<13:58:32,  1.26s/it] 18%|█▊        | 8932/48845 [3:10:02<13:58:15,  1.26s/it] 18%|█▊        | 8933/48845 [3:10:04<13:58:48,  1.26s/it] 18%|█▊        | 8934/48845 [3:10:05<13:57:58,  1.26s/it] 18%|█▊        | 8935/48845 [3:10:06<13:57:48,  1.26s/it]                                                         {'loss': 1.7368, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.91}
+ 18%|█▊        | 8935/48845 [3:10:06<13:57:48,  1.26s/it] 18%|█▊        | 8936/48845 [3:10:07<13:58:54,  1.26s/it] 18%|█▊        | 8937/48845 [3:10:09<13:58:13,  1.26s/it] 18%|█▊        | 8938/48845 [3:10:10<13:58:58,  1.26s/it] 18%|█▊        | 8939/48845 [3:10:11<13:58:43,  1.26s/it] 18%|█▊        | 8940/48845 [3:10:12<13:58:13,  1.26s/it]                                                         {'loss': 1.6933, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8940/48845 [3:10:12<13:58:13,  1.26s/it] 18%|█▊        | 8941/48845 [3:10:14<13:57:50,  1.26s/it] 18%|█▊        | 8942/48845 [3:10:15<13:56:41,  1.26s/it] 18%|█▊        | 8943/48845 [3:10:16<13:56:41,  1.26s/it] 18%|█▊        | 8944/48845 [3:10:18<13:56:19,  1.26s/it] 18%|█▊        | 8945/48845 [3:10:19<13:56:50,  1.26s/it]                                                         {'loss': 1.7578, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8945/48845 [3:10:19<13:56:50,  1.26s/it] 18%|█▊        | 8946/48845 [3:10:20<13:57:19,  1.26s/it] 18%|█▊        | 8947/48845 [3:10:21<13:57:11,  1.26s/it] 18%|█▊        | 8948/48845 [3:10:23<13:57:03,  1.26s/it] 18%|█▊        | 8949/48845 [3:10:24<13:57:01,  1.26s/it] 18%|█▊        | 8950/48845 [3:10:25<13:57:55,  1.26s/it]                                                         {'loss': 1.6795, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8950/48845 [3:10:25<13:57:55,  1.26s/it] 18%|█▊        | 8951/48845 [3:10:26<13:58:42,  1.26s/it] 18%|█▊        | 8952/48845 [3:10:28<13:58:31,  1.26s/it] 18%|█▊        | 8953/48845 [3:10:29<13:58:35,  1.26s/it] 18%|█▊        | 8954/48845 [3:10:30<14:18:05,  1.29s/it] 18%|█▊        | 8955/48845 [3:10:31<14:11:20,  1.28s/it]                                                         {'loss': 1.7503, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8955/48845 [3:10:31<14:11:20,  1.28s/it] 18%|█▊        | 8956/48845 [3:10:33<14:07:15,  1.27s/it] 18%|█▊        | 8957/48845 [3:10:34<14:03:48,  1.27s/it] 18%|█▊        | 8958/48845 [3:10:35<14:02:00,  1.27s/it] 18%|█▊        | 8959/48845 [3:10:37<14:00:29,  1.26s/it] 18%|█▊        | 8960/48845 [3:10:38<13:59:39,  1.26s/it]                                                         {'loss': 1.6156, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8960/48845 [3:10:38<13:59:39,  1.26s/it] 18%|█▊        | 8961/48845 [3:10:39<13:59:26,  1.26s/it] 18%|█▊        | 8962/48845 [3:10:40<13:59:42,  1.26s/it] 18%|█▊        | 8963/48845 [3:10:42<13:58:53,  1.26s/it] 18%|█▊        | 8964/48845 [3:10:43<13:58:26,  1.26s/it] 18%|█▊        | 8965/48845 [3:10:44<13:57:51,  1.26s/it]                                                         {'loss': 1.8255, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8965/48845 [3:10:44<13:57:51,  1.26s/it] 18%|█▊        | 8966/48845 [3:10:45<14:30:23,  1.31s/it] 18%|█▊        | 8967/48845 [3:10:47<14:20:38,  1.29s/it] 18%|█▊        | 8968/48845 [3:10:48<14:13:56,  1.28s/it] 18%|█▊        | 8969/48845 [3:10:49<14:08:51,  1.28s/it] 18%|█▊        | 8970/48845 [3:10:51<14:05:25,  1.27s/it]                                                         {'loss': 1.6909, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8970/48845 [3:10:51<14:05:25,  1.27s/it] 18%|█▊        | 8971/48845 [3:10:52<14:03:45,  1.27s/it] 18%|█▊        | 8972/48845 [3:10:53<14:02:26,  1.27s/it] 18%|█▊        | 8973/48845 [3:10:54<14:01:35,  1.27s/it] 18%|█▊        | 8974/48845 [3:10:56<13:59:51,  1.26s/it] 18%|█▊        | 8975/48845 [3:10:57<13:59:13,  1.26s/it]                                                         {'loss': 1.61, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8975/48845 [3:10:57<13:59:13,  1.26s/it] 18%|█▊        | 8976/48845 [3:10:58<13:58:22,  1.26s/it] 18%|█▊        | 8977/48845 [3:10:59<13:57:35,  1.26s/it] 18%|█▊        | 8978/48845 [3:11:01<14:16:47,  1.29s/it] 18%|█▊        | 8979/48845 [3:11:02<14:10:43,  1.28s/it] 18%|█▊        | 8980/48845 [3:11:03<14:08:46,  1.28s/it]                                                         {'loss': 1.7523, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8980/48845 [3:11:03<14:08:46,  1.28s/it] 18%|█▊        | 8981/48845 [3:11:05<14:05:52,  1.27s/it] 18%|█▊        | 8982/48845 [3:11:06<14:03:52,  1.27s/it] 18%|█▊        | 8983/48845 [3:11:07<14:03:12,  1.27s/it] 18%|█▊        | 8984/48845 [3:11:08<14:01:58,  1.27s/it] 18%|█▊        | 8985/48845 [3:11:10<14:00:45,  1.27s/it]                                                         {'loss': 1.9041, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8985/48845 [3:11:10<14:00:45,  1.27s/it] 18%|█▊        | 8986/48845 [3:11:11<14:01:10,  1.27s/it] 18%|█▊        | 8987/48845 [3:11:12<13:59:50,  1.26s/it] 18%|█▊        | 8988/48845 [3:11:13<13:58:24,  1.26s/it] 18%|█▊        | 8989/48845 [3:11:15<13:58:42,  1.26s/it] 18%|█▊        | 8990/48845 [3:11:16<13:58:43,  1.26s/it]                                                         {'loss': 1.6904, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8990/48845 [3:11:16<13:58:43,  1.26s/it] 18%|█▊        | 8991/48845 [3:11:17<13:57:55,  1.26s/it] 18%|█▊        | 8992/48845 [3:11:18<13:56:54,  1.26s/it] 18%|█▊        | 8993/48845 [3:11:20<13:57:21,  1.26s/it] 18%|█▊        | 8994/48845 [3:11:21<13:57:26,  1.26s/it] 18%|█▊        | 8995/48845 [3:11:22<13:56:50,  1.26s/it]                                                         {'loss': 1.6172, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 8995/48845 [3:11:22<13:56:50,  1.26s/it] 18%|█▊        | 8996/48845 [3:11:23<13:57:16,  1.26s/it] 18%|█▊        | 8997/48845 [3:11:25<13:56:37,  1.26s/it] 18%|█▊        | 8998/48845 [3:11:26<13:56:42,  1.26s/it] 18%|█▊        | 8999/48845 [3:11:27<13:57:01,  1.26s/it] 18%|█▊        | 9000/48845 [3:11:28<13:57:10,  1.26s/it]                                                         {'loss': 1.7626, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9000/48845 [3:11:28<13:57:10,  1.26s/it] 18%|█▊        | 9001/48845 [3:11:32<21:50:26,  1.97s/it] 18%|█▊        | 9002/48845 [3:11:33<19:28:31,  1.76s/it] 18%|█▊        | 9003/48845 [3:11:35<17:48:26,  1.61s/it] 18%|█▊        | 9004/48845 [3:11:36<16:38:40,  1.50s/it] 18%|█▊        | 9005/48845 [3:11:37<15:50:10,  1.43s/it]                                                         {'loss': 1.6996, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9005/48845 [3:11:37<15:50:10,  1.43s/it] 18%|█▊        | 9006/48845 [3:11:38<15:17:13,  1.38s/it] 18%|█▊        | 9007/48845 [3:11:40<14:52:45,  1.34s/it] 18%|█▊        | 9008/48845 [3:11:41<14:35:56,  1.32s/it] 18%|█▊        | 9009/48845 [3:11:42<14:25:24,  1.30s/it] 18%|█▊        | 9010/48845 [3:11:43<14:16:44,  1.29s/it]                                                         {'loss': 1.7116, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9010/48845 [3:11:43<14:16:44,  1.29s/it] 18%|█▊        | 9011/48845 [3:11:45<14:10:57,  1.28s/it] 18%|█▊        | 9012/48845 [3:11:46<14:05:44,  1.27s/it] 18%|█▊        | 9013/48845 [3:11:47<14:02:59,  1.27s/it] 18%|█▊        | 9014/48845 [3:11:49<14:01:47,  1.27s/it] 18%|█▊        | 9015/48845 [3:11:50<13:59:49,  1.27s/it]                                                         {'loss': 1.6803, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9015/48845 [3:11:50<13:59:49,  1.27s/it] 18%|█▊        | 9016/48845 [3:11:51<13:58:59,  1.26s/it] 18%|█▊        | 9017/48845 [3:11:52<13:57:48,  1.26s/it] 18%|█▊        | 9018/48845 [3:11:54<13:56:43,  1.26s/it] 18%|█▊        | 9019/48845 [3:11:55<13:57:39,  1.26s/it] 18%|█▊        | 9020/48845 [3:11:56<13:56:49,  1.26s/it]                                                         {'loss': 1.7806, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9020/48845 [3:11:56<13:56:49,  1.26s/it] 18%|█▊        | 9021/48845 [3:11:57<13:56:38,  1.26s/it] 18%|█▊        | 9022/48845 [3:11:59<13:55:41,  1.26s/it] 18%|█▊        | 9023/48845 [3:12:00<14:16:06,  1.29s/it] 18%|█▊        | 9024/48845 [3:12:01<14:10:45,  1.28s/it] 18%|█▊        | 9025/48845 [3:12:02<14:06:18,  1.28s/it]                                                         {'loss': 1.8174, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9025/48845 [3:12:02<14:06:18,  1.28s/it] 18%|█▊        | 9026/48845 [3:12:04<14:02:50,  1.27s/it] 18%|█▊        | 9027/48845 [3:12:05<14:00:23,  1.27s/it] 18%|█▊        | 9028/48845 [3:12:06<13:59:03,  1.26s/it] 18%|█▊        | 9029/48845 [3:12:07<13:58:38,  1.26s/it] 18%|█▊        | 9030/48845 [3:12:09<13:57:00,  1.26s/it]                                                         {'loss': 1.7367, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9030/48845 [3:12:09<13:57:00,  1.26s/it] 18%|█▊        | 9031/48845 [3:12:10<13:57:02,  1.26s/it] 18%|█▊        | 9032/48845 [3:12:11<13:57:30,  1.26s/it] 18%|█▊        | 9033/48845 [3:12:13<13:56:41,  1.26s/it] 18%|█▊        | 9034/48845 [3:12:14<13:56:38,  1.26s/it] 18%|█▊        | 9035/48845 [3:12:15<13:56:29,  1.26s/it]                                                         {'loss': 1.7124, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.92}
+ 18%|█▊        | 9035/48845 [3:12:15<13:56:29,  1.26s/it] 18%|█▊        | 9036/48845 [3:12:16<14:04:18,  1.27s/it] 19%|█▊        | 9037/48845 [3:12:18<14:01:20,  1.27s/it] 19%|█▊        | 9038/48845 [3:12:19<13:59:49,  1.27s/it] 19%|█▊        | 9039/48845 [3:12:20<13:57:50,  1.26s/it] 19%|█▊        | 9040/48845 [3:12:21<13:57:00,  1.26s/it]                                                         {'loss': 1.7787, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9040/48845 [3:12:21<13:57:00,  1.26s/it] 19%|█▊        | 9041/48845 [3:12:23<13:56:17,  1.26s/it] 19%|█▊        | 9042/48845 [3:12:24<13:55:54,  1.26s/it] 19%|█▊        | 9043/48845 [3:12:25<13:55:26,  1.26s/it] 19%|█▊        | 9044/48845 [3:12:26<13:55:50,  1.26s/it] 19%|█▊        | 9045/48845 [3:12:28<13:55:54,  1.26s/it]                                                         {'loss': 1.697, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9045/48845 [3:12:28<13:55:54,  1.26s/it] 19%|█▊        | 9046/48845 [3:12:29<13:55:53,  1.26s/it] 19%|█▊        | 9047/48845 [3:12:30<13:55:48,  1.26s/it] 19%|█▊        | 9048/48845 [3:12:31<13:55:53,  1.26s/it] 19%|█▊        | 9049/48845 [3:12:33<13:55:08,  1.26s/it] 19%|█▊        | 9050/48845 [3:12:34<13:55:17,  1.26s/it]                                                         {'loss': 1.6619, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9050/48845 [3:12:34<13:55:17,  1.26s/it] 19%|█▊        | 9051/48845 [3:12:35<13:56:27,  1.26s/it] 19%|█▊        | 9052/48845 [3:12:37<13:56:15,  1.26s/it] 19%|█▊        | 9053/48845 [3:12:38<13:56:24,  1.26s/it] 19%|█▊        | 9054/48845 [3:12:39<13:55:47,  1.26s/it] 19%|█▊        | 9055/48845 [3:12:40<13:55:58,  1.26s/it]                                                         {'loss': 1.6396, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9055/48845 [3:12:40<13:55:58,  1.26s/it] 19%|█▊        | 9056/48845 [3:12:42<13:56:02,  1.26s/it] 19%|█▊        | 9057/48845 [3:12:43<13:55:31,  1.26s/it] 19%|█▊        | 9058/48845 [3:12:44<13:56:34,  1.26s/it] 19%|█▊        | 9059/48845 [3:12:45<13:56:25,  1.26s/it] 19%|█▊        | 9060/48845 [3:12:47<13:56:16,  1.26s/it]                                                         {'loss': 1.6177, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9060/48845 [3:12:47<13:56:16,  1.26s/it] 19%|█▊        | 9061/48845 [3:12:48<13:56:25,  1.26s/it] 19%|█▊        | 9062/48845 [3:12:49<13:55:23,  1.26s/it] 19%|█▊        | 9063/48845 [3:12:50<13:56:31,  1.26s/it] 19%|█▊        | 9064/48845 [3:12:52<13:56:04,  1.26s/it] 19%|█▊        | 9065/48845 [3:12:53<13:56:31,  1.26s/it]                                                         {'loss': 1.8387, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9065/48845 [3:12:53<13:56:31,  1.26s/it] 19%|█▊        | 9066/48845 [3:12:54<13:58:00,  1.26s/it] 19%|█▊        | 9067/48845 [3:12:55<13:57:21,  1.26s/it] 19%|█▊        | 9068/48845 [3:12:57<13:56:07,  1.26s/it] 19%|█▊        | 9069/48845 [3:12:58<13:54:51,  1.26s/it] 19%|█▊        | 9070/48845 [3:12:59<13:55:15,  1.26s/it]                                                         {'loss': 1.6711, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9070/48845 [3:12:59<13:55:15,  1.26s/it] 19%|█▊        | 9071/48845 [3:13:00<13:57:51,  1.26s/it] 19%|█▊        | 9072/48845 [3:13:02<13:57:13,  1.26s/it] 19%|█▊        | 9073/48845 [3:13:03<13:56:31,  1.26s/it] 19%|█▊        | 9074/48845 [3:13:04<13:56:16,  1.26s/it] 19%|█▊        | 9075/48845 [3:13:06<13:56:16,  1.26s/it]                                                         {'loss': 1.6485, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9075/48845 [3:13:06<13:56:16,  1.26s/it] 19%|█▊        | 9076/48845 [3:13:07<13:56:47,  1.26s/it] 19%|█▊        | 9077/48845 [3:13:08<13:55:55,  1.26s/it] 19%|█▊        | 9078/48845 [3:13:09<13:55:30,  1.26s/it] 19%|█▊        | 9079/48845 [3:13:11<13:56:56,  1.26s/it] 19%|��▊        | 9080/48845 [3:13:12<13:57:57,  1.26s/it]                                                         {'loss': 1.7061, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9080/48845 [3:13:12<13:57:57,  1.26s/it] 19%|█▊        | 9081/48845 [3:13:13<13:57:55,  1.26s/it] 19%|█▊        | 9082/48845 [3:13:14<13:58:31,  1.27s/it] 19%|█▊        | 9083/48845 [3:13:16<13:56:41,  1.26s/it] 19%|█▊        | 9084/48845 [3:13:17<13:56:49,  1.26s/it] 19%|█▊        | 9085/48845 [3:13:18<13:57:03,  1.26s/it]                                                         {'loss': 1.7054, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9085/48845 [3:13:18<13:57:03,  1.26s/it] 19%|█▊        | 9086/48845 [3:13:19<13:57:46,  1.26s/it] 19%|█▊        | 9087/48845 [3:13:21<14:11:07,  1.28s/it] 19%|█▊        | 9088/48845 [3:13:22<14:06:17,  1.28s/it] 19%|█▊        | 9089/48845 [3:13:23<14:02:55,  1.27s/it] 19%|█▊        | 9090/48845 [3:13:25<14:00:42,  1.27s/it]                                                         {'loss': 1.6879, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9090/48845 [3:13:25<14:00:42,  1.27s/it] 19%|█▊        | 9091/48845 [3:13:26<13:58:56,  1.27s/it] 19%|█▊        | 9092/48845 [3:13:27<13:58:15,  1.27s/it] 19%|█▊        | 9093/48845 [3:13:28<13:57:31,  1.26s/it] 19%|█▊        | 9094/48845 [3:13:30<13:56:36,  1.26s/it] 19%|█▊        | 9095/48845 [3:13:31<13:56:34,  1.26s/it]                                                         {'loss': 1.8821, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9095/48845 [3:13:31<13:56:34,  1.26s/it] 19%|█▊        | 9096/48845 [3:13:32<13:55:43,  1.26s/it] 19%|█▊        | 9097/48845 [3:13:33<13:56:28,  1.26s/it] 19%|█▊        | 9098/48845 [3:13:35<13:55:59,  1.26s/it] 19%|█▊        | 9099/48845 [3:13:36<13:55:52,  1.26s/it] 19%|█▊        | 9100/48845 [3:13:37<13:55:30,  1.26s/it]                                                         {'loss': 1.863, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9100/48845 [3:13:37<13:55:30,  1.26s/it] 19%|█▊        | 9101/48845 [3:13:38<13:55:22,  1.26s/it] 19%|█▊        | 9102/48845 [3:13:40<13:56:19,  1.26s/it] 19%|█▊        | 9103/48845 [3:13:41<13:55:53,  1.26s/it] 19%|█▊        | 9104/48845 [3:13:42<13:55:00,  1.26s/it] 19%|█▊        | 9105/48845 [3:13:43<13:55:16,  1.26s/it]                                                         {'loss': 1.8707, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9105/48845 [3:13:43<13:55:16,  1.26s/it] 19%|█▊        | 9106/48845 [3:13:45<13:54:55,  1.26s/it] 19%|█▊        | 9107/48845 [3:13:46<13:55:57,  1.26s/it] 19%|█▊        | 9108/48845 [3:13:47<13:55:24,  1.26s/it] 19%|█▊        | 9109/48845 [3:13:49<13:55:28,  1.26s/it] 19%|█▊        | 9110/48845 [3:13:50<13:56:00,  1.26s/it]                                                         {'loss': 1.7491, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9110/48845 [3:13:50<13:56:00,  1.26s/it] 19%|█▊        | 9111/48845 [3:13:51<13:55:52,  1.26s/it] 19%|█▊        | 9112/48845 [3:13:52<13:55:40,  1.26s/it] 19%|█▊        | 9113/48845 [3:13:54<13:55:55,  1.26s/it] 19%|█▊        | 9114/48845 [3:13:55<13:55:31,  1.26s/it] 19%|█▊        | 9115/48845 [3:13:56<13:55:26,  1.26s/it]                                                         {'loss': 1.6969, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9115/48845 [3:13:56<13:55:26,  1.26s/it] 19%|█▊        | 9116/48845 [3:13:57<13:55:28,  1.26s/it] 19%|█▊        | 9117/48845 [3:13:59<13:54:56,  1.26s/it] 19%|█▊        | 9118/48845 [3:14:00<13:56:00,  1.26s/it] 19%|█▊        | 9119/48845 [3:14:01<13:55:23,  1.26s/it] 19%|█▊        | 9120/48845 [3:14:02<13:54:39,  1.26s/it]                                                         {'loss': 1.7812, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9120/48845 [3:14:02<13:54:39,  1.26s/it] 19%|█▊        | 9121/48845 [3:14:04<13:56:15,  1.26s/it] 19%|█▊        | 9122/48845 [3:14:05<13:55:44,  1.26s/it] 19%|█▊        | 9123/48845 [3:14:06<13:55:04,  1.26s/it] 19%|█▊        | 9124/48845 [3:14:07<13:54:18,  1.26s/it] 19%|█▊        | 9125/48845 [3:14:09<13:54:43,  1.26s/it]                                                         {'loss': 1.7808, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9125/48845 [3:14:09<13:54:43,  1.26s/it] 19%|█▊        | 9126/48845 [3:14:10<13:55:42,  1.26s/it] 19%|█▊        | 9127/48845 [3:14:11<13:55:20,  1.26s/it] 19%|█▊        | 9128/48845 [3:14:12<13:54:59,  1.26s/it] 19%|█▊        | 9129/48845 [3:14:14<13:53:52,  1.26s/it] 19%|█▊        | 9130/48845 [3:14:15<13:53:40,  1.26s/it]                                                         {'loss': 1.6363, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.93}
+ 19%|█▊        | 9130/48845 [3:14:15<13:53:40,  1.26s/it] 19%|█▊        | 9131/48845 [3:14:16<13:56:34,  1.26s/it] 19%|█▊        | 9132/48845 [3:14:18<13:55:14,  1.26s/it] 19%|█▊        | 9133/48845 [3:14:19<13:54:59,  1.26s/it] 19%|█▊        | 9134/48845 [3:14:20<13:55:18,  1.26s/it] 19%|█▊        | 9135/48845 [3:14:21<13:54:24,  1.26s/it]                                                         {'loss': 1.6971, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▊        | 9135/48845 [3:14:21<13:54:24,  1.26s/it] 19%|█▊        | 9136/48845 [3:14:23<13:54:23,  1.26s/it] 19%|█▊        | 9137/48845 [3:14:24<13:55:04,  1.26s/it] 19%|█▊        | 9138/48845 [3:14:25<13:54:39,  1.26s/it] 19%|█▊        | 9139/48845 [3:14:26<13:54:44,  1.26s/it] 19%|█▊        | 9140/48845 [3:14:28<13:53:20,  1.26s/it]                                                         {'loss': 1.6115, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▊        | 9140/48845 [3:14:28<13:53:20,  1.26s/it] 19%|█▊        | 9141/48845 [3:14:29<13:53:37,  1.26s/it] 19%|█▊        | 9142/48845 [3:14:30<13:53:11,  1.26s/it] 19%|█▊        | 9143/48845 [3:14:31<13:53:01,  1.26s/it] 19%|█▊        | 9144/48845 [3:14:33<13:53:40,  1.26s/it] 19%|█▊        | 9145/48845 [3:14:34<13:53:21,  1.26s/it]                                                         {'loss': 1.6365, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▊        | 9145/48845 [3:14:34<13:53:21,  1.26s/it] 19%|█▊        | 9146/48845 [3:14:35<13:54:35,  1.26s/it] 19%|█▊        | 9147/48845 [3:14:36<13:54:39,  1.26s/it] 19%|█▊        | 9148/48845 [3:14:38<13:54:31,  1.26s/it] 19%|█▊        | 9149/48845 [3:14:39<13:54:51,  1.26s/it] 19%|█▊        | 9150/48845 [3:14:40<13:54:43,  1.26s/it]                                                         {'loss': 1.6989, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▊        | 9150/48845 [3:14:40<13:54:43,  1.26s/it] 19%|█▊        | 9151/48845 [3:14:41<13:54:51,  1.26s/it] 19%|█▊        | 9152/48845 [3:14:43<13:55:14,  1.26s/it] 19%|█▊        | 9153/48845 [3:14:44<13:54:35,  1.26s/it] 19%|█▊        | 9154/48845 [3:14:45<13:54:52,  1.26s/it] 19%|█▊        | 9155/48845 [3:14:47<13:53:23,  1.26s/it]                                                         {'loss': 1.6437, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▊        | 9155/48845 [3:14:47<13:53:23,  1.26s/it] 19%|█▊        | 9156/48845 [3:14:48<13:55:09,  1.26s/it] 19%|█▊        | 9157/48845 [3:14:49<13:54:43,  1.26s/it] 19%|█▊        | 9158/48845 [3:14:50<13:54:43,  1.26s/it] 19%|█▉        | 9159/48845 [3:14:52<13:53:52,  1.26s/it] 19%|█▉        | 9160/48845 [3:14:53<13:55:04,  1.26s/it]                                                         {'loss': 1.7273, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9160/48845 [3:14:53<13:55:04,  1.26s/it] 19%|█▉        | 9161/48845 [3:14:54<13:54:37,  1.26s/it] 19%|█▉        | 9162/48845 [3:14:55<13:53:38,  1.26s/it] 19%|█▉        | 9163/48845 [3:14:57<13:53:14,  1.26s/it] 19%|█▉        | 9164/48845 [3:14:58<13:53:09,  1.26s/it] 19%|█▉        | 9165/48845 [3:14:59<13:53:50,  1.26s/it]                                                         {'loss': 1.6768, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9165/48845 [3:14:59<13:53:50,  1.26s/it] 19%|█▉        | 9166/48845 [3:15:00<13:53:42,  1.26s/it] 19%|█▉        | 9167/48845 [3:15:02<13:54:01,  1.26s/it] 19%|█▉        | 9168/48845 [3:15:03<13:53:13,  1.26s/it] 19%|█▉        | 9169/48845 [3:15:04<13:52:58,  1.26s/it] 19%|█▉        | 9170/48845 [3:15:05<13:53:54,  1.26s/it]                                                         {'loss': 1.7391, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9170/48845 [3:15:05<13:53:54,  1.26s/it] 19%|█▉        | 9171/48845 [3:15:07<13:52:44,  1.26s/it] 19%|█▉        | 9172/48845 [3:15:08<13:53:06,  1.26s/it] 19%|█▉        | 9173/48845 [3:15:09<13:52:24,  1.26s/it] 19%|█▉        | 9174/48845 [3:15:11<15:54:59,  1.44s/it] 19%|█▉        | 9175/48845 [3:15:12<15:18:24,  1.39s/it]                                                         {'loss': 1.7662, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9175/48845 [3:15:12<15:18:24,  1.39s/it] 19%|█▉        | 9176/48845 [3:15:14<14:52:57,  1.35s/it] 19%|█▉        | 9177/48845 [3:15:15<14:34:27,  1.32s/it] 19%|█▉        | 9178/48845 [3:15:16<14:23:31,  1.31s/it] 19%|█▉        | 9179/48845 [3:15:17<14:14:13,  1.29s/it] 19%|█▉        | 9180/48845 [3:15:19<14:08:05,  1.28s/it]                                                         {'loss': 1.8755, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9180/48845 [3:15:19<14:08:05,  1.28s/it] 19%|█▉        | 9181/48845 [3:15:20<14:05:24,  1.28s/it] 19%|█▉        | 9182/48845 [3:15:21<14:01:47,  1.27s/it] 19%|█▉        | 9183/48845 [3:15:22<14:00:49,  1.27s/it] 19%|█▉        | 9184/48845 [3:15:24<13:58:02,  1.27s/it] 19%|█▉        | 9185/48845 [3:15:25<13:55:53,  1.26s/it]                                                         {'loss': 1.6175, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9185/48845 [3:15:25<13:55:53,  1.26s/it] 19%|█▉        | 9186/48845 [3:15:26<13:57:26,  1.27s/it] 19%|█▉        | 9187/48845 [3:15:28<13:55:46,  1.26s/it] 19%|█▉        | 9188/48845 [3:15:29<13:55:11,  1.26s/it] 19%|█▉        | 9189/48845 [3:15:30<13:54:47,  1.26s/it] 19%|█▉        | 9190/48845 [3:15:31<13:53:57,  1.26s/it]                                                         {'loss': 1.7737, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9190/48845 [3:15:31<13:53:57,  1.26s/it] 19%|█▉        | 9191/48845 [3:15:33<13:54:37,  1.26s/it] 19%|█▉        | 9192/48845 [3:15:34<13:53:25,  1.26s/it] 19%|█▉        | 9193/48845 [3:15:35<13:52:45,  1.26s/it] 19%|█▉        | 9194/48845 [3:15:36<13:53:00,  1.26s/it] 19%|█▉        | 9195/48845 [3:15:38<13:53:02,  1.26s/it]                                                         {'loss': 1.6943, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9195/48845 [3:15:38<13:53:02,  1.26s/it] 19%|█▉        | 9196/48845 [3:15:39<13:53:28,  1.26s/it] 19%|█▉        | 9197/48845 [3:15:40<13:53:56,  1.26s/it] 19%|█▉        | 9198/48845 [3:15:41<13:54:23,  1.26s/it] 19%|█▉        | 9199/48845 [3:15:43<13:53:52,  1.26s/it] 19%|█▉        | 9200/48845 [3:15:44<13:52:41,  1.26s/it]                                                         {'loss': 1.746, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9200/48845 [3:15:44<13:52:41,  1.26s/it] 19%|█▉        | 9201/48845 [3:15:48<21:44:44,  1.97s/it] 19%|█▉        | 9202/48845 [3:15:49<19:22:23,  1.76s/it] 19%|█▉        | 9203/48845 [3:15:50<17:43:57,  1.61s/it] 19%|█▉        | 9204/48845 [3:15:51<16:35:00,  1.51s/it] 19%|█▉        | 9205/48845 [3:15:53<15:45:43,  1.43s/it]                                                         {'loss': 1.8644, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9205/48845 [3:15:53<15:45:43,  1.43s/it] 19%|█▉        | 9206/48845 [3:15:54<15:11:14,  1.38s/it] 19%|█▉        | 9207/48845 [3:15:55<14:47:00,  1.34s/it] 19%|█▉        | 9208/48845 [3:15:56<14:31:10,  1.32s/it] 19%|█▉        | 9209/48845 [3:15:58<14:20:10,  1.30s/it] 19%|█▉        | 9210/48845 [3:15:59<14:11:47,  1.29s/it]                                                         {'loss': 1.6892, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9210/48845 [3:15:59<14:11:47,  1.29s/it] 19%|█▉        | 9211/48845 [3:16:00<14:07:02,  1.28s/it] 19%|█▉        | 9212/48845 [3:16:01<14:01:54,  1.27s/it] 19%|█▉        | 9213/48845 [3:16:03<13:58:37,  1.27s/it] 19%|█▉        | 9214/48845 [3:16:04<13:56:25,  1.27s/it] 19%|█▉        | 9215/48845 [3:16:05<13:54:57,  1.26s/it]                                                         {'loss': 1.7554, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9215/48845 [3:16:05<13:54:57,  1.26s/it] 19%|█▉        | 9216/48845 [3:16:06<13:54:41,  1.26s/it] 19%|█▉        | 9217/48845 [3:16:08<13:53:31,  1.26s/it] 19%|█▉        | 9218/48845 [3:16:09<13:52:35,  1.26s/it] 19%|█▉        | 9219/48845 [3:16:10<13:52:59,  1.26s/it] 19%|█▉        | 9220/48845 [3:16:11<13:52:26,  1.26s/it]                                                         {'loss': 1.7066, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9220/48845 [3:16:11<13:52:26,  1.26s/it] 19%|█▉        | 9221/48845 [3:16:13<13:53:21,  1.26s/it] 19%|█▉        | 9222/48845 [3:16:14<13:53:22,  1.26s/it] 19%|█▉        | 9223/48845 [3:16:15<13:53:09,  1.26s/it] 19%|█▉        | 9224/48845 [3:16:17<13:52:52,  1.26s/it] 19%|█▉        | 9225/48845 [3:16:18<13:52:41,  1.26s/it]                                                         {'loss': 1.8062, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9225/48845 [3:16:18<13:52:41,  1.26s/it] 19%|█▉        | 9226/48845 [3:16:19<13:52:30,  1.26s/it] 19%|█▉        | 9227/48845 [3:16:20<13:53:21,  1.26s/it] 19%|█▉        | 9228/48845 [3:16:22<13:52:40,  1.26s/it] 19%|█▉        | 9229/48845 [3:16:23<13:52:36,  1.26s/it] 19%|█▉        | 9230/48845 [3:16:24<13:52:02,  1.26s/it]                                                         {'loss': 1.6137, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.94}
+ 19%|█▉        | 9230/48845 [3:16:24<13:52:02,  1.26s/it] 19%|█▉        | 9231/48845 [3:16:25<13:52:15,  1.26s/it] 19%|█▉        | 9232/48845 [3:16:27<13:52:36,  1.26s/it] 19%|█▉        | 9233/48845 [3:16:28<13:52:20,  1.26s/it] 19%|█▉        | 9234/48845 [3:16:29<13:52:23,  1.26s/it] 19%|█▉        | 9235/48845 [3:16:30<13:51:48,  1.26s/it]                                                         {'loss': 1.6437, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9235/48845 [3:16:30<13:51:48,  1.26s/it] 19%|█▉        | 9236/48845 [3:16:32<13:52:07,  1.26s/it] 19%|█▉        | 9237/48845 [3:16:33<13:51:44,  1.26s/it] 19%|█▉        | 9238/48845 [3:16:34<13:51:05,  1.26s/it] 19%|█▉        | 9239/48845 [3:16:35<13:50:51,  1.26s/it] 19%|█▉        | 9240/48845 [3:16:37<13:51:00,  1.26s/it]                                                         {'loss': 1.765, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9240/48845 [3:16:37<13:51:00,  1.26s/it] 19%|█▉        | 9241/48845 [3:16:38<13:51:25,  1.26s/it] 19%|█▉        | 9242/48845 [3:16:39<13:51:39,  1.26s/it] 19%|█▉        | 9243/48845 [3:16:40<13:51:30,  1.26s/it] 19%|█▉        | 9244/48845 [3:16:42<13:51:24,  1.26s/it] 19%|█▉        | 9245/48845 [3:16:43<13:51:24,  1.26s/it]                                                         {'loss': 1.6176, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9245/48845 [3:16:43<13:51:24,  1.26s/it] 19%|█▉        | 9246/48845 [3:16:44<13:51:06,  1.26s/it] 19%|█▉        | 9247/48845 [3:16:46<13:51:14,  1.26s/it] 19%|█▉        | 9248/48845 [3:16:47<13:52:11,  1.26s/it] 19%|█▉        | 9249/48845 [3:16:48<13:52:03,  1.26s/it] 19%|█▉        | 9250/48845 [3:16:49<13:51:49,  1.26s/it]                                                         {'loss': 1.747, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9250/48845 [3:16:49<13:51:49,  1.26s/it] 19%|█▉        | 9251/48845 [3:16:51<13:52:30,  1.26s/it] 19%|█▉        | 9252/48845 [3:16:52<13:52:41,  1.26s/it] 19%|█▉        | 9253/48845 [3:16:53<13:52:33,  1.26s/it] 19%|█▉        | 9254/48845 [3:16:54<13:52:15,  1.26s/it] 19%|█▉        | 9255/48845 [3:16:56<13:51:49,  1.26s/it]                                                         {'loss': 1.7419, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9255/48845 [3:16:56<13:51:49,  1.26s/it] 19%|█▉        | 9256/48845 [3:16:57<13:51:38,  1.26s/it] 19%|█▉        | 9257/48845 [3:16:58<13:51:23,  1.26s/it] 19%|█▉        | 9258/48845 [3:16:59<13:51:14,  1.26s/it] 19%|█▉        | 9259/48845 [3:17:01<13:51:22,  1.26s/it] 19%|█▉        | 9260/48845 [3:17:02<13:51:49,  1.26s/it]                                                         {'loss': 1.8252, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9260/48845 [3:17:02<13:51:49,  1.26s/it] 19%|█▉        | 9261/48845 [3:17:03<13:52:04,  1.26s/it] 19%|█▉        | 9262/48845 [3:17:04<13:51:16,  1.26s/it] 19%|█▉        | 9263/48845 [3:17:06<13:50:46,  1.26s/it] 19%|█▉        | 9264/48845 [3:17:07<13:49:58,  1.26s/it] 19%|█▉        | 9265/48845 [3:17:08<13:50:53,  1.26s/it]                                                         {'loss': 1.668, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9265/48845 [3:17:08<13:50:53,  1.26s/it] 19%|█▉        | 9266/48845 [3:17:09<13:50:52,  1.26s/it] 19%|█▉        | 9267/48845 [3:17:11<13:50:58,  1.26s/it] 19%|█▉        | 9268/48845 [3:17:12<13:50:16,  1.26s/it] 19%|█▉        | 9269/48845 [3:17:13<13:51:21,  1.26s/it] 19%|█▉        | 9270/48845 [3:17:14<13:51:23,  1.26s/it]                                                         {'loss': 1.7021, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9270/48845 [3:17:14<13:51:23,  1.26s/it] 19%|█▉        | 9271/48845 [3:17:16<13:51:21,  1.26s/it] 19%|█▉        | 9272/48845 [3:17:17<13:51:13,  1.26s/it] 19%|█▉        | 9273/48845 [3:17:18<13:51:08,  1.26s/it] 19%|█▉        | 9274/48845 [3:17:20<13:51:04,  1.26s/it] 19%|█▉        | 9275/48845 [3:17:21<13:53:58,  1.26s/it]                                                         {'loss': 1.853, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9275/48845 [3:17:21<13:53:58,  1.26s/it] 19%|█▉        | 9276/48845 [3:17:22<13:54:07,  1.26s/it] 19%|█▉        | 9277/48845 [3:17:23<13:52:56,  1.26s/it] 19%|█▉        | 9278/48845 [3:17:25<13:52:44,  1.26s/it] 19%|█▉        | 9279/48845 [3:17:26<13:51:50,  1.26s/it] 19%|█▉        | 9280/48845 [3:17:27<13:51:51,  1.26s/it]                                                         {'loss': 1.5626, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9280/48845 [3:17:27<13:51:51,  1.26s/it] 19%|█▉        | 9281/48845 [3:17:28<13:52:53,  1.26s/it] 19%|█▉        | 9282/48845 [3:17:30<13:53:48,  1.26s/it] 19%|█▉        | 9283/48845 [3:17:31<13:52:40,  1.26s/it] 19%|█▉        | 9284/48845 [3:17:32<13:51:57,  1.26s/it] 19%|█▉        | 9285/48845 [3:17:33<13:52:09,  1.26s/it]                                                         {'loss': 1.8474, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9285/48845 [3:17:33<13:52:09,  1.26s/it] 19%|█▉        | 9286/48845 [3:17:35<13:52:37,  1.26s/it] 19%|█▉        | 9287/48845 [3:17:36<13:51:47,  1.26s/it] 19%|█▉        | 9288/48845 [3:17:37<13:51:26,  1.26s/it] 19%|█▉        | 9289/48845 [3:17:38<13:51:46,  1.26s/it] 19%|█▉        | 9290/48845 [3:17:40<13:52:06,  1.26s/it]                                                         {'loss': 1.9129, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9290/48845 [3:17:40<13:52:06,  1.26s/it] 19%|█▉        | 9291/48845 [3:17:41<13:53:54,  1.26s/it] 19%|█▉        | 9292/48845 [3:17:42<13:51:55,  1.26s/it] 19%|█▉        | 9293/48845 [3:17:44<13:51:11,  1.26s/it] 19%|█▉        | 9294/48845 [3:17:45<13:50:43,  1.26s/it] 19%|█▉        | 9295/48845 [3:17:46<13:51:09,  1.26s/it]                                                         {'loss': 1.7508, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9295/48845 [3:17:46<13:51:09,  1.26s/it] 19%|█▉        | 9296/48845 [3:17:47<13:51:24,  1.26s/it] 19%|█▉        | 9297/48845 [3:17:49<13:51:12,  1.26s/it] 19%|█▉        | 9298/48845 [3:17:50<13:50:37,  1.26s/it] 19%|█▉        | 9299/48845 [3:17:51<13:50:32,  1.26s/it] 19%|█▉        | 9300/48845 [3:17:52<13:50:48,  1.26s/it]                                                         {'loss': 1.6783, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9300/48845 [3:17:52<13:50:48,  1.26s/it] 19%|█▉        | 9301/48845 [3:17:54<13:50:51,  1.26s/it] 19%|█▉        | 9302/48845 [3:17:55<13:49:50,  1.26s/it] 19%|█▉        | 9303/48845 [3:17:56<13:49:15,  1.26s/it] 19%|█▉        | 9304/48845 [3:17:57<13:49:44,  1.26s/it] 19%|█▉        | 9305/48845 [3:17:59<13:49:21,  1.26s/it]                                                         {'loss': 1.6573, 'learning_rate': 4.073141019392916e-05, 'epoch': 0.95}
+ 19%|█▉        | 9305/48845 [3:17:59<13:49:21,  1.26s/it] 19%|█▉        | 9306/48845 [3:18:00<13:50:05,  1.26s/it] 19%|█▉        | 9307/48845 [3:18:01<14:27:47,  1.32s/it] 19%|█▉        | 9308/48845 [3:18:03<14:15:55,  1.30s/it] 19%|█▉        | 9309/48845 [3:18:04<14:08:11,  1.29s/it] 19%|█▉        | 9310/48845 [3:18:05<14:03:28,  1.28s/it]                                                         {'loss': 1.7347, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.95}
+ 19%|█▉        | 9310/48845 [3:18:05<14:03:28,  1.28s/it] 19%|█▉        | 9311/48845 [3:18:06<14:01:04,  1.28s/it] 19%|█▉        | 9312/48845 [3:18:08<13:56:48,  1.27s/it] 19%|█▉        | 9313/48845 [3:18:09<13:54:30,  1.27s/it] 19%|█▉        | 9314/48845 [3:18:10<13:55:09,  1.27s/it] 19%|█▉        | 9315/48845 [3:18:11<13:52:53,  1.26s/it]                                                         {'loss': 1.9849, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.95}
+ 19%|█▉        | 9315/48845 [3:18:11<13:52:53,  1.26s/it] 19%|█▉        | 9316/48845 [3:18:13<13:52:00,  1.26s/it] 19%|█▉        | 9317/48845 [3:18:14<13:50:57,  1.26s/it] 19%|█▉        | 9318/48845 [3:18:15<13:50:25,  1.26s/it] 19%|█▉        | 9319/48845 [3:18:16<13:51:01,  1.26s/it] 19%|█▉        | 9320/48845 [3:18:18<13:50:14,  1.26s/it]                                                         {'loss': 1.8511, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.95}
+ 19%|█▉        | 9320/48845 [3:18:18<13:50:14,  1.26s/it] 19%|█▉        | 9321/48845 [3:18:19<13:50:32,  1.26s/it] 19%|█▉        | 9322/48845 [3:18:20<13:49:55,  1.26s/it] 19%|█▉        | 9323/48845 [3:18:22<13:49:02,  1.26s/it] 19%|█▉        | 9324/48845 [3:18:23<13:49:36,  1.26s/it] 19%|█▉        | 9325/48845 [3:18:24<13:49:46,  1.26s/it]                                                         {'loss': 1.7505, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.95}
+ 19%|█▉        | 9325/48845 [3:18:24<13:49:46,  1.26s/it] 19%|█▉        | 9326/48845 [3:18:25<13:50:40,  1.26s/it] 19%|█▉        | 9327/48845 [3:18:27<13:50:06,  1.26s/it] 19%|█▉        | 9328/48845 [3:18:28<13:49:32,  1.26s/it] 19%|█▉        | 9329/48845 [3:18:29<13:49:31,  1.26s/it] 19%|█▉        | 9330/48845 [3:18:30<13:49:18,  1.26s/it]                                                         {'loss': 1.9006, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9330/48845 [3:18:30<13:49:18,  1.26s/it] 19%|█▉        | 9331/48845 [3:18:32<13:50:37,  1.26s/it] 19%|█▉        | 9332/48845 [3:18:33<13:50:50,  1.26s/it] 19%|█▉        | 9333/48845 [3:18:34<13:51:03,  1.26s/it] 19%|█▉        | 9334/48845 [3:18:35<13:50:48,  1.26s/it] 19%|█▉        | 9335/48845 [3:18:37<13:50:21,  1.26s/it]                                                         {'loss': 1.8406, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9335/48845 [3:18:37<13:50:21,  1.26s/it] 19%|█▉        | 9336/48845 [3:18:38<13:50:11,  1.26s/it] 19%|█▉        | 9337/48845 [3:18:39<13:50:08,  1.26s/it] 19%|█▉        | 9338/48845 [3:18:40<13:50:08,  1.26s/it] 19%|█▉        | 9339/48845 [3:18:42<13:49:33,  1.26s/it] 19%|█▉        | 9340/48845 [3:18:43<13:49:17,  1.26s/it]                                                         {'loss': 1.8191, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9340/48845 [3:18:43<13:49:17,  1.26s/it] 19%|█▉        | 9341/48845 [3:18:44<13:50:37,  1.26s/it] 19%|█▉        | 9342/48845 [3:18:45<13:50:44,  1.26s/it] 19%|█▉        | 9343/48845 [3:18:47<13:49:17,  1.26s/it] 19%|█▉        | 9344/48845 [3:18:48<13:49:38,  1.26s/it] 19%|█▉        | 9345/48845 [3:18:49<13:49:32,  1.26s/it]                                                         {'loss': 1.822, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9345/48845 [3:18:49<13:49:32,  1.26s/it] 19%|█▉        | 9346/48845 [3:18:51<13:49:18,  1.26s/it] 19%|█▉        | 9347/48845 [3:18:52<13:49:34,  1.26s/it] 19%|█▉        | 9348/48845 [3:18:53<13:49:36,  1.26s/it] 19%|█▉        | 9349/48845 [3:18:54<13:49:30,  1.26s/it] 19%|█▉        | 9350/48845 [3:18:56<13:49:00,  1.26s/it]                                                         {'loss': 1.8703, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9350/48845 [3:18:56<13:49:00,  1.26s/it] 19%|█▉        | 9351/48845 [3:18:57<13:49:37,  1.26s/it] 19%|█▉        | 9352/48845 [3:18:58<13:50:17,  1.26s/it] 19%|█▉        | 9353/48845 [3:18:59<13:50:19,  1.26s/it] 19%|█▉        | 9354/48845 [3:19:01<13:50:27,  1.26s/it] 19%|█▉        | 9355/48845 [3:19:02<13:50:33,  1.26s/it]                                                         {'loss': 1.8197, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9355/48845 [3:19:02<13:50:33,  1.26s/it] 19%|█▉        | 9356/48845 [3:19:03<13:49:53,  1.26s/it] 19%|█▉        | 9357/48845 [3:19:04<13:48:50,  1.26s/it] 19%|█▉        | 9358/48845 [3:19:06<13:49:13,  1.26s/it] 19%|█▉        | 9359/48845 [3:19:07<13:49:35,  1.26s/it] 19%|█▉        | 9360/48845 [3:19:08<13:50:15,  1.26s/it]                                                         {'loss': 1.7662, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9360/48845 [3:19:08<13:50:15,  1.26s/it] 19%|█▉        | 9361/48845 [3:19:09<13:49:24,  1.26s/it] 19%|█▉        | 9362/48845 [3:19:11<13:49:43,  1.26s/it] 19%|█▉        | 9363/48845 [3:19:12<13:49:03,  1.26s/it] 19%|█▉        | 9364/48845 [3:19:13<13:48:53,  1.26s/it] 19%|█▉        | 9365/48845 [3:19:14<13:49:03,  1.26s/it]                                                         {'loss': 1.8867, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9365/48845 [3:19:14<13:49:03,  1.26s/it] 19%|█▉        | 9366/48845 [3:19:16<13:50:38,  1.26s/it] 19%|█▉        | 9367/48845 [3:19:17<13:50:17,  1.26s/it] 19%|█▉        | 9368/48845 [3:19:18<13:50:57,  1.26s/it] 19%|█▉        | 9369/48845 [3:19:20<13:50:18,  1.26s/it] 19%|█▉        | 9370/48845 [3:19:21<13:49:37,  1.26s/it]                                                         {'loss': 1.7682, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9370/48845 [3:19:21<13:49:37,  1.26s/it] 19%|█▉        | 9371/48845 [3:19:22<13:49:36,  1.26s/it] 19%|█▉        | 9372/48845 [3:19:23<13:49:05,  1.26s/it] 19%|█▉        | 9373/48845 [3:19:25<13:49:45,  1.26s/it] 19%|█▉        | 9374/48845 [3:19:26<13:49:16,  1.26s/it] 19%|█▉        | 9375/48845 [3:19:27<13:48:37,  1.26s/it]                                                         {'loss': 1.8888, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9375/48845 [3:19:27<13:48:37,  1.26s/it] 19%|█▉        | 9376/48845 [3:19:28<13:48:44,  1.26s/it] 19%|█▉        | 9377/48845 [3:19:30<13:48:24,  1.26s/it] 19%|█▉        | 9378/48845 [3:19:31<13:48:45,  1.26s/it] 19%|█▉        | 9379/48845 [3:19:32<13:49:02,  1.26s/it] 19%|█▉        | 9380/48845 [3:19:33<13:48:17,  1.26s/it]                                                         {'loss': 1.8274, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9380/48845 [3:19:33<13:48:17,  1.26s/it] 19%|█▉        | 9381/48845 [3:19:35<13:48:23,  1.26s/it] 19%|█▉        | 9382/48845 [3:19:36<13:48:08,  1.26s/it] 19%|█▉        | 9383/48845 [3:19:37<13:48:33,  1.26s/it] 19%|█▉        | 9384/48845 [3:19:38<13:48:22,  1.26s/it] 19%|█▉        | 9385/48845 [3:19:40<13:48:16,  1.26s/it]                                                         {'loss': 1.9092, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9385/48845 [3:19:40<13:48:16,  1.26s/it] 19%|█▉        | 9386/48845 [3:19:41<13:48:21,  1.26s/it] 19%|█▉        | 9387/48845 [3:19:42<13:47:53,  1.26s/it] 19%|█▉        | 9388/48845 [3:19:43<13:47:49,  1.26s/it] 19%|█▉        | 9389/48845 [3:19:45<13:47:14,  1.26s/it] 19%|█▉        | 9390/48845 [3:19:46<13:47:36,  1.26s/it]                                                         {'loss': 1.8025, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9390/48845 [3:19:46<13:47:36,  1.26s/it] 19%|█▉        | 9391/48845 [3:19:47<13:47:21,  1.26s/it] 19%|█▉        | 9392/48845 [3:19:48<13:47:34,  1.26s/it] 19%|█▉        | 9393/48845 [3:19:50<13:47:36,  1.26s/it] 19%|█▉        | 9394/48845 [3:19:51<13:47:00,  1.26s/it] 19%|█▉        | 9395/48845 [3:19:52<13:48:31,  1.26s/it]                                                         {'loss': 1.7976, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9395/48845 [3:19:52<13:48:31,  1.26s/it] 19%|█▉        | 9396/48845 [3:19:54<13:48:55,  1.26s/it] 19%|█▉        | 9397/48845 [3:19:55<13:49:22,  1.26s/it] 19%|█▉        | 9398/48845 [3:19:56<13:49:39,  1.26s/it] 19%|█▉        | 9399/48845 [3:19:57<13:48:39,  1.26s/it] 19%|█▉        | 9400/48845 [3:19:59<13:50:14,  1.26s/it]                                                         {'loss': 1.7749, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9400/48845 [3:19:59<13:50:14,  1.26s/it] 19%|█▉        | 9401/48845 [3:20:02<21:42:38,  1.98s/it] 19%|█▉        | 9402/48845 [3:20:03<19:19:16,  1.76s/it] 19%|█▉        | 9403/48845 [3:20:05<17:39:38,  1.61s/it] 19%|█▉        | 9404/48845 [3:20:06<16:29:56,  1.51s/it] 19%|█▉        | 9405/48845 [3:20:07<15:42:01,  1.43s/it]                                                         {'loss': 1.7653, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9405/48845 [3:20:07<15:42:01,  1.43s/it] 19%|█▉        | 9406/48845 [3:20:09<15:07:29,  1.38s/it] 19%|█▉        | 9407/48845 [3:20:10<14:43:06,  1.34s/it] 19%|█▉        | 9408/48845 [3:20:11<14:27:50,  1.32s/it] 19%|█▉        | 9409/48845 [3:20:12<14:15:32,  1.30s/it] 19%|█▉        | 9410/48845 [3:20:14<14:07:37,  1.29s/it]                                                         {'loss': 1.7511, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9410/48845 [3:20:14<14:07:37,  1.29s/it] 19%|█▉        | 9411/48845 [3:20:15<14:01:21,  1.28s/it] 19%|█▉        | 9412/48845 [3:20:16<13:56:31,  1.27s/it] 19%|█▉        | 9413/48845 [3:20:17<13:53:49,  1.27s/it] 19%|█▉        | 9414/48845 [3:20:19<13:51:45,  1.27s/it] 19%|█▉        | 9415/48845 [3:20:20<13:49:53,  1.26s/it]                                                         {'loss': 2.0003, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9415/48845 [3:20:20<13:49:53,  1.26s/it] 19%|█▉        | 9416/48845 [3:20:21<14:17:32,  1.30s/it] 19%|█▉        | 9417/48845 [3:20:23<14:08:03,  1.29s/it] 19%|█▉        | 9418/48845 [3:20:24<14:01:43,  1.28s/it] 19%|█▉        | 9419/48845 [3:20:25<13:58:39,  1.28s/it] 19%|█▉        | 9420/48845 [3:20:26<13:57:03,  1.27s/it]                                                         {'loss': 1.776, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9420/48845 [3:20:26<13:57:03,  1.27s/it] 19%|█▉        | 9421/48845 [3:20:28<13:55:03,  1.27s/it] 19%|█▉        | 9422/48845 [3:20:29<13:53:51,  1.27s/it] 19%|█▉        | 9423/48845 [3:20:30<13:52:48,  1.27s/it] 19%|█▉        | 9424/48845 [3:20:31<13:52:15,  1.27s/it] 19%|█▉        | 9425/48845 [3:20:33<13:51:39,  1.27s/it]                                                         {'loss': 1.6548, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.96}
+ 19%|█▉        | 9425/48845 [3:20:33<13:51:39,  1.27s/it] 19%|█▉        | 9426/48845 [3:20:34<13:49:58,  1.26s/it] 19%|█▉        | 9427/48845 [3:20:35<13:49:14,  1.26s/it] 19%|█▉        | 9428/48845 [3:20:36<13:48:36,  1.26s/it] 19%|█▉        | 9429/48845 [3:20:38<13:47:58,  1.26s/it] 19%|█▉        | 9430/48845 [3:20:39<13:48:10,  1.26s/it]                                                         {'loss': 1.7573, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9430/48845 [3:20:39<13:48:10,  1.26s/it] 19%|█▉        | 9431/48845 [3:20:40<13:47:53,  1.26s/it] 19%|█▉        | 9432/48845 [3:20:41<13:49:16,  1.26s/it] 19%|█▉        | 9433/48845 [3:20:43<13:48:15,  1.26s/it] 19%|█▉        | 9434/48845 [3:20:44<13:48:00,  1.26s/it] 19%|█▉        | 9435/48845 [3:20:45<13:48:23,  1.26s/it]                                                         {'loss': 1.9269, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9435/48845 [3:20:45<13:48:23,  1.26s/it] 19%|█▉        | 9436/48845 [3:20:46<13:47:40,  1.26s/it] 19%|█▉        | 9437/48845 [3:20:48<13:47:30,  1.26s/it] 19%|█▉        | 9438/48845 [3:20:49<13:47:23,  1.26s/it] 19%|█▉        | 9439/48845 [3:20:50<13:47:38,  1.26s/it] 19%|█▉        | 9440/48845 [3:20:52<13:47:32,  1.26s/it]                                                         {'loss': 1.8906, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9440/48845 [3:20:52<13:47:32,  1.26s/it] 19%|█▉        | 9441/48845 [3:20:53<13:47:29,  1.26s/it] 19%|█▉        | 9442/48845 [3:20:54<13:47:13,  1.26s/it] 19%|█▉        | 9443/48845 [3:20:55<13:47:01,  1.26s/it] 19%|█▉        | 9444/48845 [3:20:57<13:46:36,  1.26s/it] 19%|█▉        | 9445/48845 [3:20:58<13:47:19,  1.26s/it]                                                         {'loss': 1.7377, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9445/48845 [3:20:58<13:47:19,  1.26s/it] 19%|█▉        | 9446/48845 [3:20:59<13:48:19,  1.26s/it] 19%|█▉        | 9447/48845 [3:21:00<13:47:45,  1.26s/it] 19%|█▉        | 9448/48845 [3:21:02<14:00:04,  1.28s/it] 19%|█▉        | 9449/48845 [3:21:03<13:55:51,  1.27s/it] 19%|█▉        | 9450/48845 [3:21:04<13:52:57,  1.27s/it]                                                         {'loss': 1.8253, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9450/48845 [3:21:04<13:52:57,  1.27s/it] 19%|█▉        | 9451/48845 [3:21:05<13:51:27,  1.27s/it] 19%|█▉        | 9452/48845 [3:21:07<13:50:32,  1.27s/it] 19%|█▉        | 9453/48845 [3:21:08<13:49:09,  1.26s/it] 19%|█▉        | 9454/48845 [3:21:09<13:48:42,  1.26s/it] 19%|█▉        | 9455/48845 [3:21:10<13:48:35,  1.26s/it]                                                         {'loss': 1.8631, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9455/48845 [3:21:10<13:48:35,  1.26s/it] 19%|█▉        | 9456/48845 [3:21:12<13:49:45,  1.26s/it] 19%|█▉        | 9457/48845 [3:21:13<13:49:55,  1.26s/it] 19%|█▉        | 9458/48845 [3:21:14<13:49:19,  1.26s/it] 19%|█▉        | 9459/48845 [3:21:16<13:48:24,  1.26s/it] 19%|█▉        | 9460/48845 [3:21:17<13:48:57,  1.26s/it]                                                         {'loss': 1.8709, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9460/48845 [3:21:17<13:48:57,  1.26s/it] 19%|█▉        | 9461/48845 [3:21:18<13:49:36,  1.26s/it] 19%|█▉        | 9462/48845 [3:21:19<13:49:22,  1.26s/it] 19%|█▉        | 9463/48845 [3:21:21<13:48:15,  1.26s/it] 19%|█▉        | 9464/48845 [3:21:22<14:07:57,  1.29s/it] 19%|█▉        | 9465/48845 [3:21:23<14:02:46,  1.28s/it]                                                         {'loss': 1.7849, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9465/48845 [3:21:23<14:02:46,  1.28s/it] 19%|█▉        | 9466/48845 [3:21:24<13:59:39,  1.28s/it] 19%|█▉        | 9467/48845 [3:21:26<13:55:03,  1.27s/it] 19%|█▉        | 9468/48845 [3:21:27<13:53:11,  1.27s/it] 19%|█▉        | 9469/48845 [3:21:28<13:50:56,  1.27s/it] 19%|█▉        | 9470/48845 [3:21:30<13:50:16,  1.27s/it]                                                         {'loss': 1.9486, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9470/48845 [3:21:30<13:50:16,  1.27s/it] 19%|█▉        | 9471/48845 [3:21:31<13:49:02,  1.26s/it] 19%|█▉        | 9472/48845 [3:21:32<13:48:27,  1.26s/it] 19%|█▉        | 9473/48845 [3:21:33<13:48:03,  1.26s/it] 19%|█▉        | 9474/48845 [3:21:35<13:47:39,  1.26s/it] 19%|█▉        | 9475/48845 [3:21:36<13:47:03,  1.26s/it]                                                         {'loss': 1.8111, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9475/48845 [3:21:36<13:47:03,  1.26s/it] 19%|█▉        | 9476/48845 [3:21:37<13:46:27,  1.26s/it] 19%|█▉        | 9477/48845 [3:21:38<13:46:24,  1.26s/it] 19%|█▉        | 9478/48845 [3:21:40<13:47:01,  1.26s/it] 19%|█▉        | 9479/48845 [3:21:41<13:47:16,  1.26s/it] 19%|█▉        | 9480/48845 [3:21:42<14:16:47,  1.31s/it]                                                         {'loss': 1.7845, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9480/48845 [3:21:42<14:16:47,  1.31s/it] 19%|█▉        | 9481/48845 [3:21:44<14:07:03,  1.29s/it] 19%|█▉        | 9482/48845 [3:21:45<14:01:01,  1.28s/it] 19%|█▉        | 9483/48845 [3:21:46<13:55:39,  1.27s/it] 19%|█▉        | 9484/48845 [3:21:47<13:52:54,  1.27s/it] 19%|█▉        | 9485/48845 [3:21:49<13:49:54,  1.27s/it]                                                         {'loss': 1.8869, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9485/48845 [3:21:49<13:49:54,  1.27s/it] 19%|█▉        | 9486/48845 [3:21:50<13:49:15,  1.26s/it] 19%|█▉        | 9487/48845 [3:21:51<13:48:07,  1.26s/it] 19%|█▉        | 9488/48845 [3:21:52<13:47:02,  1.26s/it] 19%|█▉        | 9489/48845 [3:21:54<13:47:11,  1.26s/it] 19%|█▉        | 9490/48845 [3:21:55<13:46:33,  1.26s/it]                                                         {'loss': 1.8027, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9490/48845 [3:21:55<13:46:33,  1.26s/it] 19%|█▉        | 9491/48845 [3:21:56<13:48:12,  1.26s/it] 19%|█▉        | 9492/48845 [3:21:57<13:47:42,  1.26s/it] 19%|█▉        | 9493/48845 [3:21:59<13:47:13,  1.26s/it] 19%|█▉        | 9494/48845 [3:22:00<13:46:51,  1.26s/it] 19%|█▉        | 9495/48845 [3:22:01<13:46:29,  1.26s/it]                                                         {'loss': 1.9202, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9495/48845 [3:22:01<13:46:29,  1.26s/it] 19%|█▉        | 9496/48845 [3:22:02<13:48:19,  1.26s/it] 19%|█▉        | 9497/48845 [3:22:04<13:48:33,  1.26s/it] 19%|█▉        | 9498/48845 [3:22:05<13:47:18,  1.26s/it] 19%|█▉        | 9499/48845 [3:22:06<13:46:39,  1.26s/it] 19%|█▉        | 9500/48845 [3:22:07<13:47:11,  1.26s/it]                                                         {'loss': 1.8323, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9500/48845 [3:22:07<13:47:11,  1.26s/it] 19%|█▉        | 9501/48845 [3:22:09<13:47:46,  1.26s/it] 19%|█▉        | 9502/48845 [3:22:10<13:47:08,  1.26s/it] 19%|█▉        | 9503/48845 [3:22:11<13:46:36,  1.26s/it] 19%|█▉        | 9504/48845 [3:22:13<13:46:45,  1.26s/it] 19%|█▉        | 9505/48845 [3:22:14<13:46:46,  1.26s/it]                                                         {'loss': 1.8098, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9505/48845 [3:22:14<13:46:46,  1.26s/it] 19%|█▉        | 9506/48845 [3:22:15<13:46:34,  1.26s/it] 19%|█▉        | 9507/48845 [3:22:16<13:46:27,  1.26s/it] 19%|█▉        | 9508/48845 [3:22:18<13:47:07,  1.26s/it] 19%|█▉        | 9509/48845 [3:22:19<13:46:38,  1.26s/it] 19%|█▉        | 9510/48845 [3:22:20<13:47:03,  1.26s/it]                                                         {'loss': 2.0714, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9510/48845 [3:22:20<13:47:03,  1.26s/it] 19%|█▉        | 9511/48845 [3:22:21<13:47:05,  1.26s/it] 19%|█▉        | 9512/48845 [3:22:23<13:46:47,  1.26s/it] 19%|█▉        | 9513/48845 [3:22:24<13:45:55,  1.26s/it] 19%|█▉        | 9514/48845 [3:22:25<13:45:38,  1.26s/it] 19%|█▉        | 9515/48845 [3:22:26<13:46:38,  1.26s/it]                                                         {'loss': 1.7605, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9515/48845 [3:22:26<13:46:38,  1.26s/it] 19%|█▉        | 9516/48845 [3:22:28<13:45:34,  1.26s/it] 19%|█▉        | 9517/48845 [3:22:29<13:45:35,  1.26s/it] 19%|█▉        | 9518/48845 [3:22:30<13:45:51,  1.26s/it] 19%|█▉        | 9519/48845 [3:22:31<13:45:18,  1.26s/it] 19%|█▉        | 9520/48845 [3:22:33<13:45:44,  1.26s/it]                                                         {'loss': 1.9995, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.97}
+ 19%|█▉        | 9520/48845 [3:22:33<13:45:44,  1.26s/it] 19%|█▉        | 9521/48845 [3:22:34<13:45:09,  1.26s/it] 19%|█▉        | 9522/48845 [3:22:35<13:45:19,  1.26s/it] 19%|█▉        | 9523/48845 [3:22:36<13:45:27,  1.26s/it] 19%|█▉        | 9524/48845 [3:22:38<13:45:43,  1.26s/it] 20%|█▉        | 9525/48845 [3:22:39<13:45:55,  1.26s/it]                                                         {'loss': 1.8904, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9525/48845 [3:22:39<13:45:55,  1.26s/it] 20%|█▉        | 9526/48845 [3:22:40<13:46:56,  1.26s/it] 20%|█▉        | 9527/48845 [3:22:42<13:46:40,  1.26s/it] 20%|█▉        | 9528/48845 [3:22:43<13:46:48,  1.26s/it] 20%|█▉        | 9529/48845 [3:22:44<13:45:56,  1.26s/it] 20%|█▉        | 9530/48845 [3:22:45<13:45:17,  1.26s/it]                                                         {'loss': 1.8064, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9530/48845 [3:22:45<13:45:17,  1.26s/it] 20%|█▉        | 9531/48845 [3:22:47<13:46:42,  1.26s/it] 20%|█▉        | 9532/48845 [3:22:48<13:46:24,  1.26s/it] 20%|█▉        | 9533/48845 [3:22:49<13:46:39,  1.26s/it] 20%|█▉        | 9534/48845 [3:22:50<13:45:50,  1.26s/it] 20%|█▉        | 9535/48845 [3:22:52<13:46:07,  1.26s/it]                                                         {'loss': 1.776, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9535/48845 [3:22:52<13:46:07,  1.26s/it] 20%|█▉        | 9536/48845 [3:22:53<13:47:26,  1.26s/it] 20%|█▉        | 9537/48845 [3:22:54<13:46:19,  1.26s/it] 20%|█▉        | 9538/48845 [3:22:55<13:45:31,  1.26s/it] 20%|█▉        | 9539/48845 [3:22:57<13:45:19,  1.26s/it] 20%|█▉        | 9540/48845 [3:22:58<13:46:10,  1.26s/it]                                                         {'loss': 1.7757, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9540/48845 [3:22:58<13:46:10,  1.26s/it] 20%|█▉        | 9541/48845 [3:22:59<13:45:12,  1.26s/it] 20%|█▉        | 9542/48845 [3:23:00<13:44:27,  1.26s/it] 20%|█▉        | 9543/48845 [3:23:02<13:44:41,  1.26s/it] 20%|█▉        | 9544/48845 [3:23:03<13:44:41,  1.26s/it] 20%|█▉        | 9545/48845 [3:23:04<13:44:35,  1.26s/it]                                                         {'loss': 1.8822, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9545/48845 [3:23:04<13:44:35,  1.26s/it] 20%|█▉        | 9546/48845 [3:23:05<13:44:44,  1.26s/it] 20%|█▉        | 9547/48845 [3:23:07<13:44:53,  1.26s/it] 20%|█▉        | 9548/48845 [3:23:08<13:45:09,  1.26s/it] 20%|█▉        | 9549/48845 [3:23:09<13:44:55,  1.26s/it] 20%|█▉        | 9550/48845 [3:23:11<13:45:29,  1.26s/it]                                                         {'loss': 1.7587, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9550/48845 [3:23:11<13:45:29,  1.26s/it] 20%|█▉        | 9551/48845 [3:23:12<13:45:02,  1.26s/it] 20%|█▉        | 9552/48845 [3:23:13<13:44:04,  1.26s/it] 20%|█▉        | 9553/48845 [3:23:14<13:44:53,  1.26s/it] 20%|█▉        | 9554/48845 [3:23:16<13:44:38,  1.26s/it] 20%|█▉        | 9555/48845 [3:23:17<13:53:52,  1.27s/it]                                                         {'loss': 1.8232, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9555/48845 [3:23:17<13:53:52,  1.27s/it] 20%|█▉        | 9556/48845 [3:23:18<13:51:56,  1.27s/it] 20%|█▉        | 9557/48845 [3:23:19<13:49:44,  1.27s/it] 20%|█▉        | 9558/48845 [3:23:21<13:49:03,  1.27s/it] 20%|█▉        | 9559/48845 [3:23:22<13:48:04,  1.26s/it] 20%|█▉        | 9560/48845 [3:23:23<13:47:14,  1.26s/it]                                                         {'loss': 1.9151, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9560/48845 [3:23:23<13:47:14,  1.26s/it] 20%|█▉        | 9561/48845 [3:23:24<13:48:35,  1.27s/it] 20%|█▉        | 9562/48845 [3:23:26<13:47:33,  1.26s/it] 20%|█▉        | 9563/48845 [3:23:27<13:46:40,  1.26s/it] 20%|█▉        | 9564/48845 [3:23:28<13:45:59,  1.26s/it] 20%|█▉        | 9565/48845 [3:23:29<13:45:53,  1.26s/it]                                                         {'loss': 1.9847, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9565/48845 [3:23:29<13:45:53,  1.26s/it] 20%|█▉        | 9566/48845 [3:23:31<13:45:56,  1.26s/it] 20%|█▉        | 9567/48845 [3:23:32<13:44:55,  1.26s/it] 20%|█▉        | 9568/48845 [3:23:33<13:44:43,  1.26s/it] 20%|█▉        | 9569/48845 [3:23:35<13:44:36,  1.26s/it] 20%|█▉        | 9570/48845 [3:23:36<13:43:17,  1.26s/it]                                                         {'loss': 1.7918, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9570/48845 [3:23:36<13:43:17,  1.26s/it] 20%|█▉        | 9571/48845 [3:23:37<13:43:34,  1.26s/it] 20%|█▉        | 9572/48845 [3:23:38<13:44:15,  1.26s/it] 20%|█▉        | 9573/48845 [3:23:40<13:43:26,  1.26s/it] 20%|█▉        | 9574/48845 [3:23:41<13:43:45,  1.26s/it] 20%|█▉        | 9575/48845 [3:23:42<13:44:11,  1.26s/it]                                                         {'loss': 1.8099, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9575/48845 [3:23:42<13:44:11,  1.26s/it] 20%|█▉        | 9576/48845 [3:23:43<13:46:16,  1.26s/it] 20%|█▉        | 9577/48845 [3:23:45<13:45:08,  1.26s/it] 20%|█▉        | 9578/48845 [3:23:46<13:44:42,  1.26s/it] 20%|█▉        | 9579/48845 [3:23:47<13:45:53,  1.26s/it] 20%|█▉        | 9580/48845 [3:23:48<13:46:07,  1.26s/it]                                                         {'loss': 1.8293, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9580/48845 [3:23:48<13:46:07,  1.26s/it] 20%|█▉        | 9581/48845 [3:23:50<13:45:44,  1.26s/it] 20%|█▉        | 9582/48845 [3:23:51<13:45:22,  1.26s/it] 20%|█▉        | 9583/48845 [3:23:52<13:45:09,  1.26s/it] 20%|█▉        | 9584/48845 [3:23:53<13:45:17,  1.26s/it] 20%|█▉        | 9585/48845 [3:23:55<13:44:26,  1.26s/it]                                                         {'loss': 1.8296, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9585/48845 [3:23:55<13:44:26,  1.26s/it] 20%|█▉        | 9586/48845 [3:23:56<13:44:17,  1.26s/it] 20%|█▉        | 9587/48845 [3:23:57<13:44:01,  1.26s/it] 20%|█▉        | 9588/48845 [3:23:58<13:43:38,  1.26s/it] 20%|█▉        | 9589/48845 [3:24:00<13:43:39,  1.26s/it] 20%|█▉        | 9590/48845 [3:24:01<13:44:26,  1.26s/it]                                                         {'loss': 1.7984, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9590/48845 [3:24:01<13:44:26,  1.26s/it] 20%|█▉        | 9591/48845 [3:24:02<13:44:10,  1.26s/it] 20%|█▉        | 9592/48845 [3:24:03<13:44:01,  1.26s/it] 20%|█▉        | 9593/48845 [3:24:05<13:43:44,  1.26s/it] 20%|█▉        | 9594/48845 [3:24:06<13:44:10,  1.26s/it] 20%|█▉        | 9595/48845 [3:24:07<13:44:13,  1.26s/it]                                                         {'loss': 1.8187, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9595/48845 [3:24:07<13:44:13,  1.26s/it] 20%|█▉        | 9596/48845 [3:24:09<13:45:24,  1.26s/it] 20%|█▉        | 9597/48845 [3:24:10<13:45:01,  1.26s/it] 20%|█▉        | 9598/48845 [3:24:11<13:44:28,  1.26s/it] 20%|█▉        | 9599/48845 [3:24:12<13:43:26,  1.26s/it] 20%|█▉        | 9600/48845 [3:24:14<13:44:09,  1.26s/it]                                                         {'loss': 1.8352, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9600/48845 [3:24:14<13:44:09,  1.26s/it] 20%|█▉        | 9601/48845 [3:24:17<21:28:04,  1.97s/it] 20%|█▉        | 9602/48845 [3:24:18<19:08:42,  1.76s/it] 20%|█▉        | 9603/48845 [3:24:20<17:29:48,  1.61s/it] 20%|█▉        | 9604/48845 [3:24:21<16:21:53,  1.50s/it] 20%|█▉        | 9605/48845 [3:24:22<15:33:45,  1.43s/it]                                                         {'loss': 1.7474, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9605/48845 [3:24:22<15:33:45,  1.43s/it] 20%|█▉        | 9606/48845 [3:24:23<15:00:25,  1.38s/it] 20%|█▉        | 9607/48845 [3:24:25<14:36:53,  1.34s/it] 20%|█▉        | 9608/48845 [3:24:26<14:45:48,  1.35s/it] 20%|█▉        | 9609/48845 [3:24:27<14:28:43,  1.33s/it] 20%|█▉        | 9610/48845 [3:24:29<14:15:25,  1.31s/it]                                                         {'loss': 1.8784, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9610/48845 [3:24:29<14:15:25,  1.31s/it] 20%|█▉        | 9611/48845 [3:24:30<14:07:25,  1.30s/it] 20%|█▉        | 9612/48845 [3:24:31<14:00:55,  1.29s/it] 20%|█▉        | 9613/48845 [3:24:32<13:55:19,  1.28s/it] 20%|█▉        | 9614/48845 [3:24:34<13:51:29,  1.27s/it] 20%|█▉        | 9615/48845 [3:24:35<13:50:39,  1.27s/it]                                                         {'loss': 1.8278, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9615/48845 [3:24:35<13:50:39,  1.27s/it] 20%|█▉        | 9616/48845 [3:24:36<13:49:19,  1.27s/it] 20%|█▉        | 9617/48845 [3:24:37<13:47:27,  1.27s/it] 20%|█▉        | 9618/48845 [3:24:39<13:45:50,  1.26s/it] 20%|█▉        | 9619/48845 [3:24:40<13:44:50,  1.26s/it] 20%|█▉        | 9620/48845 [3:24:41<13:44:19,  1.26s/it]                                                         {'loss': 1.8836, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.98}
+ 20%|█▉        | 9620/48845 [3:24:41<13:44:19,  1.26s/it] 20%|█▉        | 9621/48845 [3:24:43<13:45:08,  1.26s/it] 20%|█▉        | 9622/48845 [3:24:44<13:44:55,  1.26s/it] 20%|█▉        | 9623/48845 [3:24:45<13:44:00,  1.26s/it] 20%|█▉        | 9624/48845 [3:24:46<13:43:31,  1.26s/it] 20%|█▉        | 9625/48845 [3:24:48<13:43:34,  1.26s/it]                                                         {'loss': 1.7562, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9625/48845 [3:24:48<13:43:34,  1.26s/it] 20%|█▉        | 9626/48845 [3:24:49<13:42:54,  1.26s/it] 20%|█▉        | 9627/48845 [3:24:50<13:43:21,  1.26s/it] 20%|█▉        | 9628/48845 [3:24:51<13:43:38,  1.26s/it] 20%|█▉        | 9629/48845 [3:24:53<13:43:01,  1.26s/it] 20%|█▉        | 9630/48845 [3:24:54<13:43:08,  1.26s/it]                                                         {'loss': 1.8196, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9630/48845 [3:24:54<13:43:08,  1.26s/it] 20%|█▉        | 9631/48845 [3:24:55<13:43:12,  1.26s/it] 20%|█▉        | 9632/48845 [3:24:56<13:43:04,  1.26s/it] 20%|█▉        | 9633/48845 [3:24:58<13:43:47,  1.26s/it] 20%|█▉        | 9634/48845 [3:24:59<13:43:17,  1.26s/it] 20%|█▉        | 9635/48845 [3:25:00<13:42:33,  1.26s/it]                                                         {'loss': 1.7537, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9635/48845 [3:25:00<13:42:33,  1.26s/it] 20%|█▉        | 9636/48845 [3:25:01<13:43:03,  1.26s/it] 20%|█▉        | 9637/48845 [3:25:03<13:42:47,  1.26s/it] 20%|█▉        | 9638/48845 [3:25:04<13:42:03,  1.26s/it] 20%|█▉        | 9639/48845 [3:25:05<13:41:47,  1.26s/it] 20%|█▉        | 9640/48845 [3:25:06<13:43:02,  1.26s/it]                                                         {'loss': 1.9581, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9640/48845 [3:25:06<13:43:02,  1.26s/it] 20%|█▉        | 9641/48845 [3:25:08<13:44:09,  1.26s/it] 20%|█▉        | 9642/48845 [3:25:09<13:43:28,  1.26s/it] 20%|█▉        | 9643/48845 [3:25:10<13:42:58,  1.26s/it] 20%|█▉        | 9644/48845 [3:25:11<13:43:44,  1.26s/it] 20%|█▉        | 9645/48845 [3:25:13<13:44:27,  1.26s/it]                                                         {'loss': 1.81, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9645/48845 [3:25:13<13:44:27,  1.26s/it] 20%|█▉        | 9646/48845 [3:25:14<13:44:24,  1.26s/it] 20%|█▉        | 9647/48845 [3:25:15<13:44:04,  1.26s/it] 20%|█▉        | 9648/48845 [3:25:17<13:44:04,  1.26s/it] 20%|█▉        | 9649/48845 [3:25:18<13:43:46,  1.26s/it] 20%|█▉        | 9650/48845 [3:25:19<13:43:33,  1.26s/it]                                                         {'loss': 1.8087, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9650/48845 [3:25:19<13:43:33,  1.26s/it] 20%|█▉        | 9651/48845 [3:25:20<13:43:02,  1.26s/it] 20%|█▉        | 9652/48845 [3:25:22<13:43:14,  1.26s/it] 20%|█▉        | 9653/48845 [3:25:23<13:43:17,  1.26s/it] 20%|█▉        | 9654/48845 [3:25:24<13:43:00,  1.26s/it] 20%|█▉        | 9655/48845 [3:25:25<13:42:42,  1.26s/it]                                                         {'loss': 1.8428, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9655/48845 [3:25:25<13:42:42,  1.26s/it] 20%|█▉        | 9656/48845 [3:25:27<13:43:54,  1.26s/it] 20%|█▉        | 9657/48845 [3:25:28<13:43:05,  1.26s/it] 20%|█▉        | 9658/48845 [3:25:29<13:43:36,  1.26s/it] 20%|█▉        | 9659/48845 [3:25:30<13:42:56,  1.26s/it] 20%|█▉        | 9660/48845 [3:25:32<13:43:25,  1.26s/it]                                                         {'loss': 1.8286, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9660/48845 [3:25:32<13:43:25,  1.26s/it] 20%|█▉        | 9661/48845 [3:25:33<13:43:32,  1.26s/it] 20%|█▉        | 9662/48845 [3:25:34<13:43:25,  1.26s/it] 20%|█▉        | 9663/48845 [3:25:35<13:42:41,  1.26s/it] 20%|█▉        | 9664/48845 [3:25:37<13:41:56,  1.26s/it] 20%|█▉        | 9665/48845 [3:25:38<13:42:26,  1.26s/it]                                                         {'loss': 1.7667, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9665/48845 [3:25:38<13:42:26,  1.26s/it] 20%|█▉        | 9666/48845 [3:25:39<13:43:23,  1.26s/it] 20%|█▉        | 9667/48845 [3:25:40<13:44:00,  1.26s/it] 20%|█▉        | 9668/48845 [3:25:42<13:44:28,  1.26s/it] 20%|█▉        | 9669/48845 [3:25:43<13:43:27,  1.26s/it] 20%|█▉        | 9670/48845 [3:25:44<13:42:59,  1.26s/it]                                                         {'loss': 1.7898, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9670/48845 [3:25:44<13:42:59,  1.26s/it] 20%|█▉        | 9671/48845 [3:25:46<13:44:15,  1.26s/it] 20%|█▉        | 9672/48845 [3:25:47<13:43:19,  1.26s/it] 20%|█▉        | 9673/48845 [3:25:48<13:43:38,  1.26s/it] 20%|█▉        | 9674/48845 [3:25:49<13:43:52,  1.26s/it] 20%|█▉        | 9675/48845 [3:25:51<13:43:33,  1.26s/it]                                                         {'loss': 1.8102, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9675/48845 [3:25:51<13:43:33,  1.26s/it] 20%|█▉        | 9676/48845 [3:25:52<13:44:25,  1.26s/it] 20%|█▉        | 9677/48845 [3:25:53<13:43:48,  1.26s/it] 20%|█▉        | 9678/48845 [3:25:54<13:43:13,  1.26s/it] 20%|█▉        | 9679/48845 [3:25:56<13:43:24,  1.26s/it] 20%|█▉        | 9680/48845 [3:25:57<13:43:03,  1.26s/it]                                                         {'loss': 1.7906, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9680/48845 [3:25:57<13:43:03,  1.26s/it] 20%|█▉        | 9681/48845 [3:25:58<13:42:43,  1.26s/it] 20%|█▉        | 9682/48845 [3:25:59<13:41:47,  1.26s/it] 20%|█▉        | 9683/48845 [3:26:01<13:41:57,  1.26s/it] 20%|█▉        | 9684/48845 [3:26:02<13:42:28,  1.26s/it] 20%|█▉        | 9685/48845 [3:26:03<13:43:17,  1.26s/it]                                                         {'loss': 1.9234, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9685/48845 [3:26:03<13:43:17,  1.26s/it] 20%|█▉        | 9686/48845 [3:26:04<13:43:29,  1.26s/it] 20%|█▉        | 9687/48845 [3:26:06<13:43:02,  1.26s/it] 20%|█▉        | 9688/48845 [3:26:07<13:42:27,  1.26s/it] 20%|█▉        | 9689/48845 [3:26:08<13:42:00,  1.26s/it] 20%|█▉        | 9690/48845 [3:26:09<13:41:47,  1.26s/it]                                                         {'loss': 1.7506, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9690/48845 [3:26:09<13:41:47,  1.26s/it] 20%|█▉        | 9691/48845 [3:26:11<13:42:19,  1.26s/it] 20%|█▉        | 9692/48845 [3:26:12<13:41:51,  1.26s/it] 20%|█▉        | 9693/48845 [3:26:13<13:41:56,  1.26s/it] 20%|█▉        | 9694/48845 [3:26:15<13:42:02,  1.26s/it] 20%|█▉        | 9695/48845 [3:26:16<13:42:29,  1.26s/it]                                                         {'loss': 1.7055, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9695/48845 [3:26:16<13:42:29,  1.26s/it] 20%|█▉        | 9696/48845 [3:26:17<13:42:38,  1.26s/it] 20%|█▉        | 9697/48845 [3:26:18<13:42:22,  1.26s/it] 20%|█▉        | 9698/48845 [3:26:20<13:41:46,  1.26s/it] 20%|█▉        | 9699/48845 [3:26:21<13:41:41,  1.26s/it] 20%|█▉        | 9700/48845 [3:26:22<13:41:11,  1.26s/it]                                                         {'loss': 1.7335, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9700/48845 [3:26:22<13:41:11,  1.26s/it] 20%|█▉        | 9701/48845 [3:26:23<13:41:43,  1.26s/it] 20%|█▉        | 9702/48845 [3:26:25<13:41:35,  1.26s/it] 20%|█▉        | 9703/48845 [3:26:26<13:41:08,  1.26s/it] 20%|█▉        | 9704/48845 [3:26:27<13:41:24,  1.26s/it] 20%|█▉        | 9705/48845 [3:26:28<13:41:25,  1.26s/it]                                                         {'loss': 1.7883, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9705/48845 [3:26:28<13:41:25,  1.26s/it] 20%|█▉        | 9706/48845 [3:26:30<13:41:38,  1.26s/it] 20%|█▉        | 9707/48845 [3:26:31<13:40:50,  1.26s/it] 20%|█▉        | 9708/48845 [3:26:32<13:40:59,  1.26s/it] 20%|█▉        | 9709/48845 [3:26:33<13:41:56,  1.26s/it] 20%|█▉        | 9710/48845 [3:26:35<13:41:57,  1.26s/it]                                                         {'loss': 1.9, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9710/48845 [3:26:35<13:41:57,  1.26s/it] 20%|█▉        | 9711/48845 [3:26:36<13:42:05,  1.26s/it] 20%|█▉        | 9712/48845 [3:26:37<13:41:51,  1.26s/it] 20%|█▉        | 9713/48845 [3:26:38<13:41:15,  1.26s/it] 20%|█▉        | 9714/48845 [3:26:40<13:41:27,  1.26s/it] 20%|█▉        | 9715/48845 [3:26:41<13:40:41,  1.26s/it]                                                         {'loss': 1.9228, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9715/48845 [3:26:41<13:40:41,  1.26s/it] 20%|█▉        | 9716/48845 [3:26:42<13:41:12,  1.26s/it] 20%|█▉        | 9717/48845 [3:26:43<13:40:45,  1.26s/it] 20%|█▉        | 9718/48845 [3:26:45<13:40:42,  1.26s/it] 20%|█▉        | 9719/48845 [3:26:46<14:02:02,  1.29s/it] 20%|█▉        | 9720/48845 [3:26:47<13:55:35,  1.28s/it]                                                         {'loss': 1.7491, 'learning_rate': 4.078217099085589e-05, 'epoch': 0.99}
+ 20%|█▉        | 9720/48845 [3:26:47<13:55:35,  1.28s/it] 20%|█▉        | 9721/48845 [3:26:49<13:51:43,  1.28s/it] 20%|█▉        | 9722/48845 [3:26:50<13:47:47,  1.27s/it] 20%|█▉        | 9723/48845 [3:26:51<13:45:21,  1.27s/it] 20%|█▉        | 9724/48845 [3:26:52<13:44:17,  1.26s/it] 20%|█▉        | 9725/48845 [3:26:54<13:42:53,  1.26s/it]                                                         {'loss': 1.7092, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9725/48845 [3:26:54<13:42:53,  1.26s/it] 20%|█▉        | 9726/48845 [3:26:55<13:42:31,  1.26s/it] 20%|█▉        | 9727/48845 [3:26:56<13:41:18,  1.26s/it] 20%|█▉        | 9728/48845 [3:26:57<13:41:10,  1.26s/it] 20%|█▉        | 9729/48845 [3:26:59<13:41:45,  1.26s/it] 20%|█▉        | 9730/48845 [3:27:00<13:41:22,  1.26s/it]                                                         {'loss': 1.8333, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9730/48845 [3:27:00<13:41:22,  1.26s/it] 20%|█▉        | 9731/48845 [3:27:01<13:42:00,  1.26s/it] 20%|█▉        | 9732/48845 [3:27:02<13:41:30,  1.26s/it] 20%|█▉        | 9733/48845 [3:27:04<13:41:21,  1.26s/it] 20%|█▉        | 9734/48845 [3:27:05<13:41:25,  1.26s/it] 20%|█▉        | 9735/48845 [3:27:06<13:41:12,  1.26s/it]                                                         {'loss': 1.8108, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9735/48845 [3:27:06<13:41:12,  1.26s/it] 20%|█▉        | 9736/48845 [3:27:08<13:41:18,  1.26s/it] 20%|█▉        | 9737/48845 [3:27:09<13:41:16,  1.26s/it] 20%|█▉        | 9738/48845 [3:27:10<13:40:34,  1.26s/it] 20%|█▉        | 9739/48845 [3:27:11<13:41:03,  1.26s/it] 20%|█▉        | 9740/48845 [3:27:13<13:41:04,  1.26s/it]                                                         {'loss': 1.8507, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9740/48845 [3:27:13<13:41:04,  1.26s/it] 20%|█▉        | 9741/48845 [3:27:14<13:40:49,  1.26s/it] 20%|█▉        | 9742/48845 [3:27:15<13:40:27,  1.26s/it] 20%|█▉        | 9743/48845 [3:27:16<13:41:06,  1.26s/it] 20%|█▉        | 9744/48845 [3:27:18<13:42:32,  1.26s/it] 20%|█▉        | 9745/48845 [3:27:19<13:43:21,  1.26s/it]                                                         {'loss': 1.8821, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9745/48845 [3:27:19<13:43:21,  1.26s/it] 20%|█▉        | 9746/48845 [3:27:20<13:41:47,  1.26s/it] 20%|█▉        | 9747/48845 [3:27:21<13:41:53,  1.26s/it] 20%|█▉        | 9748/48845 [3:27:23<13:42:22,  1.26s/it] 20%|█▉        | 9749/48845 [3:27:24<13:42:06,  1.26s/it] 20%|█▉        | 9750/48845 [3:27:25<13:41:36,  1.26s/it]                                                         {'loss': 1.6918, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9750/48845 [3:27:25<13:41:36,  1.26s/it] 20%|█▉        | 9751/48845 [3:27:26<13:41:06,  1.26s/it] 20%|█▉        | 9752/48845 [3:27:28<13:42:02,  1.26s/it] 20%|█▉        | 9753/48845 [3:27:29<13:41:06,  1.26s/it] 20%|█▉        | 9754/48845 [3:27:30<13:41:15,  1.26s/it] 20%|█▉        | 9755/48845 [3:27:31<13:40:41,  1.26s/it]                                                         {'loss': 1.9254, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9755/48845 [3:27:31<13:40:41,  1.26s/it] 20%|█▉        | 9756/48845 [3:27:33<13:40:38,  1.26s/it] 20%|█▉        | 9757/48845 [3:27:34<13:41:17,  1.26s/it] 20%|█▉        | 9758/48845 [3:27:35<13:40:16,  1.26s/it] 20%|█▉        | 9759/48845 [3:27:37<13:40:16,  1.26s/it] 20%|█▉        | 9760/48845 [3:27:38<13:40:28,  1.26s/it]                                                         {'loss': 1.8288, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9760/48845 [3:27:38<13:40:28,  1.26s/it] 20%|█▉        | 9761/48845 [3:27:39<13:40:10,  1.26s/it] 20%|█▉        | 9762/48845 [3:27:40<13:40:35,  1.26s/it] 20%|█▉        | 9763/48845 [3:27:42<13:40:46,  1.26s/it] 20%|█▉        | 9764/48845 [3:27:43<13:41:44,  1.26s/it] 20%|█▉        | 9765/48845 [3:27:44<13:40:16,  1.26s/it]                                                         {'loss': 1.842, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|█▉        | 9765/48845 [3:27:44<13:40:16,  1.26s/it] 20%|█▉        | 9766/48845 [3:27:45<13:39:48,  1.26s/it] 20%|█▉        | 9767/48845 [3:27:47<13:40:57,  1.26s/it] 20%|█▉        | 9768/48845 [3:27:48<13:40:45,  1.26s/it] 20%|██        | 9769/48845 [3:27:49<13:40:42,  1.26s/it] 20%|██        | 9770/48845 [3:27:50<13:52:05,  1.28s/it]                                                         {'loss': 1.7281, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9770/48845 [3:27:50<13:52:05,  1.28s/it] 20%|██        | 9771/48845 [3:27:52<13:49:39,  1.27s/it] 20%|██        | 9772/48845 [3:27:53<13:46:24,  1.27s/it] 20%|██        | 9773/48845 [3:27:54<13:44:52,  1.27s/it] 20%|██        | 9774/48845 [3:27:55<13:42:15,  1.26s/it] 20%|██        | 9775/48845 [3:27:57<13:41:50,  1.26s/it]                                                         {'loss': 1.9117, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9775/48845 [3:27:57<13:41:50,  1.26s/it] 20%|██        | 9776/48845 [3:27:58<13:42:40,  1.26s/it] 20%|██        | 9777/48845 [3:27:59<13:42:15,  1.26s/it] 20%|██        | 9778/48845 [3:28:01<13:41:54,  1.26s/it] 20%|██        | 9779/48845 [3:28:02<13:41:47,  1.26s/it] 20%|██        | 9780/48845 [3:28:03<13:40:50,  1.26s/it]                                                         {'loss': 1.8168, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9780/48845 [3:28:03<13:40:50,  1.26s/it] 20%|██        | 9781/48845 [3:28:04<13:41:41,  1.26s/it] 20%|██        | 9782/48845 [3:28:06<13:41:18,  1.26s/it] 20%|██        | 9783/48845 [3:28:07<13:40:49,  1.26s/it] 20%|██        | 9784/48845 [3:28:08<13:41:08,  1.26s/it] 20%|██        | 9785/48845 [3:28:09<13:41:00,  1.26s/it]                                                         {'loss': 1.7049, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9785/48845 [3:28:09<13:41:00,  1.26s/it] 20%|██        | 9786/48845 [3:28:11<13:41:15,  1.26s/it] 20%|██        | 9787/48845 [3:28:12<13:40:11,  1.26s/it] 20%|██        | 9788/48845 [3:28:13<13:39:39,  1.26s/it] 20%|██        | 9789/48845 [3:28:14<13:39:35,  1.26s/it] 20%|██        | 9790/48845 [3:28:16<13:39:26,  1.26s/it]                                                         {'loss': 1.7203, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9790/48845 [3:28:16<13:39:26,  1.26s/it] 20%|██        | 9791/48845 [3:28:17<13:39:48,  1.26s/it] 20%|██        | 9792/48845 [3:28:18<13:39:35,  1.26s/it] 20%|██        | 9793/48845 [3:28:19<13:40:00,  1.26s/it] 20%|██        | 9794/48845 [3:28:21<13:40:38,  1.26s/it] 20%|██        | 9795/48845 [3:28:22<13:40:07,  1.26s/it]                                                         {'loss': 1.7515, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9795/48845 [3:28:22<13:40:07,  1.26s/it] 20%|██        | 9796/48845 [3:28:23<13:40:29,  1.26s/it] 20%|██        | 9797/48845 [3:28:24<13:40:28,  1.26s/it] 20%|██        | 9798/48845 [3:28:26<13:39:22,  1.26s/it] 20%|██        | 9799/48845 [3:28:27<13:39:25,  1.26s/it] 20%|██        | 9800/48845 [3:28:28<13:39:02,  1.26s/it]                                                         {'loss': 1.8659, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9800/48845 [3:28:28<13:39:02,  1.26s/it] 20%|██        | 9801/48845 [3:28:32<21:26:51,  1.98s/it] 20%|██        | 9802/48845 [3:28:33<19:06:16,  1.76s/it] 20%|██        | 9803/48845 [3:28:34<17:28:07,  1.61s/it] 20%|██        | 9804/48845 [3:28:36<16:19:43,  1.51s/it] 20%|██        | 9805/48845 [3:28:37<15:31:09,  1.43s/it]                                                         {'loss': 1.7871, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9805/48845 [3:28:37<15:31:09,  1.43s/it] 20%|██        | 9806/48845 [3:28:38<14:59:36,  1.38s/it] 20%|██        | 9807/48845 [3:28:39<14:34:58,  1.34s/it] 20%|██        | 9808/48845 [3:28:41<14:18:45,  1.32s/it] 20%|██        | 9809/48845 [3:28:42<14:06:56,  1.30s/it] 20%|██        | 9810/48845 [3:28:43<13:58:19,  1.29s/it]                                                         {'loss': 1.7262, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9810/48845 [3:28:43<13:58:19,  1.29s/it] 20%|██        | 9811/48845 [3:28:45<13:54:23,  1.28s/it] 20%|██        | 9812/48845 [3:28:46<13:49:07,  1.27s/it] 20%|██        | 9813/48845 [3:28:47<13:45:40,  1.27s/it] 20%|██        | 9814/48845 [3:28:48<13:44:30,  1.27s/it] 20%|██        | 9815/48845 [3:28:50<13:43:16,  1.27s/it]                                                         {'loss': 1.7858, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.0}
+ 20%|██        | 9815/48845 [3:28:50<13:43:16,  1.27s/it] 20%|██        | 9816/48845 [3:28:51<13:44:02,  1.27s/it] 20%|██        | 9817/48845 [3:28:52<13:43:29,  1.27s/it] 20%|██        | 9818/48845 [3:28:53<13:41:39,  1.26s/it] 20%|██        | 9819/48845 [3:28:55<13:41:21,  1.26s/it] 20%|██        | 9820/48845 [3:28:56<13:39:57,  1.26s/it]                                                         {'loss': 1.862, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9820/48845 [3:28:56<13:39:57,  1.26s/it] 20%|██        | 9821/48845 [3:28:57<13:41:37,  1.26s/it] 20%|██        | 9822/48845 [3:28:58<13:41:05,  1.26s/it] 20%|██        | 9823/48845 [3:29:00<13:40:27,  1.26s/it] 20%|██        | 9824/48845 [3:29:01<13:39:58,  1.26s/it] 20%|██        | 9825/48845 [3:29:02<13:39:54,  1.26s/it]                                                         {'loss': 1.8208, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9825/48845 [3:29:02<13:39:54,  1.26s/it] 20%|██        | 9826/48845 [3:29:03<13:40:22,  1.26s/it] 20%|██        | 9827/48845 [3:29:05<13:39:38,  1.26s/it] 20%|██        | 9828/48845 [3:29:06<13:39:20,  1.26s/it] 20%|██        | 9829/48845 [3:29:07<13:39:09,  1.26s/it] 20%|██        | 9830/48845 [3:29:08<13:38:18,  1.26s/it]                                                         {'loss': 2.0211, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9830/48845 [3:29:08<13:38:18,  1.26s/it] 20%|██        | 9831/48845 [3:29:10<13:39:49,  1.26s/it] 20%|██        | 9832/48845 [3:29:11<13:39:31,  1.26s/it] 20%|██        | 9833/48845 [3:29:12<13:39:33,  1.26s/it] 20%|██        | 9834/48845 [3:29:13<13:38:44,  1.26s/it] 20%|██        | 9835/48845 [3:29:15<13:39:36,  1.26s/it]                                                         {'loss': 1.951, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9835/48845 [3:29:15<13:39:36,  1.26s/it] 20%|██        | 9836/48845 [3:29:16<13:39:34,  1.26s/it] 20%|██        | 9837/48845 [3:29:17<13:39:06,  1.26s/it] 20%|██        | 9838/48845 [3:29:19<13:38:43,  1.26s/it] 20%|██        | 9839/48845 [3:29:20<13:38:41,  1.26s/it] 20%|██        | 9840/48845 [3:29:21<13:39:07,  1.26s/it]                                                         {'loss': 2.0538, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9840/48845 [3:29:21<13:39:07,  1.26s/it] 20%|██        | 9841/48845 [3:29:22<13:39:42,  1.26s/it] 20%|██        | 9842/48845 [3:29:24<13:40:00,  1.26s/it] 20%|██        | 9843/48845 [3:29:25<13:39:45,  1.26s/it] 20%|██        | 9844/48845 [3:29:26<13:39:26,  1.26s/it] 20%|██        | 9845/48845 [3:29:27<13:39:26,  1.26s/it]                                                         {'loss': 1.7452, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9845/48845 [3:29:27<13:39:26,  1.26s/it] 20%|██        | 9846/48845 [3:29:29<13:38:47,  1.26s/it] 20%|██        | 9847/48845 [3:29:30<13:38:37,  1.26s/it] 20%|██        | 9848/48845 [3:29:31<13:39:12,  1.26s/it] 20%|██        | 9849/48845 [3:29:32<13:38:50,  1.26s/it] 20%|██        | 9850/48845 [3:29:34<13:39:50,  1.26s/it]                                                         {'loss': 1.8995, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9850/48845 [3:29:34<13:39:50,  1.26s/it] 20%|██        | 9851/48845 [3:29:35<13:40:17,  1.26s/it] 20%|██        | 9852/48845 [3:29:36<13:39:51,  1.26s/it] 20%|██        | 9853/48845 [3:29:37<13:40:37,  1.26s/it] 20%|██        | 9854/48845 [3:29:39<13:40:17,  1.26s/it] 20%|██        | 9855/48845 [3:29:40<13:40:17,  1.26s/it]                                                         {'loss': 1.7917, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9855/48845 [3:29:40<13:40:17,  1.26s/it] 20%|██        | 9856/48845 [3:29:41<13:39:40,  1.26s/it] 20%|██        | 9857/48845 [3:29:42<13:39:39,  1.26s/it] 20%|██        | 9858/48845 [3:29:44<13:39:15,  1.26s/it] 20%|██        | 9859/48845 [3:29:45<13:38:42,  1.26s/it] 20%|██        | 9860/48845 [3:29:46<13:38:35,  1.26s/it]                                                         {'loss': 1.7611, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9860/48845 [3:29:46<13:38:35,  1.26s/it] 20%|██        | 9861/48845 [3:29:48<13:38:15,  1.26s/it] 20%|██        | 9862/48845 [3:29:49<13:38:27,  1.26s/it] 20%|██        | 9863/48845 [3:29:50<13:39:53,  1.26s/it] 20%|██        | 9864/48845 [3:29:51<13:38:37,  1.26s/it] 20%|██        | 9865/48845 [3:29:53<13:39:13,  1.26s/it]                                                         {'loss': 1.9185, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9865/48845 [3:29:53<13:39:13,  1.26s/it] 20%|██        | 9866/48845 [3:29:54<13:40:07,  1.26s/it] 20%|██        | 9867/48845 [3:29:55<13:39:40,  1.26s/it] 20%|██        | 9868/48845 [3:29:56<13:40:30,  1.26s/it] 20%|██        | 9869/48845 [3:29:58<13:39:39,  1.26s/it] 20%|██        | 9870/48845 [3:29:59<13:38:59,  1.26s/it]                                                         {'loss': 1.8247, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9870/48845 [3:29:59<13:38:59,  1.26s/it] 20%|██        | 9871/48845 [3:30:00<13:39:53,  1.26s/it] 20%|██        | 9872/48845 [3:30:01<13:38:53,  1.26s/it] 20%|██        | 9873/48845 [3:30:03<13:38:40,  1.26s/it] 20%|██        | 9874/48845 [3:30:04<13:38:10,  1.26s/it] 20%|██        | 9875/48845 [3:30:05<13:38:08,  1.26s/it]                                                         {'loss': 1.8874, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9875/48845 [3:30:05<13:38:08,  1.26s/it] 20%|██        | 9876/48845 [3:30:06<13:39:36,  1.26s/it] 20%|██        | 9877/48845 [3:30:08<13:39:31,  1.26s/it] 20%|██        | 9878/48845 [3:30:09<13:38:51,  1.26s/it] 20%|██        | 9879/48845 [3:30:10<13:38:57,  1.26s/it] 20%|██        | 9880/48845 [3:30:11<13:37:44,  1.26s/it]                                                         {'loss': 1.9117, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9880/48845 [3:30:11<13:37:44,  1.26s/it] 20%|██        | 9881/48845 [3:30:13<13:38:08,  1.26s/it] 20%|██        | 9882/48845 [3:30:14<13:38:37,  1.26s/it] 20%|██        | 9883/48845 [3:30:15<13:38:00,  1.26s/it] 20%|██        | 9884/48845 [3:30:17<13:38:26,  1.26s/it] 20%|██        | 9885/48845 [3:30:18<13:38:06,  1.26s/it]                                                         {'loss': 1.8695, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9885/48845 [3:30:18<13:38:06,  1.26s/it] 20%|██        | 9886/48845 [3:30:19<13:41:07,  1.26s/it] 20%|██        | 9887/48845 [3:30:20<13:38:53,  1.26s/it] 20%|██        | 9888/48845 [3:30:22<13:38:40,  1.26s/it] 20%|██        | 9889/48845 [3:30:23<13:38:28,  1.26s/it] 20%|██        | 9890/48845 [3:30:24<13:38:39,  1.26s/it]                                                         {'loss': 1.8365, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9890/48845 [3:30:24<13:38:39,  1.26s/it] 20%|██        | 9891/48845 [3:30:25<13:39:56,  1.26s/it] 20%|██        | 9892/48845 [3:30:27<13:38:48,  1.26s/it] 20%|██        | 9893/48845 [3:30:28<13:39:03,  1.26s/it] 20%|██        | 9894/48845 [3:30:29<13:38:35,  1.26s/it] 20%|██        | 9895/48845 [3:30:30<13:38:10,  1.26s/it]                                                         {'loss': 1.8638, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9895/48845 [3:30:30<13:38:10,  1.26s/it] 20%|██        | 9896/48845 [3:30:32<13:38:07,  1.26s/it] 20%|██        | 9897/48845 [3:30:33<13:38:06,  1.26s/it] 20%|██        | 9898/48845 [3:30:34<13:37:49,  1.26s/it] 20%|██        | 9899/48845 [3:30:35<13:38:00,  1.26s/it] 20%|██        | 9900/48845 [3:30:37<13:37:15,  1.26s/it]                                                         {'loss': 1.8624, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9900/48845 [3:30:37<13:37:15,  1.26s/it] 20%|██        | 9901/48845 [3:30:38<13:37:42,  1.26s/it] 20%|██        | 9902/48845 [3:30:39<13:37:35,  1.26s/it] 20%|██        | 9903/48845 [3:30:40<13:37:35,  1.26s/it] 20%|██        | 9904/48845 [3:30:42<13:37:16,  1.26s/it] 20%|██        | 9905/48845 [3:30:43<13:36:59,  1.26s/it]                                                         {'loss': 1.781, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9905/48845 [3:30:43<13:36:59,  1.26s/it] 20%|██        | 9906/48845 [3:30:44<13:37:23,  1.26s/it] 20%|██        | 9907/48845 [3:30:46<13:36:51,  1.26s/it] 20%|██        | 9908/48845 [3:30:47<13:37:17,  1.26s/it] 20%|██        | 9909/48845 [3:30:48<13:37:43,  1.26s/it] 20%|██        | 9910/48845 [3:30:49<13:37:30,  1.26s/it]                                                         {'loss': 1.8014, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9910/48845 [3:30:49<13:37:30,  1.26s/it] 20%|██        | 9911/48845 [3:30:51<13:37:46,  1.26s/it] 20%|██        | 9912/48845 [3:30:52<13:37:59,  1.26s/it] 20%|██        | 9913/48845 [3:30:53<13:37:30,  1.26s/it] 20%|██        | 9914/48845 [3:30:54<13:37:54,  1.26s/it] 20%|██        | 9915/48845 [3:30:56<13:38:36,  1.26s/it]                                                         {'loss': 1.6947, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.01}
+ 20%|██        | 9915/48845 [3:30:56<13:38:36,  1.26s/it] 20%|██        | 9916/48845 [3:30:57<13:38:12,  1.26s/it] 20%|██        | 9917/48845 [3:30:58<13:38:06,  1.26s/it] 20%|██        | 9918/48845 [3:30:59<13:37:37,  1.26s/it] 20%|██        | 9919/48845 [3:31:01<13:37:09,  1.26s/it] 20%|██        | 9920/48845 [3:31:02<13:37:43,  1.26s/it]                                                         {'loss': 1.9599, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9920/48845 [3:31:02<13:37:43,  1.26s/it] 20%|██        | 9921/48845 [3:31:03<13:37:54,  1.26s/it] 20%|██        | 9922/48845 [3:31:04<13:37:57,  1.26s/it] 20%|██        | 9923/48845 [3:31:06<13:37:19,  1.26s/it] 20%|██        | 9924/48845 [3:31:07<13:37:33,  1.26s/it] 20%|██        | 9925/48845 [3:31:08<13:36:47,  1.26s/it]                                                         {'loss': 1.73, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9925/48845 [3:31:08<13:36:47,  1.26s/it] 20%|██        | 9926/48845 [3:31:09<13:36:39,  1.26s/it] 20%|██        | 9927/48845 [3:31:11<13:37:09,  1.26s/it] 20%|██        | 9928/48845 [3:31:12<13:37:35,  1.26s/it] 20%|██        | 9929/48845 [3:31:13<13:37:24,  1.26s/it] 20%|██        | 9930/48845 [3:31:15<13:36:47,  1.26s/it]                                                         {'loss': 1.6435, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9930/48845 [3:31:15<13:36:47,  1.26s/it] 20%|██        | 9931/48845 [3:31:16<13:36:58,  1.26s/it] 20%|██        | 9932/48845 [3:31:17<13:36:35,  1.26s/it] 20%|██        | 9933/48845 [3:31:18<13:35:51,  1.26s/it] 20%|██        | 9934/48845 [3:31:20<13:37:39,  1.26s/it] 20%|██        | 9935/48845 [3:31:21<13:37:30,  1.26s/it]                                                         {'loss': 1.8288, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9935/48845 [3:31:21<13:37:30,  1.26s/it] 20%|██        | 9936/48845 [3:31:22<13:37:20,  1.26s/it] 20%|██        | 9937/48845 [3:31:23<13:37:28,  1.26s/it] 20%|██        | 9938/48845 [3:31:25<13:37:18,  1.26s/it] 20%|██        | 9939/48845 [3:31:26<13:37:35,  1.26s/it] 20%|██        | 9940/48845 [3:31:27<13:37:21,  1.26s/it]                                                         {'loss': 1.8533, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9940/48845 [3:31:27<13:37:21,  1.26s/it] 20%|██        | 9941/48845 [3:31:28<13:36:57,  1.26s/it] 20%|██        | 9942/48845 [3:31:30<13:37:03,  1.26s/it] 20%|██        | 9943/48845 [3:31:31<13:38:22,  1.26s/it] 20%|██        | 9944/48845 [3:31:32<13:38:42,  1.26s/it] 20%|██        | 9945/48845 [3:31:33<13:38:39,  1.26s/it]                                                         {'loss': 1.9669, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9945/48845 [3:31:33<13:38:39,  1.26s/it] 20%|██        | 9946/48845 [3:31:35<13:37:49,  1.26s/it] 20%|██        | 9947/48845 [3:31:36<13:38:27,  1.26s/it] 20%|██        | 9948/48845 [3:31:37<13:37:31,  1.26s/it] 20%|██        | 9949/48845 [3:31:38<13:37:03,  1.26s/it] 20%|██        | 9950/48845 [3:31:40<13:36:57,  1.26s/it]                                                         {'loss': 1.714, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9950/48845 [3:31:40<13:36:57,  1.26s/it] 20%|██        | 9951/48845 [3:31:41<13:37:29,  1.26s/it] 20%|██        | 9952/48845 [3:31:42<13:37:07,  1.26s/it] 20%|██        | 9953/48845 [3:31:44<13:37:02,  1.26s/it] 20%|██        | 9954/48845 [3:31:45<13:36:28,  1.26s/it] 20%|██        | 9955/48845 [3:31:46<13:36:25,  1.26s/it]                                                         {'loss': 1.9084, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9955/48845 [3:31:46<13:36:25,  1.26s/it] 20%|██        | 9956/48845 [3:31:47<13:37:07,  1.26s/it] 20%|██        | 9957/48845 [3:31:49<13:37:40,  1.26s/it] 20%|██        | 9958/48845 [3:31:50<13:37:54,  1.26s/it] 20%|██        | 9959/48845 [3:31:51<13:37:10,  1.26s/it] 20%|██        | 9960/48845 [3:31:52<13:37:22,  1.26s/it]                                                         {'loss': 1.9054, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9960/48845 [3:31:52<13:37:22,  1.26s/it] 20%|██        | 9961/48845 [3:31:54<13:37:10,  1.26s/it] 20%|██        | 9962/48845 [3:31:55<13:36:40,  1.26s/it] 20%|██        | 9963/48845 [3:31:56<13:37:10,  1.26s/it] 20%|██        | 9964/48845 [3:31:57<13:36:55,  1.26s/it] 20%|██        | 9965/48845 [3:31:59<13:37:19,  1.26s/it]                                                         {'loss': 1.8137, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9965/48845 [3:31:59<13:37:19,  1.26s/it] 20%|██        | 9966/48845 [3:32:00<13:36:42,  1.26s/it] 20%|██        | 9967/48845 [3:32:01<13:36:42,  1.26s/it] 20%|██        | 9968/48845 [3:32:02<13:37:01,  1.26s/it] 20%|██        | 9969/48845 [3:32:04<13:36:03,  1.26s/it] 20%|██        | 9970/48845 [3:32:05<13:36:10,  1.26s/it]                                                         {'loss': 1.8366, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9970/48845 [3:32:05<13:36:10,  1.26s/it] 20%|██        | 9971/48845 [3:32:06<13:36:19,  1.26s/it] 20%|██        | 9972/48845 [3:32:07<13:35:47,  1.26s/it] 20%|██        | 9973/48845 [3:32:09<13:36:18,  1.26s/it] 20%|██        | 9974/48845 [3:32:10<13:35:13,  1.26s/it] 20%|██        | 9975/48845 [3:32:11<13:36:26,  1.26s/it]                                                         {'loss': 1.8885, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9975/48845 [3:32:11<13:36:26,  1.26s/it] 20%|██        | 9976/48845 [3:32:13<13:37:11,  1.26s/it] 20%|██        | 9977/48845 [3:32:14<13:37:38,  1.26s/it] 20%|██        | 9978/48845 [3:32:15<13:38:15,  1.26s/it] 20%|██        | 9979/48845 [3:32:16<13:37:18,  1.26s/it] 20%|██        | 9980/48845 [3:32:18<13:36:41,  1.26s/it]                                                         {'loss': 1.8167, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9980/48845 [3:32:18<13:36:41,  1.26s/it] 20%|██        | 9981/48845 [3:32:19<13:38:43,  1.26s/it] 20%|██        | 9982/48845 [3:32:20<13:38:39,  1.26s/it] 20%|██        | 9983/48845 [3:32:21<13:37:56,  1.26s/it] 20%|██        | 9984/48845 [3:32:23<13:37:41,  1.26s/it] 20%|██        | 9985/48845 [3:32:24<13:37:07,  1.26s/it]                                                         {'loss': 1.8593, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9985/48845 [3:32:24<13:37:07,  1.26s/it] 20%|██        | 9986/48845 [3:32:25<13:37:41,  1.26s/it] 20%|██        | 9987/48845 [3:32:26<13:37:35,  1.26s/it] 20%|██        | 9988/48845 [3:32:28<13:36:24,  1.26s/it] 20%|██        | 9989/48845 [3:32:29<13:37:03,  1.26s/it] 20%|██        | 9990/48845 [3:32:30<13:36:49,  1.26s/it]                                                         {'loss': 1.8486, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9990/48845 [3:32:30<13:36:49,  1.26s/it] 20%|██        | 9991/48845 [3:32:31<13:36:43,  1.26s/it] 20%|██        | 9992/48845 [3:32:33<13:36:35,  1.26s/it] 20%|██        | 9993/48845 [3:32:34<13:37:23,  1.26s/it] 20%|██        | 9994/48845 [3:32:35<13:37:12,  1.26s/it] 20%|██        | 9995/48845 [3:32:36<13:36:38,  1.26s/it]                                                         {'loss': 1.8121, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 9995/48845 [3:32:36<13:36:38,  1.26s/it] 20%|██        | 9996/48845 [3:32:38<13:36:57,  1.26s/it] 20%|██        | 9997/48845 [3:32:39<13:37:00,  1.26s/it] 20%|██        | 9998/48845 [3:32:40<13:36:35,  1.26s/it] 20%|██        | 9999/48845 [3:32:42<13:36:41,  1.26s/it] 20%|██        | 10000/48845 [3:32:43<13:36:15,  1.26s/it]                                                          {'loss': 1.7913, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 10000/48845 [3:32:43<13:36:15,  1.26s/it] 20%|██        | 10001/48845 [3:32:46<21:16:45,  1.97s/it] 20%|██        | 10002/48845 [3:32:48<18:57:51,  1.76s/it] 20%|██        | 10003/48845 [3:32:49<17:21:29,  1.61s/it] 20%|██        | 10004/48845 [3:32:50<16:13:58,  1.50s/it] 20%|██        | 10005/48845 [3:32:51<15:25:22,  1.43s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 10005/48845 [3:32:51<15:25:22,  1.43s/it] 20%|██        | 10006/48845 [3:32:53<14:52:32,  1.38s/it] 20%|██        | 10007/48845 [3:32:54<14:28:34,  1.34s/it] 20%|██        | 10008/48845 [3:32:55<14:13:06,  1.32s/it] 20%|██        | 10009/48845 [3:32:56<14:02:10,  1.30s/it] 20%|██        | 10010/48845 [3:32:58<13:54:05,  1.29s/it]                                                          {'loss': 1.8003, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.02}
+ 20%|██        | 10010/48845 [3:32:58<13:54:05,  1.29s/it] 20%|██        | 10011/48845 [3:32:59<13:48:41,  1.28s/it] 20%|██        | 10012/48845 [3:33:00<13:43:59,  1.27s/it] 20%|██        | 10013/48845 [3:33:02<13:41:24,  1.27s/it] 21%|██        | 10014/48845 [3:33:03<13:40:17,  1.27s/it] 21%|██        | 10015/48845 [3:33:04<13:38:13,  1.26s/it]                                                          {'loss': 1.9659, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10015/48845 [3:33:04<13:38:13,  1.26s/it] 21%|██        | 10016/48845 [3:33:05<13:38:25,  1.26s/it] 21%|██        | 10017/48845 [3:33:07<13:37:32,  1.26s/it] 21%|██        | 10018/48845 [3:33:08<13:36:25,  1.26s/it] 21%|██        | 10019/48845 [3:33:09<13:36:15,  1.26s/it] 21%|██        | 10020/48845 [3:33:10<14:00:51,  1.30s/it]                                                          {'loss': 1.9273, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10020/48845 [3:33:10<14:00:51,  1.30s/it] 21%|██        | 10021/48845 [3:33:12<13:52:55,  1.29s/it] 21%|██        | 10022/48845 [3:33:13<13:47:28,  1.28s/it] 21%|██        | 10023/48845 [3:33:14<13:43:03,  1.27s/it] 21%|██        | 10024/48845 [3:33:16<13:41:06,  1.27s/it] 21%|██        | 10025/48845 [3:33:17<13:38:47,  1.27s/it]                                                          {'loss': 1.7474, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10025/48845 [3:33:17<13:38:47,  1.27s/it] 21%|██        | 10026/48845 [3:33:18<13:37:24,  1.26s/it] 21%|██        | 10027/48845 [3:33:19<13:37:37,  1.26s/it] 21%|██        | 10028/48845 [3:33:21<13:36:39,  1.26s/it] 21%|██        | 10029/48845 [3:33:22<13:36:10,  1.26s/it] 21%|██        | 10030/48845 [3:33:23<13:35:44,  1.26s/it]                                                          {'loss': 1.755, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10030/48845 [3:33:23<13:35:44,  1.26s/it] 21%|██        | 10031/48845 [3:33:24<13:34:55,  1.26s/it] 21%|██        | 10032/48845 [3:33:26<13:35:09,  1.26s/it] 21%|██        | 10033/48845 [3:33:27<13:34:59,  1.26s/it] 21%|██        | 10034/48845 [3:33:28<13:35:21,  1.26s/it] 21%|██        | 10035/48845 [3:33:29<13:34:58,  1.26s/it]                                                          {'loss': 1.8134, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10035/48845 [3:33:29<13:34:58,  1.26s/it] 21%|██        | 10036/48845 [3:33:31<13:35:37,  1.26s/it] 21%|██        | 10037/48845 [3:33:32<13:34:17,  1.26s/it] 21%|██        | 10038/48845 [3:33:33<13:33:38,  1.26s/it] 21%|██        | 10039/48845 [3:33:34<13:33:59,  1.26s/it] 21%|██        | 10040/48845 [3:33:36<13:33:45,  1.26s/it]                                                          {'loss': 1.873, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10040/48845 [3:33:36<13:33:45,  1.26s/it] 21%|██        | 10041/48845 [3:33:37<13:34:07,  1.26s/it] 21%|██        | 10042/48845 [3:33:38<13:34:01,  1.26s/it] 21%|██        | 10043/48845 [3:33:39<13:33:51,  1.26s/it] 21%|██        | 10044/48845 [3:33:41<13:33:50,  1.26s/it] 21%|██        | 10045/48845 [3:33:42<13:33:27,  1.26s/it]                                                          {'loss': 1.7714, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10045/48845 [3:33:42<13:33:27,  1.26s/it] 21%|██        | 10046/48845 [3:33:43<13:33:37,  1.26s/it] 21%|██        | 10047/48845 [3:33:44<13:35:17,  1.26s/it] 21%|██        | 10048/48845 [3:33:46<13:35:01,  1.26s/it] 21%|██        | 10049/48845 [3:33:47<13:35:11,  1.26s/it] 21%|██        | 10050/48845 [3:33:48<13:35:04,  1.26s/it]                                                          {'loss': 1.7132, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10050/48845 [3:33:48<13:35:04,  1.26s/it] 21%|██        | 10051/48845 [3:33:50<13:34:43,  1.26s/it] 21%|██        | 10052/48845 [3:33:51<13:35:31,  1.26s/it] 21%|██        | 10053/48845 [3:33:52<13:34:59,  1.26s/it] 21%|██        | 10054/48845 [3:33:53<13:34:43,  1.26s/it] 21%|██        | 10055/48845 [3:33:55<13:33:56,  1.26s/it]                                                          {'loss': 1.7431, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10055/48845 [3:33:55<13:33:56,  1.26s/it] 21%|██        | 10056/48845 [3:33:56<13:35:05,  1.26s/it] 21%|██        | 10057/48845 [3:33:57<13:34:47,  1.26s/it] 21%|██        | 10058/48845 [3:33:58<13:34:32,  1.26s/it] 21%|██        | 10059/48845 [3:34:00<13:34:21,  1.26s/it] 21%|██        | 10060/48845 [3:34:01<13:33:40,  1.26s/it]                                                          {'loss': 1.9081, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10060/48845 [3:34:01<13:33:40,  1.26s/it] 21%|██        | 10061/48845 [3:34:02<13:34:08,  1.26s/it] 21%|██        | 10062/48845 [3:34:03<13:33:46,  1.26s/it] 21%|██        | 10063/48845 [3:34:05<13:33:36,  1.26s/it] 21%|██        | 10064/48845 [3:34:06<13:34:13,  1.26s/it] 21%|██        | 10065/48845 [3:34:07<13:33:45,  1.26s/it]                                                          {'loss': 1.7485, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10065/48845 [3:34:07<13:33:45,  1.26s/it] 21%|██        | 10066/48845 [3:34:08<13:33:26,  1.26s/it] 21%|██        | 10067/48845 [3:34:10<13:33:30,  1.26s/it] 21%|██        | 10068/48845 [3:34:11<13:33:34,  1.26s/it] 21%|██        | 10069/48845 [3:34:12<13:34:42,  1.26s/it] 21%|██        | 10070/48845 [3:34:13<13:33:32,  1.26s/it]                                                          {'loss': 1.8382, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10070/48845 [3:34:13<13:33:32,  1.26s/it] 21%|██        | 10071/48845 [3:34:15<13:33:58,  1.26s/it] 21%|██        | 10072/48845 [3:34:16<13:35:22,  1.26s/it] 21%|██        | 10073/48845 [3:34:17<13:35:02,  1.26s/it] 21%|██        | 10074/48845 [3:34:19<13:34:59,  1.26s/it] 21%|██        | 10075/48845 [3:34:20<13:35:06,  1.26s/it]                                                          {'loss': 1.9207, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10075/48845 [3:34:20<13:35:06,  1.26s/it] 21%|██        | 10076/48845 [3:34:21<13:34:51,  1.26s/it] 21%|██        | 10077/48845 [3:34:22<13:35:30,  1.26s/it] 21%|██        | 10078/48845 [3:34:24<13:34:50,  1.26s/it] 21%|██        | 10079/48845 [3:34:25<13:34:05,  1.26s/it] 21%|██        | 10080/48845 [3:34:26<13:34:33,  1.26s/it]                                                          {'loss': 1.9041, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10080/48845 [3:34:26<13:34:33,  1.26s/it] 21%|██        | 10081/48845 [3:34:27<13:35:10,  1.26s/it] 21%|██        | 10082/48845 [3:34:29<13:34:31,  1.26s/it] 21%|██        | 10083/48845 [3:34:30<13:36:00,  1.26s/it] 21%|██        | 10084/48845 [3:34:31<13:36:06,  1.26s/it] 21%|██        | 10085/48845 [3:34:32<13:35:23,  1.26s/it]                                                          {'loss': 1.8482, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10085/48845 [3:34:32<13:35:23,  1.26s/it] 21%|██        | 10086/48845 [3:34:34<13:34:52,  1.26s/it] 21%|██        | 10087/48845 [3:34:35<13:34:25,  1.26s/it] 21%|██        | 10088/48845 [3:34:36<13:34:08,  1.26s/it] 21%|██        | 10089/48845 [3:34:37<13:34:25,  1.26s/it] 21%|██        | 10090/48845 [3:34:39<13:34:38,  1.26s/it]                                                          {'loss': 1.7678, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10090/48845 [3:34:39<13:34:38,  1.26s/it] 21%|██        | 10091/48845 [3:34:40<13:35:07,  1.26s/it] 21%|██        | 10092/48845 [3:34:41<13:34:42,  1.26s/it] 21%|██        | 10093/48845 [3:34:42<13:37:18,  1.27s/it] 21%|██        | 10094/48845 [3:34:44<13:35:51,  1.26s/it] 21%|██        | 10095/48845 [3:34:45<13:41:54,  1.27s/it]                                                          {'loss': 1.8359, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10095/48845 [3:34:45<13:41:54,  1.27s/it] 21%|██        | 10096/48845 [3:34:46<13:39:24,  1.27s/it] 21%|██        | 10097/48845 [3:34:48<13:38:36,  1.27s/it] 21%|██        | 10098/48845 [3:34:49<13:37:21,  1.27s/it] 21%|██        | 10099/48845 [3:34:50<13:36:01,  1.26s/it] 21%|██        | 10100/48845 [3:34:51<13:35:12,  1.26s/it]                                                          {'loss': 1.8188, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10100/48845 [3:34:51<13:35:12,  1.26s/it] 21%|██        | 10101/48845 [3:34:53<13:34:19,  1.26s/it] 21%|██        | 10102/48845 [3:34:54<13:35:09,  1.26s/it] 21%|██        | 10103/48845 [3:34:55<13:34:46,  1.26s/it] 21%|██        | 10104/48845 [3:34:56<13:33:58,  1.26s/it] 21%|██        | 10105/48845 [3:34:58<13:33:43,  1.26s/it]                                                          {'loss': 1.7137, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10105/48845 [3:34:58<13:33:43,  1.26s/it] 21%|██        | 10106/48845 [3:34:59<13:34:16,  1.26s/it] 21%|██        | 10107/48845 [3:35:00<13:35:41,  1.26s/it] 21%|██        | 10108/48845 [3:35:01<13:35:06,  1.26s/it] 21%|██        | 10109/48845 [3:35:03<13:34:35,  1.26s/it] 21%|██        | 10110/48845 [3:35:04<13:34:22,  1.26s/it]                                                          {'loss': 1.8811, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.03}
+ 21%|██        | 10110/48845 [3:35:04<13:34:22,  1.26s/it] 21%|██        | 10111/48845 [3:35:05<13:33:28,  1.26s/it] 21%|██        | 10112/48845 [3:35:06<13:33:52,  1.26s/it] 21%|██        | 10113/48845 [3:35:08<13:33:47,  1.26s/it] 21%|██        | 10114/48845 [3:35:09<13:33:40,  1.26s/it] 21%|██        | 10115/48845 [3:35:10<13:34:11,  1.26s/it]                                                          {'loss': 1.8691, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10115/48845 [3:35:10<13:34:11,  1.26s/it] 21%|██        | 10116/48845 [3:35:12<13:34:42,  1.26s/it] 21%|██        | 10117/48845 [3:35:13<13:34:00,  1.26s/it] 21%|██        | 10118/48845 [3:35:14<13:34:59,  1.26s/it] 21%|██        | 10119/48845 [3:35:15<13:36:11,  1.26s/it] 21%|██        | 10120/48845 [3:35:17<13:39:27,  1.27s/it]                                                          {'loss': 2.1229, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10120/48845 [3:35:17<13:39:27,  1.27s/it] 21%|██        | 10121/48845 [3:35:18<13:39:55,  1.27s/it] 21%|██        | 10122/48845 [3:35:19<13:37:25,  1.27s/it] 21%|██        | 10123/48845 [3:35:20<13:36:28,  1.27s/it] 21%|██        | 10124/48845 [3:35:22<13:36:00,  1.26s/it] 21%|██        | 10125/48845 [3:35:23<13:35:32,  1.26s/it]                                                          {'loss': 1.7393, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10125/48845 [3:35:23<13:35:32,  1.26s/it] 21%|██        | 10126/48845 [3:35:24<13:35:39,  1.26s/it] 21%|██        | 10127/48845 [3:35:25<13:35:08,  1.26s/it] 21%|██        | 10128/48845 [3:35:27<13:34:30,  1.26s/it] 21%|██        | 10129/48845 [3:35:28<13:34:41,  1.26s/it] 21%|██        | 10130/48845 [3:35:29<13:36:32,  1.27s/it]                                                          {'loss': 1.989, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10130/48845 [3:35:29<13:36:32,  1.27s/it] 21%|██        | 10131/48845 [3:35:30<13:35:21,  1.26s/it] 21%|██        | 10132/48845 [3:35:32<13:35:06,  1.26s/it] 21%|██        | 10133/48845 [3:35:33<13:35:01,  1.26s/it] 21%|██        | 10134/48845 [3:35:34<13:33:43,  1.26s/it] 21%|██        | 10135/48845 [3:35:36<13:35:11,  1.26s/it]                                                          {'loss': 1.9562, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10135/48845 [3:35:36<13:35:11,  1.26s/it] 21%|██        | 10136/48845 [3:35:37<13:34:51,  1.26s/it] 21%|██        | 10137/48845 [3:35:38<13:34:59,  1.26s/it] 21%|██        | 10138/48845 [3:35:39<13:33:24,  1.26s/it] 21%|██        | 10139/48845 [3:35:41<13:32:57,  1.26s/it] 21%|██        | 10140/48845 [3:35:42<13:33:50,  1.26s/it]                                                          {'loss': 1.8051, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10140/48845 [3:35:42<13:33:50,  1.26s/it] 21%|██        | 10141/48845 [3:35:43<13:33:31,  1.26s/it] 21%|██        | 10142/48845 [3:35:44<13:33:14,  1.26s/it] 21%|██        | 10143/48845 [3:35:46<13:33:39,  1.26s/it] 21%|██        | 10144/48845 [3:35:47<13:33:17,  1.26s/it] 21%|██        | 10145/48845 [3:35:48<13:32:37,  1.26s/it]                                                          {'loss': 1.8373, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10145/48845 [3:35:48<13:32:37,  1.26s/it] 21%|██        | 10146/48845 [3:35:49<13:32:08,  1.26s/it] 21%|██        | 10147/48845 [3:35:51<13:33:14,  1.26s/it] 21%|██        | 10148/48845 [3:35:52<13:33:36,  1.26s/it] 21%|██        | 10149/48845 [3:35:53<13:33:33,  1.26s/it] 21%|██        | 10150/48845 [3:35:54<13:33:37,  1.26s/it]                                                          {'loss': 1.7783, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10150/48845 [3:35:54<13:33:37,  1.26s/it] 21%|██        | 10151/48845 [3:35:56<13:34:25,  1.26s/it] 21%|██        | 10152/48845 [3:35:57<13:33:20,  1.26s/it] 21%|██        | 10153/48845 [3:35:58<13:34:01,  1.26s/it] 21%|██        | 10154/48845 [3:36:00<13:33:06,  1.26s/it] 21%|██        | 10155/48845 [3:36:01<13:32:37,  1.26s/it]                                                          {'loss': 1.845, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10155/48845 [3:36:01<13:32:37,  1.26s/it] 21%|██        | 10156/48845 [3:36:02<13:33:26,  1.26s/it] 21%|██        | 10157/48845 [3:36:03<13:32:59,  1.26s/it] 21%|██        | 10158/48845 [3:36:05<13:32:46,  1.26s/it] 21%|██        | 10159/48845 [3:36:06<13:33:36,  1.26s/it] 21%|██        | 10160/48845 [3:36:07<13:33:17,  1.26s/it]                                                          {'loss': 1.7584, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10160/48845 [3:36:07<13:33:17,  1.26s/it] 21%|██        | 10161/48845 [3:36:08<13:33:40,  1.26s/it] 21%|██        | 10162/48845 [3:36:10<13:32:58,  1.26s/it] 21%|██        | 10163/48845 [3:36:11<13:32:41,  1.26s/it] 21%|██        | 10164/48845 [3:36:12<13:32:18,  1.26s/it] 21%|██        | 10165/48845 [3:36:13<13:31:59,  1.26s/it]                                                          {'loss': 1.7802, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10165/48845 [3:36:13<13:31:59,  1.26s/it] 21%|██        | 10166/48845 [3:36:15<13:32:31,  1.26s/it] 21%|██        | 10167/48845 [3:36:16<13:31:51,  1.26s/it] 21%|██        | 10168/48845 [3:36:17<13:31:44,  1.26s/it] 21%|██        | 10169/48845 [3:36:18<13:31:46,  1.26s/it] 21%|██        | 10170/48845 [3:36:20<13:32:01,  1.26s/it]                                                          {'loss': 1.8051, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10170/48845 [3:36:20<13:32:01,  1.26s/it] 21%|██        | 10171/48845 [3:36:21<13:32:33,  1.26s/it] 21%|██        | 10172/48845 [3:36:22<13:34:40,  1.26s/it] 21%|██        | 10173/48845 [3:36:23<13:33:15,  1.26s/it] 21%|██        | 10174/48845 [3:36:25<13:32:12,  1.26s/it] 21%|██        | 10175/48845 [3:36:26<13:32:12,  1.26s/it]                                                          {'loss': 1.8057, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10175/48845 [3:36:26<13:32:12,  1.26s/it] 21%|██        | 10176/48845 [3:36:27<13:33:46,  1.26s/it] 21%|██        | 10177/48845 [3:36:29<13:33:05,  1.26s/it] 21%|██        | 10178/48845 [3:36:30<13:32:17,  1.26s/it] 21%|██        | 10179/48845 [3:36:31<13:52:42,  1.29s/it] 21%|██        | 10180/48845 [3:36:32<13:46:27,  1.28s/it]                                                          {'loss': 1.7554, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10180/48845 [3:36:32<13:46:27,  1.28s/it] 21%|██        | 10181/48845 [3:36:34<13:42:12,  1.28s/it] 21%|██        | 10182/48845 [3:36:35<13:39:43,  1.27s/it] 21%|██        | 10183/48845 [3:36:36<13:36:21,  1.27s/it] 21%|██        | 10184/48845 [3:36:37<13:35:46,  1.27s/it] 21%|██        | 10185/48845 [3:36:39<13:34:36,  1.26s/it]                                                          {'loss': 1.7431, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10185/48845 [3:36:39<13:34:36,  1.26s/it] 21%|██        | 10186/48845 [3:36:40<13:34:12,  1.26s/it] 21%|██        | 10187/48845 [3:36:41<13:32:43,  1.26s/it] 21%|██        | 10188/48845 [3:36:42<13:31:49,  1.26s/it] 21%|██        | 10189/48845 [3:36:44<13:32:33,  1.26s/it] 21%|██        | 10190/48845 [3:36:45<13:31:54,  1.26s/it]                                                          {'loss': 1.8139, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10190/48845 [3:36:45<13:31:54,  1.26s/it] 21%|██        | 10191/48845 [3:36:46<13:31:59,  1.26s/it] 21%|██        | 10192/48845 [3:36:48<13:31:56,  1.26s/it] 21%|██        | 10193/48845 [3:36:49<13:31:10,  1.26s/it] 21%|██        | 10194/48845 [3:36:50<13:31:51,  1.26s/it] 21%|██        | 10195/48845 [3:36:51<13:31:40,  1.26s/it]                                                          {'loss': 1.8959, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10195/48845 [3:36:51<13:31:40,  1.26s/it] 21%|██        | 10196/48845 [3:36:53<13:31:23,  1.26s/it] 21%|██        | 10197/48845 [3:36:54<13:30:54,  1.26s/it] 21%|██        | 10198/48845 [3:36:55<13:30:37,  1.26s/it] 21%|██        | 10199/48845 [3:36:56<13:30:57,  1.26s/it] 21%|██        | 10200/48845 [3:36:58<13:30:32,  1.26s/it]                                                          {'loss': 1.7982, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10200/48845 [3:36:58<13:30:32,  1.26s/it] 21%|██        | 10201/48845 [3:37:01<21:12:24,  1.98s/it] 21%|██        | 10202/48845 [3:37:02<18:53:25,  1.76s/it] 21%|██        | 10203/48845 [3:37:04<17:16:35,  1.61s/it] 21%|██        | 10204/48845 [3:37:05<16:08:14,  1.50s/it] 21%|██        | 10205/48845 [3:37:06<15:20:34,  1.43s/it]                                                          {'loss': 1.9999, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.04}
+ 21%|██        | 10205/48845 [3:37:06<15:20:34,  1.43s/it] 21%|██        | 10206/48845 [3:37:08<14:47:54,  1.38s/it] 21%|██        | 10207/48845 [3:37:09<14:24:08,  1.34s/it] 21%|██        | 10208/48845 [3:37:10<14:08:50,  1.32s/it] 21%|██        | 10209/48845 [3:37:11<13:57:05,  1.30s/it] 21%|██        | 10210/48845 [3:37:13<13:49:17,  1.29s/it]                                                          {'loss': 1.7664, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10210/48845 [3:37:13<13:49:17,  1.29s/it] 21%|██        | 10211/48845 [3:37:14<13:44:14,  1.28s/it] 21%|██        | 10212/48845 [3:37:15<13:40:24,  1.27s/it] 21%|██        | 10213/48845 [3:37:16<13:37:07,  1.27s/it] 21%|██        | 10214/48845 [3:37:18<13:34:56,  1.27s/it] 21%|██        | 10215/48845 [3:37:19<13:32:54,  1.26s/it]                                                          {'loss': 1.8839, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10215/48845 [3:37:19<13:32:54,  1.26s/it] 21%|██        | 10216/48845 [3:37:20<13:33:52,  1.26s/it] 21%|██        | 10217/48845 [3:37:21<13:32:47,  1.26s/it] 21%|██        | 10218/48845 [3:37:23<13:32:14,  1.26s/it] 21%|██        | 10219/48845 [3:37:24<13:31:39,  1.26s/it] 21%|██        | 10220/48845 [3:37:25<13:31:42,  1.26s/it]                                                          {'loss': 1.8449, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10220/48845 [3:37:25<13:31:42,  1.26s/it] 21%|██        | 10221/48845 [3:37:26<13:32:23,  1.26s/it] 21%|██        | 10222/48845 [3:37:28<13:31:38,  1.26s/it] 21%|██        | 10223/48845 [3:37:29<13:31:17,  1.26s/it] 21%|██        | 10224/48845 [3:37:30<14:05:20,  1.31s/it] 21%|██        | 10225/48845 [3:37:32<13:54:35,  1.30s/it]                                                          {'loss': 1.6772, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10225/48845 [3:37:32<13:54:35,  1.30s/it] 21%|██        | 10226/48845 [3:37:33<13:47:19,  1.29s/it] 21%|██        | 10227/48845 [3:37:34<13:42:11,  1.28s/it] 21%|██        | 10228/48845 [3:37:35<13:39:47,  1.27s/it] 21%|██        | 10229/48845 [3:37:37<13:37:16,  1.27s/it] 21%|██        | 10230/48845 [3:37:38<13:35:16,  1.27s/it]                                                          {'loss': 1.7597, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10230/48845 [3:37:38<13:35:16,  1.27s/it] 21%|██        | 10231/48845 [3:37:39<13:33:53,  1.26s/it] 21%|██        | 10232/48845 [3:37:40<13:32:24,  1.26s/it] 21%|██        | 10233/48845 [3:37:42<13:32:31,  1.26s/it] 21%|██        | 10234/48845 [3:37:43<13:31:22,  1.26s/it] 21%|██        | 10235/48845 [3:37:44<13:31:00,  1.26s/it]                                                          {'loss': 1.8408, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10235/48845 [3:37:44<13:31:00,  1.26s/it] 21%|██        | 10236/48845 [3:37:45<13:30:10,  1.26s/it] 21%|██        | 10237/48845 [3:37:47<13:30:01,  1.26s/it] 21%|██        | 10238/48845 [3:37:48<13:31:11,  1.26s/it] 21%|██        | 10239/48845 [3:37:49<13:30:34,  1.26s/it] 21%|██        | 10240/48845 [3:37:51<13:30:15,  1.26s/it]                                                          {'loss': 1.8003, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10240/48845 [3:37:51<13:30:15,  1.26s/it] 21%|██        | 10241/48845 [3:37:52<13:30:06,  1.26s/it] 21%|██        | 10242/48845 [3:37:53<13:30:14,  1.26s/it] 21%|██        | 10243/48845 [3:37:54<13:30:38,  1.26s/it] 21%|██        | 10244/48845 [3:37:56<13:29:45,  1.26s/it] 21%|██        | 10245/48845 [3:37:57<13:30:27,  1.26s/it]                                                          {'loss': 1.8449, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10245/48845 [3:37:57<13:30:27,  1.26s/it] 21%|██        | 10246/48845 [3:37:58<13:32:04,  1.26s/it] 21%|██        | 10247/48845 [3:37:59<13:31:57,  1.26s/it] 21%|██        | 10248/48845 [3:38:01<13:31:51,  1.26s/it] 21%|██        | 10249/48845 [3:38:02<13:31:33,  1.26s/it] 21%|██        | 10250/48845 [3:38:03<13:31:28,  1.26s/it]                                                          {'loss': 1.7919, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10250/48845 [3:38:03<13:31:28,  1.26s/it] 21%|██        | 10251/48845 [3:38:04<13:31:07,  1.26s/it] 21%|██        | 10252/48845 [3:38:06<13:30:51,  1.26s/it] 21%|██        | 10253/48845 [3:38:07<13:31:03,  1.26s/it] 21%|██        | 10254/48845 [3:38:08<13:31:27,  1.26s/it] 21%|██        | 10255/48845 [3:38:09<13:30:37,  1.26s/it]                                                          {'loss': 1.8347, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10255/48845 [3:38:09<13:30:37,  1.26s/it] 21%|██        | 10256/48845 [3:38:11<13:31:28,  1.26s/it] 21%|██        | 10257/48845 [3:38:12<13:31:22,  1.26s/it] 21%|██        | 10258/48845 [3:38:13<13:31:51,  1.26s/it] 21%|██        | 10259/48845 [3:38:14<13:30:53,  1.26s/it] 21%|██        | 10260/48845 [3:38:16<13:30:55,  1.26s/it]                                                          {'loss': 2.1044, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10260/48845 [3:38:16<13:30:55,  1.26s/it] 21%|██        | 10261/48845 [3:38:17<13:32:33,  1.26s/it] 21%|██        | 10262/48845 [3:38:18<13:31:11,  1.26s/it] 21%|██        | 10263/48845 [3:38:20<13:30:22,  1.26s/it] 21%|██        | 10264/48845 [3:38:21<13:31:20,  1.26s/it] 21%|██        | 10265/48845 [3:38:22<13:30:58,  1.26s/it]                                                          {'loss': 1.7936, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10265/48845 [3:38:22<13:30:58,  1.26s/it] 21%|██        | 10266/48845 [3:38:23<13:31:54,  1.26s/it] 21%|██        | 10267/48845 [3:38:25<13:30:47,  1.26s/it] 21%|██        | 10268/48845 [3:38:26<13:30:03,  1.26s/it] 21%|██        | 10269/48845 [3:38:27<13:30:31,  1.26s/it] 21%|██        | 10270/48845 [3:38:28<13:29:39,  1.26s/it]                                                          {'loss': 1.6994, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10270/48845 [3:38:28<13:29:39,  1.26s/it] 21%|██        | 10271/48845 [3:38:30<13:30:29,  1.26s/it] 21%|██        | 10272/48845 [3:38:31<13:29:29,  1.26s/it] 21%|██        | 10273/48845 [3:38:32<13:29:02,  1.26s/it] 21%|██        | 10274/48845 [3:38:33<13:29:58,  1.26s/it] 21%|██        | 10275/48845 [3:38:35<13:30:32,  1.26s/it]                                                          {'loss': 1.7915, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10275/48845 [3:38:35<13:30:32,  1.26s/it] 21%|██        | 10276/48845 [3:38:36<13:30:28,  1.26s/it] 21%|██        | 10277/48845 [3:38:37<13:30:19,  1.26s/it] 21%|██        | 10278/48845 [3:38:38<13:30:36,  1.26s/it] 21%|██        | 10279/48845 [3:38:40<13:30:29,  1.26s/it] 21%|██        | 10280/48845 [3:38:41<13:30:19,  1.26s/it]                                                          {'loss': 1.9517, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10280/48845 [3:38:41<13:30:19,  1.26s/it] 21%|██        | 10281/48845 [3:38:42<13:29:55,  1.26s/it] 21%|██        | 10282/48845 [3:38:43<13:29:18,  1.26s/it] 21%|██        | 10283/48845 [3:38:45<13:29:26,  1.26s/it] 21%|██        | 10284/48845 [3:38:46<13:29:36,  1.26s/it] 21%|██        | 10285/48845 [3:38:47<13:29:09,  1.26s/it]                                                          {'loss': 1.7299, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10285/48845 [3:38:47<13:29:09,  1.26s/it] 21%|██        | 10286/48845 [3:38:49<13:29:27,  1.26s/it] 21%|██        | 10287/48845 [3:38:50<13:29:42,  1.26s/it] 21%|██        | 10288/48845 [3:38:51<13:28:56,  1.26s/it] 21%|██        | 10289/48845 [3:38:52<13:29:06,  1.26s/it] 21%|██        | 10290/48845 [3:38:54<13:28:43,  1.26s/it]                                                          {'loss': 2.1561, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10290/48845 [3:38:54<13:28:43,  1.26s/it] 21%|██        | 10291/48845 [3:38:55<13:29:42,  1.26s/it] 21%|██        | 10292/48845 [3:38:56<13:29:29,  1.26s/it] 21%|██        | 10293/48845 [3:38:57<13:30:31,  1.26s/it] 21%|██        | 10294/48845 [3:38:59<13:30:16,  1.26s/it] 21%|██        | 10295/48845 [3:39:00<13:29:50,  1.26s/it]                                                          {'loss': 1.9347, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10295/48845 [3:39:00<13:29:50,  1.26s/it] 21%|██        | 10296/48845 [3:39:01<13:29:54,  1.26s/it] 21%|██        | 10297/48845 [3:39:02<13:30:02,  1.26s/it] 21%|██        | 10298/48845 [3:39:04<13:29:34,  1.26s/it] 21%|██        | 10299/48845 [3:39:05<13:29:33,  1.26s/it] 21%|██        | 10300/48845 [3:39:06<13:29:21,  1.26s/it]                                                          {'loss': 1.7836, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10300/48845 [3:39:06<13:29:21,  1.26s/it] 21%|██        | 10301/48845 [3:39:07<13:30:28,  1.26s/it] 21%|██        | 10302/48845 [3:39:09<13:31:18,  1.26s/it] 21%|██        | 10303/48845 [3:39:10<13:30:37,  1.26s/it] 21%|██        | 10304/48845 [3:39:11<13:30:31,  1.26s/it] 21%|██        | 10305/48845 [3:39:12<13:30:15,  1.26s/it]                                                          {'loss': 1.8987, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.05}
+ 21%|██        | 10305/48845 [3:39:12<13:30:15,  1.26s/it] 21%|██        | 10306/48845 [3:39:14<13:30:21,  1.26s/it] 21%|██        | 10307/48845 [3:39:15<13:32:18,  1.26s/it] 21%|██        | 10308/48845 [3:39:16<13:31:05,  1.26s/it] 21%|██        | 10309/48845 [3:39:18<13:30:21,  1.26s/it] 21%|██        | 10310/48845 [3:39:19<13:30:02,  1.26s/it]                                                          {'loss': 1.9173, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10310/48845 [3:39:19<13:30:02,  1.26s/it] 21%|██        | 10311/48845 [3:39:20<13:31:33,  1.26s/it] 21%|██        | 10312/48845 [3:39:21<13:30:55,  1.26s/it] 21%|██        | 10313/48845 [3:39:23<13:31:02,  1.26s/it] 21%|██        | 10314/48845 [3:39:24<13:30:31,  1.26s/it] 21%|██        | 10315/48845 [3:39:25<13:29:40,  1.26s/it]                                                          {'loss': 1.8666, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10315/48845 [3:39:25<13:29:40,  1.26s/it] 21%|██        | 10316/48845 [3:39:26<13:29:02,  1.26s/it] 21%|██        | 10317/48845 [3:39:28<13:29:29,  1.26s/it] 21%|██        | 10318/48845 [3:39:29<13:29:19,  1.26s/it] 21%|██        | 10319/48845 [3:39:30<13:28:54,  1.26s/it] 21%|██        | 10320/48845 [3:39:31<13:28:45,  1.26s/it]                                                          {'loss': 1.7721, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10320/48845 [3:39:31<13:28:45,  1.26s/it] 21%|██        | 10321/48845 [3:39:33<13:28:39,  1.26s/it] 21%|██        | 10322/48845 [3:39:34<13:28:38,  1.26s/it] 21%|██        | 10323/48845 [3:39:35<13:28:50,  1.26s/it] 21%|██        | 10324/48845 [3:39:36<13:28:37,  1.26s/it] 21%|██        | 10325/48845 [3:39:38<13:28:55,  1.26s/it]                                                          {'loss': 1.8584, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10325/48845 [3:39:38<13:28:55,  1.26s/it] 21%|██        | 10326/48845 [3:39:39<13:28:12,  1.26s/it] 21%|██        | 10327/48845 [3:39:40<13:28:37,  1.26s/it] 21%|██        | 10328/48845 [3:39:41<13:28:55,  1.26s/it] 21%|██        | 10329/48845 [3:39:43<13:28:37,  1.26s/it] 21%|██        | 10330/48845 [3:39:44<13:28:16,  1.26s/it]                                                          {'loss': 1.6953, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10330/48845 [3:39:44<13:28:16,  1.26s/it] 21%|██        | 10331/48845 [3:39:45<13:28:15,  1.26s/it] 21%|██        | 10332/48845 [3:39:47<13:28:14,  1.26s/it] 21%|██        | 10333/48845 [3:39:48<13:28:56,  1.26s/it] 21%|██        | 10334/48845 [3:39:49<13:28:33,  1.26s/it] 21%|██        | 10335/48845 [3:39:50<13:28:33,  1.26s/it]                                                          {'loss': 1.9085, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10335/48845 [3:39:50<13:28:33,  1.26s/it] 21%|██        | 10336/48845 [3:39:52<13:28:34,  1.26s/it] 21%|██        | 10337/48845 [3:39:53<13:28:20,  1.26s/it] 21%|██        | 10338/48845 [3:39:54<13:28:58,  1.26s/it] 21%|██        | 10339/48845 [3:39:55<13:28:14,  1.26s/it] 21%|██        | 10340/48845 [3:39:57<13:27:39,  1.26s/it]                                                          {'loss': 2.014, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10340/48845 [3:39:57<13:27:39,  1.26s/it] 21%|██        | 10341/48845 [3:39:58<13:27:45,  1.26s/it] 21%|██        | 10342/48845 [3:39:59<13:27:17,  1.26s/it] 21%|██        | 10343/48845 [3:40:00<13:27:34,  1.26s/it] 21%|██        | 10344/48845 [3:40:02<13:27:27,  1.26s/it] 21%|██        | 10345/48845 [3:40:03<13:27:16,  1.26s/it]                                                          {'loss': 1.9116, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10345/48845 [3:40:03<13:27:16,  1.26s/it] 21%|██        | 10346/48845 [3:40:04<13:26:20,  1.26s/it] 21%|██        | 10347/48845 [3:40:05<13:26:13,  1.26s/it] 21%|██        | 10348/48845 [3:40:07<13:27:09,  1.26s/it] 21%|██        | 10349/48845 [3:40:08<13:27:28,  1.26s/it] 21%|██        | 10350/48845 [3:40:09<13:27:50,  1.26s/it]                                                          {'loss': 1.8357, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10350/48845 [3:40:09<13:27:50,  1.26s/it] 21%|██        | 10351/48845 [3:40:10<13:29:44,  1.26s/it] 21%|██        | 10352/48845 [3:40:12<13:29:02,  1.26s/it] 21%|██        | 10353/48845 [3:40:13<13:29:35,  1.26s/it] 21%|██        | 10354/48845 [3:40:14<13:29:34,  1.26s/it] 21%|██        | 10355/48845 [3:40:15<13:29:32,  1.26s/it]                                                          {'loss': 1.8536, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10355/48845 [3:40:15<13:29:32,  1.26s/it] 21%|██        | 10356/48845 [3:40:17<13:29:11,  1.26s/it] 21%|██        | 10357/48845 [3:40:18<13:29:14,  1.26s/it] 21%|██        | 10358/48845 [3:40:19<13:28:57,  1.26s/it] 21%|██        | 10359/48845 [3:40:21<13:29:01,  1.26s/it] 21%|██        | 10360/48845 [3:40:22<13:28:54,  1.26s/it]                                                          {'loss': 1.7272, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10360/48845 [3:40:22<13:28:54,  1.26s/it] 21%|██        | 10361/48845 [3:40:23<13:28:50,  1.26s/it] 21%|██        | 10362/48845 [3:40:24<13:28:24,  1.26s/it] 21%|██        | 10363/48845 [3:40:26<13:29:06,  1.26s/it] 21%|██        | 10364/48845 [3:40:27<13:28:00,  1.26s/it] 21%|██        | 10365/48845 [3:40:28<13:27:42,  1.26s/it]                                                          {'loss': 1.9675, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10365/48845 [3:40:28<13:27:42,  1.26s/it] 21%|██        | 10366/48845 [3:40:29<13:27:51,  1.26s/it] 21%|██        | 10367/48845 [3:40:31<13:28:38,  1.26s/it] 21%|██        | 10368/48845 [3:40:32<13:29:20,  1.26s/it] 21%|██        | 10369/48845 [3:40:33<13:28:39,  1.26s/it] 21%|██        | 10370/48845 [3:40:34<13:27:51,  1.26s/it]                                                          {'loss': 1.8679, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10370/48845 [3:40:34<13:27:51,  1.26s/it] 21%|██        | 10371/48845 [3:40:36<13:27:26,  1.26s/it] 21%|██        | 10372/48845 [3:40:37<13:26:49,  1.26s/it] 21%|██        | 10373/48845 [3:40:38<13:27:18,  1.26s/it] 21%|██        | 10374/48845 [3:40:39<13:29:27,  1.26s/it] 21%|██        | 10375/48845 [3:40:41<13:28:29,  1.26s/it]                                                          {'loss': 1.875, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██        | 10375/48845 [3:40:41<13:28:29,  1.26s/it] 21%|██        | 10376/48845 [3:40:42<13:30:05,  1.26s/it] 21%|██        | 10377/48845 [3:40:43<13:28:18,  1.26s/it] 21%|██        | 10378/48845 [3:40:44<13:28:08,  1.26s/it] 21%|██        | 10379/48845 [3:40:46<13:28:02,  1.26s/it] 21%|██▏       | 10380/48845 [3:40:47<13:27:14,  1.26s/it]                                                          {'loss': 1.7692, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██▏       | 10380/48845 [3:40:47<13:27:14,  1.26s/it] 21%|██▏       | 10381/48845 [3:40:48<13:28:23,  1.26s/it] 21%|██▏       | 10382/48845 [3:40:50<13:27:48,  1.26s/it] 21%|██▏       | 10383/48845 [3:40:51<13:28:14,  1.26s/it] 21%|██▏       | 10384/48845 [3:40:52<13:28:05,  1.26s/it] 21%|██▏       | 10385/48845 [3:40:53<13:26:55,  1.26s/it]                                                          {'loss': 1.763, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██▏       | 10385/48845 [3:40:53<13:26:55,  1.26s/it] 21%|██▏       | 10386/48845 [3:40:55<13:26:49,  1.26s/it] 21%|██▏       | 10387/48845 [3:40:56<13:26:43,  1.26s/it] 21%|██▏       | 10388/48845 [3:40:57<13:28:08,  1.26s/it] 21%|██▏       | 10389/48845 [3:40:58<13:27:05,  1.26s/it] 21%|██▏       | 10390/48845 [3:41:00<13:26:49,  1.26s/it]                                                          {'loss': 1.8894, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██▏       | 10390/48845 [3:41:00<13:26:49,  1.26s/it] 21%|██▏       | 10391/48845 [3:41:01<13:27:44,  1.26s/it] 21%|██▏       | 10392/48845 [3:41:02<13:27:21,  1.26s/it] 21%|██▏       | 10393/48845 [3:41:03<13:28:17,  1.26s/it] 21%|██▏       | 10394/48845 [3:41:05<13:27:59,  1.26s/it] 21%|██▏       | 10395/48845 [3:41:06<13:52:22,  1.30s/it]                                                          {'loss': 1.6308, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██▏       | 10395/48845 [3:41:06<13:52:22,  1.30s/it] 21%|██▏       | 10396/48845 [3:41:07<13:45:21,  1.29s/it] 21%|██▏       | 10397/48845 [3:41:09<13:40:45,  1.28s/it] 21%|██▏       | 10398/48845 [3:41:10<13:35:56,  1.27s/it] 21%|██▏       | 10399/48845 [3:41:11<13:47:50,  1.29s/it] 21%|██▏       | 10400/48845 [3:41:12<13:42:18,  1.28s/it]                                                          {'loss': 1.8017, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.06}
+ 21%|██▏       | 10400/48845 [3:41:12<13:42:18,  1.28s/it] 21%|██▏       | 10401/48845 [3:41:16<21:16:55,  1.99s/it] 21%|██▏       | 10402/48845 [3:41:17<18:55:40,  1.77s/it] 21%|██▏       | 10403/48845 [3:41:19<17:17:29,  1.62s/it] 21%|██▏       | 10404/48845 [3:41:20<16:08:22,  1.51s/it] 21%|██▏       | 10405/48845 [3:41:21<15:20:10,  1.44s/it]                                                          {'loss': 1.637, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10405/48845 [3:41:21<15:20:10,  1.44s/it] 21%|██▏       | 10406/48845 [3:41:22<14:47:32,  1.39s/it] 21%|██▏       | 10407/48845 [3:41:24<14:22:58,  1.35s/it] 21%|██▏       | 10408/48845 [3:41:25<14:05:55,  1.32s/it] 21%|██▏       | 10409/48845 [3:41:26<13:54:36,  1.30s/it] 21%|██▏       | 10410/48845 [3:41:27<13:46:15,  1.29s/it]                                                          {'loss': 1.8054, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10410/48845 [3:41:27<13:46:15,  1.29s/it] 21%|██▏       | 10411/48845 [3:41:29<13:40:07,  1.28s/it] 21%|██▏       | 10412/48845 [3:41:30<13:36:03,  1.27s/it] 21%|██▏       | 10413/48845 [3:41:31<13:32:30,  1.27s/it] 21%|██▏       | 10414/48845 [3:41:32<13:30:52,  1.27s/it] 21%|██▏       | 10415/48845 [3:41:34<13:29:42,  1.26s/it]                                                          {'loss': 1.9015, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10415/48845 [3:41:34<13:29:42,  1.26s/it] 21%|██▏       | 10416/48845 [3:41:35<13:29:15,  1.26s/it] 21%|██▏       | 10417/48845 [3:41:36<13:28:03,  1.26s/it] 21%|██▏       | 10418/48845 [3:41:37<13:26:42,  1.26s/it] 21%|██▏       | 10419/48845 [3:41:39<13:25:37,  1.26s/it] 21%|██▏       | 10420/48845 [3:41:40<13:25:20,  1.26s/it]                                                          {'loss': 1.8955, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10420/48845 [3:41:40<13:25:20,  1.26s/it] 21%|██▏       | 10421/48845 [3:41:41<13:27:33,  1.26s/it] 21%|██▏       | 10422/48845 [3:41:42<13:26:16,  1.26s/it] 21%|██▏       | 10423/48845 [3:41:44<13:26:34,  1.26s/it] 21%|██▏       | 10424/48845 [3:41:45<13:26:24,  1.26s/it] 21%|██▏       | 10425/48845 [3:41:46<13:26:56,  1.26s/it]                                                          {'loss': 1.7711, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10425/48845 [3:41:46<13:26:56,  1.26s/it] 21%|██▏       | 10426/48845 [3:41:48<13:26:54,  1.26s/it] 21%|██▏       | 10427/48845 [3:41:49<13:26:17,  1.26s/it] 21%|██▏       | 10428/48845 [3:41:50<13:26:23,  1.26s/it] 21%|██▏       | 10429/48845 [3:41:51<13:29:11,  1.26s/it] 21%|██▏       | 10430/48845 [3:41:53<13:28:09,  1.26s/it]                                                          {'loss': 1.7089, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10430/48845 [3:41:53<13:28:09,  1.26s/it] 21%|██▏       | 10431/48845 [3:41:54<13:27:55,  1.26s/it] 21%|██▏       | 10432/48845 [3:41:55<13:27:06,  1.26s/it] 21%|██▏       | 10433/48845 [3:41:56<13:26:43,  1.26s/it] 21%|██▏       | 10434/48845 [3:41:58<13:27:04,  1.26s/it] 21%|██▏       | 10435/48845 [3:41:59<13:26:54,  1.26s/it]                                                          {'loss': 1.7731, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10435/48845 [3:41:59<13:26:54,  1.26s/it] 21%|██▏       | 10436/48845 [3:42:00<13:28:12,  1.26s/it] 21%|██▏       | 10437/48845 [3:42:01<13:27:04,  1.26s/it] 21%|██▏       | 10438/48845 [3:42:03<13:26:01,  1.26s/it] 21%|██▏       | 10439/48845 [3:42:04<13:26:15,  1.26s/it] 21%|██▏       | 10440/48845 [3:42:05<13:25:32,  1.26s/it]                                                          {'loss': 1.743, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10440/48845 [3:42:05<13:25:32,  1.26s/it] 21%|██▏       | 10441/48845 [3:42:06<13:25:57,  1.26s/it] 21%|██▏       | 10442/48845 [3:42:08<13:26:43,  1.26s/it] 21%|██▏       | 10443/48845 [3:42:09<13:25:46,  1.26s/it] 21%|██▏       | 10444/48845 [3:42:10<13:26:10,  1.26s/it] 21%|██▏       | 10445/48845 [3:42:12<13:55:48,  1.31s/it]                                                          {'loss': 1.8498, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10445/48845 [3:42:12<13:55:48,  1.31s/it] 21%|██▏       | 10446/48845 [3:42:13<13:47:49,  1.29s/it] 21%|██▏       | 10447/48845 [3:42:14<13:40:58,  1.28s/it] 21%|██▏       | 10448/48845 [3:42:15<13:37:04,  1.28s/it] 21%|██▏       | 10449/48845 [3:42:17<13:33:16,  1.27s/it] 21%|██▏       | 10450/48845 [3:42:18<13:30:38,  1.27s/it]                                                          {'loss': 1.9495, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10450/48845 [3:42:18<13:30:38,  1.27s/it] 21%|██▏       | 10451/48845 [3:42:20<15:00:47,  1.41s/it] 21%|██▏       | 10452/48845 [3:42:21<14:33:02,  1.36s/it] 21%|██▏       | 10453/48845 [3:42:22<14:12:53,  1.33s/it] 21%|██▏       | 10454/48845 [3:42:23<13:58:19,  1.31s/it] 21%|██▏       | 10455/48845 [3:42:25<13:48:33,  1.29s/it]                                                          {'loss': 1.9276, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10455/48845 [3:42:25<13:48:33,  1.29s/it] 21%|██▏       | 10456/48845 [3:42:26<13:42:19,  1.29s/it] 21%|██▏       | 10457/48845 [3:42:27<13:36:59,  1.28s/it] 21%|██▏       | 10458/48845 [3:42:28<13:33:01,  1.27s/it] 21%|██▏       | 10459/48845 [3:42:30<13:30:31,  1.27s/it] 21%|██▏       | 10460/48845 [3:42:31<13:30:57,  1.27s/it]                                                          {'loss': 1.796, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10460/48845 [3:42:31<13:30:57,  1.27s/it] 21%|██▏       | 10461/48845 [3:42:32<13:28:59,  1.26s/it] 21%|██▏       | 10462/48845 [3:42:34<13:27:44,  1.26s/it] 21%|██▏       | 10463/48845 [3:42:35<13:26:41,  1.26s/it] 21%|██▏       | 10464/48845 [3:42:36<13:26:26,  1.26s/it] 21%|██▏       | 10465/48845 [3:42:37<13:27:17,  1.26s/it]                                                          {'loss': 1.765, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10465/48845 [3:42:37<13:27:17,  1.26s/it] 21%|██▏       | 10466/48845 [3:42:39<13:27:11,  1.26s/it] 21%|██▏       | 10467/48845 [3:42:40<13:27:21,  1.26s/it] 21%|██▏       | 10468/48845 [3:42:41<13:27:02,  1.26s/it] 21%|██▏       | 10469/48845 [3:42:42<13:25:14,  1.26s/it] 21%|██▏       | 10470/48845 [3:42:44<13:26:00,  1.26s/it]                                                          {'loss': 1.681, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10470/48845 [3:42:44<13:26:00,  1.26s/it] 21%|██▏       | 10471/48845 [3:42:45<13:26:01,  1.26s/it] 21%|██▏       | 10472/48845 [3:42:46<13:26:32,  1.26s/it] 21%|██▏       | 10473/48845 [3:42:47<13:25:05,  1.26s/it] 21%|██▏       | 10474/48845 [3:42:49<13:24:39,  1.26s/it] 21%|██▏       | 10475/48845 [3:42:50<13:24:39,  1.26s/it]                                                          {'loss': 2.0253, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10475/48845 [3:42:50<13:24:39,  1.26s/it] 21%|██▏       | 10476/48845 [3:42:51<13:24:42,  1.26s/it] 21%|██▏       | 10477/48845 [3:42:52<13:25:17,  1.26s/it] 21%|██▏       | 10478/48845 [3:42:54<13:24:45,  1.26s/it] 21%|██▏       | 10479/48845 [3:42:55<13:24:51,  1.26s/it] 21%|██▏       | 10480/48845 [3:42:56<13:25:12,  1.26s/it]                                                          {'loss': 1.7671, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10480/48845 [3:42:56<13:25:12,  1.26s/it] 21%|██▏       | 10481/48845 [3:42:57<13:24:57,  1.26s/it] 21%|██▏       | 10482/48845 [3:42:59<13:25:29,  1.26s/it] 21%|██▏       | 10483/48845 [3:43:00<13:25:09,  1.26s/it] 21%|██▏       | 10484/48845 [3:43:01<13:25:12,  1.26s/it] 21%|██▏       | 10485/48845 [3:43:03<13:25:44,  1.26s/it]                                                          {'loss': 1.8588, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10485/48845 [3:43:03<13:25:44,  1.26s/it] 21%|██▏       | 10486/48845 [3:43:04<13:25:40,  1.26s/it] 21%|██▏       | 10487/48845 [3:43:05<13:25:00,  1.26s/it] 21%|██▏       | 10488/48845 [3:43:06<13:25:15,  1.26s/it] 21%|██▏       | 10489/48845 [3:43:08<13:24:36,  1.26s/it] 21%|██▏       | 10490/48845 [3:43:09<13:25:08,  1.26s/it]                                                          {'loss': 1.8172, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10490/48845 [3:43:09<13:25:08,  1.26s/it] 21%|██▏       | 10491/48845 [3:43:10<13:24:57,  1.26s/it] 21%|██��       | 10492/48845 [3:43:11<13:24:48,  1.26s/it] 21%|██▏       | 10493/48845 [3:43:13<13:24:10,  1.26s/it] 21%|██▏       | 10494/48845 [3:43:14<13:23:33,  1.26s/it] 21%|██▏       | 10495/48845 [3:43:15<13:23:16,  1.26s/it]                                                          {'loss': 1.739, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10495/48845 [3:43:15<13:23:16,  1.26s/it] 21%|██▏       | 10496/48845 [3:43:16<13:24:00,  1.26s/it] 21%|██▏       | 10497/48845 [3:43:18<13:24:14,  1.26s/it] 21%|██▏       | 10498/48845 [3:43:19<13:24:23,  1.26s/it] 21%|██▏       | 10499/48845 [3:43:20<13:25:31,  1.26s/it] 21%|██▏       | 10500/48845 [3:43:21<13:24:23,  1.26s/it]                                                          {'loss': 1.7169, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.07}
+ 21%|██▏       | 10500/48845 [3:43:21<13:24:23,  1.26s/it] 21%|██▏       | 10501/48845 [3:43:23<13:24:56,  1.26s/it] 22%|██▏       | 10502/48845 [3:43:24<13:25:07,  1.26s/it] 22%|██▏       | 10503/48845 [3:43:25<13:24:17,  1.26s/it] 22%|██▏       | 10504/48845 [3:43:26<13:24:45,  1.26s/it] 22%|██▏       | 10505/48845 [3:43:28<13:24:26,  1.26s/it]                                                          {'loss': 1.8311, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10505/48845 [3:43:28<13:24:26,  1.26s/it] 22%|██▏       | 10506/48845 [3:43:29<13:25:09,  1.26s/it] 22%|██▏       | 10507/48845 [3:43:30<13:25:21,  1.26s/it] 22%|██▏       | 10508/48845 [3:43:31<13:24:57,  1.26s/it] 22%|██▏       | 10509/48845 [3:43:33<13:24:58,  1.26s/it] 22%|██▏       | 10510/48845 [3:43:34<13:24:01,  1.26s/it]                                                          {'loss': 1.7858, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10510/48845 [3:43:34<13:24:01,  1.26s/it] 22%|██▏       | 10511/48845 [3:43:35<13:23:54,  1.26s/it] 22%|██▏       | 10512/48845 [3:43:36<13:24:10,  1.26s/it] 22%|██▏       | 10513/48845 [3:43:38<13:23:44,  1.26s/it] 22%|██▏       | 10514/48845 [3:43:39<13:24:27,  1.26s/it] 22%|██▏       | 10515/48845 [3:43:40<13:24:13,  1.26s/it]                                                          {'loss': 1.8651, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10515/48845 [3:43:40<13:24:13,  1.26s/it] 22%|██▏       | 10516/48845 [3:43:42<13:24:29,  1.26s/it] 22%|██▏       | 10517/48845 [3:43:43<13:24:37,  1.26s/it] 22%|██▏       | 10518/48845 [3:43:44<13:24:23,  1.26s/it] 22%|██▏       | 10519/48845 [3:43:45<13:24:33,  1.26s/it] 22%|██▏       | 10520/48845 [3:43:47<13:24:15,  1.26s/it]                                                          {'loss': 1.6905, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10520/48845 [3:43:47<13:24:15,  1.26s/it] 22%|██▏       | 10521/48845 [3:43:48<13:24:51,  1.26s/it] 22%|██▏       | 10522/48845 [3:43:49<13:25:17,  1.26s/it] 22%|██▏       | 10523/48845 [3:43:50<13:24:32,  1.26s/it] 22%|██▏       | 10524/48845 [3:43:52<13:25:44,  1.26s/it] 22%|██▏       | 10525/48845 [3:43:53<13:25:17,  1.26s/it]                                                          {'loss': 1.7426, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10525/48845 [3:43:53<13:25:17,  1.26s/it] 22%|██▏       | 10526/48845 [3:43:54<13:24:40,  1.26s/it] 22%|██▏       | 10527/48845 [3:43:55<13:25:51,  1.26s/it] 22%|██▏       | 10528/48845 [3:43:57<13:25:27,  1.26s/it] 22%|██▏       | 10529/48845 [3:43:58<13:24:53,  1.26s/it] 22%|██▏       | 10530/48845 [3:43:59<13:24:50,  1.26s/it]                                                          {'loss': 1.8221, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10530/48845 [3:43:59<13:24:50,  1.26s/it] 22%|██▏       | 10531/48845 [3:44:00<13:24:41,  1.26s/it] 22%|██▏       | 10532/48845 [3:44:02<13:25:06,  1.26s/it] 22%|██▏       | 10533/48845 [3:44:03<13:24:04,  1.26s/it] 22%|██▏       | 10534/48845 [3:44:04<13:24:37,  1.26s/it] 22%|██▏       | 10535/48845 [3:44:05<13:24:00,  1.26s/it]                                                          {'loss': 1.777, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10535/48845 [3:44:05<13:24:00,  1.26s/it] 22%|██▏       | 10536/48845 [3:44:07<13:25:08,  1.26s/it] 22%|██▏       | 10537/48845 [3:44:08<13:24:51,  1.26s/it] 22%|██▏       | 10538/48845 [3:44:09<13:25:14,  1.26s/it] 22%|██▏       | 10539/48845 [3:44:11<13:25:02,  1.26s/it] 22%|██▏       | 10540/48845 [3:44:12<13:25:11,  1.26s/it]                                                          {'loss': 1.8199, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10540/48845 [3:44:12<13:25:11,  1.26s/it] 22%|██▏       | 10541/48845 [3:44:13<13:25:18,  1.26s/it] 22%|██▏       | 10542/48845 [3:44:14<13:25:59,  1.26s/it] 22%|██▏       | 10543/48845 [3:44:16<13:26:55,  1.26s/it] 22%|██▏       | 10544/48845 [3:44:17<13:25:56,  1.26s/it] 22%|██▏       | 10545/48845 [3:44:18<13:26:04,  1.26s/it]                                                          {'loss': 1.8327, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10545/48845 [3:44:18<13:26:04,  1.26s/it] 22%|██▏       | 10546/48845 [3:44:19<13:25:34,  1.26s/it] 22%|██▏       | 10547/48845 [3:44:21<13:25:14,  1.26s/it] 22%|██▏       | 10548/48845 [3:44:22<13:25:14,  1.26s/it] 22%|██▏       | 10549/48845 [3:44:23<13:24:26,  1.26s/it] 22%|██▏       | 10550/48845 [3:44:24<13:23:57,  1.26s/it]                                                          {'loss': 1.8549, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10550/48845 [3:44:24<13:23:57,  1.26s/it] 22%|██▏       | 10551/48845 [3:44:26<13:24:32,  1.26s/it] 22%|██▏       | 10552/48845 [3:44:27<13:24:17,  1.26s/it] 22%|██▏       | 10553/48845 [3:44:28<13:25:06,  1.26s/it] 22%|██▏       | 10554/48845 [3:44:29<13:23:40,  1.26s/it] 22%|██▏       | 10555/48845 [3:44:31<13:24:24,  1.26s/it]                                                          {'loss': 1.8101, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10555/48845 [3:44:31<13:24:24,  1.26s/it] 22%|██▏       | 10556/48845 [3:44:32<13:24:58,  1.26s/it] 22%|██▏       | 10557/48845 [3:44:33<13:25:12,  1.26s/it] 22%|██▏       | 10558/48845 [3:44:34<13:24:54,  1.26s/it] 22%|██▏       | 10559/48845 [3:44:36<13:24:52,  1.26s/it] 22%|██▏       | 10560/48845 [3:44:37<13:24:56,  1.26s/it]                                                          {'loss': 1.8196, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10560/48845 [3:44:37<13:24:56,  1.26s/it] 22%|██▏       | 10561/48845 [3:44:38<13:26:04,  1.26s/it] 22%|██▏       | 10562/48845 [3:44:40<13:24:40,  1.26s/it] 22%|██▏       | 10563/48845 [3:44:41<13:25:03,  1.26s/it] 22%|██▏       | 10564/48845 [3:44:42<13:24:18,  1.26s/it] 22%|██▏       | 10565/48845 [3:44:43<13:23:06,  1.26s/it]                                                          {'loss': 1.7428, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10565/48845 [3:44:43<13:23:06,  1.26s/it] 22%|██▏       | 10566/48845 [3:44:45<13:25:21,  1.26s/it] 22%|██▏       | 10567/48845 [3:44:46<13:52:08,  1.30s/it] 22%|██▏       | 10568/48845 [3:44:47<13:43:58,  1.29s/it] 22%|██▏       | 10569/48845 [3:44:49<13:38:07,  1.28s/it] 22%|██▏       | 10570/48845 [3:44:50<13:34:05,  1.28s/it]                                                          {'loss': 1.8434, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10570/48845 [3:44:50<13:34:05,  1.28s/it] 22%|██▏       | 10571/48845 [3:44:51<13:31:49,  1.27s/it] 22%|██▏       | 10572/48845 [3:44:52<13:30:05,  1.27s/it] 22%|██▏       | 10573/48845 [3:44:54<13:27:44,  1.27s/it] 22%|██▏       | 10574/48845 [3:44:55<13:25:35,  1.26s/it] 22%|██▏       | 10575/48845 [3:44:56<13:24:54,  1.26s/it]                                                          {'loss': 1.7251, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10575/48845 [3:44:56<13:24:54,  1.26s/it] 22%|██▏       | 10576/48845 [3:44:57<13:24:18,  1.26s/it] 22%|██▏       | 10577/48845 [3:44:59<13:24:41,  1.26s/it] 22%|██▏       | 10578/48845 [3:45:00<13:23:39,  1.26s/it] 22%|██▏       | 10579/48845 [3:45:01<13:22:55,  1.26s/it] 22%|██▏       | 10580/48845 [3:45:02<13:23:35,  1.26s/it]                                                          {'loss': 1.7071, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10580/48845 [3:45:02<13:23:35,  1.26s/it] 22%|██▏       | 10581/48845 [3:45:04<13:23:28,  1.26s/it] 22%|██▏       | 10582/48845 [3:45:05<13:23:17,  1.26s/it] 22%|██▏       | 10583/48845 [3:45:06<13:23:19,  1.26s/it] 22%|██▏       | 10584/48845 [3:45:07<13:22:51,  1.26s/it] 22%|██▏       | 10585/48845 [3:45:09<13:23:35,  1.26s/it]                                                          {'loss': 1.9557, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10585/48845 [3:45:09<13:23:35,  1.26s/it] 22%|██▏       | 10586/48845 [3:45:10<13:23:11,  1.26s/it] 22%|██▏       | 10587/48845 [3:45:11<13:23:05,  1.26s/it] 22%|██▏       | 10588/48845 [3:45:12<13:22:55,  1.26s/it] 22%|██▏       | 10589/48845 [3:45:14<13:22:49,  1.26s/it] 22%|██▏       | 10590/48845 [3:45:15<13:24:37,  1.26s/it]                                                          {'loss': 1.9186, 'learning_rate': 4.078217099085589e-05, 'epoch': 1.08}
+ 22%|██▏       | 10590/48845 [3:45:15<13:24:37,  1.26s/it] 22%|██▏       | 10591/48845 [3:45:16<13:23:28,  1.26s/it] 22%|██▏       | 10592/48845 [3:45:17<13:22:58,  1.26s/it] 22%|██▏       | 10593/48845 [3:45:19<13:22:41,  1.26s/it] 22%|██▏       | 10594/48845 [3:45:20<13:22:47,  1.26s/it] 22%|██▏       | 10595/48845 [3:45:21<14:02:34,  1.32s/it]                                                          {'loss': 1.7825, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.08}
+ 22%|██▏       | 10595/48845 [3:45:21<14:02:34,  1.32s/it] 22%|██▏       | 10596/48845 [3:45:23<13:50:58,  1.30s/it] 22%|██▏       | 10597/48845 [3:45:24<13:42:41,  1.29s/it] 22%|██▏       | 10598/48845 [3:45:25<13:36:07,  1.28s/it] 22%|██▏       | 10599/48845 [3:45:27<13:33:12,  1.28s/it] 22%|██▏       | 10600/48845 [3:45:28<13:31:25,  1.27s/it]                                                          {'loss': 2.1053, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10600/48845 [3:45:28<13:31:25,  1.27s/it] 22%|██▏       | 10601/48845 [3:45:31<21:03:51,  1.98s/it] 22%|██▏       | 10602/48845 [3:45:33<18:45:30,  1.77s/it] 22%|██▏       | 10603/48845 [3:45:34<17:08:57,  1.61s/it] 22%|██▏       | 10604/48845 [3:45:35<16:00:48,  1.51s/it] 22%|██▏       | 10605/48845 [3:45:36<15:13:18,  1.43s/it]                                                          {'loss': 1.8392, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10605/48845 [3:45:36<15:13:18,  1.43s/it] 22%|██▏       | 10606/48845 [3:45:38<14:39:30,  1.38s/it] 22%|██▏       | 10607/48845 [3:45:39<14:16:59,  1.34s/it] 22%|██▏       | 10608/48845 [3:45:40<14:00:38,  1.32s/it] 22%|██▏       | 10609/48845 [3:45:41<13:49:01,  1.30s/it] 22%|██▏       | 10610/48845 [3:45:43<13:41:41,  1.29s/it]                                                          {'loss': 1.8155, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10610/48845 [3:45:43<13:41:41,  1.29s/it] 22%|██▏       | 10611/48845 [3:45:44<13:35:42,  1.28s/it] 22%|██▏       | 10612/48845 [3:45:45<13:31:48,  1.27s/it] 22%|██▏       | 10613/48845 [3:45:47<13:28:45,  1.27s/it] 22%|██▏       | 10614/48845 [3:45:48<13:26:57,  1.27s/it] 22%|██▏       | 10615/48845 [3:45:49<13:25:51,  1.26s/it]                                                          {'loss': 1.9615, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10615/48845 [3:45:49<13:25:51,  1.26s/it] 22%|██▏       | 10616/48845 [3:45:50<13:25:11,  1.26s/it] 22%|██▏       | 10617/48845 [3:45:52<13:24:22,  1.26s/it] 22%|██▏       | 10618/48845 [3:45:53<13:23:58,  1.26s/it] 22%|██▏       | 10619/48845 [3:45:54<13:23:42,  1.26s/it] 22%|██▏       | 10620/48845 [3:45:55<13:23:31,  1.26s/it]                                                          {'loss': 1.9122, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10620/48845 [3:45:55<13:23:31,  1.26s/it] 22%|██▏       | 10621/48845 [3:45:57<13:22:56,  1.26s/it] 22%|██▏       | 10622/48845 [3:45:58<13:22:50,  1.26s/it] 22%|██▏       | 10623/48845 [3:45:59<13:22:34,  1.26s/it] 22%|██▏       | 10624/48845 [3:46:00<13:23:18,  1.26s/it] 22%|██▏       | 10625/48845 [3:46:02<13:23:09,  1.26s/it]                                                          {'loss': 2.1636, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10625/48845 [3:46:02<13:23:09,  1.26s/it] 22%|██▏       | 10626/48845 [3:46:03<13:23:03,  1.26s/it] 22%|██▏       | 10627/48845 [3:46:04<13:22:53,  1.26s/it] 22%|██▏       | 10628/48845 [3:46:05<13:21:21,  1.26s/it] 22%|██▏       | 10629/48845 [3:46:07<13:21:28,  1.26s/it] 22%|██▏       | 10630/48845 [3:46:08<13:21:33,  1.26s/it]                                                          {'loss': 2.0166, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10630/48845 [3:46:08<13:21:33,  1.26s/it] 22%|██▏       | 10631/48845 [3:46:09<13:22:17,  1.26s/it] 22%|██▏       | 10632/48845 [3:46:10<13:21:53,  1.26s/it] 22%|██▏       | 10633/48845 [3:46:12<13:22:49,  1.26s/it] 22%|██▏       | 10634/48845 [3:46:13<13:22:07,  1.26s/it] 22%|██▏       | 10635/48845 [3:46:14<13:22:01,  1.26s/it]                                                          {'loss': 1.9521, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10635/48845 [3:46:14<13:22:01,  1.26s/it] 22%|██▏       | 10636/48845 [3:46:16<13:21:27,  1.26s/it] 22%|██▏       | 10637/48845 [3:46:17<13:21:51,  1.26s/it] 22%|██▏       | 10638/48845 [3:46:18<13:21:35,  1.26s/it] 22%|██▏       | 10639/48845 [3:46:19<13:21:32,  1.26s/it] 22%|██▏       | 10640/48845 [3:46:21<13:22:19,  1.26s/it]                                                          {'loss': 1.8463, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10640/48845 [3:46:21<13:22:19,  1.26s/it] 22%|██▏       | 10641/48845 [3:46:22<13:23:14,  1.26s/it] 22%|██▏       | 10642/48845 [3:46:23<13:22:52,  1.26s/it] 22%|██▏       | 10643/48845 [3:46:24<13:21:31,  1.26s/it] 22%|██▏       | 10644/48845 [3:46:26<13:20:57,  1.26s/it] 22%|██▏       | 10645/48845 [3:46:27<13:21:50,  1.26s/it]                                                          {'loss': 1.9726, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10645/48845 [3:46:27<13:21:50,  1.26s/it] 22%|██▏       | 10646/48845 [3:46:28<13:21:59,  1.26s/it] 22%|██▏       | 10647/48845 [3:46:29<13:21:36,  1.26s/it] 22%|██▏       | 10648/48845 [3:46:31<13:21:42,  1.26s/it] 22%|██▏       | 10649/48845 [3:46:32<13:21:50,  1.26s/it] 22%|██▏       | 10650/48845 [3:46:33<13:22:42,  1.26s/it]                                                          {'loss': 2.0661, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10650/48845 [3:46:33<13:22:42,  1.26s/it] 22%|██▏       | 10651/48845 [3:46:34<13:22:24,  1.26s/it] 22%|██▏       | 10652/48845 [3:46:36<13:23:08,  1.26s/it] 22%|██▏       | 10653/48845 [3:46:37<13:23:45,  1.26s/it] 22%|██▏       | 10654/48845 [3:46:38<13:22:44,  1.26s/it] 22%|██▏       | 10655/48845 [3:46:39<13:22:02,  1.26s/it]                                                          {'loss': 2.01, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10655/48845 [3:46:39<13:22:02,  1.26s/it] 22%|██▏       | 10656/48845 [3:46:41<13:22:17,  1.26s/it] 22%|██▏       | 10657/48845 [3:46:42<13:21:33,  1.26s/it] 22%|██▏       | 10658/48845 [3:46:43<13:21:55,  1.26s/it] 22%|██▏       | 10659/48845 [3:46:44<13:21:26,  1.26s/it] 22%|██▏       | 10660/48845 [3:46:46<13:21:48,  1.26s/it]                                                          {'loss': 2.0502, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10660/48845 [3:46:46<13:21:48,  1.26s/it] 22%|██▏       | 10661/48845 [3:46:47<13:21:37,  1.26s/it] 22%|██▏       | 10662/48845 [3:46:48<13:21:41,  1.26s/it] 22%|██▏       | 10663/48845 [3:46:50<13:21:38,  1.26s/it] 22%|██▏       | 10664/48845 [3:46:51<13:21:49,  1.26s/it] 22%|██▏       | 10665/48845 [3:46:52<13:21:54,  1.26s/it]                                                          {'loss': 1.8699, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10665/48845 [3:46:52<13:21:54,  1.26s/it] 22%|██▏       | 10666/48845 [3:46:53<13:21:58,  1.26s/it] 22%|██▏       | 10667/48845 [3:46:55<13:21:35,  1.26s/it] 22%|██▏       | 10668/48845 [3:46:56<13:21:28,  1.26s/it] 22%|██▏       | 10669/48845 [3:46:57<13:22:00,  1.26s/it] 22%|██▏       | 10670/48845 [3:46:58<13:22:41,  1.26s/it]                                                          {'loss': 1.8431, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10670/48845 [3:46:58<13:22:41,  1.26s/it] 22%|██▏       | 10671/48845 [3:47:00<13:22:23,  1.26s/it] 22%|██▏       | 10672/48845 [3:47:01<13:22:13,  1.26s/it] 22%|██▏       | 10673/48845 [3:47:02<13:22:08,  1.26s/it] 22%|██▏       | 10674/48845 [3:47:03<13:21:24,  1.26s/it] 22%|██▏       | 10675/48845 [3:47:05<13:22:41,  1.26s/it]                                                          {'loss': 1.9942, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10675/48845 [3:47:05<13:22:41,  1.26s/it] 22%|██▏       | 10676/48845 [3:47:06<13:21:26,  1.26s/it] 22%|██▏       | 10677/48845 [3:47:07<13:21:58,  1.26s/it] 22%|██▏       | 10678/48845 [3:47:08<13:21:50,  1.26s/it] 22%|██▏       | 10679/48845 [3:47:10<13:22:04,  1.26s/it] 22%|██▏       | 10680/48845 [3:47:11<13:21:51,  1.26s/it]                                                          {'loss': 1.9635, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10680/48845 [3:47:11<13:21:51,  1.26s/it] 22%|██▏       | 10681/48845 [3:47:12<13:20:51,  1.26s/it] 22%|██▏       | 10682/48845 [3:47:13<13:20:02,  1.26s/it] 22%|██▏       | 10683/48845 [3:47:15<13:20:38,  1.26s/it] 22%|██▏       | 10684/48845 [3:47:16<13:20:18,  1.26s/it] 22%|██▏       | 10685/48845 [3:47:17<13:19:39,  1.26s/it]                                                          {'loss': 2.0971, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10685/48845 [3:47:17<13:19:39,  1.26s/it] 22%|██▏       | 10686/48845 [3:47:19<13:20:28,  1.26s/it] 22%|██▏       | 10687/48845 [3:47:20<13:20:40,  1.26s/it] 22%|██▏       | 10688/48845 [3:47:21<13:21:30,  1.26s/it] 22%|██▏       | 10689/48845 [3:47:22<13:22:11,  1.26s/it] 22%|██▏       | 10690/48845 [3:47:24<13:21:41,  1.26s/it]                                                          {'loss': 1.8707, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10690/48845 [3:47:24<13:21:41,  1.26s/it] 22%|██▏       | 10691/48845 [3:47:25<13:21:03,  1.26s/it] 22%|██▏       | 10692/48845 [3:47:26<13:21:02,  1.26s/it] 22%|██▏       | 10693/48845 [3:47:27<13:20:45,  1.26s/it] 22%|██▏       | 10694/48845 [3:47:29<13:20:35,  1.26s/it] 22%|██▏       | 10695/48845 [3:47:30<13:22:26,  1.26s/it]                                                          {'loss': 1.9281, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.09}
+ 22%|██▏       | 10695/48845 [3:47:30<13:22:26,  1.26s/it] 22%|██▏       | 10696/48845 [3:47:31<13:22:10,  1.26s/it] 22%|██▏       | 10697/48845 [3:47:32<13:21:22,  1.26s/it] 22%|██▏       | 10698/48845 [3:47:34<13:21:07,  1.26s/it] 22%|██▏       | 10699/48845 [3:47:35<13:22:33,  1.26s/it] 22%|██▏       | 10700/48845 [3:47:36<13:21:49,  1.26s/it]                                                          {'loss': 1.7929, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10700/48845 [3:47:36<13:21:49,  1.26s/it] 22%|██▏       | 10701/48845 [3:47:37<13:22:19,  1.26s/it] 22%|██▏       | 10702/48845 [3:47:39<13:22:06,  1.26s/it] 22%|██▏       | 10703/48845 [3:47:40<13:21:54,  1.26s/it] 22%|██▏       | 10704/48845 [3:47:41<13:21:55,  1.26s/it] 22%|██▏       | 10705/48845 [3:47:42<13:21:28,  1.26s/it]                                                          {'loss': 1.8512, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10705/48845 [3:47:42<13:21:28,  1.26s/it] 22%|██▏       | 10706/48845 [3:47:44<13:21:06,  1.26s/it] 22%|██▏       | 10707/48845 [3:47:45<13:20:20,  1.26s/it] 22%|██▏       | 10708/48845 [3:47:46<13:20:28,  1.26s/it] 22%|██▏       | 10709/48845 [3:47:47<13:20:22,  1.26s/it] 22%|██▏       | 10710/48845 [3:47:49<13:20:42,  1.26s/it]                                                          {'loss': 2.0954, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10710/48845 [3:47:49<13:20:42,  1.26s/it] 22%|██▏       | 10711/48845 [3:47:50<13:22:23,  1.26s/it] 22%|██▏       | 10712/48845 [3:47:51<13:22:27,  1.26s/it] 22%|██▏       | 10713/48845 [3:47:53<13:22:06,  1.26s/it] 22%|██▏       | 10714/48845 [3:47:54<13:22:27,  1.26s/it] 22%|██▏       | 10715/48845 [3:47:55<13:21:53,  1.26s/it]                                                          {'loss': 1.955, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10715/48845 [3:47:55<13:21:53,  1.26s/it] 22%|██▏       | 10716/48845 [3:47:56<13:22:00,  1.26s/it] 22%|██▏       | 10717/48845 [3:47:58<13:20:56,  1.26s/it] 22%|██▏       | 10718/48845 [3:47:59<13:20:42,  1.26s/it] 22%|██▏       | 10719/48845 [3:48:00<13:20:48,  1.26s/it] 22%|██▏       | 10720/48845 [3:48:01<13:20:47,  1.26s/it]                                                          {'loss': 1.7848, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10720/48845 [3:48:01<13:20:47,  1.26s/it] 22%|██▏       | 10721/48845 [3:48:03<13:21:41,  1.26s/it] 22%|██▏       | 10722/48845 [3:48:04<13:21:03,  1.26s/it] 22%|██▏       | 10723/48845 [3:48:05<13:20:26,  1.26s/it] 22%|██▏       | 10724/48845 [3:48:06<13:21:36,  1.26s/it] 22%|██▏       | 10725/48845 [3:48:08<13:22:05,  1.26s/it]                                                          {'loss': 1.7687, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10725/48845 [3:48:08<13:22:05,  1.26s/it] 22%|██▏       | 10726/48845 [3:48:09<13:21:26,  1.26s/it] 22%|██▏       | 10727/48845 [3:48:10<13:21:08,  1.26s/it] 22%|██▏       | 10728/48845 [3:48:11<13:21:40,  1.26s/it] 22%|██▏       | 10729/48845 [3:48:13<13:22:38,  1.26s/it] 22%|██▏       | 10730/48845 [3:48:14<13:22:09,  1.26s/it]                                                          {'loss': 1.9485, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10730/48845 [3:48:14<13:22:09,  1.26s/it] 22%|██▏       | 10731/48845 [3:48:15<13:21:45,  1.26s/it] 22%|██▏       | 10732/48845 [3:48:17<13:21:23,  1.26s/it] 22%|██▏       | 10733/48845 [3:48:18<13:20:43,  1.26s/it] 22%|██▏       | 10734/48845 [3:48:19<13:21:25,  1.26s/it] 22%|██▏       | 10735/48845 [3:48:20<13:21:25,  1.26s/it]                                                          {'loss': 1.8213, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10735/48845 [3:48:20<13:21:25,  1.26s/it] 22%|██▏       | 10736/48845 [3:48:22<13:21:31,  1.26s/it] 22%|██▏       | 10737/48845 [3:48:23<13:21:12,  1.26s/it] 22%|██▏       | 10738/48845 [3:48:24<13:20:32,  1.26s/it] 22%|██▏       | 10739/48845 [3:48:25<13:20:11,  1.26s/it] 22%|██▏       | 10740/48845 [3:48:27<13:20:37,  1.26s/it]                                                          {'loss': 1.8866, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10740/48845 [3:48:27<13:20:37,  1.26s/it] 22%|██▏       | 10741/48845 [3:48:28<13:20:12,  1.26s/it] 22%|██▏       | 10742/48845 [3:48:29<13:20:16,  1.26s/it] 22%|██▏       | 10743/48845 [3:48:30<13:20:17,  1.26s/it] 22%|██▏       | 10744/48845 [3:48:32<13:19:54,  1.26s/it] 22%|██▏       | 10745/48845 [3:48:33<13:20:12,  1.26s/it]                                                          {'loss': 1.8475, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10745/48845 [3:48:33<13:20:12,  1.26s/it] 22%|██▏       | 10746/48845 [3:48:34<13:20:46,  1.26s/it] 22%|██▏       | 10747/48845 [3:48:35<13:20:29,  1.26s/it] 22%|██▏       | 10748/48845 [3:48:37<13:19:59,  1.26s/it] 22%|██▏       | 10749/48845 [3:48:38<13:19:29,  1.26s/it] 22%|██▏       | 10750/48845 [3:48:39<13:19:55,  1.26s/it]                                                          {'loss': 1.8084, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10750/48845 [3:48:39<13:19:55,  1.26s/it] 22%|██▏       | 10751/48845 [3:48:40<13:20:34,  1.26s/it] 22%|██▏       | 10752/48845 [3:48:42<13:20:31,  1.26s/it] 22%|██▏       | 10753/48845 [3:48:43<13:19:46,  1.26s/it] 22%|██▏       | 10754/48845 [3:48:44<13:19:57,  1.26s/it] 22%|██▏       | 10755/48845 [3:48:46<13:20:17,  1.26s/it]                                                          {'loss': 1.8505, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10755/48845 [3:48:46<13:20:17,  1.26s/it] 22%|██▏       | 10756/48845 [3:48:47<13:20:22,  1.26s/it] 22%|██▏       | 10757/48845 [3:48:48<13:19:21,  1.26s/it] 22%|██▏       | 10758/48845 [3:48:49<13:19:32,  1.26s/it] 22%|██▏       | 10759/48845 [3:48:51<13:19:53,  1.26s/it] 22%|██▏       | 10760/48845 [3:48:52<13:20:11,  1.26s/it]                                                          {'loss': 1.9059, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10760/48845 [3:48:52<13:20:11,  1.26s/it] 22%|██▏       | 10761/48845 [3:48:53<13:20:41,  1.26s/it] 22%|██▏       | 10762/48845 [3:48:54<13:20:14,  1.26s/it] 22%|██▏       | 10763/48845 [3:48:56<13:20:32,  1.26s/it] 22%|██▏       | 10764/48845 [3:48:57<13:20:24,  1.26s/it] 22%|██▏       | 10765/48845 [3:48:58<13:20:35,  1.26s/it]                                                          {'loss': 1.8419, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10765/48845 [3:48:58<13:20:35,  1.26s/it] 22%|██▏       | 10766/48845 [3:48:59<13:21:07,  1.26s/it] 22%|██▏       | 10767/48845 [3:49:01<13:20:54,  1.26s/it] 22%|██▏       | 10768/48845 [3:49:02<13:21:04,  1.26s/it] 22%|██▏       | 10769/48845 [3:49:03<13:20:49,  1.26s/it] 22%|██▏       | 10770/48845 [3:49:04<13:21:02,  1.26s/it]                                                          {'loss': 2.0574, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10770/48845 [3:49:04<13:21:02,  1.26s/it] 22%|██▏       | 10771/48845 [3:49:06<13:21:16,  1.26s/it] 22%|██▏       | 10772/48845 [3:49:07<13:21:29,  1.26s/it] 22%|██▏       | 10773/48845 [3:49:08<13:21:30,  1.26s/it] 22%|██▏       | 10774/48845 [3:49:09<13:21:21,  1.26s/it] 22%|██▏       | 10775/48845 [3:49:11<13:20:34,  1.26s/it]                                                          {'loss': 2.0921, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10775/48845 [3:49:11<13:20:34,  1.26s/it] 22%|██▏       | 10776/48845 [3:49:12<13:21:09,  1.26s/it] 22%|██▏       | 10777/48845 [3:49:13<13:20:29,  1.26s/it] 22%|██▏       | 10778/48845 [3:49:15<13:20:19,  1.26s/it] 22%|██▏       | 10779/48845 [3:49:16<13:20:54,  1.26s/it] 22%|██▏       | 10780/48845 [3:49:17<13:20:04,  1.26s/it]                                                          {'loss': 1.8771, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10780/48845 [3:49:17<13:20:04,  1.26s/it] 22%|██▏       | 10781/48845 [3:49:18<13:20:03,  1.26s/it] 22%|██▏       | 10782/48845 [3:49:20<13:19:59,  1.26s/it] 22%|██▏       | 10783/48845 [3:49:21<13:20:31,  1.26s/it] 22%|██▏       | 10784/48845 [3:49:22<13:20:14,  1.26s/it] 22%|██▏       | 10785/48845 [3:49:23<13:20:37,  1.26s/it]                                                          {'loss': 1.9524, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10785/48845 [3:49:23<13:20:37,  1.26s/it] 22%|██▏       | 10786/48845 [3:49:25<13:20:39,  1.26s/it] 22%|██▏       | 10787/48845 [3:49:26<13:20:47,  1.26s/it] 22%|██▏       | 10788/48845 [3:49:27<13:20:29,  1.26s/it] 22%|██▏       | 10789/48845 [3:49:28<13:19:50,  1.26s/it] 22%|██▏       | 10790/48845 [3:49:30<13:19:25,  1.26s/it]                                                          {'loss': 1.8539, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.1}
+ 22%|██▏       | 10790/48845 [3:49:30<13:19:25,  1.26s/it] 22%|██▏       | 10791/48845 [3:49:31<13:22:34,  1.27s/it] 22%|██▏       | 10792/48845 [3:49:32<13:21:58,  1.26s/it] 22%|██▏       | 10793/48845 [3:49:33<13:21:14,  1.26s/it] 22%|██▏       | 10794/48845 [3:49:35<13:19:59,  1.26s/it] 22%|██▏       | 10795/48845 [3:49:36<13:19:43,  1.26s/it]                                                          {'loss': 1.8378, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10795/48845 [3:49:36<13:19:43,  1.26s/it] 22%|██▏       | 10796/48845 [3:49:37<13:19:20,  1.26s/it] 22%|██▏       | 10797/48845 [3:49:38<13:19:13,  1.26s/it] 22%|██▏       | 10798/48845 [3:49:40<13:18:25,  1.26s/it] 22%|██▏       | 10799/48845 [3:49:41<13:18:32,  1.26s/it] 22%|██▏       | 10800/48845 [3:49:42<13:19:16,  1.26s/it]                                                          {'loss': 1.8009, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10800/48845 [3:49:42<13:19:16,  1.26s/it] 22%|██▏       | 10801/48845 [3:49:46<21:16:25,  2.01s/it] 22%|██▏       | 10802/48845 [3:49:47<18:52:49,  1.79s/it] 22%|██▏       | 10803/48845 [3:49:49<17:11:31,  1.63s/it] 22%|██▏       | 10804/48845 [3:49:50<16:01:18,  1.52s/it] 22%|██▏       | 10805/48845 [3:49:51<15:12:39,  1.44s/it]                                                          {'loss': 1.9383, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10805/48845 [3:49:51<15:12:39,  1.44s/it] 22%|██▏       | 10806/48845 [3:49:52<14:38:02,  1.38s/it] 22%|██▏       | 10807/48845 [3:49:54<14:13:50,  1.35s/it] 22%|██▏       | 10808/48845 [3:49:55<13:57:17,  1.32s/it] 22%|██▏       | 10809/48845 [3:49:56<13:44:44,  1.30s/it] 22%|██▏       | 10810/48845 [3:49:57<13:37:42,  1.29s/it]                                                          {'loss': 2.0455, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10810/48845 [3:49:57<13:37:42,  1.29s/it] 22%|██▏       | 10811/48845 [3:49:59<13:31:34,  1.28s/it] 22%|██▏       | 10812/48845 [3:50:00<13:26:44,  1.27s/it] 22%|██▏       | 10813/48845 [3:50:01<13:23:48,  1.27s/it] 22%|██▏       | 10814/48845 [3:50:02<13:22:00,  1.27s/it] 22%|██▏       | 10815/48845 [3:50:04<13:21:07,  1.26s/it]                                                          {'loss': 1.9211, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10815/48845 [3:50:04<13:21:07,  1.26s/it] 22%|██▏       | 10816/48845 [3:50:05<13:21:27,  1.26s/it] 22%|██▏       | 10817/48845 [3:50:06<13:21:10,  1.26s/it] 22%|██▏       | 10818/48845 [3:50:07<13:19:43,  1.26s/it] 22%|██▏       | 10819/48845 [3:50:09<13:19:22,  1.26s/it] 22%|██▏       | 10820/48845 [3:50:10<13:19:26,  1.26s/it]                                                          {'loss': 1.8454, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10820/48845 [3:50:10<13:19:26,  1.26s/it] 22%|██▏       | 10821/48845 [3:50:11<13:19:04,  1.26s/it] 22%|██▏       | 10822/48845 [3:50:12<13:19:04,  1.26s/it] 22%|██▏       | 10823/48845 [3:50:14<13:17:54,  1.26s/it] 22%|██▏       | 10824/48845 [3:50:15<13:18:09,  1.26s/it] 22%|██▏       | 10825/48845 [3:50:16<13:18:13,  1.26s/it]                                                          {'loss': 1.9988, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10825/48845 [3:50:16<13:18:13,  1.26s/it] 22%|██▏       | 10826/48845 [3:50:18<13:17:53,  1.26s/it] 22%|██▏       | 10827/48845 [3:50:19<13:17:39,  1.26s/it] 22%|██▏       | 10828/48845 [3:50:20<13:17:29,  1.26s/it] 22%|██▏       | 10829/48845 [3:50:21<13:17:39,  1.26s/it] 22%|██▏       | 10830/48845 [3:50:23<13:18:05,  1.26s/it]                                                          {'loss': 1.9438, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10830/48845 [3:50:23<13:18:05,  1.26s/it] 22%|██▏       | 10831/48845 [3:50:24<13:17:50,  1.26s/it] 22%|██▏       | 10832/48845 [3:50:25<13:18:43,  1.26s/it] 22%|██▏       | 10833/48845 [3:50:26<13:18:24,  1.26s/it] 22%|██▏       | 10834/48845 [3:50:28<13:18:13,  1.26s/it] 22%|██▏       | 10835/48845 [3:50:29<13:17:00,  1.26s/it]                                                          {'loss': 1.8638, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10835/48845 [3:50:29<13:17:00,  1.26s/it] 22%|██▏       | 10836/48845 [3:50:30<13:17:46,  1.26s/it] 22%|██▏       | 10837/48845 [3:50:31<13:17:54,  1.26s/it] 22%|██▏       | 10838/48845 [3:50:33<13:17:29,  1.26s/it] 22%|██▏       | 10839/48845 [3:50:34<13:17:09,  1.26s/it] 22%|██▏       | 10840/48845 [3:50:35<13:17:31,  1.26s/it]                                                          {'loss': 1.9181, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10840/48845 [3:50:35<13:17:31,  1.26s/it] 22%|██▏       | 10841/48845 [3:50:36<13:18:58,  1.26s/it] 22%|██▏       | 10842/48845 [3:50:38<13:18:28,  1.26s/it] 22%|██▏       | 10843/48845 [3:50:39<13:18:33,  1.26s/it] 22%|██▏       | 10844/48845 [3:50:40<13:18:40,  1.26s/it] 22%|██▏       | 10845/48845 [3:50:41<13:18:13,  1.26s/it]                                                          {'loss': 1.9273, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10845/48845 [3:50:41<13:18:13,  1.26s/it] 22%|██▏       | 10846/48845 [3:50:43<13:18:12,  1.26s/it] 22%|██▏       | 10847/48845 [3:50:44<13:18:01,  1.26s/it] 22%|██▏       | 10848/48845 [3:50:45<13:17:41,  1.26s/it] 22%|██▏       | 10849/48845 [3:50:46<13:17:17,  1.26s/it] 22%|██▏       | 10850/48845 [3:50:48<13:17:57,  1.26s/it]                                                          {'loss': 1.9295, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10850/48845 [3:50:48<13:17:57,  1.26s/it] 22%|██▏       | 10851/48845 [3:50:49<13:18:30,  1.26s/it] 22%|██▏       | 10852/48845 [3:50:50<13:18:45,  1.26s/it] 22%|██▏       | 10853/48845 [3:50:52<13:18:10,  1.26s/it] 22%|██▏       | 10854/48845 [3:50:53<13:18:56,  1.26s/it] 22%|██▏       | 10855/48845 [3:50:54<13:18:27,  1.26s/it]                                                          {'loss': 1.845, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10855/48845 [3:50:54<13:18:27,  1.26s/it] 22%|██▏       | 10856/48845 [3:50:55<13:20:01,  1.26s/it] 22%|██▏       | 10857/48845 [3:50:57<13:19:55,  1.26s/it] 22%|██▏       | 10858/48845 [3:50:58<13:20:14,  1.26s/it] 22%|██▏       | 10859/48845 [3:50:59<13:19:51,  1.26s/it] 22%|██▏       | 10860/48845 [3:51:00<13:20:05,  1.26s/it]                                                          {'loss': 1.9094, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10860/48845 [3:51:00<13:20:05,  1.26s/it] 22%|██▏       | 10861/48845 [3:51:02<13:19:59,  1.26s/it] 22%|██▏       | 10862/48845 [3:51:03<13:19:10,  1.26s/it] 22%|██▏       | 10863/48845 [3:51:04<13:19:41,  1.26s/it] 22%|██▏       | 10864/48845 [3:51:05<13:18:47,  1.26s/it] 22%|██▏       | 10865/48845 [3:51:07<13:18:14,  1.26s/it]                                                          {'loss': 1.9682, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10865/48845 [3:51:07<13:18:14,  1.26s/it] 22%|██▏       | 10866/48845 [3:51:08<13:18:17,  1.26s/it] 22%|██▏       | 10867/48845 [3:51:09<13:18:37,  1.26s/it] 22%|██▏       | 10868/48845 [3:51:10<13:18:10,  1.26s/it] 22%|██▏       | 10869/48845 [3:51:12<13:17:57,  1.26s/it] 22%|██▏       | 10870/48845 [3:51:13<13:18:18,  1.26s/it]                                                          {'loss': 1.9791, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10870/48845 [3:51:13<13:18:18,  1.26s/it] 22%|██▏       | 10871/48845 [3:51:14<13:19:09,  1.26s/it] 22%|██▏       | 10872/48845 [3:51:16<13:18:40,  1.26s/it] 22%|██▏       | 10873/48845 [3:51:17<13:19:14,  1.26s/it] 22%|██▏       | 10874/48845 [3:51:18<13:18:23,  1.26s/it] 22%|██▏       | 10875/48845 [3:51:19<13:17:33,  1.26s/it]                                                          {'loss': 1.9683, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10875/48845 [3:51:19<13:17:33,  1.26s/it] 22%|██▏       | 10876/48845 [3:51:21<13:18:14,  1.26s/it] 22%|██▏       | 10877/48845 [3:51:22<14:02:00,  1.33s/it] 22%|██▏       | 10878/48845 [3:51:23<13:48:39,  1.31s/it] 22%|██▏       | 10879/48845 [3:51:25<13:38:52,  1.29s/it] 22%|██▏       | 10880/48845 [3:51:26<13:32:43,  1.28s/it]                                                          {'loss': 2.0584, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10880/48845 [3:51:26<13:32:43,  1.28s/it] 22%|██▏       | 10881/48845 [3:51:27<13:27:32,  1.28s/it] 22%|██▏       | 10882/48845 [3:51:28<13:24:30,  1.27s/it] 22%|██▏       | 10883/48845 [3:51:30<13:22:28,  1.27s/it] 22%|██▏       | 10884/48845 [3:51:31<13:20:45,  1.27s/it] 22%|██▏       | 10885/48845 [3:51:32<13:20:21,  1.27s/it]                                                          {'loss': 1.9334, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10885/48845 [3:51:32<13:20:21,  1.27s/it] 22%|██▏       | 10886/48845 [3:51:33<13:19:47,  1.26s/it] 22%|██▏       | 10887/48845 [3:51:35<13:18:40,  1.26s/it] 22%|██▏       | 10888/48845 [3:51:36<13:17:40,  1.26s/it] 22%|██▏       | 10889/48845 [3:51:37<13:17:29,  1.26s/it] 22%|██▏       | 10890/48845 [3:51:38<13:17:45,  1.26s/it]                                                          {'loss': 1.9254, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.11}
+ 22%|██▏       | 10890/48845 [3:51:38<13:17:45,  1.26s/it] 22%|██▏       | 10891/48845 [3:51:40<13:18:01,  1.26s/it] 22%|██▏       | 10892/48845 [3:51:41<13:18:12,  1.26s/it] 22%|██▏       | 10893/48845 [3:51:42<13:18:18,  1.26s/it] 22%|██▏       | 10894/48845 [3:51:43<13:18:11,  1.26s/it] 22%|██▏       | 10895/48845 [3:51:45<13:17:49,  1.26s/it]                                                          {'loss': 1.8094, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10895/48845 [3:51:45<13:17:49,  1.26s/it] 22%|██▏       | 10896/48845 [3:51:46<13:17:23,  1.26s/it] 22%|██▏       | 10897/48845 [3:51:47<13:17:43,  1.26s/it] 22%|██▏       | 10898/48845 [3:51:49<13:17:50,  1.26s/it] 22%|██▏       | 10899/48845 [3:51:50<13:17:24,  1.26s/it] 22%|██▏       | 10900/48845 [3:51:51<13:17:26,  1.26s/it]                                                          {'loss': 2.0019, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10900/48845 [3:51:51<13:17:26,  1.26s/it] 22%|██▏       | 10901/48845 [3:51:52<13:17:07,  1.26s/it] 22%|██▏       | 10902/48845 [3:51:54<13:17:00,  1.26s/it] 22%|██▏       | 10903/48845 [3:51:55<13:17:45,  1.26s/it] 22%|██▏       | 10904/48845 [3:51:56<13:16:47,  1.26s/it] 22%|██▏       | 10905/48845 [3:51:57<13:16:44,  1.26s/it]                                                          {'loss': 2.0786, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10905/48845 [3:51:57<13:16:44,  1.26s/it] 22%|██▏       | 10906/48845 [3:51:59<13:16:46,  1.26s/it] 22%|██▏       | 10907/48845 [3:52:00<13:33:33,  1.29s/it] 22%|██▏       | 10908/48845 [3:52:01<13:28:53,  1.28s/it] 22%|██▏       | 10909/48845 [3:52:02<13:25:04,  1.27s/it] 22%|██▏       | 10910/48845 [3:52:04<13:22:50,  1.27s/it]                                                          {'loss': 1.8935, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10910/48845 [3:52:04<13:22:50,  1.27s/it] 22%|██▏       | 10911/48845 [3:52:05<13:21:11,  1.27s/it] 22%|██▏       | 10912/48845 [3:52:06<13:19:39,  1.26s/it] 22%|██▏       | 10913/48845 [3:52:08<13:18:39,  1.26s/it] 22%|██▏       | 10914/48845 [3:52:09<13:17:51,  1.26s/it] 22%|██▏       | 10915/48845 [3:52:10<13:17:16,  1.26s/it]                                                          {'loss': 2.1, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10915/48845 [3:52:10<13:17:16,  1.26s/it] 22%|██▏       | 10916/48845 [3:52:11<13:17:03,  1.26s/it] 22%|██▏       | 10917/48845 [3:52:13<13:16:20,  1.26s/it] 22%|██▏       | 10918/48845 [3:52:14<13:17:03,  1.26s/it] 22%|██▏       | 10919/48845 [3:52:15<13:16:41,  1.26s/it] 22%|██▏       | 10920/48845 [3:52:16<13:17:08,  1.26s/it]                                                          {'loss': 1.8866, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10920/48845 [3:52:16<13:17:08,  1.26s/it] 22%|██▏       | 10921/48845 [3:52:18<13:16:59,  1.26s/it] 22%|██▏       | 10922/48845 [3:52:19<13:16:42,  1.26s/it] 22%|██▏       | 10923/48845 [3:52:20<13:16:49,  1.26s/it] 22%|██▏       | 10924/48845 [3:52:21<13:16:47,  1.26s/it] 22%|██▏       | 10925/48845 [3:52:23<13:16:31,  1.26s/it]                                                          {'loss': 1.9593, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10925/48845 [3:52:23<13:16:31,  1.26s/it] 22%|██▏       | 10926/48845 [3:52:24<13:17:36,  1.26s/it] 22%|██▏       | 10927/48845 [3:52:25<13:17:02,  1.26s/it] 22%|██▏       | 10928/48845 [3:52:26<13:17:22,  1.26s/it] 22%|██▏       | 10929/48845 [3:52:28<13:17:05,  1.26s/it] 22%|██▏       | 10930/48845 [3:52:29<13:16:29,  1.26s/it]                                                          {'loss': 2.0009, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10930/48845 [3:52:29<13:16:29,  1.26s/it] 22%|██▏       | 10931/48845 [3:52:30<13:16:25,  1.26s/it] 22%|██▏       | 10932/48845 [3:52:31<13:16:03,  1.26s/it] 22%|██▏       | 10933/48845 [3:52:33<13:16:02,  1.26s/it] 22%|██▏       | 10934/48845 [3:52:34<13:16:12,  1.26s/it] 22%|██▏       | 10935/48845 [3:52:35<13:16:22,  1.26s/it]                                                          {'loss': 1.7746, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10935/48845 [3:52:35<13:16:22,  1.26s/it] 22%|██▏       | 10936/48845 [3:52:37<13:17:38,  1.26s/it] 22%|██▏       | 10937/48845 [3:52:38<13:17:26,  1.26s/it] 22%|██▏       | 10938/48845 [3:52:39<13:16:40,  1.26s/it] 22%|██▏       | 10939/48845 [3:52:40<13:17:10,  1.26s/it] 22%|██▏       | 10940/48845 [3:52:42<13:16:59,  1.26s/it]                                                          {'loss': 1.8661, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10940/48845 [3:52:42<13:16:59,  1.26s/it] 22%|██▏       | 10941/48845 [3:52:43<13:16:50,  1.26s/it] 22%|██▏       | 10942/48845 [3:52:44<13:16:57,  1.26s/it] 22%|██▏       | 10943/48845 [3:52:45<13:17:27,  1.26s/it] 22%|██▏       | 10944/48845 [3:52:47<13:17:09,  1.26s/it] 22%|██▏       | 10945/48845 [3:52:48<13:16:41,  1.26s/it]                                                          {'loss': 1.8512, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10945/48845 [3:52:48<13:16:41,  1.26s/it] 22%|██▏       | 10946/48845 [3:52:49<13:16:38,  1.26s/it] 22%|██▏       | 10947/48845 [3:52:50<13:16:10,  1.26s/it] 22%|██▏       | 10948/48845 [3:52:52<13:16:04,  1.26s/it] 22%|██▏       | 10949/48845 [3:52:53<13:17:01,  1.26s/it] 22%|██▏       | 10950/48845 [3:52:54<13:17:12,  1.26s/it]                                                          {'loss': 1.8659, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10950/48845 [3:52:54<13:17:12,  1.26s/it] 22%|██▏       | 10951/48845 [3:52:55<13:16:43,  1.26s/it] 22%|██▏       | 10952/48845 [3:52:57<13:17:09,  1.26s/it] 22%|██▏       | 10953/48845 [3:52:58<13:16:36,  1.26s/it] 22%|██▏       | 10954/48845 [3:52:59<13:18:15,  1.26s/it] 22%|██▏       | 10955/48845 [3:53:01<13:17:41,  1.26s/it]                                                          {'loss': 1.9304, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10955/48845 [3:53:01<13:17:41,  1.26s/it] 22%|██▏       | 10956/48845 [3:53:02<13:17:06,  1.26s/it] 22%|██▏       | 10957/48845 [3:53:03<13:16:26,  1.26s/it] 22%|██▏       | 10958/48845 [3:53:04<13:16:32,  1.26s/it] 22%|██▏       | 10959/48845 [3:53:06<13:16:37,  1.26s/it] 22%|██▏       | 10960/48845 [3:53:07<13:17:01,  1.26s/it]                                                          {'loss': 1.9867, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10960/48845 [3:53:07<13:17:01,  1.26s/it] 22%|██▏       | 10961/48845 [3:53:08<13:16:45,  1.26s/it] 22%|██▏       | 10962/48845 [3:53:09<13:22:23,  1.27s/it] 22%|██▏       | 10963/48845 [3:53:11<13:20:00,  1.27s/it] 22%|██▏       | 10964/48845 [3:53:12<13:18:43,  1.27s/it] 22%|██▏       | 10965/48845 [3:53:13<13:17:46,  1.26s/it]                                                          {'loss': 1.9943, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10965/48845 [3:53:13<13:17:46,  1.26s/it] 22%|██▏       | 10966/48845 [3:53:14<13:17:55,  1.26s/it] 22%|██▏       | 10967/48845 [3:53:16<13:16:45,  1.26s/it] 22%|██▏       | 10968/48845 [3:53:17<13:16:46,  1.26s/it] 22%|██▏       | 10969/48845 [3:53:18<13:16:02,  1.26s/it] 22%|██▏       | 10970/48845 [3:53:19<13:15:48,  1.26s/it]                                                          {'loss': 1.9522, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10970/48845 [3:53:19<13:15:48,  1.26s/it] 22%|██▏       | 10971/48845 [3:53:21<13:16:10,  1.26s/it] 22%|██▏       | 10972/48845 [3:53:22<13:15:41,  1.26s/it] 22%|██▏       | 10973/48845 [3:53:23<13:16:18,  1.26s/it] 22%|██▏       | 10974/48845 [3:53:24<13:16:11,  1.26s/it] 22%|██▏       | 10975/48845 [3:53:26<13:15:40,  1.26s/it]                                                          {'loss': 1.9019, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10975/48845 [3:53:26<13:15:40,  1.26s/it] 22%|██▏       | 10976/48845 [3:53:27<13:15:43,  1.26s/it] 22%|██▏       | 10977/48845 [3:53:28<13:14:44,  1.26s/it] 22%|██▏       | 10978/48845 [3:53:30<13:14:54,  1.26s/it] 22%|██▏       | 10979/48845 [3:53:31<13:14:39,  1.26s/it] 22%|██▏       | 10980/48845 [3:53:32<13:14:37,  1.26s/it]                                                          {'loss': 1.8853, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10980/48845 [3:53:32<13:14:37,  1.26s/it] 22%|██▏       | 10981/48845 [3:53:33<13:14:34,  1.26s/it] 22%|██▏       | 10982/48845 [3:53:35<13:14:39,  1.26s/it] 22%|██▏       | 10983/48845 [3:53:36<13:15:06,  1.26s/it] 22%|██▏       | 10984/48845 [3:53:37<13:14:49,  1.26s/it] 22%|██▏       | 10985/48845 [3:53:38<13:14:32,  1.26s/it]                                                          {'loss': 1.9309, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10985/48845 [3:53:38<13:14:32,  1.26s/it] 22%|██▏       | 10986/48845 [3:53:40<13:15:52,  1.26s/it] 22%|██▏       | 10987/48845 [3:53:41<13:16:16,  1.26s/it] 22%|██▏       | 10988/48845 [3:53:42<13:16:29,  1.26s/it] 22%|██▏       | 10989/48845 [3:53:43<13:15:50,  1.26s/it] 22%|██▏       | 10990/48845 [3:53:45<13:15:54,  1.26s/it]                                                          {'loss': 2.0046, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.12}
+ 22%|██▏       | 10990/48845 [3:53:45<13:15:54,  1.26s/it] 23%|██▎       | 10991/48845 [3:53:46<13:16:04,  1.26s/it] 23%|██▎       | 10992/48845 [3:53:47<13:16:03,  1.26s/it] 23%|██▎       | 10993/48845 [3:53:48<13:16:27,  1.26s/it] 23%|██▎       | 10994/48845 [3:53:50<13:16:24,  1.26s/it] 23%|██▎       | 10995/48845 [3:53:51<13:15:38,  1.26s/it]                                                          {'loss': 1.9297, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 10995/48845 [3:53:51<13:15:38,  1.26s/it] 23%|██▎       | 10996/48845 [3:53:52<13:15:31,  1.26s/it] 23%|██▎       | 10997/48845 [3:53:53<13:15:32,  1.26s/it] 23%|██▎       | 10998/48845 [3:53:55<13:16:01,  1.26s/it] 23%|██▎       | 10999/48845 [3:53:56<13:15:53,  1.26s/it] 23%|██▎       | 11000/48845 [3:53:57<13:15:52,  1.26s/it]                                                          {'loss': 1.8573, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11000/48845 [3:53:57<13:15:52,  1.26s/it] 23%|██▎       | 11001/48845 [3:54:01<20:48:17,  1.98s/it] 23%|██▎       | 11002/48845 [3:54:02<18:31:47,  1.76s/it] 23%|██▎       | 11003/48845 [3:54:03<16:56:04,  1.61s/it] 23%|██▎       | 11004/48845 [3:54:05<15:49:47,  1.51s/it] 23%|██▎       | 11005/48845 [3:54:06<15:02:58,  1.43s/it]                                                          {'loss': 1.9327, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11005/48845 [3:54:06<15:02:58,  1.43s/it] 23%|██▎       | 11006/48845 [3:54:07<14:30:42,  1.38s/it] 23%|██▎       | 11007/48845 [3:54:08<14:07:52,  1.34s/it] 23%|██▎       | 11008/48845 [3:54:10<13:51:07,  1.32s/it] 23%|██▎       | 11009/48845 [3:54:11<13:39:31,  1.30s/it] 23%|██▎       | 11010/48845 [3:54:12<13:31:30,  1.29s/it]                                                          {'loss': 2.0404, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11010/48845 [3:54:12<13:31:30,  1.29s/it] 23%|██▎       | 11011/48845 [3:54:14<13:26:43,  1.28s/it] 23%|██▎       | 11012/48845 [3:54:15<13:22:46,  1.27s/it] 23%|██▎       | 11013/48845 [3:54:16<13:20:32,  1.27s/it] 23%|██▎       | 11014/48845 [3:54:17<13:18:27,  1.27s/it] 23%|██▎       | 11015/48845 [3:54:19<13:17:00,  1.26s/it]                                                          {'loss': 1.9433, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11015/48845 [3:54:19<13:17:00,  1.26s/it] 23%|██▎       | 11016/48845 [3:54:20<13:16:47,  1.26s/it] 23%|██▎       | 11017/48845 [3:54:21<13:16:26,  1.26s/it] 23%|██▎       | 11018/48845 [3:54:22<13:16:22,  1.26s/it] 23%|██▎       | 11019/48845 [3:54:24<13:16:10,  1.26s/it] 23%|██▎       | 11020/48845 [3:54:25<13:15:23,  1.26s/it]                                                          {'loss': 1.9769, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11020/48845 [3:54:25<13:15:23,  1.26s/it] 23%|██▎       | 11021/48845 [3:54:26<13:16:17,  1.26s/it] 23%|██▎       | 11022/48845 [3:54:27<13:15:39,  1.26s/it] 23%|██▎       | 11023/48845 [3:54:29<13:14:56,  1.26s/it] 23%|██▎       | 11024/48845 [3:54:30<13:14:27,  1.26s/it] 23%|██▎       | 11025/48845 [3:54:31<13:14:15,  1.26s/it]                                                          {'loss': 1.9427, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11025/48845 [3:54:31<13:14:15,  1.26s/it] 23%|██▎       | 11026/48845 [3:54:32<13:14:04,  1.26s/it] 23%|██▎       | 11027/48845 [3:54:34<13:14:37,  1.26s/it] 23%|██▎       | 11028/48845 [3:54:35<13:14:09,  1.26s/it] 23%|██▎       | 11029/48845 [3:54:36<13:14:20,  1.26s/it] 23%|██▎       | 11030/48845 [3:54:37<13:14:10,  1.26s/it]                                                          {'loss': 1.969, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11030/48845 [3:54:37<13:14:10,  1.26s/it] 23%|██▎       | 11031/48845 [3:54:39<13:13:48,  1.26s/it] 23%|██▎       | 11032/48845 [3:54:40<13:13:41,  1.26s/it] 23%|██▎       | 11033/48845 [3:54:41<13:13:19,  1.26s/it] 23%|██▎       | 11034/48845 [3:54:43<13:13:43,  1.26s/it] 23%|██▎       | 11035/48845 [3:54:44<13:13:42,  1.26s/it]                                                          {'loss': 1.8908, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11035/48845 [3:54:44<13:13:42,  1.26s/it] 23%|██▎       | 11036/48845 [3:54:45<13:13:26,  1.26s/it] 23%|██▎       | 11037/48845 [3:54:46<13:14:03,  1.26s/it] 23%|██▎       | 11038/48845 [3:54:48<13:13:42,  1.26s/it] 23%|██▎       | 11039/48845 [3:54:49<13:14:32,  1.26s/it] 23%|██▎       | 11040/48845 [3:54:50<13:14:00,  1.26s/it]                                                          {'loss': 1.8665, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11040/48845 [3:54:50<13:14:00,  1.26s/it] 23%|██▎       | 11041/48845 [3:54:51<13:13:58,  1.26s/it] 23%|██▎       | 11042/48845 [3:54:53<13:14:58,  1.26s/it] 23%|██▎       | 11043/48845 [3:54:54<13:14:05,  1.26s/it] 23%|██▎       | 11044/48845 [3:54:55<13:14:24,  1.26s/it] 23%|██▎       | 11045/48845 [3:54:56<13:14:15,  1.26s/it]                                                          {'loss': 1.8687, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11045/48845 [3:54:56<13:14:15,  1.26s/it] 23%|██▎       | 11046/48845 [3:54:58<13:13:52,  1.26s/it] 23%|██▎       | 11047/48845 [3:54:59<13:13:59,  1.26s/it] 23%|██▎       | 11048/48845 [3:55:00<13:14:14,  1.26s/it] 23%|██▎       | 11049/48845 [3:55:01<13:14:39,  1.26s/it] 23%|██▎       | 11050/48845 [3:55:03<13:14:38,  1.26s/it]                                                          {'loss': 2.0454, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11050/48845 [3:55:03<13:14:38,  1.26s/it] 23%|██▎       | 11051/48845 [3:55:04<13:14:20,  1.26s/it] 23%|██▎       | 11052/48845 [3:55:05<13:14:04,  1.26s/it] 23%|██▎       | 11053/48845 [3:55:06<13:13:48,  1.26s/it] 23%|██▎       | 11054/48845 [3:55:08<13:13:49,  1.26s/it] 23%|██▎       | 11055/48845 [3:55:09<13:14:29,  1.26s/it]                                                          {'loss': 1.8534, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11055/48845 [3:55:09<13:14:29,  1.26s/it] 23%|██▎       | 11056/48845 [3:55:10<13:12:57,  1.26s/it] 23%|██▎       | 11057/48845 [3:55:11<13:12:59,  1.26s/it] 23%|██▎       | 11058/48845 [3:55:13<13:12:50,  1.26s/it] 23%|██▎       | 11059/48845 [3:55:14<13:12:53,  1.26s/it] 23%|██▎       | 11060/48845 [3:55:15<13:13:16,  1.26s/it]                                                          {'loss': 1.7758, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11060/48845 [3:55:15<13:13:16,  1.26s/it] 23%|██▎       | 11061/48845 [3:55:17<13:13:51,  1.26s/it] 23%|██▎       | 11062/48845 [3:55:18<13:14:22,  1.26s/it] 23%|██▎       | 11063/48845 [3:55:19<13:14:01,  1.26s/it] 23%|██▎       | 11064/48845 [3:55:20<13:13:57,  1.26s/it] 23%|██▎       | 11065/48845 [3:55:22<13:13:49,  1.26s/it]                                                          {'loss': 1.9605, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11065/48845 [3:55:22<13:13:49,  1.26s/it] 23%|██▎       | 11066/48845 [3:55:23<13:14:10,  1.26s/it] 23%|██▎       | 11067/48845 [3:55:24<13:13:35,  1.26s/it] 23%|██▎       | 11068/48845 [3:55:25<13:14:24,  1.26s/it] 23%|██▎       | 11069/48845 [3:55:27<13:13:57,  1.26s/it] 23%|██▎       | 11070/48845 [3:55:28<13:13:30,  1.26s/it]                                                          {'loss': 1.8721, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11070/48845 [3:55:28<13:13:30,  1.26s/it] 23%|██▎       | 11071/48845 [3:55:29<13:17:36,  1.27s/it] 23%|██▎       | 11072/48845 [3:55:30<13:16:02,  1.26s/it] 23%|██▎       | 11073/48845 [3:55:32<13:15:50,  1.26s/it] 23%|██▎       | 11074/48845 [3:55:33<13:14:41,  1.26s/it] 23%|██▎       | 11075/48845 [3:55:34<13:14:35,  1.26s/it]                                                          {'loss': 2.2079, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11075/48845 [3:55:34<13:14:35,  1.26s/it] 23%|██▎       | 11076/48845 [3:55:35<13:14:46,  1.26s/it] 23%|██▎       | 11077/48845 [3:55:37<13:13:24,  1.26s/it] 23%|██▎       | 11078/48845 [3:55:38<13:12:58,  1.26s/it] 23%|██▎       | 11079/48845 [3:55:39<13:13:02,  1.26s/it] 23%|██▎       | 11080/48845 [3:55:41<13:13:05,  1.26s/it]                                                          {'loss': 1.7855, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11080/48845 [3:55:41<13:13:05,  1.26s/it] 23%|██▎       | 11081/48845 [3:55:42<13:13:46,  1.26s/it] 23%|██▎       | 11082/48845 [3:55:43<13:13:08,  1.26s/it] 23%|██▎       | 11083/48845 [3:55:44<13:12:56,  1.26s/it] 23%|██▎       | 11084/48845 [3:55:46<13:13:11,  1.26s/it] 23%|██▎       | 11085/48845 [3:55:47<13:12:44,  1.26s/it]                                                          {'loss': 1.8424, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.13}
+ 23%|██▎       | 11085/48845 [3:55:47<13:12:44,  1.26s/it] 23%|██▎       | 11086/48845 [3:55:48<13:13:43,  1.26s/it] 23%|██▎       | 11087/48845 [3:55:49<13:13:29,  1.26s/it] 23%|██▎       | 11088/48845 [3:55:51<13:13:08,  1.26s/it] 23%|██▎       | 11089/48845 [3:55:52<13:13:23,  1.26s/it] 23%|██▎       | 11090/48845 [3:55:53<13:12:39,  1.26s/it]                                                          {'loss': 1.8506, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11090/48845 [3:55:53<13:12:39,  1.26s/it] 23%|██▎       | 11091/48845 [3:55:54<13:12:52,  1.26s/it] 23%|██▎       | 11092/48845 [3:55:56<13:29:28,  1.29s/it] 23%|██▎       | 11093/48845 [3:55:57<13:24:49,  1.28s/it] 23%|██▎       | 11094/48845 [3:55:58<13:20:35,  1.27s/it] 23%|██▎       | 11095/48845 [3:55:59<13:17:54,  1.27s/it]                                                          {'loss': 1.8063, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11095/48845 [3:56:00<13:17:54,  1.27s/it] 23%|██▎       | 11096/48845 [3:56:01<13:17:46,  1.27s/it] 23%|██▎       | 11097/48845 [3:56:02<13:15:55,  1.27s/it] 23%|██▎       | 11098/48845 [3:56:03<13:14:35,  1.26s/it] 23%|██▎       | 11099/48845 [3:56:05<13:13:33,  1.26s/it] 23%|██▎       | 11100/48845 [3:56:06<13:17:14,  1.27s/it]                                                          {'loss': 1.9045, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11100/48845 [3:56:06<13:17:14,  1.27s/it] 23%|██▎       | 11101/48845 [3:56:07<13:16:51,  1.27s/it] 23%|██▎       | 11102/48845 [3:56:08<13:14:59,  1.26s/it] 23%|██▎       | 11103/48845 [3:56:10<13:14:01,  1.26s/it] 23%|██▎       | 11104/48845 [3:56:11<13:14:05,  1.26s/it] 23%|██▎       | 11105/48845 [3:56:12<13:13:33,  1.26s/it]                                                          {'loss': 1.9421, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11105/48845 [3:56:12<13:13:33,  1.26s/it] 23%|██▎       | 11106/48845 [3:56:13<13:13:32,  1.26s/it] 23%|██▎       | 11107/48845 [3:56:15<13:14:26,  1.26s/it] 23%|██▎       | 11108/48845 [3:56:16<13:14:22,  1.26s/it] 23%|██▎       | 11109/48845 [3:56:17<13:13:04,  1.26s/it] 23%|██▎       | 11110/48845 [3:56:18<13:12:51,  1.26s/it]                                                          {'loss': 1.9834, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11110/48845 [3:56:18<13:12:51,  1.26s/it] 23%|██▎       | 11111/48845 [3:56:20<13:13:01,  1.26s/it] 23%|██▎       | 11112/48845 [3:56:21<13:13:36,  1.26s/it] 23%|██▎       | 11113/48845 [3:56:22<13:13:10,  1.26s/it] 23%|██▎       | 11114/48845 [3:56:23<13:12:20,  1.26s/it] 23%|██▎       | 11115/48845 [3:56:25<13:12:34,  1.26s/it]                                                          {'loss': 1.9595, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11115/48845 [3:56:25<13:12:34,  1.26s/it] 23%|██▎       | 11116/48845 [3:56:26<13:13:34,  1.26s/it] 23%|██▎       | 11117/48845 [3:56:27<13:13:10,  1.26s/it] 23%|██▎       | 11118/48845 [3:56:29<13:12:59,  1.26s/it] 23%|██▎       | 11119/48845 [3:56:30<13:12:27,  1.26s/it] 23%|██▎       | 11120/48845 [3:56:31<13:13:13,  1.26s/it]                                                          {'loss': 1.9307, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11120/48845 [3:56:31<13:13:13,  1.26s/it] 23%|██▎       | 11121/48845 [3:56:32<13:13:29,  1.26s/it] 23%|██▎       | 11122/48845 [3:56:34<13:13:17,  1.26s/it] 23%|██▎       | 11123/48845 [3:56:35<13:13:44,  1.26s/it] 23%|██▎       | 11124/48845 [3:56:36<13:13:23,  1.26s/it] 23%|██▎       | 11125/48845 [3:56:37<13:13:52,  1.26s/it]                                                          {'loss': 1.9199, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11125/48845 [3:56:37<13:13:52,  1.26s/it] 23%|██▎       | 11126/48845 [3:56:39<13:12:58,  1.26s/it] 23%|██▎       | 11127/48845 [3:56:40<13:12:46,  1.26s/it] 23%|█���▎       | 11128/48845 [3:56:41<13:13:07,  1.26s/it] 23%|██▎       | 11129/48845 [3:56:42<13:12:19,  1.26s/it] 23%|██▎       | 11130/48845 [3:56:44<13:11:49,  1.26s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11130/48845 [3:56:44<13:11:49,  1.26s/it] 23%|██▎       | 11131/48845 [3:56:45<13:12:21,  1.26s/it] 23%|██▎       | 11132/48845 [3:56:46<13:13:09,  1.26s/it] 23%|██▎       | 11133/48845 [3:56:47<13:13:13,  1.26s/it] 23%|██▎       | 11134/48845 [3:56:49<13:12:46,  1.26s/it] 23%|██▎       | 11135/48845 [3:56:50<13:12:21,  1.26s/it]                                                          {'loss': 1.8192, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11135/48845 [3:56:50<13:12:21,  1.26s/it] 23%|██▎       | 11136/48845 [3:56:51<13:12:22,  1.26s/it] 23%|██▎       | 11137/48845 [3:56:52<13:12:13,  1.26s/it] 23%|██▎       | 11138/48845 [3:56:54<13:12:49,  1.26s/it] 23%|██▎       | 11139/48845 [3:56:55<13:11:50,  1.26s/it] 23%|██▎       | 11140/48845 [3:56:56<13:12:23,  1.26s/it]                                                          {'loss': 2.0231, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11140/48845 [3:56:56<13:12:23,  1.26s/it] 23%|██▎       | 11141/48845 [3:56:58<13:11:43,  1.26s/it] 23%|██▎       | 11142/48845 [3:56:59<13:11:02,  1.26s/it] 23%|██▎       | 11143/48845 [3:57:00<13:11:33,  1.26s/it] 23%|██▎       | 11144/48845 [3:57:01<13:12:07,  1.26s/it] 23%|██▎       | 11145/48845 [3:57:03<13:12:32,  1.26s/it]                                                          {'loss': 1.8933, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11145/48845 [3:57:03<13:12:32,  1.26s/it] 23%|██▎       | 11146/48845 [3:57:04<13:12:29,  1.26s/it] 23%|██▎       | 11147/48845 [3:57:05<13:10:42,  1.26s/it] 23%|██▎       | 11148/48845 [3:57:06<13:12:11,  1.26s/it] 23%|██▎       | 11149/48845 [3:57:08<13:12:31,  1.26s/it] 23%|██▎       | 11150/48845 [3:57:09<13:11:53,  1.26s/it]                                                          {'loss': 2.1159, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11150/48845 [3:57:09<13:11:53,  1.26s/it] 23%|██▎       | 11151/48845 [3:57:10<13:11:50,  1.26s/it] 23%|██▎       | 11152/48845 [3:57:11<13:12:37,  1.26s/it] 23%|██▎       | 11153/48845 [3:57:13<13:12:36,  1.26s/it] 23%|██▎       | 11154/48845 [3:57:14<13:11:33,  1.26s/it] 23%|██▎       | 11155/48845 [3:57:15<13:11:47,  1.26s/it]                                                          {'loss': 2.0819, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11155/48845 [3:57:15<13:11:47,  1.26s/it] 23%|██▎       | 11156/48845 [3:57:16<13:12:06,  1.26s/it] 23%|██▎       | 11157/48845 [3:57:18<13:11:25,  1.26s/it] 23%|██▎       | 11158/48845 [3:57:19<13:11:30,  1.26s/it] 23%|██▎       | 11159/48845 [3:57:20<13:11:28,  1.26s/it] 23%|██▎       | 11160/48845 [3:57:21<13:11:50,  1.26s/it]                                                          {'loss': 1.991, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11160/48845 [3:57:21<13:11:50,  1.26s/it] 23%|██▎       | 11161/48845 [3:57:23<13:12:19,  1.26s/it] 23%|██▎       | 11162/48845 [3:57:24<13:11:24,  1.26s/it] 23%|██▎       | 11163/48845 [3:57:25<13:11:09,  1.26s/it] 23%|██▎       | 11164/48845 [3:57:27<13:10:30,  1.26s/it] 23%|██▎       | 11165/48845 [3:57:28<13:10:24,  1.26s/it]                                                          {'loss': 1.8885, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11165/48845 [3:57:28<13:10:24,  1.26s/it] 23%|██▎       | 11166/48845 [3:57:29<13:10:49,  1.26s/it] 23%|██▎       | 11167/48845 [3:57:30<13:10:46,  1.26s/it] 23%|██▎       | 11168/48845 [3:57:32<13:10:52,  1.26s/it] 23%|██▎       | 11169/48845 [3:57:33<13:10:15,  1.26s/it] 23%|██▎       | 11170/48845 [3:57:34<13:10:39,  1.26s/it]                                                          {'loss': 2.0701, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11170/48845 [3:57:34<13:10:39,  1.26s/it] 23%|██▎       | 11171/48845 [3:57:35<13:11:34,  1.26s/it] 23%|██▎       | 11172/48845 [3:57:37<13:11:12,  1.26s/it] 23%|██▎       | 11173/48845 [3:57:38<13:11:59,  1.26s/it] 23%|██▎       | 11174/48845 [3:57:39<13:12:35,  1.26s/it] 23%|██▎       | 11175/48845 [3:57:40<13:11:21,  1.26s/it]                                                          {'loss': 1.9155, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11175/48845 [3:57:40<13:11:21,  1.26s/it] 23%|██▎       | 11176/48845 [3:57:42<13:11:20,  1.26s/it] 23%|██▎       | 11177/48845 [3:57:43<13:10:51,  1.26s/it] 23%|██▎       | 11178/48845 [3:57:44<13:10:34,  1.26s/it] 23%|██▎       | 11179/48845 [3:57:45<13:11:14,  1.26s/it] 23%|██▎       | 11180/48845 [3:57:47<13:11:15,  1.26s/it]                                                          {'loss': 1.9568, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11180/48845 [3:57:47<13:11:15,  1.26s/it] 23%|██▎       | 11181/48845 [3:57:48<13:10:56,  1.26s/it] 23%|██▎       | 11182/48845 [3:57:49<13:10:58,  1.26s/it] 23%|██▎       | 11183/48845 [3:57:50<13:11:18,  1.26s/it] 23%|██▎       | 11184/48845 [3:57:52<13:11:41,  1.26s/it] 23%|██▎       | 11185/48845 [3:57:53<13:10:50,  1.26s/it]                                                          {'loss': 2.0308, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.14}
+ 23%|██▎       | 11185/48845 [3:57:53<13:10:50,  1.26s/it] 23%|██▎       | 11186/48845 [3:57:54<13:11:26,  1.26s/it] 23%|██▎       | 11187/48845 [3:57:56<13:11:13,  1.26s/it] 23%|██▎       | 11188/48845 [3:57:57<13:10:38,  1.26s/it] 23%|██▎       | 11189/48845 [3:57:58<13:10:59,  1.26s/it] 23%|██▎       | 11190/48845 [3:57:59<13:10:36,  1.26s/it]                                                          {'loss': 1.9529, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11190/48845 [3:57:59<13:10:36,  1.26s/it] 23%|██▎       | 11191/48845 [3:58:01<13:10:46,  1.26s/it] 23%|██▎       | 11192/48845 [3:58:02<13:10:59,  1.26s/it] 23%|██▎       | 11193/48845 [3:58:03<13:11:10,  1.26s/it] 23%|██▎       | 11194/48845 [3:58:04<13:11:33,  1.26s/it] 23%|██▎       | 11195/48845 [3:58:06<13:10:33,  1.26s/it]                                                          {'loss': 1.9418, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11195/48845 [3:58:06<13:10:33,  1.26s/it] 23%|██▎       | 11196/48845 [3:58:07<13:10:31,  1.26s/it] 23%|██▎       | 11197/48845 [3:58:08<13:10:44,  1.26s/it] 23%|██▎       | 11198/48845 [3:58:09<13:10:07,  1.26s/it] 23%|██▎       | 11199/48845 [3:58:11<13:11:03,  1.26s/it] 23%|██▎       | 11200/48845 [3:58:12<13:11:13,  1.26s/it]                                                          {'loss': 1.9868, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11200/48845 [3:58:12<13:11:13,  1.26s/it] 23%|██▎       | 11201/48845 [3:58:16<20:36:48,  1.97s/it] 23%|██▎       | 11202/48845 [3:58:17<18:22:27,  1.76s/it] 23%|██▎       | 11203/48845 [3:58:18<16:48:22,  1.61s/it] 23%|██▎       | 11204/48845 [3:58:19<15:42:14,  1.50s/it] 23%|██▎       | 11205/48845 [3:58:21<14:55:58,  1.43s/it]                                                          {'loss': 1.8715, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11205/48845 [3:58:21<14:55:58,  1.43s/it] 23%|██▎       | 11206/48845 [3:58:22<14:24:58,  1.38s/it] 23%|██▎       | 11207/48845 [3:58:23<14:01:10,  1.34s/it] 23%|██▎       | 11208/48845 [3:58:24<13:45:29,  1.32s/it] 23%|██▎       | 11209/48845 [3:58:26<13:34:52,  1.30s/it] 23%|██▎       | 11210/48845 [3:58:27<13:27:26,  1.29s/it]                                                          {'loss': 1.9567, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11210/48845 [3:58:27<13:27:26,  1.29s/it] 23%|██▎       | 11211/48845 [3:58:28<13:22:14,  1.28s/it] 23%|██▎       | 11212/48845 [3:58:29<13:18:11,  1.27s/it] 23%|██▎       | 11213/48845 [3:58:31<13:16:17,  1.27s/it] 23%|██▎       | 11214/48845 [3:58:32<13:14:15,  1.27s/it] 23%|██▎       | 11215/48845 [3:58:33<13:12:42,  1.26s/it]                                                          {'loss': 1.8226, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11215/48845 [3:58:33<13:12:42,  1.26s/it] 23%|██▎       | 11216/48845 [3:58:34<13:12:20,  1.26s/it] 23%|██▎       | 11217/48845 [3:58:36<13:11:19,  1.26s/it] 23%|██▎       | 11218/48845 [3:58:37<13:11:06,  1.26s/it] 23%|██▎       | 11219/48845 [3:58:38<13:10:28,  1.26s/it] 23%|██▎       | 11220/48845 [3:58:39<13:10:04,  1.26s/it]                                                          {'loss': 2.0131, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11220/48845 [3:58:39<13:10:04,  1.26s/it] 23%|██▎       | 11221/48845 [3:58:41<13:09:55,  1.26s/it] 23%|██▎       | 11222/48845 [3:58:42<13:09:28,  1.26s/it] 23%|██▎       | 11223/48845 [3:58:43<13:10:00,  1.26s/it] 23%|██▎       | 11224/48845 [3:58:44<13:09:27,  1.26s/it] 23%|██▎       | 11225/48845 [3:58:46<13:09:19,  1.26s/it]                                                          {'loss': 1.831, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11225/48845 [3:58:46<13:09:19,  1.26s/it] 23%|██▎       | 11226/48845 [3:58:47<13:09:16,  1.26s/it] 23%|██▎       | 11227/48845 [3:58:48<13:09:03,  1.26s/it] 23%|██▎       | 11228/48845 [3:58:50<13:09:45,  1.26s/it] 23%|██▎       | 11229/48845 [3:58:51<13:10:03,  1.26s/it] 23%|██▎       | 11230/48845 [3:58:52<13:09:29,  1.26s/it]                                                          {'loss': 2.0227, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11230/48845 [3:58:52<13:09:29,  1.26s/it] 23%|██▎       | 11231/48845 [3:58:53<13:09:34,  1.26s/it] 23%|██▎       | 11232/48845 [3:58:55<13:09:04,  1.26s/it] 23%|██▎       | 11233/48845 [3:58:56<13:09:45,  1.26s/it] 23%|██▎       | 11234/48845 [3:58:57<13:09:42,  1.26s/it] 23%|██▎       | 11235/48845 [3:58:58<13:09:23,  1.26s/it]                                                          {'loss': 1.9368, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11235/48845 [3:58:58<13:09:23,  1.26s/it] 23%|██▎       | 11236/48845 [3:59:00<13:09:31,  1.26s/it] 23%|██▎       | 11237/48845 [3:59:01<13:10:28,  1.26s/it] 23%|██▎       | 11238/48845 [3:59:02<13:10:48,  1.26s/it] 23%|██▎       | 11239/48845 [3:59:03<13:09:56,  1.26s/it] 23%|██▎       | 11240/48845 [3:59:05<13:10:13,  1.26s/it]                                                          {'loss': 1.9808, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11240/48845 [3:59:05<13:10:13,  1.26s/it] 23%|██▎       | 11241/48845 [3:59:06<13:09:48,  1.26s/it] 23%|██▎       | 11242/48845 [3:59:07<13:09:02,  1.26s/it] 23%|██▎       | 11243/48845 [3:59:08<13:10:13,  1.26s/it] 23%|██▎       | 11244/48845 [3:59:10<13:10:01,  1.26s/it] 23%|██▎       | 11245/48845 [3:59:11<13:09:34,  1.26s/it]                                                          {'loss': 2.0148, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11245/48845 [3:59:11<13:09:34,  1.26s/it] 23%|██▎       | 11246/48845 [3:59:12<13:09:33,  1.26s/it] 23%|██▎       | 11247/48845 [3:59:13<13:08:40,  1.26s/it] 23%|██▎       | 11248/48845 [3:59:15<13:09:15,  1.26s/it] 23%|██▎       | 11249/48845 [3:59:16<13:08:46,  1.26s/it] 23%|██▎       | 11250/48845 [3:59:17<13:10:08,  1.26s/it]                                                          {'loss': 2.022, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11250/48845 [3:59:17<13:10:08,  1.26s/it] 23%|██▎       | 11251/48845 [3:59:18<13:10:32,  1.26s/it] 23%|██▎       | 11252/48845 [3:59:20<13:10:22,  1.26s/it] 23%|██▎       | 11253/48845 [3:59:21<13:09:54,  1.26s/it] 23%|██▎       | 11254/48845 [3:59:22<13:08:59,  1.26s/it] 23%|██▎       | 11255/48845 [3:59:24<13:09:32,  1.26s/it]                                                          {'loss': 1.8083, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11255/48845 [3:59:24<13:09:32,  1.26s/it] 23%|██▎       | 11256/48845 [3:59:25<13:09:04,  1.26s/it] 23%|██▎       | 11257/48845 [3:59:26<13:09:51,  1.26s/it] 23%|██▎       | 11258/48845 [3:59:27<13:09:56,  1.26s/it] 23%|██▎       | 11259/48845 [3:59:29<13:09:54,  1.26s/it] 23%|██▎       | 11260/48845 [3:59:30<13:09:37,  1.26s/it]                                                          {'loss': 1.8998, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11260/48845 [3:59:30<13:09:37,  1.26s/it] 23%|██▎       | 11261/48845 [3:59:31<13:10:10,  1.26s/it] 23%|██▎       | 11262/48845 [3:59:32<13:09:14,  1.26s/it] 23%|██▎       | 11263/48845 [3:59:34<13:08:00,  1.26s/it] 23%|██▎       | 11264/48845 [3:59:35<13:07:23,  1.26s/it] 23%|██▎       | 11265/48845 [3:59:36<13:07:53,  1.26s/it]                                                          {'loss': 2.1286, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11265/48845 [3:59:36<13:07:53,  1.26s/it] 23%|██▎       | 11266/48845 [3:59:37<13:07:50,  1.26s/it] 23%|██▎       | 11267/48845 [3:59:39<13:08:17,  1.26s/it] 23%|██▎       | 11268/48845 [3:59:40<13:08:18,  1.26s/it] 23%|██▎       | 11269/48845 [3:59:41<13:08:02,  1.26s/it] 23%|██▎       | 11270/48845 [3:59:42<13:08:36,  1.26s/it]                                                          {'loss': 1.9238, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11270/48845 [3:59:42<13:08:36,  1.26s/it] 23%|██▎       | 11271/48845 [3:59:44<13:08:04,  1.26s/it] 23%|██▎       | 11272/48845 [3:59:45<13:08:04,  1.26s/it] 23%|██▎       | 11273/48845 [3:59:46<13:08:19,  1.26s/it] 23%|██▎       | 11274/48845 [3:59:47<13:07:37,  1.26s/it] 23%|██▎       | 11275/48845 [3:59:49<13:07:37,  1.26s/it]                                                          {'loss': 1.9731, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11275/48845 [3:59:49<13:07:37,  1.26s/it] 23%|██▎       | 11276/48845 [3:59:50<13:08:57,  1.26s/it] 23%|██▎       | 11277/48845 [3:59:51<13:08:45,  1.26s/it] 23%|██▎       | 11278/48845 [3:59:52<13:08:58,  1.26s/it] 23%|██▎       | 11279/48845 [3:59:54<13:08:18,  1.26s/it] 23%|██▎       | 11280/48845 [3:59:55<13:08:15,  1.26s/it]                                                          {'loss': 1.9218, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.15}
+ 23%|██▎       | 11280/48845 [3:59:55<13:08:15,  1.26s/it] 23%|██▎       | 11281/48845 [3:59:56<13:08:30,  1.26s/it] 23%|██▎       | 11282/48845 [3:59:58<13:08:13,  1.26s/it] 23%|██▎       | 11283/48845 [3:59:59<13:08:28,  1.26s/it] 23%|██▎       | 11284/48845 [4:00:00<13:08:03,  1.26s/it] 23%|██▎       | 11285/48845 [4:00:01<13:08:51,  1.26s/it]                                                          {'loss': 1.9317, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11285/48845 [4:00:01<13:08:51,  1.26s/it] 23%|██▎       | 11286/48845 [4:00:03<13:08:32,  1.26s/it] 23%|██▎       | 11287/48845 [4:00:04<13:09:09,  1.26s/it] 23%|██▎       | 11288/48845 [4:00:05<13:09:09,  1.26s/it] 23%|██▎       | 11289/48845 [4:00:06<13:08:27,  1.26s/it] 23%|██▎       | 11290/48845 [4:00:08<13:07:45,  1.26s/it]                                                          {'loss': 1.9703, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11290/48845 [4:00:08<13:07:45,  1.26s/it] 23%|██▎       | 11291/48845 [4:00:09<13:08:18,  1.26s/it] 23%|██▎       | 11292/48845 [4:00:10<13:08:34,  1.26s/it] 23%|██▎       | 11293/48845 [4:00:11<13:08:48,  1.26s/it] 23%|██▎       | 11294/48845 [4:00:13<13:08:17,  1.26s/it] 23%|██▎       | 11295/48845 [4:00:14<13:08:36,  1.26s/it]                                                          {'loss': 1.9306, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11295/48845 [4:00:14<13:08:36,  1.26s/it] 23%|██▎       | 11296/48845 [4:00:15<13:08:30,  1.26s/it] 23%|██▎       | 11297/48845 [4:00:16<13:08:47,  1.26s/it] 23%|██▎       | 11298/48845 [4:00:18<13:08:53,  1.26s/it] 23%|██▎       | 11299/48845 [4:00:19<13:08:20,  1.26s/it] 23%|██▎       | 11300/48845 [4:00:20<13:08:28,  1.26s/it]                                                          {'loss': 1.9588, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11300/48845 [4:00:20<13:08:28,  1.26s/it] 23%|██▎       | 11301/48845 [4:00:21<13:08:23,  1.26s/it] 23%|██▎       | 11302/48845 [4:00:23<13:07:27,  1.26s/it] 23%|██▎       | 11303/48845 [4:00:24<13:08:04,  1.26s/it] 23%|██▎       | 11304/48845 [4:00:25<13:07:11,  1.26s/it] 23%|██▎       | 11305/48845 [4:00:26<13:08:26,  1.26s/it]                                                          {'loss': 1.8492, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11305/48845 [4:00:27<13:08:26,  1.26s/it] 23%|██▎       | 11306/48845 [4:00:28<13:08:33,  1.26s/it] 23%|██▎       | 11307/48845 [4:00:29<13:08:18,  1.26s/it] 23%|██▎       | 11308/48845 [4:00:30<13:08:13,  1.26s/it] 23%|██▎       | 11309/48845 [4:00:32<13:07:35,  1.26s/it] 23%|██▎       | 11310/48845 [4:00:33<13:08:05,  1.26s/it]                                                          {'loss': 1.8766, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11310/48845 [4:00:33<13:08:05,  1.26s/it] 23%|██▎       | 11311/48845 [4:00:34<13:07:52,  1.26s/it] 23%|██▎       | 11312/48845 [4:00:35<13:08:08,  1.26s/it] 23%|██▎       | 11313/48845 [4:00:37<13:08:37,  1.26s/it] 23%|██▎       | 11314/48845 [4:00:38<13:07:52,  1.26s/it] 23%|██▎       | 11315/48845 [4:00:39<13:07:53,  1.26s/it]                                                          {'loss': 1.8416, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11315/48845 [4:00:39<13:07:53,  1.26s/it] 23%|██▎       | 11316/48845 [4:00:40<13:07:37,  1.26s/it] 23%|██▎       | 11317/48845 [4:00:42<13:07:11,  1.26s/it] 23%|██▎       | 11318/48845 [4:00:43<13:08:00,  1.26s/it] 23%|██▎       | 11319/48845 [4:00:44<13:08:25,  1.26s/it] 23%|██▎       | 11320/48845 [4:00:45<13:08:50,  1.26s/it]                                                          {'loss': 1.7469, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11320/48845 [4:00:45<13:08:50,  1.26s/it] 23%|██▎       | 11321/48845 [4:00:47<13:07:37,  1.26s/it] 23%|██▎       | 11322/48845 [4:00:48<13:07:04,  1.26s/it] 23%|██▎       | 11323/48845 [4:00:49<13:07:00,  1.26s/it] 23%|██▎       | 11324/48845 [4:00:50<13:07:10,  1.26s/it] 23%|██▎       | 11325/48845 [4:00:52<13:22:29,  1.28s/it]                                                          {'loss': 1.9579, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11325/48845 [4:00:52<13:22:29,  1.28s/it] 23%|██▎       | 11326/48845 [4:00:53<13:18:28,  1.28s/it] 23%|██▎       | 11327/48845 [4:00:54<13:15:34,  1.27s/it] 23%|██▎       | 11328/48845 [4:00:56<13:12:16,  1.27s/it] 23%|██▎       | 11329/48845 [4:00:57<13:10:16,  1.26s/it] 23%|██▎       | 11330/48845 [4:00:58<13:12:55,  1.27s/it]                                                          {'loss': 1.8666, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11330/48845 [4:00:58<13:12:55,  1.27s/it] 23%|██▎       | 11331/48845 [4:00:59<13:12:38,  1.27s/it] 23%|██▎       | 11332/48845 [4:01:01<13:10:28,  1.26s/it] 23%|██▎       | 11333/48845 [4:01:02<13:09:32,  1.26s/it] 23%|██▎       | 11334/48845 [4:01:03<13:08:59,  1.26s/it] 23%|██▎       | 11335/48845 [4:01:04<13:09:10,  1.26s/it]                                                          {'loss': 1.9481, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11335/48845 [4:01:04<13:09:10,  1.26s/it] 23%|██▎       | 11336/48845 [4:01:06<13:08:03,  1.26s/it] 23%|██▎       | 11337/48845 [4:01:07<13:09:33,  1.26s/it] 23%|██▎       | 11338/48845 [4:01:08<13:09:01,  1.26s/it] 23%|██▎       | 11339/48845 [4:01:09<13:08:05,  1.26s/it] 23%|██▎       | 11340/48845 [4:01:11<13:07:56,  1.26s/it]                                                          {'loss': 1.9404, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11340/48845 [4:01:11<13:07:56,  1.26s/it] 23%|██▎       | 11341/48845 [4:01:12<13:08:10,  1.26s/it] 23%|██▎       | 11342/48845 [4:01:13<13:07:39,  1.26s/it] 23%|██▎       | 11343/48845 [4:01:14<13:07:32,  1.26s/it] 23%|██▎       | 11344/48845 [4:01:16<13:07:31,  1.26s/it] 23%|██▎       | 11345/48845 [4:01:17<13:07:32,  1.26s/it]                                                          {'loss': 1.9942, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11345/48845 [4:01:17<13:07:32,  1.26s/it] 23%|██▎       | 11346/48845 [4:01:18<13:08:29,  1.26s/it] 23%|██▎       | 11347/48845 [4:01:20<13:08:02,  1.26s/it] 23%|██▎       | 11348/48845 [4:01:21<13:07:59,  1.26s/it] 23%|██▎       | 11349/48845 [4:01:22<13:07:18,  1.26s/it] 23%|██▎       | 11350/48845 [4:01:23<13:07:17,  1.26s/it]                                                          {'loss': 1.8789, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11350/48845 [4:01:23<13:07:17,  1.26s/it] 23%|██▎       | 11351/48845 [4:01:25<13:08:13,  1.26s/it] 23%|██▎       | 11352/48845 [4:01:26<13:07:42,  1.26s/it] 23%|██▎       | 11353/48845 [4:01:27<13:07:40,  1.26s/it] 23%|██▎       | 11354/48845 [4:01:28<13:07:15,  1.26s/it] 23%|██▎       | 11355/48845 [4:01:30<13:07:16,  1.26s/it]                                                          {'loss': 2.0163, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11355/48845 [4:01:30<13:07:16,  1.26s/it] 23%|██▎       | 11356/48845 [4:01:31<13:07:47,  1.26s/it] 23%|██▎       | 11357/48845 [4:01:32<13:07:22,  1.26s/it] 23%|██▎       | 11358/48845 [4:01:33<13:07:39,  1.26s/it] 23%|██▎       | 11359/48845 [4:01:35<13:06:43,  1.26s/it] 23%|██▎       | 11360/48845 [4:01:36<13:06:24,  1.26s/it]                                                          {'loss': 2.0881, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11360/48845 [4:01:36<13:06:24,  1.26s/it] 23%|██▎       | 11361/48845 [4:01:37<13:06:58,  1.26s/it] 23%|██▎       | 11362/48845 [4:01:38<13:06:42,  1.26s/it] 23%|██▎       | 11363/48845 [4:01:40<13:06:19,  1.26s/it] 23%|██▎       | 11364/48845 [4:01:41<13:06:17,  1.26s/it] 23%|██▎       | 11365/48845 [4:01:42<13:06:54,  1.26s/it]                                                          {'loss': 2.0184, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11365/48845 [4:01:42<13:06:54,  1.26s/it] 23%|██▎       | 11366/48845 [4:01:43<13:06:52,  1.26s/it] 23%|██▎       | 11367/48845 [4:01:45<13:06:41,  1.26s/it] 23%|██▎       | 11368/48845 [4:01:46<13:06:12,  1.26s/it] 23%|██▎       | 11369/48845 [4:01:47<13:06:22,  1.26s/it] 23%|██▎       | 11370/48845 [4:01:48<13:06:49,  1.26s/it]                                                          {'loss': 2.0309, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11370/48845 [4:01:48<13:06:49,  1.26s/it] 23%|██▎       | 11371/48845 [4:01:50<13:07:05,  1.26s/it] 23%|██▎       | 11372/48845 [4:01:51<13:06:46,  1.26s/it] 23%|██▎       | 11373/48845 [4:01:52<13:08:15,  1.26s/it] 23%|██▎       | 11374/48845 [4:01:54<13:07:05,  1.26s/it] 23%|██▎       | 11375/48845 [4:01:55<13:06:17,  1.26s/it]                                                          {'loss': 1.8116, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11375/48845 [4:01:55<13:06:17,  1.26s/it] 23%|██▎       | 11376/48845 [4:01:56<13:06:38,  1.26s/it] 23%|██▎       | 11377/48845 [4:01:57<13:06:16,  1.26s/it] 23%|██▎       | 11378/48845 [4:01:59<13:06:14,  1.26s/it] 23%|██▎       | 11379/48845 [4:02:00<13:05:54,  1.26s/it] 23%|██▎       | 11380/48845 [4:02:01<13:06:09,  1.26s/it]                                                          {'loss': 1.93, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.16}
+ 23%|██▎       | 11380/48845 [4:02:01<13:06:09,  1.26s/it] 23%|██▎       | 11381/48845 [4:02:02<13:07:07,  1.26s/it] 23%|██▎       | 11382/48845 [4:02:04<13:06:51,  1.26s/it] 23%|██▎       | 11383/48845 [4:02:05<13:06:11,  1.26s/it] 23%|██▎       | 11384/48845 [4:02:06<13:05:50,  1.26s/it] 23%|██▎       | 11385/48845 [4:02:07<13:06:18,  1.26s/it]                                                          {'loss': 1.9443, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11385/48845 [4:02:07<13:06:18,  1.26s/it] 23%|██▎       | 11386/48845 [4:02:09<13:07:59,  1.26s/it] 23%|██▎       | 11387/48845 [4:02:10<13:07:47,  1.26s/it] 23%|██▎       | 11388/48845 [4:02:11<13:06:47,  1.26s/it] 23%|██▎       | 11389/48845 [4:02:12<13:06:30,  1.26s/it] 23%|██▎       | 11390/48845 [4:02:14<13:05:57,  1.26s/it]                                                          {'loss': 1.7579, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11390/48845 [4:02:14<13:05:57,  1.26s/it] 23%|██▎       | 11391/48845 [4:02:15<13:07:04,  1.26s/it] 23%|██▎       | 11392/48845 [4:02:16<13:05:58,  1.26s/it] 23%|██▎       | 11393/48845 [4:02:17<13:06:21,  1.26s/it] 23%|██▎       | 11394/48845 [4:02:19<13:06:16,  1.26s/it] 23%|██▎       | 11395/48845 [4:02:20<13:05:18,  1.26s/it]                                                          {'loss': 1.9613, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11395/48845 [4:02:20<13:05:18,  1.26s/it] 23%|██▎       | 11396/48845 [4:02:21<13:06:15,  1.26s/it] 23%|██▎       | 11397/48845 [4:02:23<13:05:58,  1.26s/it] 23%|██▎       | 11398/48845 [4:02:24<13:06:30,  1.26s/it] 23%|██▎       | 11399/48845 [4:02:25<13:06:57,  1.26s/it] 23%|██▎       | 11400/48845 [4:02:26<13:07:10,  1.26s/it]                                                          {'loss': 1.8903, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11400/48845 [4:02:26<13:07:10,  1.26s/it] 23%|██▎       | 11401/48845 [4:02:30<20:33:57,  1.98s/it] 23%|██▎       | 11402/48845 [4:02:31<18:19:11,  1.76s/it] 23%|██▎       | 11403/48845 [4:02:32<16:45:13,  1.61s/it] 23%|██▎       | 11404/48845 [4:02:34<15:39:15,  1.51s/it] 23%|██▎       | 11405/48845 [4:02:35<14:52:29,  1.43s/it]                                                          {'loss': 1.8765, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11405/48845 [4:02:35<14:52:29,  1.43s/it] 23%|██▎       | 11406/48845 [4:02:36<14:21:07,  1.38s/it] 23%|██▎       | 11407/48845 [4:02:37<13:58:48,  1.34s/it] 23%|██▎       | 11408/48845 [4:02:39<13:43:03,  1.32s/it] 23%|██▎       | 11409/48845 [4:02:40<13:31:49,  1.30s/it] 23%|██▎       | 11410/48845 [4:02:41<13:24:08,  1.29s/it]                                                          {'loss': 1.9809, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11410/48845 [4:02:41<13:24:08,  1.29s/it] 23%|██▎       | 11411/48845 [4:02:43<13:19:23,  1.28s/it] 23%|██▎       | 11412/48845 [4:02:44<13:14:46,  1.27s/it] 23%|██▎       | 11413/48845 [4:02:45<13:11:48,  1.27s/it] 23%|██▎       | 11414/48845 [4:02:46<13:21:15,  1.28s/it] 23%|██▎       | 11415/48845 [4:02:48<13:17:05,  1.28s/it]                                                          {'loss': 1.7789, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11415/48845 [4:02:48<13:17:05,  1.28s/it] 23%|██▎       | 11416/48845 [4:02:49<13:19:38,  1.28s/it] 23%|██▎       | 11417/48845 [4:02:50<13:15:31,  1.28s/it] 23%|██▎       | 11418/48845 [4:02:51<13:13:24,  1.27s/it] 23%|██▎       | 11419/48845 [4:02:53<13:10:40,  1.27s/it] 23%|██▎       | 11420/48845 [4:02:54<13:09:23,  1.27s/it]                                                          {'loss': 1.84, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11420/48845 [4:02:54<13:09:23,  1.27s/it] 23%|██▎       | 11421/48845 [4:02:55<13:08:37,  1.26s/it] 23%|██▎       | 11422/48845 [4:02:56<13:07:15,  1.26s/it] 23%|██▎       | 11423/48845 [4:02:58<13:06:55,  1.26s/it] 23%|██▎       | 11424/48845 [4:02:59<13:06:15,  1.26s/it] 23%|██▎       | 11425/48845 [4:03:00<13:05:58,  1.26s/it]                                                          {'loss': 1.9603, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11425/48845 [4:03:00<13:05:58,  1.26s/it] 23%|██▎       | 11426/48845 [4:03:02<13:07:18,  1.26s/it] 23%|██▎       | 11427/48845 [4:03:03<13:07:29,  1.26s/it] 23%|██▎       | 11428/48845 [4:03:04<13:07:07,  1.26s/it] 23%|██▎       | 11429/48845 [4:03:05<13:06:34,  1.26s/it] 23%|██▎       | 11430/48845 [4:03:07<13:05:31,  1.26s/it]                                                          {'loss': 1.8115, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11430/48845 [4:03:07<13:05:31,  1.26s/it] 23%|██▎       | 11431/48845 [4:03:08<13:06:10,  1.26s/it] 23%|██▎       | 11432/48845 [4:03:09<13:05:59,  1.26s/it] 23%|██▎       | 11433/48845 [4:03:10<13:05:51,  1.26s/it] 23%|██▎       | 11434/48845 [4:03:12<13:05:47,  1.26s/it] 23%|██▎       | 11435/48845 [4:03:13<13:05:06,  1.26s/it]                                                          {'loss': 1.7635, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11435/48845 [4:03:13<13:05:06,  1.26s/it] 23%|██▎       | 11436/48845 [4:03:14<13:05:41,  1.26s/it] 23%|██▎       | 11437/48845 [4:03:15<13:04:47,  1.26s/it] 23%|██▎       | 11438/48845 [4:03:17<13:05:01,  1.26s/it] 23%|██▎       | 11439/48845 [4:03:18<13:04:31,  1.26s/it] 23%|██▎       | 11440/48845 [4:03:19<13:03:55,  1.26s/it]                                                          {'loss': 1.8182, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11440/48845 [4:03:19<13:03:55,  1.26s/it] 23%|██▎       | 11441/48845 [4:03:20<13:05:09,  1.26s/it] 23%|██▎       | 11442/48845 [4:03:22<13:06:10,  1.26s/it] 23%|██▎       | 11443/48845 [4:03:23<13:05:40,  1.26s/it] 23%|██▎       | 11444/48845 [4:03:24<13:05:11,  1.26s/it] 23%|██▎       | 11445/48845 [4:03:25<13:04:23,  1.26s/it]                                                          {'loss': 2.0433, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11445/48845 [4:03:25<13:04:23,  1.26s/it] 23%|██▎       | 11446/48845 [4:03:27<13:05:12,  1.26s/it] 23%|██▎       | 11447/48845 [4:03:28<13:04:31,  1.26s/it] 23%|██▎       | 11448/48845 [4:03:29<13:05:17,  1.26s/it] 23%|██▎       | 11449/48845 [4:03:31<13:04:51,  1.26s/it] 23%|██▎       | 11450/48845 [4:03:32<13:05:42,  1.26s/it]                                                          {'loss': 1.9372, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11450/48845 [4:03:32<13:05:42,  1.26s/it] 23%|██▎       | 11451/48845 [4:03:33<13:05:50,  1.26s/it] 23%|██▎       | 11452/48845 [4:03:34<13:05:49,  1.26s/it] 23%|██▎       | 11453/48845 [4:03:36<13:05:17,  1.26s/it] 23%|██▎       | 11454/48845 [4:03:37<13:05:19,  1.26s/it] 23%|██▎       | 11455/48845 [4:03:38<13:04:37,  1.26s/it]                                                          {'loss': 1.7854, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11455/48845 [4:03:38<13:04:37,  1.26s/it] 23%|██▎       | 11456/48845 [4:03:39<13:05:02,  1.26s/it] 23%|██▎       | 11457/48845 [4:03:41<13:04:55,  1.26s/it] 23%|██▎       | 11458/48845 [4:03:42<13:05:10,  1.26s/it] 23%|██▎       | 11459/48845 [4:03:43<13:06:36,  1.26s/it] 23%|██▎       | 11460/48845 [4:03:44<13:05:48,  1.26s/it]                                                          {'loss': 1.948, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11460/48845 [4:03:44<13:05:48,  1.26s/it] 23%|██▎       | 11461/48845 [4:03:46<13:06:53,  1.26s/it] 23%|██▎       | 11462/48845 [4:03:47<13:05:48,  1.26s/it] 23%|██▎       | 11463/48845 [4:03:48<13:05:29,  1.26s/it] 23%|██▎       | 11464/48845 [4:03:49<13:05:19,  1.26s/it] 23%|██▎       | 11465/48845 [4:03:51<13:04:31,  1.26s/it]                                                          {'loss': 1.8298, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11465/48845 [4:03:51<13:04:31,  1.26s/it] 23%|██▎       | 11466/48845 [4:03:52<13:04:23,  1.26s/it] 23%|██▎       | 11467/48845 [4:03:53<13:03:35,  1.26s/it] 23%|██▎       | 11468/48845 [4:03:54<13:04:56,  1.26s/it] 23%|██▎       | 11469/48845 [4:03:56<13:05:52,  1.26s/it] 23%|██▎       | 11470/48845 [4:03:57<13:04:48,  1.26s/it]                                                          {'loss': 2.0883, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11470/48845 [4:03:57<13:04:48,  1.26s/it] 23%|██▎       | 11471/48845 [4:03:58<13:04:18,  1.26s/it] 23%|██▎       | 11472/48845 [4:03:59<13:04:14,  1.26s/it] 23%|██▎       | 11473/48845 [4:04:01<13:03:48,  1.26s/it] 23%|██▎       | 11474/48845 [4:04:02<13:04:42,  1.26s/it] 23%|██▎       | 11475/48845 [4:04:03<13:04:39,  1.26s/it]                                                          {'loss': 1.8846, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.17}
+ 23%|██▎       | 11475/48845 [4:04:03<13:04:39,  1.26s/it] 23%|██▎       | 11476/48845 [4:04:05<13:05:41,  1.26s/it] 23%|██▎       | 11477/48845 [4:04:06<13:04:42,  1.26s/it] 23%|██▎       | 11478/48845 [4:04:07<13:04:39,  1.26s/it] 24%|██▎       | 11479/48845 [4:04:08<13:04:10,  1.26s/it] 24%|██▎       | 11480/48845 [4:04:10<13:04:23,  1.26s/it]                                                          {'loss': 1.9387, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11480/48845 [4:04:10<13:04:23,  1.26s/it] 24%|██▎       | 11481/48845 [4:04:11<13:05:29,  1.26s/it] 24%|██▎       | 11482/48845 [4:04:12<13:05:09,  1.26s/it] 24%|██▎       | 11483/48845 [4:04:13<13:05:03,  1.26s/it] 24%|██▎       | 11484/48845 [4:04:15<13:04:30,  1.26s/it] 24%|██▎       | 11485/48845 [4:04:16<13:03:48,  1.26s/it]                                                          {'loss': 1.8867, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11485/48845 [4:04:16<13:03:48,  1.26s/it] 24%|██▎       | 11486/48845 [4:04:17<13:03:48,  1.26s/it] 24%|██▎       | 11487/48845 [4:04:18<13:04:10,  1.26s/it] 24%|██▎       | 11488/48845 [4:04:20<13:04:00,  1.26s/it] 24%|██▎       | 11489/48845 [4:04:21<13:04:11,  1.26s/it] 24%|██▎       | 11490/48845 [4:04:22<13:03:43,  1.26s/it]                                                          {'loss': 1.8136, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11490/48845 [4:04:22<13:03:43,  1.26s/it] 24%|██▎       | 11491/48845 [4:04:23<13:03:42,  1.26s/it] 24%|██▎       | 11492/48845 [4:04:25<13:03:49,  1.26s/it] 24%|██▎       | 11493/48845 [4:04:26<13:03:56,  1.26s/it] 24%|██▎       | 11494/48845 [4:04:27<13:04:14,  1.26s/it] 24%|██▎       | 11495/48845 [4:04:28<13:03:54,  1.26s/it]                                                          {'loss': 1.9322, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11495/48845 [4:04:28<13:03:54,  1.26s/it] 24%|██▎       | 11496/48845 [4:04:30<13:03:36,  1.26s/it] 24%|██▎       | 11497/48845 [4:04:31<13:03:22,  1.26s/it] 24%|██▎       | 11498/48845 [4:04:32<13:03:32,  1.26s/it] 24%|██▎       | 11499/48845 [4:04:34<13:04:50,  1.26s/it] 24%|██▎       | 11500/48845 [4:04:35<13:04:05,  1.26s/it]                                                          {'loss': 1.9629, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11500/48845 [4:04:35<13:04:05,  1.26s/it] 24%|██▎       | 11501/48845 [4:04:36<13:03:52,  1.26s/it] 24%|██▎       | 11502/48845 [4:04:37<13:03:28,  1.26s/it] 24%|██▎       | 11503/48845 [4:04:39<13:04:05,  1.26s/it] 24%|██▎       | 11504/48845 [4:04:40<13:04:12,  1.26s/it] 24%|██▎       | 11505/48845 [4:04:41<13:04:29,  1.26s/it]                                                          {'loss': 1.8989, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11505/48845 [4:04:41<13:04:29,  1.26s/it] 24%|██▎       | 11506/48845 [4:04:42<13:05:19,  1.26s/it] 24%|██▎       | 11507/48845 [4:04:44<13:03:55,  1.26s/it] 24%|██▎       | 11508/48845 [4:04:45<13:03:49,  1.26s/it] 24%|██▎       | 11509/48845 [4:04:46<13:04:45,  1.26s/it] 24%|██▎       | 11510/48845 [4:04:47<13:04:46,  1.26s/it]                                                          {'loss': 1.8701, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11510/48845 [4:04:47<13:04:46,  1.26s/it] 24%|██▎       | 11511/48845 [4:04:49<13:04:57,  1.26s/it] 24%|██▎       | 11512/48845 [4:04:50<13:05:25,  1.26s/it] 24%|██▎       | 11513/48845 [4:04:51<13:05:08,  1.26s/it] 24%|██▎       | 11514/48845 [4:04:52<13:04:14,  1.26s/it] 24%|██▎       | 11515/48845 [4:04:54<13:04:06,  1.26s/it]                                                          {'loss': 2.0102, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11515/48845 [4:04:54<13:04:06,  1.26s/it] 24%|██▎       | 11516/48845 [4:04:55<13:04:15,  1.26s/it] 24%|██▎       | 11517/48845 [4:04:56<13:04:41,  1.26s/it] 24%|██▎       | 11518/48845 [4:04:57<13:03:48,  1.26s/it] 24%|██▎       | 11519/48845 [4:04:59<13:03:27,  1.26s/it] 24%|██▎       | 11520/48845 [4:05:00<13:03:34,  1.26s/it]                                                          {'loss': 1.8379, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11520/48845 [4:05:00<13:03:34,  1.26s/it] 24%|██▎       | 11521/48845 [4:05:01<13:03:31,  1.26s/it] 24%|██▎       | 11522/48845 [4:05:02<13:03:49,  1.26s/it] 24%|██▎       | 11523/48845 [4:05:04<13:04:21,  1.26s/it] 24%|██▎       | 11524/48845 [4:05:05<13:04:17,  1.26s/it] 24%|██▎       | 11525/48845 [4:05:06<13:03:25,  1.26s/it]                                                          {'loss': 1.9627, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11525/48845 [4:05:06<13:03:25,  1.26s/it] 24%|██▎       | 11526/48845 [4:05:08<13:03:09,  1.26s/it] 24%|██▎       | 11527/48845 [4:05:09<13:03:19,  1.26s/it] 24%|██▎       | 11528/48845 [4:05:10<13:03:12,  1.26s/it] 24%|██▎       | 11529/48845 [4:05:11<13:02:53,  1.26s/it] 24%|██▎       | 11530/48845 [4:05:13<13:02:56,  1.26s/it]                                                          {'loss': 1.9309, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11530/48845 [4:05:13<13:02:56,  1.26s/it] 24%|██▎       | 11531/48845 [4:05:14<13:03:00,  1.26s/it] 24%|██▎       | 11532/48845 [4:05:15<13:03:38,  1.26s/it] 24%|██▎       | 11533/48845 [4:05:16<13:03:34,  1.26s/it] 24%|██▎       | 11534/48845 [4:05:18<13:03:14,  1.26s/it] 24%|██▎       | 11535/48845 [4:05:19<13:03:01,  1.26s/it]                                                          {'loss': 1.8359, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11535/48845 [4:05:19<13:03:01,  1.26s/it] 24%|██▎       | 11536/48845 [4:05:20<13:02:49,  1.26s/it] 24%|██▎       | 11537/48845 [4:05:21<13:15:16,  1.28s/it] 24%|██▎       | 11538/48845 [4:05:23<13:12:01,  1.27s/it] 24%|██▎       | 11539/48845 [4:05:24<13:08:47,  1.27s/it] 24%|██▎       | 11540/48845 [4:05:25<13:06:56,  1.27s/it]                                                          {'loss': 1.95, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11540/48845 [4:05:25<13:06:56,  1.27s/it] 24%|██▎       | 11541/48845 [4:05:26<13:06:49,  1.27s/it] 24%|██▎       | 11542/48845 [4:05:28<13:05:15,  1.26s/it] 24%|██▎       | 11543/48845 [4:05:29<13:05:05,  1.26s/it] 24%|██▎       | 11544/48845 [4:05:30<13:03:43,  1.26s/it] 24%|██▎       | 11545/48845 [4:05:32<13:04:16,  1.26s/it]                                                          {'loss': 1.9812, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11545/48845 [4:05:32<13:04:16,  1.26s/it] 24%|██▎       | 11546/48845 [4:05:33<13:04:21,  1.26s/it] 24%|██▎       | 11547/48845 [4:05:34<13:03:42,  1.26s/it] 24%|██▎       | 11548/48845 [4:05:35<13:03:40,  1.26s/it] 24%|██▎       | 11549/48845 [4:05:37<13:03:49,  1.26s/it] 24%|██▎       | 11550/48845 [4:05:38<13:03:31,  1.26s/it]                                                          {'loss': 1.8647, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11550/48845 [4:05:38<13:03:31,  1.26s/it] 24%|██▎       | 11551/48845 [4:05:39<13:03:12,  1.26s/it] 24%|██▎       | 11552/48845 [4:05:40<13:02:40,  1.26s/it] 24%|██▎       | 11553/48845 [4:05:42<13:21:47,  1.29s/it] 24%|██▎       | 11554/48845 [4:05:43<13:15:29,  1.28s/it] 24%|██▎       | 11555/48845 [4:05:44<13:11:40,  1.27s/it]                                                          {'loss': 1.8276, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11555/48845 [4:05:44<13:11:40,  1.27s/it] 24%|██▎       | 11556/48845 [4:05:45<13:08:25,  1.27s/it] 24%|██▎       | 11557/48845 [4:05:47<13:06:26,  1.27s/it] 24%|██▎       | 11558/48845 [4:05:48<13:05:15,  1.26s/it] 24%|██▎       | 11559/48845 [4:05:49<13:06:24,  1.27s/it] 24%|██▎       | 11560/48845 [4:05:51<13:04:50,  1.26s/it]                                                          {'loss': 1.9147, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11560/48845 [4:05:51<13:04:50,  1.26s/it] 24%|██▎       | 11561/48845 [4:05:52<13:06:19,  1.27s/it] 24%|██▎       | 11562/48845 [4:05:53<13:05:54,  1.26s/it] 24%|██▎       | 11563/48845 [4:05:54<13:04:26,  1.26s/it] 24%|██▎       | 11564/48845 [4:05:56<13:05:09,  1.26s/it] 24%|██▎       | 11565/48845 [4:05:57<13:07:13,  1.27s/it]                                                          {'loss': 1.9631, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11565/48845 [4:05:57<13:07:13,  1.27s/it] 24%|██▎       | 11566/48845 [4:05:58<13:06:13,  1.27s/it] 24%|██▎       | 11567/48845 [4:05:59<13:05:30,  1.26s/it] 24%|██▎       | 11568/48845 [4:06:01<13:04:20,  1.26s/it] 24%|██▎       | 11569/48845 [4:06:02<13:03:46,  1.26s/it] 24%|██▎       | 11570/48845 [4:06:03<13:02:49,  1.26s/it]                                                          {'loss': 2.0858, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11570/48845 [4:06:03<13:02:49,  1.26s/it] 24%|██▎       | 11571/48845 [4:06:04<13:03:29,  1.26s/it] 24%|██▎       | 11572/48845 [4:06:06<13:04:05,  1.26s/it] 24%|██▎       | 11573/48845 [4:06:07<13:03:23,  1.26s/it] 24%|██▎       | 11574/48845 [4:06:08<13:03:11,  1.26s/it] 24%|██▎       | 11575/48845 [4:06:09<13:02:41,  1.26s/it]                                                          {'loss': 1.9191, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.18}
+ 24%|██▎       | 11575/48845 [4:06:09<13:02:41,  1.26s/it] 24%|██▎       | 11576/48845 [4:06:11<13:02:48,  1.26s/it] 24%|██▎       | 11577/48845 [4:06:12<13:03:11,  1.26s/it] 24%|██▎       | 11578/48845 [4:06:13<13:03:14,  1.26s/it] 24%|██▎       | 11579/48845 [4:06:15<13:02:59,  1.26s/it] 24%|██▎       | 11580/48845 [4:06:16<13:03:28,  1.26s/it]                                                          {'loss': 1.9436, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▎       | 11580/48845 [4:06:16<13:03:28,  1.26s/it] 24%|██▎       | 11581/48845 [4:06:17<13:03:18,  1.26s/it] 24%|██▎       | 11582/48845 [4:06:18<13:03:30,  1.26s/it] 24%|██▎       | 11583/48845 [4:06:20<13:02:35,  1.26s/it] 24%|██▎       | 11584/48845 [4:06:21<13:02:14,  1.26s/it] 24%|██▎       | 11585/48845 [4:06:22<13:02:49,  1.26s/it]                                                          {'loss': 1.9877, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▎       | 11585/48845 [4:06:22<13:02:49,  1.26s/it] 24%|██▎       | 11586/48845 [4:06:23<13:03:03,  1.26s/it] 24%|██▎       | 11587/48845 [4:06:25<13:02:50,  1.26s/it] 24%|██▎       | 11588/48845 [4:06:26<13:03:02,  1.26s/it] 24%|██▎       | 11589/48845 [4:06:27<13:02:32,  1.26s/it] 24%|██▎       | 11590/48845 [4:06:28<13:03:14,  1.26s/it]                                                          {'loss': 1.9412, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▎       | 11590/48845 [4:06:28<13:03:14,  1.26s/it] 24%|██▎       | 11591/48845 [4:06:30<13:02:41,  1.26s/it] 24%|██▎       | 11592/48845 [4:06:31<13:02:53,  1.26s/it] 24%|██▎       | 11593/48845 [4:06:32<13:02:43,  1.26s/it] 24%|██▎       | 11594/48845 [4:06:33<13:02:14,  1.26s/it] 24%|██▎       | 11595/48845 [4:06:35<13:02:13,  1.26s/it]                                                          {'loss': 1.9385, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▎       | 11595/48845 [4:06:35<13:02:13,  1.26s/it] 24%|██▎       | 11596/48845 [4:06:36<13:03:34,  1.26s/it] 24%|██▎       | 11597/48845 [4:06:37<13:02:54,  1.26s/it] 24%|██▎       | 11598/48845 [4:06:38<13:03:01,  1.26s/it] 24%|██▎       | 11599/48845 [4:06:40<13:02:19,  1.26s/it] 24%|██▎       | 11600/48845 [4:06:41<13:02:17,  1.26s/it]                                                          {'loss': 1.8859, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▎       | 11600/48845 [4:06:41<13:02:17,  1.26s/it] 24%|██▍       | 11601/48845 [4:06:45<20:31:25,  1.98s/it] 24%|██▍       | 11602/48845 [4:06:46<18:16:05,  1.77s/it] 24%|██▍       | 11603/48845 [4:06:47<16:41:25,  1.61s/it] 24%|██▍       | 11604/48845 [4:06:48<15:36:36,  1.51s/it] 24%|██▍       | 11605/48845 [4:06:50<14:50:17,  1.43s/it]                                                          {'loss': 1.7357, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11605/48845 [4:06:50<14:50:17,  1.43s/it] 24%|██▍       | 11606/48845 [4:06:51<14:18:35,  1.38s/it] 24%|██▍       | 11607/48845 [4:06:52<13:55:02,  1.35s/it] 24%|██▍       | 11608/48845 [4:06:53<13:39:10,  1.32s/it] 24%|██▍       | 11609/48845 [4:06:55<13:28:00,  1.30s/it] 24%|██▍       | 11610/48845 [4:06:56<13:19:45,  1.29s/it]                                                          {'loss': 1.8975, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11610/48845 [4:06:56<13:19:45,  1.29s/it] 24%|██▍       | 11611/48845 [4:06:57<13:15:01,  1.28s/it] 24%|██▍       | 11612/48845 [4:06:59<13:11:41,  1.28s/it] 24%|██▍       | 11613/48845 [4:07:00<13:08:32,  1.27s/it] 24%|██▍       | 11614/48845 [4:07:01<13:06:27,  1.27s/it] 24%|██▍       | 11615/48845 [4:07:02<13:04:55,  1.26s/it]                                                          {'loss': 2.0192, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11615/48845 [4:07:02<13:04:55,  1.26s/it] 24%|██▍       | 11616/48845 [4:07:04<13:04:20,  1.26s/it] 24%|██▍       | 11617/48845 [4:07:05<13:02:41,  1.26s/it] 24%|██▍       | 11618/48845 [4:07:06<13:02:18,  1.26s/it] 24%|██▍       | 11619/48845 [4:07:07<13:01:46,  1.26s/it] 24%|██▍       | 11620/48845 [4:07:09<13:01:24,  1.26s/it]                                                          {'loss': 1.8549, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11620/48845 [4:07:09<13:01:24,  1.26s/it] 24%|██▍       | 11621/48845 [4:07:10<13:02:58,  1.26s/it] 24%|██▍       | 11622/48845 [4:07:11<13:02:30,  1.26s/it] 24%|██▍       | 11623/48845 [4:07:12<13:01:59,  1.26s/it] 24%|██▍       | 11624/48845 [4:07:14<13:01:07,  1.26s/it] 24%|██▍       | 11625/48845 [4:07:15<13:01:16,  1.26s/it]                                                          {'loss': 1.8866, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11625/48845 [4:07:15<13:01:16,  1.26s/it] 24%|██▍       | 11626/48845 [4:07:16<13:02:15,  1.26s/it] 24%|██▍       | 11627/48845 [4:07:17<13:01:29,  1.26s/it] 24%|██▍       | 11628/48845 [4:07:19<13:01:12,  1.26s/it] 24%|██▍       | 11629/48845 [4:07:20<13:00:36,  1.26s/it] 24%|██▍       | 11630/48845 [4:07:21<13:00:35,  1.26s/it]                                                          {'loss': 1.9084, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11630/48845 [4:07:21<13:00:35,  1.26s/it] 24%|██▍       | 11631/48845 [4:07:22<13:01:29,  1.26s/it] 24%|██▍       | 11632/48845 [4:07:24<13:00:51,  1.26s/it] 24%|██▍       | 11633/48845 [4:07:25<13:00:17,  1.26s/it] 24%|██▍       | 11634/48845 [4:07:26<13:00:49,  1.26s/it] 24%|██▍       | 11635/48845 [4:07:27<13:00:40,  1.26s/it]                                                          {'loss': 1.8687, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11635/48845 [4:07:27<13:00:40,  1.26s/it] 24%|██▍       | 11636/48845 [4:07:29<13:01:21,  1.26s/it] 24%|██▍       | 11637/48845 [4:07:30<13:00:45,  1.26s/it] 24%|██▍       | 11638/48845 [4:07:31<13:00:39,  1.26s/it] 24%|██▍       | 11639/48845 [4:07:33<12:59:58,  1.26s/it] 24%|██▍       | 11640/48845 [4:07:34<13:00:12,  1.26s/it]                                                          {'loss': 1.8389, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11640/48845 [4:07:34<13:00:12,  1.26s/it] 24%|██▍       | 11641/48845 [4:07:35<13:01:41,  1.26s/it] 24%|██▍       | 11642/48845 [4:07:36<13:01:33,  1.26s/it] 24%|██▍       | 11643/48845 [4:07:38<13:01:21,  1.26s/it] 24%|██▍       | 11644/48845 [4:07:39<13:00:49,  1.26s/it] 24%|██▍       | 11645/48845 [4:07:40<13:00:34,  1.26s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11645/48845 [4:07:40<13:00:34,  1.26s/it] 24%|██▍       | 11646/48845 [4:07:41<13:01:16,  1.26s/it] 24%|██▍       | 11647/48845 [4:07:43<13:00:52,  1.26s/it] 24%|██▍       | 11648/48845 [4:07:44<13:01:08,  1.26s/it] 24%|██▍       | 11649/48845 [4:07:45<13:00:53,  1.26s/it] 24%|██▍       | 11650/48845 [4:07:46<13:01:31,  1.26s/it]                                                          {'loss': 1.883, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11650/48845 [4:07:46<13:01:31,  1.26s/it] 24%|██▍       | 11651/48845 [4:07:48<13:01:10,  1.26s/it] 24%|██▍       | 11652/48845 [4:07:49<13:01:12,  1.26s/it] 24%|██▍       | 11653/48845 [4:07:50<13:00:39,  1.26s/it] 24%|██▍       | 11654/48845 [4:07:51<13:00:46,  1.26s/it] 24%|██▍       | 11655/48845 [4:07:53<13:00:29,  1.26s/it]                                                          {'loss': 1.9015, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11655/48845 [4:07:53<13:00:29,  1.26s/it] 24%|██▍       | 11656/48845 [4:07:54<13:00:42,  1.26s/it] 24%|██▍       | 11657/48845 [4:07:55<13:00:38,  1.26s/it] 24%|██▍       | 11658/48845 [4:07:56<13:01:19,  1.26s/it] 24%|██▍       | 11659/48845 [4:07:58<13:00:42,  1.26s/it] 24%|██▍       | 11660/48845 [4:07:59<13:00:15,  1.26s/it]                                                          {'loss': 2.0445, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11660/48845 [4:07:59<13:00:15,  1.26s/it] 24%|██▍       | 11661/48845 [4:08:00<13:00:51,  1.26s/it] 24%|██▍       | 11662/48845 [4:08:01<13:00:29,  1.26s/it] 24%|██▍       | 11663/48845 [4:08:03<13:00:22,  1.26s/it] 24%|██▍       | 11664/48845 [4:08:04<13:00:19,  1.26s/it] 24%|██▍       | 11665/48845 [4:08:05<13:00:12,  1.26s/it]                                                          {'loss': 1.8135, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11665/48845 [4:08:05<13:00:12,  1.26s/it] 24%|██▍       | 11666/48845 [4:08:07<13:00:28,  1.26s/it] 24%|██▍       | 11667/48845 [4:08:08<13:00:25,  1.26s/it] 24%|██▍       | 11668/48845 [4:08:09<13:00:49,  1.26s/it] 24%|██▍       | 11669/48845 [4:08:10<13:00:34,  1.26s/it] 24%|██▍       | 11670/48845 [4:08:12<13:00:27,  1.26s/it]                                                          {'loss': 2.0892, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.19}
+ 24%|██▍       | 11670/48845 [4:08:12<13:00:27,  1.26s/it] 24%|██▍       | 11671/48845 [4:08:13<13:00:32,  1.26s/it] 24%|██▍       | 11672/48845 [4:08:14<13:00:26,  1.26s/it] 24%|██▍       | 11673/48845 [4:08:15<13:00:22,  1.26s/it] 24%|██▍       | 11674/48845 [4:08:17<12:59:34,  1.26s/it] 24%|██▍       | 11675/48845 [4:08:18<12:59:37,  1.26s/it]                                                          {'loss': 1.9286, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11675/48845 [4:08:18<12:59:37,  1.26s/it] 24%|██▍       | 11676/48845 [4:08:19<13:00:24,  1.26s/it] 24%|██▍       | 11677/48845 [4:08:20<12:59:54,  1.26s/it] 24%|██▍       | 11678/48845 [4:08:22<13:00:00,  1.26s/it] 24%|██▍       | 11679/48845 [4:08:23<13:00:06,  1.26s/it] 24%|██▍       | 11680/48845 [4:08:24<13:00:17,  1.26s/it]                                                          {'loss': 2.0162, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11680/48845 [4:08:24<13:00:17,  1.26s/it] 24%|██▍       | 11681/48845 [4:08:25<13:00:53,  1.26s/it] 24%|██▍       | 11682/48845 [4:08:27<13:00:25,  1.26s/it] 24%|██▍       | 11683/48845 [4:08:28<13:00:05,  1.26s/it] 24%|██▍       | 11684/48845 [4:08:29<12:59:53,  1.26s/it] 24%|██▍       | 11685/48845 [4:08:30<12:59:44,  1.26s/it]                                                          {'loss': 1.8393, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11685/48845 [4:08:30<12:59:44,  1.26s/it] 24%|██▍       | 11686/48845 [4:08:32<12:59:57,  1.26s/it] 24%|██▍       | 11687/48845 [4:08:33<12:59:49,  1.26s/it] 24%|██▍       | 11688/48845 [4:08:34<12:59:38,  1.26s/it] 24%|██▍       | 11689/48845 [4:08:35<12:59:23,  1.26s/it] 24%|██▍       | 11690/48845 [4:08:37<13:00:04,  1.26s/it]                                                          {'loss': 1.9632, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11690/48845 [4:08:37<13:00:04,  1.26s/it] 24%|██▍       | 11691/48845 [4:08:38<13:00:41,  1.26s/it] 24%|██▍       | 11692/48845 [4:08:39<13:00:09,  1.26s/it] 24%|██▍       | 11693/48845 [4:08:41<13:00:32,  1.26s/it] 24%|██▍       | 11694/48845 [4:08:42<13:00:14,  1.26s/it] 24%|██▍       | 11695/48845 [4:08:43<13:00:08,  1.26s/it]                                                          {'loss': 1.977, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11695/48845 [4:08:43<13:00:08,  1.26s/it] 24%|██▍       | 11696/48845 [4:08:44<13:00:41,  1.26s/it] 24%|██▍       | 11697/48845 [4:08:46<12:59:57,  1.26s/it] 24%|██▍       | 11698/48845 [4:08:47<13:00:18,  1.26s/it] 24%|██▍       | 11699/48845 [4:08:48<12:59:31,  1.26s/it] 24%|██▍       | 11700/48845 [4:08:49<12:59:30,  1.26s/it]                                                          {'loss': 2.0877, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11700/48845 [4:08:49<12:59:30,  1.26s/it] 24%|██▍       | 11701/48845 [4:08:51<13:00:10,  1.26s/it] 24%|██▍       | 11702/48845 [4:08:52<12:59:39,  1.26s/it] 24%|██▍       | 11703/48845 [4:08:53<12:59:43,  1.26s/it] 24%|██▍       | 11704/48845 [4:08:54<12:59:23,  1.26s/it] 24%|██▍       | 11705/48845 [4:08:56<13:01:01,  1.26s/it]                                                          {'loss': 1.9859, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11705/48845 [4:08:56<13:01:01,  1.26s/it] 24%|██▍       | 11706/48845 [4:08:57<13:01:07,  1.26s/it] 24%|██▍       | 11707/48845 [4:08:58<12:59:49,  1.26s/it] 24%|██▍       | 11708/48845 [4:08:59<12:59:46,  1.26s/it] 24%|██▍       | 11709/48845 [4:09:01<12:59:06,  1.26s/it] 24%|██▍       | 11710/48845 [4:09:02<12:59:10,  1.26s/it]                                                          {'loss': 1.9647, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11710/48845 [4:09:02<12:59:10,  1.26s/it] 24%|██▍       | 11711/48845 [4:09:03<12:59:59,  1.26s/it] 24%|██▍       | 11712/48845 [4:09:04<12:59:19,  1.26s/it] 24%|██▍       | 11713/48845 [4:09:06<13:02:23,  1.26s/it] 24%|██▍       | 11714/48845 [4:09:07<13:01:55,  1.26s/it] 24%|██▍       | 11715/48845 [4:09:08<13:00:12,  1.26s/it]                                                          {'loss': 1.7367, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11715/48845 [4:09:08<13:00:12,  1.26s/it] 24%|██▍       | 11716/48845 [4:09:10<13:00:18,  1.26s/it] 24%|██▍       | 11717/48845 [4:09:11<12:59:46,  1.26s/it] 24%|██▍       | 11718/48845 [4:09:12<13:00:08,  1.26s/it] 24%|██▍       | 11719/48845 [4:09:13<13:00:12,  1.26s/it] 24%|██▍       | 11720/48845 [4:09:15<12:59:42,  1.26s/it]                                                          {'loss': 1.92, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11720/48845 [4:09:15<12:59:42,  1.26s/it] 24%|██▍       | 11721/48845 [4:09:16<12:59:45,  1.26s/it] 24%|██▍       | 11722/48845 [4:09:17<12:59:55,  1.26s/it] 24%|██▍       | 11723/48845 [4:09:18<12:59:37,  1.26s/it] 24%|██▍       | 11724/48845 [4:09:20<13:00:12,  1.26s/it] 24%|██▍       | 11725/48845 [4:09:21<12:59:45,  1.26s/it]                                                          {'loss': 1.8465, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11725/48845 [4:09:21<12:59:45,  1.26s/it] 24%|██▍       | 11726/48845 [4:09:22<12:59:53,  1.26s/it] 24%|██▍       | 11727/48845 [4:09:23<13:00:15,  1.26s/it] 24%|██▍       | 11728/48845 [4:09:25<12:59:15,  1.26s/it] 24%|██▍       | 11729/48845 [4:09:26<12:59:59,  1.26s/it] 24%|██▍       | 11730/48845 [4:09:27<12:59:33,  1.26s/it]                                                          {'loss': 1.8989, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11730/48845 [4:09:27<12:59:33,  1.26s/it] 24%|██▍       | 11731/48845 [4:09:28<12:59:16,  1.26s/it] 24%|██▍       | 11732/48845 [4:09:30<12:59:45,  1.26s/it] 24%|██▍       | 11733/48845 [4:09:31<12:59:59,  1.26s/it] 24%|██▍       | 11734/48845 [4:09:32<13:00:03,  1.26s/it] 24%|██▍       | 11735/48845 [4:09:33<12:59:39,  1.26s/it]                                                          {'loss': 1.7303, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11735/48845 [4:09:33<12:59:39,  1.26s/it] 24%|██▍       | 11736/48845 [4:09:35<12:59:51,  1.26s/it] 24%|██▍       | 11737/48845 [4:09:36<13:00:08,  1.26s/it] 24%|██▍       | 11738/48845 [4:09:37<13:00:04,  1.26s/it] 24%|██▍       | 11739/48845 [4:09:39<12:59:24,  1.26s/it] 24%|██▍       | 11740/48845 [4:09:40<12:59:54,  1.26s/it]                                                          {'loss': 1.8828, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11740/48845 [4:09:40<12:59:54,  1.26s/it] 24%|██▍       | 11741/48845 [4:09:41<12:59:38,  1.26s/it] 24%|██▍       | 11742/48845 [4:09:42<12:59:36,  1.26s/it] 24%|██▍       | 11743/48845 [4:09:44<12:59:41,  1.26s/it] 24%|██▍       | 11744/48845 [4:09:45<13:29:24,  1.31s/it] 24%|██▍       | 11745/48845 [4:09:46<13:22:35,  1.30s/it]                                                          {'loss': 1.9149, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11745/48845 [4:09:46<13:22:35,  1.30s/it] 24%|██▍       | 11746/48845 [4:09:48<13:15:53,  1.29s/it] 24%|██▍       | 11747/48845 [4:09:49<13:10:23,  1.28s/it] 24%|██▍       | 11748/48845 [4:09:50<13:06:54,  1.27s/it] 24%|██▍       | 11749/48845 [4:09:51<13:04:32,  1.27s/it] 24%|██▍       | 11750/48845 [4:09:53<13:02:27,  1.27s/it]                                                          {'loss': 1.8513, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11750/48845 [4:09:53<13:02:27,  1.27s/it] 24%|██▍       | 11751/48845 [4:09:54<13:01:08,  1.26s/it] 24%|██▍       | 11752/48845 [4:09:55<12:59:45,  1.26s/it] 24%|██▍       | 11753/48845 [4:09:56<13:00:10,  1.26s/it] 24%|██▍       | 11754/48845 [4:09:58<13:00:07,  1.26s/it] 24%|██▍       | 11755/48845 [4:09:59<12:59:21,  1.26s/it]                                                          {'loss': 2.0029, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11755/48845 [4:09:59<12:59:21,  1.26s/it] 24%|██▍       | 11756/48845 [4:10:00<12:59:13,  1.26s/it] 24%|██▍       | 11757/48845 [4:10:01<12:58:55,  1.26s/it] 24%|██▍       | 11758/48845 [4:10:03<12:58:25,  1.26s/it] 24%|██▍       | 11759/48845 [4:10:04<12:58:41,  1.26s/it] 24%|██▍       | 11760/48845 [4:10:05<12:58:30,  1.26s/it]                                                          {'loss': 1.8852, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11760/48845 [4:10:05<12:58:30,  1.26s/it] 24%|██▍       | 11761/48845 [4:10:06<12:58:43,  1.26s/it] 24%|██▍       | 11762/48845 [4:10:08<12:57:58,  1.26s/it] 24%|██▍       | 11763/48845 [4:10:09<12:58:14,  1.26s/it] 24%|██▍       | 11764/48845 [4:10:10<12:58:40,  1.26s/it] 24%|██▍       | 11765/48845 [4:10:11<12:57:59,  1.26s/it]                                                          {'loss': 2.1685, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11765/48845 [4:10:11<12:57:59,  1.26s/it] 24%|██▍       | 11766/48845 [4:10:13<12:58:36,  1.26s/it] 24%|██▍       | 11767/48845 [4:10:14<12:57:59,  1.26s/it] 24%|██▍       | 11768/48845 [4:10:15<12:57:31,  1.26s/it] 24%|██▍       | 11769/48845 [4:10:16<12:57:39,  1.26s/it] 24%|██▍       | 11770/48845 [4:10:18<12:58:34,  1.26s/it]                                                          {'loss': 2.0092, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.2}
+ 24%|██▍       | 11770/48845 [4:10:18<12:58:34,  1.26s/it] 24%|██▍       | 11771/48845 [4:10:19<12:59:05,  1.26s/it] 24%|██▍       | 11772/48845 [4:10:20<12:58:27,  1.26s/it] 24%|██▍       | 11773/48845 [4:10:22<12:58:32,  1.26s/it] 24%|██▍       | 11774/48845 [4:10:23<12:58:16,  1.26s/it] 24%|██▍       | 11775/48845 [4:10:24<12:58:18,  1.26s/it]                                                          {'loss': 2.0205, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11775/48845 [4:10:24<12:58:18,  1.26s/it] 24%|██▍       | 11776/48845 [4:10:25<12:58:48,  1.26s/it] 24%|██▍       | 11777/48845 [4:10:27<12:58:27,  1.26s/it] 24%|██▍       | 11778/48845 [4:10:28<12:58:14,  1.26s/it] 24%|██▍       | 11779/48845 [4:10:29<12:58:45,  1.26s/it] 24%|██▍       | 11780/48845 [4:10:30<12:58:12,  1.26s/it]                                                          {'loss': 1.8499, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11780/48845 [4:10:30<12:58:12,  1.26s/it] 24%|██▍       | 11781/48845 [4:10:32<12:57:38,  1.26s/it] 24%|██▍       | 11782/48845 [4:10:33<12:57:15,  1.26s/it] 24%|██▍       | 11783/48845 [4:10:34<12:57:02,  1.26s/it] 24%|██▍       | 11784/48845 [4:10:35<12:57:04,  1.26s/it] 24%|██▍       | 11785/48845 [4:10:37<12:57:04,  1.26s/it]                                                          {'loss': 1.8928, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11785/48845 [4:10:37<12:57:04,  1.26s/it] 24%|██▍       | 11786/48845 [4:10:38<12:57:27,  1.26s/it] 24%|██▍       | 11787/48845 [4:10:39<12:57:36,  1.26s/it] 24%|██▍       | 11788/48845 [4:10:40<12:58:34,  1.26s/it] 24%|██▍       | 11789/48845 [4:10:42<13:01:19,  1.27s/it] 24%|██▍       | 11790/48845 [4:10:43<13:00:40,  1.26s/it]                                                          {'loss': 1.9852, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11790/48845 [4:10:43<13:00:40,  1.26s/it] 24%|██▍       | 11791/48845 [4:10:44<13:00:21,  1.26s/it] 24%|██▍       | 11792/48845 [4:10:45<13:00:12,  1.26s/it] 24%|██▍       | 11793/48845 [4:10:47<12:58:42,  1.26s/it] 24%|██▍       | 11794/48845 [4:10:48<12:58:43,  1.26s/it] 24%|██▍       | 11795/48845 [4:10:49<12:58:14,  1.26s/it]                                                          {'loss': 1.9279, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11795/48845 [4:10:49<12:58:14,  1.26s/it] 24%|██▍       | 11796/48845 [4:10:51<12:58:02,  1.26s/it] 24%|██▍       | 11797/48845 [4:10:52<12:58:07,  1.26s/it] 24%|██▍       | 11798/48845 [4:10:53<12:58:06,  1.26s/it] 24%|██▍       | 11799/48845 [4:10:54<12:58:29,  1.26s/it] 24%|██▍       | 11800/48845 [4:10:56<12:58:01,  1.26s/it]                                                          {'loss': 1.8568, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11800/48845 [4:10:56<12:58:01,  1.26s/it] 24%|██▍       | 11801/48845 [4:10:59<20:22:22,  1.98s/it] 24%|██▍       | 11802/48845 [4:11:00<18:09:13,  1.76s/it] 24%|██▍       | 11803/48845 [4:11:02<16:35:12,  1.61s/it] 24%|██▍       | 11804/48845 [4:11:03<15:28:47,  1.50s/it] 24%|██▍       | 11805/48845 [4:11:04<15:22:05,  1.49s/it]                                                          {'loss': 1.9285, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11805/48845 [4:11:04<15:22:05,  1.49s/it] 24%|██▍       | 11806/48845 [4:11:06<14:38:49,  1.42s/it] 24%|██▍       | 11807/48845 [4:11:07<14:07:33,  1.37s/it] 24%|██▍       | 11808/48845 [4:11:08<13:45:53,  1.34s/it] 24%|██▍       | 11809/48845 [4:11:09<13:31:12,  1.31s/it] 24%|██▍       | 11810/48845 [4:11:11<13:20:34,  1.30s/it]                                                          {'loss': 1.9765, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11810/48845 [4:11:11<13:20:34,  1.30s/it] 24%|██▍       | 11811/48845 [4:11:12<13:13:59,  1.29s/it] 24%|██▍       | 11812/48845 [4:11:13<13:09:14,  1.28s/it] 24%|██▍       | 11813/48845 [4:11:15<13:05:19,  1.27s/it] 24%|██▍       | 11814/48845 [4:11:16<13:02:44,  1.27s/it] 24%|██▍       | 11815/48845 [4:11:17<13:01:14,  1.27s/it]                                                          {'loss': 1.9187, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11815/48845 [4:11:17<13:01:14,  1.27s/it] 24%|██▍       | 11816/48845 [4:11:18<12:59:37,  1.26s/it] 24%|██▍       | 11817/48845 [4:11:20<12:57:56,  1.26s/it] 24%|██▍       | 11818/48845 [4:11:21<12:58:30,  1.26s/it] 24%|██▍       | 11819/48845 [4:11:22<12:58:25,  1.26s/it] 24%|██▍       | 11820/48845 [4:11:23<12:57:29,  1.26s/it]                                                          {'loss': 1.8932, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11820/48845 [4:11:23<12:57:29,  1.26s/it] 24%|██▍       | 11821/48845 [4:11:25<12:57:26,  1.26s/it] 24%|██▍       | 11822/48845 [4:11:26<12:56:40,  1.26s/it] 24%|██▍       | 11823/48845 [4:11:27<12:56:24,  1.26s/it] 24%|██▍       | 11824/48845 [4:11:28<12:56:21,  1.26s/it] 24%|██▍       | 11825/48845 [4:11:30<12:56:05,  1.26s/it]                                                          {'loss': 1.902, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11825/48845 [4:11:30<12:56:05,  1.26s/it] 24%|██▍       | 11826/48845 [4:11:31<12:56:53,  1.26s/it] 24%|██▍       | 11827/48845 [4:11:32<12:55:54,  1.26s/it] 24%|██▍       | 11828/48845 [4:11:33<12:55:23,  1.26s/it] 24%|██▍       | 11829/48845 [4:11:35<12:54:30,  1.26s/it] 24%|██▍       | 11830/48845 [4:11:36<12:55:01,  1.26s/it]                                                          {'loss': 2.049, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11830/48845 [4:11:36<12:55:01,  1.26s/it] 24%|██▍       | 11831/48845 [4:11:37<12:56:01,  1.26s/it] 24%|██▍       | 11832/48845 [4:11:38<12:55:35,  1.26s/it] 24%|██▍       | 11833/48845 [4:11:40<12:55:34,  1.26s/it] 24%|██▍       | 11834/48845 [4:11:41<12:56:20,  1.26s/it] 24%|██▍       | 11835/48845 [4:11:42<12:56:20,  1.26s/it]                                                          {'loss': 1.8416, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11835/48845 [4:11:42<12:56:20,  1.26s/it] 24%|██▍       | 11836/48845 [4:11:43<12:57:28,  1.26s/it] 24%|██▍       | 11837/48845 [4:11:45<12:57:25,  1.26s/it] 24%|██▍       | 11838/48845 [4:11:46<12:57:19,  1.26s/it] 24%|██▍       | 11839/48845 [4:11:47<12:56:48,  1.26s/it] 24%|██▍       | 11840/48845 [4:11:49<12:56:33,  1.26s/it]                                                          {'loss': 1.8312, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11840/48845 [4:11:49<12:56:33,  1.26s/it] 24%|██▍       | 11841/48845 [4:11:50<12:57:41,  1.26s/it] 24%|██▍       | 11842/48845 [4:11:51<12:56:26,  1.26s/it] 24%|██▍       | 11843/48845 [4:11:52<12:56:44,  1.26s/it] 24%|██▍       | 11844/48845 [4:11:54<12:56:27,  1.26s/it] 24%|██▍       | 11845/48845 [4:11:55<12:55:56,  1.26s/it]                                                          {'loss': 1.993, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11845/48845 [4:11:55<12:55:56,  1.26s/it] 24%|██▍       | 11846/48845 [4:11:56<12:56:59,  1.26s/it] 24%|██▍       | 11847/48845 [4:11:57<12:58:12,  1.26s/it] 24%|██▍       | 11848/48845 [4:11:59<12:58:05,  1.26s/it] 24%|██▍       | 11849/48845 [4:12:00<12:57:35,  1.26s/it] 24%|██▍       | 11850/48845 [4:12:01<12:57:17,  1.26s/it]                                                          {'loss': 1.7868, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11850/48845 [4:12:01<12:57:17,  1.26s/it] 24%|██▍       | 11851/48845 [4:12:02<12:57:05,  1.26s/it] 24%|██▍       | 11852/48845 [4:12:04<12:56:06,  1.26s/it] 24%|██▍       | 11853/48845 [4:12:05<12:56:26,  1.26s/it] 24%|██▍       | 11854/48845 [4:12:06<12:59:25,  1.26s/it] 24%|██▍       | 11855/48845 [4:12:07<12:58:51,  1.26s/it]                                                          {'loss': 1.8995, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11855/48845 [4:12:07<12:58:51,  1.26s/it] 24%|██▍       | 11856/48845 [4:12:09<12:58:34,  1.26s/it] 24%|██▍       | 11857/48845 [4:12:10<12:58:51,  1.26s/it] 24%|██▍       | 11858/48845 [4:12:11<12:58:32,  1.26s/it] 24%|██▍       | 11859/48845 [4:12:12<12:57:37,  1.26s/it] 24%|██▍       | 11860/48845 [4:12:14<12:57:07,  1.26s/it]                                                          {'loss': 1.995, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11860/48845 [4:12:14<12:57:07,  1.26s/it] 24%|██▍       | 11861/48845 [4:12:15<12:57:07,  1.26s/it] 24%|██▍       | 11862/48845 [4:12:16<12:57:11,  1.26s/it] 24%|██▍       | 11863/48845 [4:12:18<12:57:38,  1.26s/it] 24%|██▍       | 11864/48845 [4:12:19<12:57:45,  1.26s/it] 24%|██▍       | 11865/48845 [4:12:20<12:56:56,  1.26s/it]                                                          {'loss': 1.9708, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.21}
+ 24%|██▍       | 11865/48845 [4:12:20<12:56:56,  1.26s/it] 24%|██▍       | 11866/48845 [4:12:21<12:57:05,  1.26s/it] 24%|██▍       | 11867/48845 [4:12:23<12:57:38,  1.26s/it] 24%|██▍       | 11868/48845 [4:12:24<12:56:47,  1.26s/it] 24%|██▍       | 11869/48845 [4:12:25<12:56:10,  1.26s/it] 24%|██▍       | 11870/48845 [4:12:26<12:56:06,  1.26s/it]                                                          {'loss': 1.9679, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11870/48845 [4:12:26<12:56:06,  1.26s/it] 24%|██▍       | 11871/48845 [4:12:28<12:56:22,  1.26s/it] 24%|██▍       | 11872/48845 [4:12:29<12:56:24,  1.26s/it] 24%|██▍       | 11873/48845 [4:12:30<12:56:16,  1.26s/it] 24%|██▍       | 11874/48845 [4:12:31<12:56:38,  1.26s/it] 24%|██▍       | 11875/48845 [4:12:33<12:56:40,  1.26s/it]                                                          {'loss': 1.9451, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11875/48845 [4:12:33<12:56:40,  1.26s/it] 24%|██▍       | 11876/48845 [4:12:34<12:56:34,  1.26s/it] 24%|██▍       | 11877/48845 [4:12:35<12:57:17,  1.26s/it] 24%|██▍       | 11878/48845 [4:12:36<12:56:52,  1.26s/it] 24%|██▍       | 11879/48845 [4:12:38<12:56:35,  1.26s/it] 24%|██▍       | 11880/48845 [4:12:39<12:56:26,  1.26s/it]                                                          {'loss': 1.8396, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11880/48845 [4:12:39<12:56:26,  1.26s/it] 24%|██▍       | 11881/48845 [4:12:40<12:56:50,  1.26s/it] 24%|██▍       | 11882/48845 [4:12:41<12:56:57,  1.26s/it] 24%|██▍       | 11883/48845 [4:12:43<12:57:05,  1.26s/it] 24%|██▍       | 11884/48845 [4:12:44<12:56:28,  1.26s/it] 24%|██▍       | 11885/48845 [4:12:45<12:57:10,  1.26s/it]                                                          {'loss': 2.1377, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11885/48845 [4:12:45<12:57:10,  1.26s/it] 24%|██▍       | 11886/48845 [4:12:47<12:56:43,  1.26s/it] 24%|██▍       | 11887/48845 [4:12:48<12:56:25,  1.26s/it] 24%|██▍       | 11888/48845 [4:12:49<12:56:27,  1.26s/it] 24%|██▍       | 11889/48845 [4:12:50<12:56:32,  1.26s/it] 24%|██▍       | 11890/48845 [4:12:52<12:57:11,  1.26s/it]                                                          {'loss': 1.7447, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11890/48845 [4:12:52<12:57:11,  1.26s/it] 24%|██▍       | 11891/48845 [4:12:53<12:56:19,  1.26s/it] 24%|██▍       | 11892/48845 [4:12:54<12:57:07,  1.26s/it] 24%|██▍       | 11893/48845 [4:12:55<12:56:28,  1.26s/it] 24%|██▍       | 11894/48845 [4:12:57<12:55:53,  1.26s/it] 24%|██▍       | 11895/48845 [4:12:58<12:56:55,  1.26s/it]                                                          {'loss': 1.847, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11895/48845 [4:12:58<12:56:55,  1.26s/it] 24%|██▍       | 11896/48845 [4:12:59<12:56:47,  1.26s/it] 24%|██▍       | 11897/48845 [4:13:00<12:56:36,  1.26s/it] 24%|██▍       | 11898/48845 [4:13:02<12:56:42,  1.26s/it] 24%|██▍       | 11899/48845 [4:13:03<12:55:56,  1.26s/it] 24%|██▍       | 11900/48845 [4:13:04<12:55:34,  1.26s/it]                                                          {'loss': 2.085, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11900/48845 [4:13:04<12:55:34,  1.26s/it] 24%|██▍       | 11901/48845 [4:13:05<12:55:15,  1.26s/it] 24%|██▍       | 11902/48845 [4:13:07<12:55:18,  1.26s/it] 24%|██▍       | 11903/48845 [4:13:08<12:55:10,  1.26s/it] 24%|██▍       | 11904/48845 [4:13:09<12:56:01,  1.26s/it] 24%|██▍       | 11905/48845 [4:13:10<12:56:35,  1.26s/it]                                                          {'loss': 1.9262, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11905/48845 [4:13:10<12:56:35,  1.26s/it] 24%|██▍       | 11906/48845 [4:13:12<12:56:03,  1.26s/it] 24%|██▍       | 11907/48845 [4:13:13<12:55:31,  1.26s/it] 24%|██▍       | 11908/48845 [4:13:14<12:56:06,  1.26s/it] 24%|██▍       | 11909/48845 [4:13:15<12:55:41,  1.26s/it] 24%|██▍       | 11910/48845 [4:13:17<12:55:25,  1.26s/it]                                                          {'loss': 1.992, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11910/48845 [4:13:17<12:55:25,  1.26s/it] 24%|██▍       | 11911/48845 [4:13:18<12:55:24,  1.26s/it] 24%|██▍       | 11912/48845 [4:13:19<12:55:16,  1.26s/it] 24%|██▍       | 11913/48845 [4:13:21<12:55:53,  1.26s/it] 24%|██▍       | 11914/48845 [4:13:22<12:55:29,  1.26s/it] 24%|██▍       | 11915/48845 [4:13:23<12:56:48,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11915/48845 [4:13:23<12:56:48,  1.26s/it] 24%|██▍       | 11916/48845 [4:13:24<12:56:39,  1.26s/it] 24%|██▍       | 11917/48845 [4:13:26<12:55:08,  1.26s/it] 24%|██▍       | 11918/48845 [4:13:27<12:55:57,  1.26s/it] 24%|██▍       | 11919/48845 [4:13:28<12:54:41,  1.26s/it] 24%|██▍       | 11920/48845 [4:13:29<12:55:00,  1.26s/it]                                                          {'loss': 1.9474, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11920/48845 [4:13:29<12:55:00,  1.26s/it] 24%|██▍       | 11921/48845 [4:13:31<12:54:56,  1.26s/it] 24%|██▍       | 11922/48845 [4:13:32<12:54:50,  1.26s/it] 24%|██▍       | 11923/48845 [4:13:33<12:55:33,  1.26s/it] 24%|██▍       | 11924/48845 [4:13:34<12:54:46,  1.26s/it] 24%|██▍       | 11925/48845 [4:13:36<12:54:17,  1.26s/it]                                                          {'loss': 1.7835, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11925/48845 [4:13:36<12:54:17,  1.26s/it] 24%|██▍       | 11926/48845 [4:13:37<12:54:50,  1.26s/it] 24%|██▍       | 11927/48845 [4:13:38<12:55:28,  1.26s/it] 24%|██▍       | 11928/48845 [4:13:39<12:55:28,  1.26s/it] 24%|██▍       | 11929/48845 [4:13:41<12:54:52,  1.26s/it] 24%|██▍       | 11930/48845 [4:13:42<12:54:16,  1.26s/it]                                                          {'loss': 1.8603, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11930/48845 [4:13:42<12:54:16,  1.26s/it] 24%|██▍       | 11931/48845 [4:13:43<12:54:29,  1.26s/it] 24%|██▍       | 11932/48845 [4:13:44<12:54:32,  1.26s/it] 24%|██▍       | 11933/48845 [4:13:46<12:55:09,  1.26s/it] 24%|██▍       | 11934/48845 [4:13:47<12:54:25,  1.26s/it] 24%|██▍       | 11935/48845 [4:13:48<12:54:28,  1.26s/it]                                                          {'loss': 2.0386, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11935/48845 [4:13:48<12:54:28,  1.26s/it] 24%|██▍       | 11936/48845 [4:13:50<12:54:21,  1.26s/it] 24%|██▍       | 11937/48845 [4:13:51<12:54:15,  1.26s/it] 24%|██▍       | 11938/48845 [4:13:52<12:55:20,  1.26s/it] 24%|██▍       | 11939/48845 [4:13:53<12:54:29,  1.26s/it] 24%|██▍       | 11940/48845 [4:13:55<12:54:42,  1.26s/it]                                                          {'loss': 1.8303, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11940/48845 [4:13:55<12:54:42,  1.26s/it] 24%|██▍       | 11941/48845 [4:13:56<12:54:08,  1.26s/it] 24%|██▍       | 11942/48845 [4:13:57<12:53:52,  1.26s/it] 24%|██▍       | 11943/48845 [4:13:58<12:54:09,  1.26s/it] 24%|██▍       | 11944/48845 [4:14:00<12:54:19,  1.26s/it] 24%|██▍       | 11945/48845 [4:14:01<12:54:54,  1.26s/it]                                                          {'loss': 2.0057, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11945/48845 [4:14:01<12:54:54,  1.26s/it] 24%|██▍       | 11946/48845 [4:14:02<12:55:16,  1.26s/it] 24%|██▍       | 11947/48845 [4:14:03<12:55:09,  1.26s/it] 24%|██▍       | 11948/48845 [4:14:05<12:55:19,  1.26s/it] 24%|██▍       | 11949/48845 [4:14:06<12:54:47,  1.26s/it] 24%|██▍       | 11950/48845 [4:14:07<12:54:20,  1.26s/it]                                                          {'loss': 1.8438, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11950/48845 [4:14:07<12:54:20,  1.26s/it] 24%|██▍       | 11951/48845 [4:14:08<12:54:10,  1.26s/it] 24%|██▍       | 11952/48845 [4:14:10<12:54:43,  1.26s/it] 24%|██▍       | 11953/48845 [4:14:11<12:54:44,  1.26s/it] 24%|██▍       | 11954/48845 [4:14:12<12:54:19,  1.26s/it] 24%|██▍       | 11955/48845 [4:14:13<12:55:03,  1.26s/it]                                                          {'loss': 1.7314, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11955/48845 [4:14:13<12:55:03,  1.26s/it] 24%|██▍       | 11956/48845 [4:14:15<12:55:05,  1.26s/it] 24%|██▍       | 11957/48845 [4:14:16<12:54:11,  1.26s/it] 24%|██▍       | 11958/48845 [4:14:17<12:54:24,  1.26s/it] 24%|██▍       | 11959/48845 [4:14:18<12:54:16,  1.26s/it] 24%|██▍       | 11960/48845 [4:14:20<12:54:22,  1.26s/it]                                                          {'loss': 1.836, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11960/48845 [4:14:20<12:54:22,  1.26s/it] 24%|██▍       | 11961/48845 [4:14:21<12:54:17,  1.26s/it] 24%|██▍       | 11962/48845 [4:14:22<12:54:17,  1.26s/it] 24%|██▍       | 11963/48845 [4:14:24<12:54:20,  1.26s/it] 24%|██▍       | 11964/48845 [4:14:25<12:54:23,  1.26s/it] 24%|██▍       | 11965/48845 [4:14:26<12:54:17,  1.26s/it]                                                          {'loss': 1.8047, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.22}
+ 24%|██▍       | 11965/48845 [4:14:26<12:54:17,  1.26s/it] 24%|██▍       | 11966/48845 [4:14:27<12:54:46,  1.26s/it] 24%|██▍       | 11967/48845 [4:14:29<12:54:05,  1.26s/it] 25%|██▍       | 11968/48845 [4:14:30<12:54:22,  1.26s/it] 25%|██▍       | 11969/48845 [4:14:31<12:54:12,  1.26s/it] 25%|██▍       | 11970/48845 [4:14:32<12:54:22,  1.26s/it]                                                          {'loss': 1.915, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11970/48845 [4:14:32<12:54:22,  1.26s/it] 25%|██▍       | 11971/48845 [4:14:34<12:53:57,  1.26s/it] 25%|██▍       | 11972/48845 [4:14:35<12:53:41,  1.26s/it] 25%|██▍       | 11973/48845 [4:14:36<12:53:34,  1.26s/it] 25%|██▍       | 11974/48845 [4:14:37<12:53:47,  1.26s/it] 25%|██▍       | 11975/48845 [4:14:39<12:53:34,  1.26s/it]                                                          {'loss': 1.9767, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11975/48845 [4:14:39<12:53:34,  1.26s/it] 25%|██▍       | 11976/48845 [4:14:40<12:53:49,  1.26s/it] 25%|██▍       | 11977/48845 [4:14:41<12:54:25,  1.26s/it] 25%|██▍       | 11978/48845 [4:14:42<12:54:24,  1.26s/it] 25%|██▍       | 11979/48845 [4:14:44<12:57:48,  1.27s/it] 25%|██▍       | 11980/48845 [4:14:45<12:55:47,  1.26s/it]                                                          {'loss': 1.8763, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11980/48845 [4:14:45<12:55:47,  1.26s/it] 25%|██▍       | 11981/48845 [4:14:46<12:55:48,  1.26s/it] 25%|██▍       | 11982/48845 [4:14:47<12:54:47,  1.26s/it] 25%|██▍       | 11983/48845 [4:14:49<12:55:06,  1.26s/it] 25%|██▍       | 11984/48845 [4:14:50<12:55:02,  1.26s/it] 25%|██▍       | 11985/48845 [4:14:51<12:53:55,  1.26s/it]                                                          {'loss': 1.9959, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11985/48845 [4:14:51<12:53:55,  1.26s/it] 25%|██▍       | 11986/48845 [4:14:53<12:55:27,  1.26s/it] 25%|██▍       | 11987/48845 [4:14:54<12:54:27,  1.26s/it] 25%|██▍       | 11988/48845 [4:14:55<12:54:10,  1.26s/it] 25%|██▍       | 11989/48845 [4:14:56<12:53:16,  1.26s/it] 25%|██▍       | 11990/48845 [4:14:58<12:52:52,  1.26s/it]                                                          {'loss': 1.8783, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11990/48845 [4:14:58<12:52:52,  1.26s/it] 25%|██▍       | 11991/48845 [4:14:59<12:54:57,  1.26s/it] 25%|██▍       | 11992/48845 [4:15:00<12:53:54,  1.26s/it] 25%|██▍       | 11993/48845 [4:15:01<12:54:30,  1.26s/it] 25%|██▍       | 11994/48845 [4:15:03<12:53:36,  1.26s/it] 25%|██▍       | 11995/48845 [4:15:04<12:53:03,  1.26s/it]                                                          {'loss': 1.8898, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 11995/48845 [4:15:04<12:53:03,  1.26s/it] 25%|██▍       | 11996/48845 [4:15:05<13:05:41,  1.28s/it] 25%|██▍       | 11997/48845 [4:15:06<13:01:54,  1.27s/it] 25%|██▍       | 11998/48845 [4:15:08<12:58:39,  1.27s/it] 25%|██▍       | 11999/48845 [4:15:09<12:57:09,  1.27s/it] 25%|██▍       | 12000/48845 [4:15:10<13:05:16,  1.28s/it]                                                          {'loss': 1.8156, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12000/48845 [4:15:10<13:05:16,  1.28s/it] 25%|██▍       | 12001/48845 [4:15:14<20:31:46,  2.01s/it] 25%|██▍       | 12002/48845 [4:15:15<18:13:55,  1.78s/it] 25%|██▍       | 12003/48845 [4:15:16<16:37:41,  1.62s/it] 25%|██▍       | 12004/48845 [4:15:18<15:31:41,  1.52s/it] 25%|██▍       | 12005/48845 [4:15:19<14:44:13,  1.44s/it]                                                          {'loss': 1.9539, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12005/48845 [4:15:19<14:44:13,  1.44s/it] 25%|██▍       | 12006/48845 [4:15:20<14:10:21,  1.38s/it] 25%|██▍       | 12007/48845 [4:15:22<13:46:29,  1.35s/it] 25%|██▍       | 12008/48845 [4:15:23<13:30:59,  1.32s/it] 25%|██▍       | 12009/48845 [4:15:24<13:19:56,  1.30s/it] 25%|██▍       | 12010/48845 [4:15:25<13:11:55,  1.29s/it]                                                          {'loss': 1.9734, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12010/48845 [4:15:25<13:11:55,  1.29s/it] 25%|██▍       | 12011/48845 [4:15:27<13:06:13,  1.28s/it] 25%|██▍       | 12012/48845 [4:15:28<13:02:23,  1.27s/it] 25%|██▍       | 12013/48845 [4:15:29<12:58:57,  1.27s/it] 25%|██▍       | 12014/48845 [4:15:30<12:57:09,  1.27s/it] 25%|██▍       | 12015/48845 [4:15:32<12:57:01,  1.27s/it]                                                          {'loss': 1.9079, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12015/48845 [4:15:32<12:57:01,  1.27s/it] 25%|██▍       | 12016/48845 [4:15:33<12:55:49,  1.26s/it] 25%|██▍       | 12017/48845 [4:15:34<12:54:29,  1.26s/it] 25%|██▍       | 12018/48845 [4:15:35<12:54:07,  1.26s/it] 25%|██▍       | 12019/48845 [4:15:37<12:53:48,  1.26s/it] 25%|██▍       | 12020/48845 [4:15:38<12:53:56,  1.26s/it]                                                          {'loss': 1.9967, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12020/48845 [4:15:38<12:53:56,  1.26s/it] 25%|██▍       | 12021/48845 [4:15:39<12:53:36,  1.26s/it] 25%|██▍       | 12022/48845 [4:15:40<12:53:44,  1.26s/it] 25%|██▍       | 12023/48845 [4:15:42<12:55:33,  1.26s/it] 25%|██▍       | 12024/48845 [4:15:43<12:54:47,  1.26s/it] 25%|██▍       | 12025/48845 [4:15:44<12:54:26,  1.26s/it]                                                          {'loss': 1.8529, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12025/48845 [4:15:44<12:54:26,  1.26s/it] 25%|██▍       | 12026/48845 [4:15:45<12:53:42,  1.26s/it] 25%|██▍       | 12027/48845 [4:15:47<12:53:37,  1.26s/it] 25%|██▍       | 12028/48845 [4:15:48<12:54:23,  1.26s/it] 25%|██▍       | 12029/48845 [4:15:49<12:53:39,  1.26s/it] 25%|██▍       | 12030/48845 [4:15:51<12:53:28,  1.26s/it]                                                          {'loss': 1.8357, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12030/48845 [4:15:51<12:53:28,  1.26s/it] 25%|██▍       | 12031/48845 [4:15:52<12:54:06,  1.26s/it] 25%|██▍       | 12032/48845 [4:15:53<12:53:21,  1.26s/it] 25%|██▍       | 12033/48845 [4:15:54<12:53:29,  1.26s/it] 25%|██▍       | 12034/48845 [4:15:56<12:52:46,  1.26s/it] 25%|██▍       | 12035/48845 [4:15:57<12:53:22,  1.26s/it]                                                          {'loss': 1.9199, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12035/48845 [4:15:57<12:53:22,  1.26s/it] 25%|██▍       | 12036/48845 [4:15:58<12:52:34,  1.26s/it] 25%|██▍       | 12037/48845 [4:15:59<12:52:25,  1.26s/it] 25%|██▍       | 12038/48845 [4:16:01<12:52:59,  1.26s/it] 25%|██▍       | 12039/48845 [4:16:02<12:52:19,  1.26s/it] 25%|██▍       | 12040/48845 [4:16:03<12:53:33,  1.26s/it]                                                          {'loss': 1.9618, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12040/48845 [4:16:03<12:53:33,  1.26s/it] 25%|██▍       | 12041/48845 [4:16:04<12:52:45,  1.26s/it] 25%|██▍       | 12042/48845 [4:16:06<12:52:37,  1.26s/it] 25%|██▍       | 12043/48845 [4:16:07<12:52:19,  1.26s/it] 25%|██▍       | 12044/48845 [4:16:08<12:52:02,  1.26s/it] 25%|██▍       | 12045/48845 [4:16:09<12:52:12,  1.26s/it]                                                          {'loss': 1.8799, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12045/48845 [4:16:09<12:52:12,  1.26s/it] 25%|██▍       | 12046/48845 [4:16:11<12:52:19,  1.26s/it] 25%|██▍       | 12047/48845 [4:16:12<12:51:57,  1.26s/it] 25%|██▍       | 12048/48845 [4:16:13<12:52:13,  1.26s/it] 25%|██▍       | 12049/48845 [4:16:14<12:52:02,  1.26s/it] 25%|██▍       | 12050/48845 [4:16:16<12:53:21,  1.26s/it]                                                          {'loss': 1.8809, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12050/48845 [4:16:16<12:53:21,  1.26s/it] 25%|██▍       | 12051/48845 [4:16:17<12:52:33,  1.26s/it] 25%|██▍       | 12052/48845 [4:16:18<12:51:57,  1.26s/it] 25%|██▍       | 12053/48845 [4:16:19<12:52:20,  1.26s/it] 25%|██▍       | 12054/48845 [4:16:21<12:52:04,  1.26s/it] 25%|██▍       | 12055/48845 [4:16:22<12:52:11,  1.26s/it]                                                          {'loss': 1.9638, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12055/48845 [4:16:22<12:52:11,  1.26s/it] 25%|██▍       | 12056/48845 [4:16:23<12:51:58,  1.26s/it] 25%|██▍       | 12057/48845 [4:16:25<12:51:59,  1.26s/it] 25%|██▍       | 12058/48845 [4:16:26<12:52:23,  1.26s/it] 25%|██▍       | 12059/48845 [4:16:27<12:51:49,  1.26s/it] 25%|██▍       | 12060/48845 [4:16:28<12:52:27,  1.26s/it]                                                          {'loss': 1.7996, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.23}
+ 25%|██▍       | 12060/48845 [4:16:28<12:52:27,  1.26s/it] 25%|██▍       | 12061/48845 [4:16:30<12:52:23,  1.26s/it] 25%|██▍       | 12062/48845 [4:16:31<12:51:26,  1.26s/it] 25%|██▍       | 12063/48845 [4:16:32<12:52:25,  1.26s/it] 25%|██▍       | 12064/48845 [4:16:33<12:52:47,  1.26s/it] 25%|██▍       | 12065/48845 [4:16:35<12:51:48,  1.26s/it]                                                          {'loss': 1.9419, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12065/48845 [4:16:35<12:51:48,  1.26s/it] 25%|██▍       | 12066/48845 [4:16:36<12:52:38,  1.26s/it] 25%|██▍       | 12067/48845 [4:16:37<12:52:53,  1.26s/it] 25%|██▍       | 12068/48845 [4:16:38<12:52:49,  1.26s/it] 25%|██▍       | 12069/48845 [4:16:40<12:52:31,  1.26s/it] 25%|██▍       | 12070/48845 [4:16:41<12:51:39,  1.26s/it]                                                          {'loss': 1.8902, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12070/48845 [4:16:41<12:51:39,  1.26s/it] 25%|██▍       | 12071/48845 [4:16:42<12:52:00,  1.26s/it] 25%|██▍       | 12072/48845 [4:16:43<12:52:13,  1.26s/it] 25%|██▍       | 12073/48845 [4:16:45<12:53:13,  1.26s/it] 25%|██▍       | 12074/48845 [4:16:46<12:52:23,  1.26s/it] 25%|██▍       | 12075/48845 [4:16:47<12:53:19,  1.26s/it]                                                          {'loss': 1.9415, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12075/48845 [4:16:47<12:53:19,  1.26s/it] 25%|██▍       | 12076/48845 [4:16:48<12:54:03,  1.26s/it] 25%|██▍       | 12077/48845 [4:16:50<12:53:15,  1.26s/it] 25%|██▍       | 12078/48845 [4:16:51<12:52:30,  1.26s/it] 25%|██▍       | 12079/48845 [4:16:52<12:52:50,  1.26s/it] 25%|██▍       | 12080/48845 [4:16:54<12:52:31,  1.26s/it]                                                          {'loss': 1.9708, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12080/48845 [4:16:54<12:52:31,  1.26s/it] 25%|██▍       | 12081/48845 [4:16:55<12:53:18,  1.26s/it] 25%|██▍       | 12082/48845 [4:16:56<12:52:30,  1.26s/it] 25%|██▍       | 12083/48845 [4:16:57<12:53:00,  1.26s/it] 25%|██▍       | 12084/48845 [4:16:59<12:52:02,  1.26s/it] 25%|██▍       | 12085/48845 [4:17:00<12:51:46,  1.26s/it]                                                          {'loss': 1.957, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12085/48845 [4:17:00<12:51:46,  1.26s/it] 25%|██▍       | 12086/48845 [4:17:01<12:52:19,  1.26s/it] 25%|██▍       | 12087/48845 [4:17:02<12:52:12,  1.26s/it] 25%|██▍       | 12088/48845 [4:17:04<12:51:39,  1.26s/it] 25%|██▍       | 12089/48845 [4:17:05<12:50:48,  1.26s/it] 25%|██▍       | 12090/48845 [4:17:06<12:50:52,  1.26s/it]                                                          {'loss': 1.8884, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12090/48845 [4:17:06<12:50:52,  1.26s/it] 25%|██▍       | 12091/48845 [4:17:07<12:51:34,  1.26s/it] 25%|██▍       | 12092/48845 [4:17:09<12:51:37,  1.26s/it] 25%|██▍       | 12093/48845 [4:17:10<12:52:13,  1.26s/it] 25%|██▍       | 12094/48845 [4:17:11<12:51:43,  1.26s/it] 25%|██▍       | 12095/48845 [4:17:12<12:51:19,  1.26s/it]                                                          {'loss': 1.8635, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12095/48845 [4:17:12<12:51:19,  1.26s/it] 25%|██▍       | 12096/48845 [4:17:14<12:52:04,  1.26s/it] 25%|██▍       | 12097/48845 [4:17:15<12:50:52,  1.26s/it] 25%|██▍       | 12098/48845 [4:17:16<12:50:48,  1.26s/it] 25%|██▍       | 12099/48845 [4:17:17<12:50:45,  1.26s/it] 25%|██▍       | 12100/48845 [4:17:19<12:50:29,  1.26s/it]                                                          {'loss': 1.9382, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12100/48845 [4:17:19<12:50:29,  1.26s/it] 25%|██▍       | 12101/48845 [4:17:20<12:51:30,  1.26s/it] 25%|██▍       | 12102/48845 [4:17:21<12:51:34,  1.26s/it] 25%|██▍       | 12103/48845 [4:17:22<12:51:21,  1.26s/it] 25%|██▍       | 12104/48845 [4:17:24<12:51:01,  1.26s/it] 25%|██▍       | 12105/48845 [4:17:25<12:50:36,  1.26s/it]                                                          {'loss': 1.9714, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12105/48845 [4:17:25<12:50:36,  1.26s/it] 25%|██▍       | 12106/48845 [4:17:26<12:51:35,  1.26s/it] 25%|██▍       | 12107/48845 [4:17:28<12:50:59,  1.26s/it] 25%|██▍       | 12108/48845 [4:17:29<12:50:45,  1.26s/it] 25%|██▍       | 12109/48845 [4:17:30<12:50:45,  1.26s/it] 25%|██▍       | 12110/48845 [4:17:31<12:50:46,  1.26s/it]                                                          {'loss': 2.1474, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12110/48845 [4:17:31<12:50:46,  1.26s/it] 25%|██▍       | 12111/48845 [4:17:33<12:51:43,  1.26s/it] 25%|██▍       | 12112/48845 [4:17:34<12:51:01,  1.26s/it] 25%|██▍       | 12113/48845 [4:17:35<12:50:58,  1.26s/it] 25%|██▍       | 12114/48845 [4:17:36<12:51:19,  1.26s/it] 25%|██▍       | 12115/48845 [4:17:38<12:51:24,  1.26s/it]                                                          {'loss': 1.8185, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12115/48845 [4:17:38<12:51:24,  1.26s/it] 25%|██▍       | 12116/48845 [4:17:39<12:51:36,  1.26s/it] 25%|██▍       | 12117/48845 [4:17:40<12:50:55,  1.26s/it] 25%|██▍       | 12118/48845 [4:17:41<12:50:53,  1.26s/it] 25%|██▍       | 12119/48845 [4:17:43<12:50:35,  1.26s/it] 25%|██▍       | 12120/48845 [4:17:44<12:51:25,  1.26s/it]                                                          {'loss': 1.843, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12120/48845 [4:17:44<12:51:25,  1.26s/it] 25%|██▍       | 12121/48845 [4:17:45<12:51:31,  1.26s/it] 25%|██▍       | 12122/48845 [4:17:46<12:51:14,  1.26s/it] 25%|██▍       | 12123/48845 [4:17:48<12:51:00,  1.26s/it] 25%|██▍       | 12124/48845 [4:17:49<12:50:12,  1.26s/it] 25%|██▍       | 12125/48845 [4:17:50<12:50:18,  1.26s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12125/48845 [4:17:50<12:50:18,  1.26s/it] 25%|██▍       | 12126/48845 [4:17:51<12:50:40,  1.26s/it] 25%|██▍       | 12127/48845 [4:17:53<12:50:29,  1.26s/it] 25%|██▍       | 12128/48845 [4:17:54<12:50:06,  1.26s/it] 25%|██▍       | 12129/48845 [4:17:55<12:50:07,  1.26s/it] 25%|██▍       | 12130/48845 [4:17:56<12:49:53,  1.26s/it]                                                          {'loss': 1.9553, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12130/48845 [4:17:56<12:49:53,  1.26s/it] 25%|██▍       | 12131/48845 [4:17:58<12:50:36,  1.26s/it] 25%|██▍       | 12132/48845 [4:17:59<12:50:33,  1.26s/it] 25%|██▍       | 12133/48845 [4:18:00<12:50:23,  1.26s/it] 25%|██▍       | 12134/48845 [4:18:02<12:49:17,  1.26s/it] 25%|██▍       | 12135/48845 [4:18:03<12:49:38,  1.26s/it]                                                          {'loss': 2.0046, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12135/48845 [4:18:03<12:49:38,  1.26s/it] 25%|██▍       | 12136/48845 [4:18:04<12:49:34,  1.26s/it] 25%|██▍       | 12137/48845 [4:18:05<12:49:50,  1.26s/it] 25%|██▍       | 12138/48845 [4:18:07<12:49:48,  1.26s/it] 25%|██▍       | 12139/48845 [4:18:08<12:49:18,  1.26s/it] 25%|██▍       | 12140/48845 [4:18:09<12:50:11,  1.26s/it]                                                          {'loss': 1.9708, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12140/48845 [4:18:09<12:50:11,  1.26s/it] 25%|██▍       | 12141/48845 [4:18:10<12:50:06,  1.26s/it] 25%|██▍       | 12142/48845 [4:18:12<12:50:11,  1.26s/it] 25%|██▍       | 12143/48845 [4:18:13<12:50:55,  1.26s/it] 25%|██▍       | 12144/48845 [4:18:14<12:50:13,  1.26s/it] 25%|██▍       | 12145/48845 [4:18:15<12:50:17,  1.26s/it]                                                          {'loss': 1.8283, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12145/48845 [4:18:15<12:50:17,  1.26s/it] 25%|██▍       | 12146/48845 [4:18:17<12:50:36,  1.26s/it] 25%|██▍       | 12147/48845 [4:18:18<12:50:29,  1.26s/it] 25%|██▍       | 12148/48845 [4:18:19<12:50:30,  1.26s/it] 25%|██▍       | 12149/48845 [4:18:20<12:49:53,  1.26s/it] 25%|██▍       | 12150/48845 [4:18:22<12:49:48,  1.26s/it]                                                          {'loss': 2.0418, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12150/48845 [4:18:22<12:49:48,  1.26s/it] 25%|██▍       | 12151/48845 [4:18:23<12:49:57,  1.26s/it] 25%|██▍       | 12152/48845 [4:18:24<12:49:26,  1.26s/it] 25%|██▍       | 12153/48845 [4:18:25<12:49:24,  1.26s/it] 25%|██▍       | 12154/48845 [4:18:27<12:49:30,  1.26s/it] 25%|██▍       | 12155/48845 [4:18:28<12:49:14,  1.26s/it]                                                          {'loss': 1.9152, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12155/48845 [4:18:28<12:49:14,  1.26s/it] 25%|██▍       | 12156/48845 [4:18:29<12:49:50,  1.26s/it] 25%|██▍       | 12157/48845 [4:18:30<12:51:11,  1.26s/it] 25%|██▍       | 12158/48845 [4:18:32<12:51:05,  1.26s/it] 25%|██▍       | 12159/48845 [4:18:33<12:51:00,  1.26s/it] 25%|██▍       | 12160/48845 [4:18:34<12:50:19,  1.26s/it]                                                          {'loss': 2.085, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.24}
+ 25%|██▍       | 12160/48845 [4:18:34<12:50:19,  1.26s/it] 25%|██▍       | 12161/48845 [4:18:36<12:50:18,  1.26s/it] 25%|██▍       | 12162/48845 [4:18:37<12:50:07,  1.26s/it] 25%|██▍       | 12163/48845 [4:18:38<12:50:32,  1.26s/it] 25%|██▍       | 12164/48845 [4:18:39<12:49:33,  1.26s/it] 25%|██▍       | 12165/48845 [4:18:41<12:49:43,  1.26s/it]                                                          {'loss': 1.8665, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12165/48845 [4:18:41<12:49:43,  1.26s/it] 25%|██▍       | 12166/48845 [4:18:42<12:49:55,  1.26s/it] 25%|██▍       | 12167/48845 [4:18:43<12:49:52,  1.26s/it] 25%|██▍       | 12168/48845 [4:18:44<12:50:33,  1.26s/it] 25%|██▍       | 12169/48845 [4:18:46<12:50:29,  1.26s/it] 25%|██▍       | 12170/48845 [4:18:47<12:50:30,  1.26s/it]                                                          {'loss': 1.9449, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12170/48845 [4:18:47<12:50:30,  1.26s/it] 25%|██▍       | 12171/48845 [4:18:48<12:50:17,  1.26s/it] 25%|██▍       | 12172/48845 [4:18:49<12:49:58,  1.26s/it] 25%|██▍       | 12173/48845 [4:18:51<12:50:36,  1.26s/it] 25%|██▍       | 12174/48845 [4:18:52<12:49:55,  1.26s/it] 25%|██▍       | 12175/48845 [4:18:53<12:49:41,  1.26s/it]                                                          {'loss': 1.9569, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12175/48845 [4:18:53<12:49:41,  1.26s/it] 25%|██▍       | 12176/48845 [4:18:54<12:50:00,  1.26s/it] 25%|██▍       | 12177/48845 [4:18:56<12:49:55,  1.26s/it] 25%|██▍       | 12178/48845 [4:18:57<12:49:50,  1.26s/it] 25%|██▍       | 12179/48845 [4:18:58<12:49:39,  1.26s/it] 25%|██▍       | 12180/48845 [4:18:59<12:49:13,  1.26s/it]                                                          {'loss': 1.8696, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12180/48845 [4:18:59<12:49:13,  1.26s/it] 25%|██▍       | 12181/48845 [4:19:01<12:49:48,  1.26s/it] 25%|██▍       | 12182/48845 [4:19:02<12:49:30,  1.26s/it] 25%|██▍       | 12183/48845 [4:19:03<12:49:40,  1.26s/it] 25%|██▍       | 12184/48845 [4:19:04<12:49:04,  1.26s/it] 25%|██▍       | 12185/48845 [4:19:06<12:49:43,  1.26s/it]                                                          {'loss': 1.8991, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12185/48845 [4:19:06<12:49:43,  1.26s/it] 25%|██▍       | 12186/48845 [4:19:07<12:50:15,  1.26s/it] 25%|██▍       | 12187/48845 [4:19:08<12:49:59,  1.26s/it] 25%|██▍       | 12188/48845 [4:19:10<12:50:22,  1.26s/it] 25%|██▍       | 12189/48845 [4:19:11<12:49:43,  1.26s/it] 25%|██▍       | 12190/48845 [4:19:12<12:49:27,  1.26s/it]                                                          {'loss': 1.7867, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12190/48845 [4:19:12<12:49:27,  1.26s/it] 25%|██▍       | 12191/48845 [4:19:13<12:49:06,  1.26s/it] 25%|██▍       | 12192/48845 [4:19:15<12:48:58,  1.26s/it] 25%|██▍       | 12193/48845 [4:19:16<12:49:14,  1.26s/it] 25%|██▍       | 12194/48845 [4:19:17<12:48:48,  1.26s/it] 25%|██▍       | 12195/48845 [4:19:18<12:49:16,  1.26s/it]                                                          {'loss': 1.9768, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12195/48845 [4:19:18<12:49:16,  1.26s/it] 25%|██▍       | 12196/48845 [4:19:20<12:49:17,  1.26s/it] 25%|██▍       | 12197/48845 [4:19:21<12:48:43,  1.26s/it] 25%|██▍       | 12198/48845 [4:19:22<12:50:29,  1.26s/it] 25%|██▍       | 12199/48845 [4:19:23<12:50:25,  1.26s/it] 25%|██▍       | 12200/48845 [4:19:25<12:52:19,  1.26s/it]                                                          {'loss': 1.9147, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12200/48845 [4:19:25<12:52:19,  1.26s/it] 25%|██▍       | 12201/48845 [4:19:28<20:13:00,  1.99s/it] 25%|██▍       | 12202/48845 [4:19:30<18:00:09,  1.77s/it] 25%|██▍       | 12203/48845 [4:19:31<16:26:29,  1.62s/it] 25%|██▍       | 12204/48845 [4:19:32<15:21:08,  1.51s/it] 25%|██▍       | 12205/48845 [4:19:33<14:34:31,  1.43s/it]                                                          {'loss': 1.9216, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12205/48845 [4:19:33<14:34:31,  1.43s/it] 25%|██▍       | 12206/48845 [4:19:35<14:03:03,  1.38s/it] 25%|██▍       | 12207/48845 [4:19:36<13:40:16,  1.34s/it] 25%|██▍       | 12208/48845 [4:19:37<13:24:49,  1.32s/it] 25%|██▍       | 12209/48845 [4:19:38<13:13:42,  1.30s/it] 25%|██▍       | 12210/48845 [4:19:40<13:06:37,  1.29s/it]                                                          {'loss': 1.9914, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▍       | 12210/48845 [4:19:40<13:06:37,  1.29s/it] 25%|██▍       | 12211/48845 [4:19:41<13:01:19,  1.28s/it] 25%|██▌       | 12212/48845 [4:19:42<12:57:39,  1.27s/it] 25%|██▌       | 12213/48845 [4:19:43<12:55:02,  1.27s/it] 25%|██▌       | 12214/48845 [4:19:45<12:53:15,  1.27s/it] 25%|██▌       | 12215/48845 [4:19:46<12:51:59,  1.26s/it]                                                          {'loss': 1.9638, 'learning_rate': 4.0832613536180565e-05, 'epoch': 1.25}
+ 25%|██▌       | 12215/48845 [4:19:46<12:51:59,  1.26s/it] 25%|██▌       | 12216/48845 [4:19:47<12:52:06,  1.26s/it] 25%|██▌       | 12217/48845 [4:19:48<12:50:15,  1.26s/it] 25%|██▌       | 12218/48845 [4:19:50<12:50:28,  1.26s/it] 25%|██▌       | 12219/48845 [4:19:51<12:49:44,  1.26s/it] 25%|██▌       | 12220/48845 [4:19:52<13:27:45,  1.32s/it]                                                          {'loss': 1.7851, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12220/48845 [4:19:52<13:27:45,  1.32s/it] 25%|██▌       | 12221/48845 [4:19:54<13:16:53,  1.31s/it] 25%|██▌       | 12222/48845 [4:19:55<13:08:29,  1.29s/it] 25%|██▌       | 12223/48845 [4:19:56<13:02:36,  1.28s/it] 25%|██▌       | 12224/48845 [4:19:58<13:00:32,  1.28s/it] 25%|██▌       | 12225/48845 [4:19:59<12:56:29,  1.27s/it]                                                          {'loss': 1.9879, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12225/48845 [4:19:59<12:56:29,  1.27s/it] 25%|██▌       | 12226/48845 [4:20:00<12:54:49,  1.27s/it] 25%|██▌       | 12227/48845 [4:20:01<12:53:05,  1.27s/it] 25%|██▌       | 12228/48845 [4:20:03<12:51:15,  1.26s/it] 25%|██▌       | 12229/48845 [4:20:04<12:50:22,  1.26s/it] 25%|██▌       | 12230/48845 [4:20:05<12:50:05,  1.26s/it]                                                          {'loss': 1.9929, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12230/48845 [4:20:05<12:50:05,  1.26s/it] 25%|██▌       | 12231/48845 [4:20:06<12:57:32,  1.27s/it] 25%|██▌       | 12232/48845 [4:20:08<12:55:07,  1.27s/it] 25%|██▌       | 12233/48845 [4:20:09<12:53:40,  1.27s/it] 25%|██▌       | 12234/48845 [4:20:10<12:52:20,  1.27s/it] 25%|██▌       | 12235/48845 [4:20:11<12:51:03,  1.26s/it]                                                          {'loss': 2.0607, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12235/48845 [4:20:11<12:51:03,  1.26s/it] 25%|██▌       | 12236/48845 [4:20:13<12:50:01,  1.26s/it] 25%|██▌       | 12237/48845 [4:20:14<12:49:20,  1.26s/it] 25%|██▌       | 12238/48845 [4:20:15<12:50:04,  1.26s/it] 25%|██▌       | 12239/48845 [4:20:16<12:56:19,  1.27s/it] 25%|██▌       | 12240/48845 [4:20:18<12:53:02,  1.27s/it]                                                          {'loss': 2.0098, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12240/48845 [4:20:18<12:53:02,  1.27s/it] 25%|██▌       | 12241/48845 [4:20:19<12:51:20,  1.26s/it] 25%|██▌       | 12242/48845 [4:20:20<12:50:14,  1.26s/it] 25%|██▌       | 12243/48845 [4:20:22<12:49:52,  1.26s/it] 25%|██▌       | 12244/48845 [4:20:23<12:48:22,  1.26s/it] 25%|██▌       | 12245/48845 [4:20:24<12:47:40,  1.26s/it]                                                          {'loss': 1.9045, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12245/48845 [4:20:24<12:47:40,  1.26s/it] 25%|██▌       | 12246/48845 [4:20:25<12:48:15,  1.26s/it] 25%|██▌       | 12247/48845 [4:20:27<12:48:10,  1.26s/it] 25%|██▌       | 12248/48845 [4:20:28<12:48:11,  1.26s/it] 25%|██▌       | 12249/48845 [4:20:29<12:47:51,  1.26s/it] 25%|██▌       | 12250/48845 [4:20:30<12:48:02,  1.26s/it]                                                          {'loss': 2.1453, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12250/48845 [4:20:30<12:48:02,  1.26s/it] 25%|██▌       | 12251/48845 [4:20:32<12:48:29,  1.26s/it] 25%|██▌       | 12252/48845 [4:20:33<12:48:06,  1.26s/it] 25%|██▌       | 12253/48845 [4:20:34<12:47:41,  1.26s/it] 25%|██▌       | 12254/48845 [4:20:35<12:47:24,  1.26s/it] 25%|██▌       | 12255/48845 [4:20:37<12:47:44,  1.26s/it]                                                          {'loss': 2.0392, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12255/48845 [4:20:37<12:47:44,  1.26s/it] 25%|██▌       | 12256/48845 [4:20:38<12:48:33,  1.26s/it] 25%|██▌       | 12257/48845 [4:20:39<12:48:03,  1.26s/it] 25%|██▌       | 12258/48845 [4:20:40<12:48:13,  1.26s/it] 25%|██▌       | 12259/48845 [4:20:42<12:47:35,  1.26s/it] 25%|██▌       | 12260/48845 [4:20:43<12:47:32,  1.26s/it]                                                          {'loss': 2.0002, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.25}
+ 25%|██▌       | 12260/48845 [4:20:43<12:47:32,  1.26s/it] 25%|██▌       | 12261/48845 [4:20:44<12:48:18,  1.26s/it] 25%|██▌       | 12262/48845 [4:20:45<12:47:56,  1.26s/it] 25%|██▌       | 12263/48845 [4:20:47<12:48:21,  1.26s/it] 25%|██▌       | 12264/48845 [4:20:48<12:48:25,  1.26s/it] 25%|██▌       | 12265/48845 [4:20:49<12:47:59,  1.26s/it]                                                          {'loss': 1.8979, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12265/48845 [4:20:49<12:47:59,  1.26s/it] 25%|██▌       | 12266/48845 [4:20:50<12:48:34,  1.26s/it] 25%|██▌       | 12267/48845 [4:20:52<12:48:05,  1.26s/it] 25%|██▌       | 12268/48845 [4:20:53<12:47:55,  1.26s/it] 25%|██▌       | 12269/48845 [4:20:54<12:47:45,  1.26s/it] 25%|██▌       | 12270/48845 [4:20:56<12:47:25,  1.26s/it]                                                          {'loss': 2.0293, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12270/48845 [4:20:56<12:47:25,  1.26s/it] 25%|██▌       | 12271/48845 [4:20:57<12:48:42,  1.26s/it] 25%|██▌       | 12272/48845 [4:20:58<12:48:24,  1.26s/it] 25%|██▌       | 12273/48845 [4:20:59<12:47:37,  1.26s/it] 25%|██▌       | 12274/48845 [4:21:01<12:48:00,  1.26s/it] 25%|██▌       | 12275/48845 [4:21:02<12:47:36,  1.26s/it]                                                          {'loss': 1.8203, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12275/48845 [4:21:02<12:47:36,  1.26s/it] 25%|██▌       | 12276/48845 [4:21:03<12:48:46,  1.26s/it] 25%|██▌       | 12277/48845 [4:21:04<12:47:56,  1.26s/it] 25%|██▌       | 12278/48845 [4:21:06<12:47:39,  1.26s/it] 25%|██▌       | 12279/48845 [4:21:07<12:47:56,  1.26s/it] 25%|██▌       | 12280/48845 [4:21:08<12:47:38,  1.26s/it]                                                          {'loss': 1.9839, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12280/48845 [4:21:08<12:47:38,  1.26s/it] 25%|██▌       | 12281/48845 [4:21:09<12:48:16,  1.26s/it] 25%|██▌       | 12282/48845 [4:21:11<12:47:52,  1.26s/it] 25%|██▌       | 12283/48845 [4:21:12<12:47:30,  1.26s/it] 25%|██▌       | 12284/48845 [4:21:13<12:47:09,  1.26s/it] 25%|██▌       | 12285/48845 [4:21:14<12:46:35,  1.26s/it]                                                          {'loss': 2.1466, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12285/48845 [4:21:14<12:46:35,  1.26s/it] 25%|██▌       | 12286/48845 [4:21:16<12:47:15,  1.26s/it] 25%|██▌       | 12287/48845 [4:21:17<12:47:31,  1.26s/it] 25%|██▌       | 12288/48845 [4:21:18<12:47:33,  1.26s/it] 25%|██▌       | 12289/48845 [4:21:19<12:46:55,  1.26s/it] 25%|██▌       | 12290/48845 [4:21:21<12:46:55,  1.26s/it]                                                          {'loss': 2.0014, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12290/48845 [4:21:21<12:46:55,  1.26s/it] 25%|██▌       | 12291/48845 [4:21:22<12:48:11,  1.26s/it] 25%|██▌       | 12292/48845 [4:21:23<12:47:01,  1.26s/it] 25%|██▌       | 12293/48845 [4:21:25<12:47:14,  1.26s/it] 25%|██▌       | 12294/48845 [4:21:26<12:46:37,  1.26s/it] 25%|██▌       | 12295/48845 [4:21:27<12:47:44,  1.26s/it]                                                          {'loss': 1.9248, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12295/48845 [4:21:27<12:47:44,  1.26s/it] 25%|██▌       | 12296/48845 [4:21:28<12:47:44,  1.26s/it] 25%|██▌       | 12297/48845 [4:21:30<12:47:09,  1.26s/it] 25%|██▌       | 12298/48845 [4:21:31<12:47:32,  1.26s/it] 25%|██▌       | 12299/48845 [4:21:32<12:46:24,  1.26s/it] 25%|██▌       | 12300/48845 [4:21:33<12:46:42,  1.26s/it]                                                          {'loss': 1.8781, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12300/48845 [4:21:33<12:46:42,  1.26s/it] 25%|██▌       | 12301/48845 [4:21:35<12:47:03,  1.26s/it] 25%|██▌       | 12302/48845 [4:21:36<12:47:15,  1.26s/it] 25%|██▌       | 12303/48845 [4:21:37<12:46:58,  1.26s/it] 25%|██▌       | 12304/48845 [4:21:38<12:46:46,  1.26s/it] 25%|██▌       | 12305/48845 [4:21:40<12:47:02,  1.26s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12305/48845 [4:21:40<12:47:02,  1.26s/it] 25%|██▌       | 12306/48845 [4:21:41<12:47:05,  1.26s/it] 25%|██▌       | 12307/48845 [4:21:42<12:46:55,  1.26s/it] 25%|██▌       | 12308/48845 [4:21:43<12:47:24,  1.26s/it] 25%|██▌       | 12309/48845 [4:21:45<12:46:36,  1.26s/it] 25%|██▌       | 12310/48845 [4:21:46<12:46:09,  1.26s/it]                                                          {'loss': 2.068, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12310/48845 [4:21:46<12:46:09,  1.26s/it] 25%|██▌       | 12311/48845 [4:21:47<13:05:36,  1.29s/it] 25%|██▌       | 12312/48845 [4:21:49<12:59:37,  1.28s/it] 25%|██▌       | 12313/48845 [4:21:50<12:57:26,  1.28s/it] 25%|██▌       | 12314/48845 [4:21:51<12:53:35,  1.27s/it] 25%|██▌       | 12315/48845 [4:21:52<12:51:00,  1.27s/it]                                                          {'loss': 1.9506, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12315/48845 [4:21:52<12:51:00,  1.27s/it] 25%|██▌       | 12316/48845 [4:21:54<12:49:34,  1.26s/it] 25%|██▌       | 12317/48845 [4:21:55<12:48:41,  1.26s/it] 25%|██▌       | 12318/48845 [4:21:56<12:48:33,  1.26s/it] 25%|██▌       | 12319/48845 [4:21:57<12:48:10,  1.26s/it] 25%|██▌       | 12320/48845 [4:21:59<12:47:06,  1.26s/it]                                                          {'loss': 1.9794, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12320/48845 [4:21:59<12:47:06,  1.26s/it] 25%|██▌       | 12321/48845 [4:22:00<12:47:39,  1.26s/it] 25%|██▌       | 12322/48845 [4:22:01<12:47:31,  1.26s/it] 25%|██▌       | 12323/48845 [4:22:02<12:47:26,  1.26s/it] 25%|██▌       | 12324/48845 [4:22:04<12:46:45,  1.26s/it] 25%|██▌       | 12325/48845 [4:22:05<12:46:24,  1.26s/it]                                                          {'loss': 1.9795, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12325/48845 [4:22:05<12:46:24,  1.26s/it] 25%|██▌       | 12326/48845 [4:22:06<12:47:26,  1.26s/it] 25%|██▌       | 12327/48845 [4:22:07<12:46:18,  1.26s/it] 25%|██▌       | 12328/48845 [4:22:09<12:47:11,  1.26s/it] 25%|██▌       | 12329/48845 [4:22:10<12:46:12,  1.26s/it] 25%|██▌       | 12330/48845 [4:22:11<12:46:07,  1.26s/it]                                                          {'loss': 2.0172, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12330/48845 [4:22:11<12:46:07,  1.26s/it] 25%|██▌       | 12331/48845 [4:22:12<12:46:48,  1.26s/it] 25%|██▌       | 12332/48845 [4:22:14<12:46:39,  1.26s/it] 25%|██▌       | 12333/48845 [4:22:15<13:01:21,  1.28s/it] 25%|██▌       | 12334/48845 [4:22:16<12:56:32,  1.28s/it] 25%|██▌       | 12335/48845 [4:22:18<12:53:50,  1.27s/it]                                                          {'loss': 2.0087, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12335/48845 [4:22:18<12:53:50,  1.27s/it] 25%|██▌       | 12336/48845 [4:22:19<12:51:34,  1.27s/it] 25%|██▌       | 12337/48845 [4:22:20<12:49:40,  1.26s/it] 25%|██▌       | 12338/48845 [4:22:21<12:49:40,  1.26s/it] 25%|██▌       | 12339/48845 [4:22:23<12:48:20,  1.26s/it] 25%|██▌       | 12340/48845 [4:22:24<12:47:27,  1.26s/it]                                                          {'loss': 2.0334, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12340/48845 [4:22:24<12:47:27,  1.26s/it] 25%|██▌       | 12341/48845 [4:22:25<12:46:51,  1.26s/it] 25%|██▌       | 12342/48845 [4:22:26<12:46:21,  1.26s/it] 25%|██▌       | 12343/48845 [4:22:28<12:46:25,  1.26s/it] 25%|██▌       | 12344/48845 [4:22:29<12:46:32,  1.26s/it] 25%|██▌       | 12345/48845 [4:22:30<12:46:34,  1.26s/it]                                                          {'loss': 2.1125, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12345/48845 [4:22:30<12:46:34,  1.26s/it] 25%|██▌       | 12346/48845 [4:22:31<12:46:04,  1.26s/it] 25%|██▌       | 12347/48845 [4:22:33<12:45:58,  1.26s/it] 25%|██▌       | 12348/48845 [4:22:34<12:46:17,  1.26s/it] 25%|██▌       | 12349/48845 [4:22:35<12:45:42,  1.26s/it] 25%|██▌       | 12350/48845 [4:22:36<12:45:34,  1.26s/it]                                                          {'loss': 2.0247, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12350/48845 [4:22:36<12:45:34,  1.26s/it] 25%|██▌       | 12351/48845 [4:22:38<12:45:41,  1.26s/it] 25%|██▌       | 12352/48845 [4:22:39<12:45:38,  1.26s/it] 25%|██▌       | 12353/48845 [4:22:40<12:46:24,  1.26s/it] 25%|██▌       | 12354/48845 [4:22:42<12:45:43,  1.26s/it] 25%|██▌       | 12355/48845 [4:22:43<12:46:13,  1.26s/it]                                                          {'loss': 1.8378, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.26}
+ 25%|██▌       | 12355/48845 [4:22:43<12:46:13,  1.26s/it] 25%|██▌       | 12356/48845 [4:22:44<12:46:02,  1.26s/it] 25%|██▌       | 12357/48845 [4:22:45<12:45:48,  1.26s/it] 25%|██▌       | 12358/48845 [4:22:47<12:45:21,  1.26s/it] 25%|██▌       | 12359/48845 [4:22:48<12:45:49,  1.26s/it] 25%|██▌       | 12360/48845 [4:22:49<12:45:52,  1.26s/it]                                                          {'loss': 1.987, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12360/48845 [4:22:49<12:45:52,  1.26s/it] 25%|██▌       | 12361/48845 [4:22:50<12:45:49,  1.26s/it] 25%|██▌       | 12362/48845 [4:22:52<12:45:41,  1.26s/it] 25%|██▌       | 12363/48845 [4:22:53<12:46:12,  1.26s/it] 25%|██▌       | 12364/48845 [4:22:54<12:45:28,  1.26s/it] 25%|██▌       | 12365/48845 [4:22:55<12:45:45,  1.26s/it]                                                          {'loss': 2.0131, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12365/48845 [4:22:55<12:45:45,  1.26s/it] 25%|██▌       | 12366/48845 [4:22:57<12:46:26,  1.26s/it] 25%|██▌       | 12367/48845 [4:22:58<12:46:24,  1.26s/it] 25%|██▌       | 12368/48845 [4:22:59<12:47:12,  1.26s/it] 25%|██▌       | 12369/48845 [4:23:00<12:46:37,  1.26s/it] 25%|██▌       | 12370/48845 [4:23:02<12:46:20,  1.26s/it]                                                          {'loss': 2.0637, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12370/48845 [4:23:02<12:46:20,  1.26s/it] 25%|██▌       | 12371/48845 [4:23:03<12:45:13,  1.26s/it] 25%|██▌       | 12372/48845 [4:23:04<12:45:41,  1.26s/it] 25%|██▌       | 12373/48845 [4:23:05<12:45:49,  1.26s/it] 25%|██▌       | 12374/48845 [4:23:07<12:45:39,  1.26s/it] 25%|██▌       | 12375/48845 [4:23:08<12:44:53,  1.26s/it]                                                          {'loss': 2.0459, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12375/48845 [4:23:08<12:44:53,  1.26s/it] 25%|██▌       | 12376/48845 [4:23:09<12:45:12,  1.26s/it] 25%|██▌       | 12377/48845 [4:23:10<12:44:42,  1.26s/it] 25%|██▌       | 12378/48845 [4:23:12<12:45:32,  1.26s/it] 25%|██▌       | 12379/48845 [4:23:13<12:45:36,  1.26s/it] 25%|██▌       | 12380/48845 [4:23:14<12:46:16,  1.26s/it]                                                          {'loss': 2.0472, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12380/48845 [4:23:14<12:46:16,  1.26s/it] 25%|██▌       | 12381/48845 [4:23:16<12:45:27,  1.26s/it] 25%|██▌       | 12382/48845 [4:23:17<12:45:00,  1.26s/it] 25%|██▌       | 12383/48845 [4:23:18<12:45:21,  1.26s/it] 25%|██▌       | 12384/48845 [4:23:19<12:44:43,  1.26s/it] 25%|██▌       | 12385/48845 [4:23:21<12:45:00,  1.26s/it]                                                          {'loss': 1.9769, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12385/48845 [4:23:21<12:45:00,  1.26s/it] 25%|██▌       | 12386/48845 [4:23:22<12:45:50,  1.26s/it] 25%|██▌       | 12387/48845 [4:23:23<12:46:34,  1.26s/it] 25%|██▌       | 12388/48845 [4:23:24<12:46:49,  1.26s/it] 25%|██▌       | 12389/48845 [4:23:26<12:46:16,  1.26s/it] 25%|██▌       | 12390/48845 [4:23:27<12:45:50,  1.26s/it]                                                          {'loss': 2.0162, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12390/48845 [4:23:27<12:45:50,  1.26s/it] 25%|██▌       | 12391/48845 [4:23:28<12:46:20,  1.26s/it] 25%|██▌       | 12392/48845 [4:23:29<12:45:20,  1.26s/it] 25%|██▌       | 12393/48845 [4:23:31<12:46:19,  1.26s/it] 25%|██▌       | 12394/48845 [4:23:32<12:45:32,  1.26s/it] 25%|██▌       | 12395/48845 [4:23:33<12:45:15,  1.26s/it]                                                          {'loss': 2.0484, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12395/48845 [4:23:33<12:45:15,  1.26s/it] 25%|██▌       | 12396/48845 [4:23:34<12:45:28,  1.26s/it] 25%|██▌       | 12397/48845 [4:23:36<12:45:21,  1.26s/it] 25%|██▌       | 12398/48845 [4:23:37<12:45:06,  1.26s/it] 25%|██▌       | 12399/48845 [4:23:38<12:45:36,  1.26s/it] 25%|██▌       | 12400/48845 [4:23:39<12:44:51,  1.26s/it]                                                          {'loss': 1.9798, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12400/48845 [4:23:39<12:44:51,  1.26s/it] 25%|██▌       | 12401/48845 [4:23:43<19:54:40,  1.97s/it] 25%|██▌       | 12402/48845 [4:23:44<17:45:59,  1.76s/it] 25%|██▌       | 12403/48845 [4:23:46<16:15:30,  1.61s/it] 25%|██▌       | 12404/48845 [4:23:47<15:12:20,  1.50s/it] 25%|██▌       | 12405/48845 [4:23:48<14:27:08,  1.43s/it]                                                          {'loss': 1.9053, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12405/48845 [4:23:48<14:27:08,  1.43s/it] 25%|██▌       | 12406/48845 [4:23:49<13:56:08,  1.38s/it] 25%|██▌       | 12407/48845 [4:23:51<13:34:03,  1.34s/it] 25%|██▌       | 12408/48845 [4:23:52<13:18:33,  1.31s/it] 25%|██▌       | 12409/48845 [4:23:53<13:08:48,  1.30s/it] 25%|██▌       | 12410/48845 [4:23:54<13:00:56,  1.29s/it]                                                          {'loss': 2.0957, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12410/48845 [4:23:54<13:00:56,  1.29s/it] 25%|██▌       | 12411/48845 [4:23:56<12:57:10,  1.28s/it] 25%|██▌       | 12412/48845 [4:23:57<12:53:58,  1.27s/it] 25%|██▌       | 12413/48845 [4:23:58<12:51:32,  1.27s/it] 25%|██▌       | 12414/48845 [4:23:59<12:49:52,  1.27s/it] 25%|██▌       | 12415/48845 [4:24:01<12:47:29,  1.26s/it]                                                          {'loss': 2.0518, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12415/48845 [4:24:01<12:47:29,  1.26s/it] 25%|██▌       | 12416/48845 [4:24:02<12:46:31,  1.26s/it] 25%|██▌       | 12417/48845 [4:24:03<12:46:08,  1.26s/it] 25%|██▌       | 12418/48845 [4:24:04<12:45:59,  1.26s/it] 25%|██▌       | 12419/48845 [4:24:06<12:46:32,  1.26s/it] 25%|██▌       | 12420/48845 [4:24:07<12:45:03,  1.26s/it]                                                          {'loss': 2.0895, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12420/48845 [4:24:07<12:45:03,  1.26s/it] 25%|██▌       | 12421/48845 [4:24:08<12:44:33,  1.26s/it] 25%|██▌       | 12422/48845 [4:24:10<12:44:42,  1.26s/it] 25%|██▌       | 12423/48845 [4:24:11<12:44:41,  1.26s/it] 25%|██▌       | 12424/48845 [4:24:12<12:44:19,  1.26s/it] 25%|██▌       | 12425/48845 [4:24:13<12:43:56,  1.26s/it]                                                          {'loss': 1.9054, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12425/48845 [4:24:13<12:43:56,  1.26s/it] 25%|██▌       | 12426/48845 [4:24:15<12:44:02,  1.26s/it] 25%|██▌       | 12427/48845 [4:24:16<12:44:41,  1.26s/it] 25%|██▌       | 12428/48845 [4:24:17<12:44:50,  1.26s/it] 25%|██▌       | 12429/48845 [4:24:18<12:44:47,  1.26s/it] 25%|██▌       | 12430/48845 [4:24:20<12:45:02,  1.26s/it]                                                          {'loss': 2.0891, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12430/48845 [4:24:20<12:45:02,  1.26s/it] 25%|██▌       | 12431/48845 [4:24:21<12:44:44,  1.26s/it] 25%|██▌       | 12432/48845 [4:24:22<12:45:19,  1.26s/it] 25%|██▌       | 12433/48845 [4:24:23<12:44:31,  1.26s/it] 25%|██▌       | 12434/48845 [4:24:25<12:44:46,  1.26s/it] 25%|██▌       | 12435/48845 [4:24:26<12:43:40,  1.26s/it]                                                          {'loss': 2.0747, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12435/48845 [4:24:26<12:43:40,  1.26s/it] 25%|██▌       | 12436/48845 [4:24:27<12:43:41,  1.26s/it] 25%|██▌       | 12437/48845 [4:24:28<12:48:20,  1.27s/it] 25%|██▌       | 12438/48845 [4:24:30<12:46:36,  1.26s/it] 25%|██▌       | 12439/48845 [4:24:31<12:45:55,  1.26s/it] 25%|██▌       | 12440/48845 [4:24:32<12:45:44,  1.26s/it]                                                          {'loss': 1.8354, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12440/48845 [4:24:32<12:45:44,  1.26s/it] 25%|██▌       | 12441/48845 [4:24:33<12:45:10,  1.26s/it] 25%|██▌       | 12442/48845 [4:24:35<12:45:05,  1.26s/it] 25%|██▌       | 12443/48845 [4:24:36<12:44:33,  1.26s/it] 25%|██▌       | 12444/48845 [4:24:37<12:44:19,  1.26s/it] 25%|██▌       | 12445/48845 [4:24:39<12:45:00,  1.26s/it]                                                          {'loss': 1.9929, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12445/48845 [4:24:39<12:45:00,  1.26s/it] 25%|██▌       | 12446/48845 [4:24:40<12:44:12,  1.26s/it] 25%|██▌       | 12447/48845 [4:24:41<12:43:47,  1.26s/it] 25%|██▌       | 12448/48845 [4:24:42<12:43:11,  1.26s/it] 25%|██▌       | 12449/48845 [4:24:44<12:43:20,  1.26s/it] 25%|██▌       | 12450/48845 [4:24:45<12:43:20,  1.26s/it]                                                          {'loss': 2.1319, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12450/48845 [4:24:45<12:43:20,  1.26s/it] 25%|██▌       | 12451/48845 [4:24:46<12:43:32,  1.26s/it] 25%|██▌       | 12452/48845 [4:24:47<12:44:23,  1.26s/it] 25%|██▌       | 12453/48845 [4:24:49<12:43:50,  1.26s/it] 25%|██▌       | 12454/48845 [4:24:50<12:43:16,  1.26s/it] 25%|██▌       | 12455/48845 [4:24:51<12:43:16,  1.26s/it]                                                          {'loss': 1.9499, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.27}
+ 25%|██▌       | 12455/48845 [4:24:51<12:43:16,  1.26s/it] 26%|██▌       | 12456/48845 [4:24:52<12:43:36,  1.26s/it] 26%|██▌       | 12457/48845 [4:24:54<12:44:08,  1.26s/it] 26%|██▌       | 12458/48845 [4:24:55<12:44:11,  1.26s/it] 26%|██▌       | 12459/48845 [4:24:56<12:44:35,  1.26s/it] 26%|██▌       | 12460/48845 [4:24:57<12:44:25,  1.26s/it]                                                          {'loss': 2.0059, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12460/48845 [4:24:57<12:44:25,  1.26s/it] 26%|██▌       | 12461/48845 [4:24:59<12:45:05,  1.26s/it] 26%|██▌       | 12462/48845 [4:25:00<12:45:06,  1.26s/it] 26%|██▌       | 12463/48845 [4:25:01<12:45:02,  1.26s/it] 26%|██▌       | 12464/48845 [4:25:02<12:44:27,  1.26s/it] 26%|██▌       | 12465/48845 [4:25:04<12:44:01,  1.26s/it]                                                          {'loss': 2.2126, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12465/48845 [4:25:04<12:44:01,  1.26s/it] 26%|██▌       | 12466/48845 [4:25:05<12:43:50,  1.26s/it] 26%|██▌       | 12467/48845 [4:25:06<12:43:49,  1.26s/it] 26%|██▌       | 12468/48845 [4:25:07<12:43:06,  1.26s/it] 26%|██▌       | 12469/48845 [4:25:09<12:43:17,  1.26s/it] 26%|██▌       | 12470/48845 [4:25:10<12:43:29,  1.26s/it]                                                          {'loss': 1.9477, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12470/48845 [4:25:10<12:43:29,  1.26s/it] 26%|██▌       | 12471/48845 [4:25:11<12:43:04,  1.26s/it] 26%|██▌       | 12472/48845 [4:25:13<12:43:03,  1.26s/it] 26%|██▌       | 12473/48845 [4:25:14<12:43:15,  1.26s/it] 26%|██▌       | 12474/48845 [4:25:15<12:42:41,  1.26s/it] 26%|██▌       | 12475/48845 [4:25:16<12:42:48,  1.26s/it]                                                          {'loss': 1.9798, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12475/48845 [4:25:16<12:42:48,  1.26s/it] 26%|██▌       | 12476/48845 [4:25:18<12:43:12,  1.26s/it] 26%|██▌       | 12477/48845 [4:25:19<12:43:17,  1.26s/it] 26%|██▌       | 12478/48845 [4:25:20<12:42:49,  1.26s/it] 26%|██▌       | 12479/48845 [4:25:21<12:42:59,  1.26s/it] 26%|██▌       | 12480/48845 [4:25:23<12:43:50,  1.26s/it]                                                          {'loss': 2.0455, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12480/48845 [4:25:23<12:43:50,  1.26s/it] 26%|██▌       | 12481/48845 [4:25:24<12:43:37,  1.26s/it] 26%|██▌       | 12482/48845 [4:25:25<12:43:42,  1.26s/it] 26%|██▌       | 12483/48845 [4:25:26<12:43:00,  1.26s/it] 26%|██▌       | 12484/48845 [4:25:28<12:42:46,  1.26s/it] 26%|██▌       | 12485/48845 [4:25:29<12:43:02,  1.26s/it]                                                          {'loss': 1.939, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12485/48845 [4:25:29<12:43:02,  1.26s/it] 26%|██▌       | 12486/48845 [4:25:30<12:43:09,  1.26s/it] 26%|██▌       | 12487/48845 [4:25:31<12:43:27,  1.26s/it] 26%|██▌       | 12488/48845 [4:25:33<12:43:11,  1.26s/it] 26%|██▌       | 12489/48845 [4:25:34<12:43:14,  1.26s/it] 26%|██▌       | 12490/48845 [4:25:35<12:43:26,  1.26s/it]                                                          {'loss': 1.8886, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12490/48845 [4:25:35<12:43:26,  1.26s/it] 26%|██▌       | 12491/48845 [4:25:36<12:43:18,  1.26s/it] 26%|██▌       | 12492/48845 [4:25:38<12:43:34,  1.26s/it] 26%|██▌       | 12493/48845 [4:25:39<12:43:35,  1.26s/it] 26%|██▌       | 12494/48845 [4:25:40<12:43:57,  1.26s/it] 26%|██▌       | 12495/48845 [4:25:42<13:13:09,  1.31s/it]                                                          {'loss': 2.0043, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12495/48845 [4:25:42<13:13:09,  1.31s/it] 26%|██▌       | 12496/48845 [4:25:43<13:06:44,  1.30s/it] 26%|██▌       | 12497/48845 [4:25:44<13:00:06,  1.29s/it] 26%|██▌       | 12498/48845 [4:25:45<12:54:40,  1.28s/it] 26%|██▌       | 12499/48845 [4:25:47<12:51:15,  1.27s/it] 26%|██▌       | 12500/48845 [4:25:48<12:48:36,  1.27s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12500/48845 [4:25:48<12:48:36,  1.27s/it] 26%|██▌       | 12501/48845 [4:25:49<12:46:33,  1.27s/it] 26%|██▌       | 12502/48845 [4:25:50<12:45:37,  1.26s/it] 26%|██▌       | 12503/48845 [4:25:52<12:44:31,  1.26s/it] 26%|██▌       | 12504/48845 [4:25:53<12:43:38,  1.26s/it] 26%|██▌       | 12505/48845 [4:25:54<12:43:22,  1.26s/it]                                                          {'loss': 1.9409, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12505/48845 [4:25:54<12:43:22,  1.26s/it] 26%|██▌       | 12506/48845 [4:25:56<12:43:28,  1.26s/it] 26%|██▌       | 12507/48845 [4:25:57<12:44:28,  1.26s/it] 26%|██▌       | 12508/48845 [4:25:58<12:46:30,  1.27s/it] 26%|██▌       | 12509/48845 [4:25:59<12:45:08,  1.26s/it] 26%|██▌       | 12510/48845 [4:26:01<12:45:06,  1.26s/it]                                                          {'loss': 2.0135, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12510/48845 [4:26:01<12:45:06,  1.26s/it] 26%|██▌       | 12511/48845 [4:26:02<12:44:27,  1.26s/it] 26%|██▌       | 12512/48845 [4:26:03<13:09:17,  1.30s/it] 26%|██▌       | 12513/48845 [4:26:05<13:01:10,  1.29s/it] 26%|██▌       | 12514/48845 [4:26:06<12:55:12,  1.28s/it] 26%|██▌       | 12515/48845 [4:26:07<12:50:55,  1.27s/it]                                                          {'loss': 2.1019, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12515/48845 [4:26:07<12:50:55,  1.27s/it] 26%|██▌       | 12516/48845 [4:26:08<12:48:54,  1.27s/it] 26%|██▌       | 12517/48845 [4:26:10<12:46:24,  1.27s/it] 26%|██▌       | 12518/48845 [4:26:11<12:45:16,  1.26s/it] 26%|██▌       | 12519/48845 [4:26:12<12:44:50,  1.26s/it] 26%|██▌       | 12520/48845 [4:26:13<12:43:53,  1.26s/it]                                                          {'loss': 1.9916, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12520/48845 [4:26:13<12:43:53,  1.26s/it] 26%|██▌       | 12521/48845 [4:26:15<12:43:33,  1.26s/it] 26%|██▌       | 12522/48845 [4:26:16<12:42:15,  1.26s/it] 26%|██▌       | 12523/48845 [4:26:17<12:42:25,  1.26s/it] 26%|██▌       | 12524/48845 [4:26:18<12:42:12,  1.26s/it] 26%|██▌       | 12525/48845 [4:26:20<12:41:31,  1.26s/it]                                                          {'loss': 2.2399, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12525/48845 [4:26:20<12:41:31,  1.26s/it] 26%|██▌       | 12526/48845 [4:26:21<12:41:16,  1.26s/it] 26%|██▌       | 12527/48845 [4:26:22<12:41:26,  1.26s/it] 26%|██▌       | 12528/48845 [4:26:23<12:42:01,  1.26s/it] 26%|██▌       | 12529/48845 [4:26:25<12:41:50,  1.26s/it] 26%|██▌       | 12530/48845 [4:26:26<12:41:37,  1.26s/it]                                                          {'loss': 1.9914, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12530/48845 [4:26:26<12:41:37,  1.26s/it] 26%|██▌       | 12531/48845 [4:26:27<12:41:39,  1.26s/it] 26%|██▌       | 12532/48845 [4:26:29<13:11:07,  1.31s/it] 26%|██▌       | 12533/48845 [4:26:30<13:02:13,  1.29s/it] 26%|██▌       | 12534/48845 [4:26:31<12:56:00,  1.28s/it] 26%|██▌       | 12535/48845 [4:26:32<12:51:43,  1.28s/it]                                                          {'loss': 2.1305, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12535/48845 [4:26:32<12:51:43,  1.28s/it] 26%|██▌       | 12536/48845 [4:26:34<12:56:51,  1.28s/it] 26%|██▌       | 12537/48845 [4:26:35<12:51:36,  1.28s/it] 26%|██▌       | 12538/48845 [4:26:36<12:49:09,  1.27s/it] 26%|██▌       | 12539/48845 [4:26:37<12:47:12,  1.27s/it] 26%|██▌       | 12540/48845 [4:26:39<12:46:56,  1.27s/it]                                                          {'loss': 2.1783, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12540/48845 [4:26:39<12:46:56,  1.27s/it] 26%|██▌       | 12541/48845 [4:26:40<12:44:46,  1.26s/it] 26%|██▌       | 12542/48845 [4:26:41<12:43:42,  1.26s/it] 26%|██▌       | 12543/48845 [4:26:42<12:43:41,  1.26s/it] 26%|██▌       | 12544/48845 [4:26:44<12:43:15,  1.26s/it] 26%|██▌       | 12545/48845 [4:26:45<12:43:03,  1.26s/it]                                                          {'loss': 1.9461, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12545/48845 [4:26:45<12:43:03,  1.26s/it] 26%|██▌       | 12546/48845 [4:26:46<12:42:01,  1.26s/it] 26%|██▌       | 12547/48845 [4:26:48<12:42:13,  1.26s/it] 26%|██▌       | 12548/48845 [4:26:49<12:43:21,  1.26s/it] 26%|██▌       | 12549/48845 [4:26:50<12:43:29,  1.26s/it] 26%|██▌       | 12550/48845 [4:26:51<12:43:27,  1.26s/it]                                                          {'loss': 2.0599, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.28}
+ 26%|██▌       | 12550/48845 [4:26:51<12:43:27,  1.26s/it] 26%|██▌       | 12551/48845 [4:26:53<12:42:50,  1.26s/it] 26%|██▌       | 12552/48845 [4:26:54<12:42:13,  1.26s/it] 26%|██▌       | 12553/48845 [4:26:55<12:41:55,  1.26s/it] 26%|██▌       | 12554/48845 [4:26:56<12:41:47,  1.26s/it] 26%|██▌       | 12555/48845 [4:26:58<12:41:18,  1.26s/it]                                                          {'loss': 1.9624, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12555/48845 [4:26:58<12:41:18,  1.26s/it] 26%|██▌       | 12556/48845 [4:26:59<12:40:34,  1.26s/it] 26%|██▌       | 12557/48845 [4:27:00<12:41:07,  1.26s/it] 26%|██▌       | 12558/48845 [4:27:01<12:41:42,  1.26s/it] 26%|██▌       | 12559/48845 [4:27:03<12:41:09,  1.26s/it] 26%|██▌       | 12560/48845 [4:27:04<12:40:58,  1.26s/it]                                                          {'loss': 1.8833, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12560/48845 [4:27:04<12:40:58,  1.26s/it] 26%|██▌       | 12561/48845 [4:27:05<12:40:41,  1.26s/it] 26%|██▌       | 12562/48845 [4:27:06<12:40:18,  1.26s/it] 26%|██▌       | 12563/48845 [4:27:08<12:40:58,  1.26s/it] 26%|██▌       | 12564/48845 [4:27:09<12:41:29,  1.26s/it] 26%|██▌       | 12565/48845 [4:27:10<12:41:33,  1.26s/it]                                                          {'loss': 2.0271, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12565/48845 [4:27:10<12:41:33,  1.26s/it] 26%|██▌       | 12566/48845 [4:27:11<12:41:20,  1.26s/it] 26%|██▌       | 12567/48845 [4:27:13<12:40:33,  1.26s/it] 26%|██▌       | 12568/48845 [4:27:14<12:40:48,  1.26s/it] 26%|██▌       | 12569/48845 [4:27:15<12:40:52,  1.26s/it] 26%|██▌       | 12570/48845 [4:27:16<12:40:53,  1.26s/it]                                                          {'loss': 1.9861, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12570/48845 [4:27:16<12:40:53,  1.26s/it] 26%|██▌       | 12571/48845 [4:27:18<12:41:43,  1.26s/it] 26%|██▌       | 12572/48845 [4:27:19<12:41:32,  1.26s/it] 26%|██▌       | 12573/48845 [4:27:20<12:41:33,  1.26s/it] 26%|██▌       | 12574/48845 [4:27:22<12:40:59,  1.26s/it] 26%|██▌       | 12575/48845 [4:27:23<12:40:59,  1.26s/it]                                                          {'loss': 2.0793, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12575/48845 [4:27:23<12:40:59,  1.26s/it] 26%|██▌       | 12576/48845 [4:27:24<12:40:22,  1.26s/it] 26%|██▌       | 12577/48845 [4:27:25<12:41:02,  1.26s/it] 26%|██▌       | 12578/48845 [4:27:27<12:41:40,  1.26s/it] 26%|██▌       | 12579/48845 [4:27:28<12:40:43,  1.26s/it] 26%|██▌       | 12580/48845 [4:27:29<12:40:30,  1.26s/it]                                                          {'loss': 1.8843, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12580/48845 [4:27:29<12:40:30,  1.26s/it] 26%|██▌       | 12581/48845 [4:27:30<12:40:25,  1.26s/it] 26%|██▌       | 12582/48845 [4:27:32<12:40:19,  1.26s/it] 26%|██▌       | 12583/48845 [4:27:33<12:40:22,  1.26s/it] 26%|██▌       | 12584/48845 [4:27:34<12:40:34,  1.26s/it] 26%|██▌       | 12585/48845 [4:27:35<12:41:12,  1.26s/it]                                                          {'loss': 1.9699, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12585/48845 [4:27:35<12:41:12,  1.26s/it] 26%|██▌       | 12586/48845 [4:27:37<12:41:22,  1.26s/it] 26%|██▌       | 12587/48845 [4:27:38<12:42:11,  1.26s/it] 26%|██▌       | 12588/48845 [4:27:39<12:41:35,  1.26s/it] 26%|██▌       | 12589/48845 [4:27:40<12:40:45,  1.26s/it] 26%|██▌       | 12590/48845 [4:27:42<12:40:58,  1.26s/it]                                                          {'loss': 2.1837, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12590/48845 [4:27:42<12:40:58,  1.26s/it] 26%|██▌       | 12591/48845 [4:27:43<12:41:03,  1.26s/it] 26%|██▌       | 12592/48845 [4:27:44<12:40:40,  1.26s/it] 26%|██▌       | 12593/48845 [4:27:45<12:40:25,  1.26s/it] 26%|██▌       | 12594/48845 [4:27:47<12:40:19,  1.26s/it] 26%|██▌       | 12595/48845 [4:27:48<12:41:02,  1.26s/it]                                                          {'loss': 2.0453, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12595/48845 [4:27:48<12:41:02,  1.26s/it] 26%|██▌       | 12596/48845 [4:27:49<12:40:26,  1.26s/it] 26%|██▌       | 12597/48845 [4:27:50<12:40:36,  1.26s/it] 26%|██▌       | 12598/48845 [4:27:52<12:40:01,  1.26s/it] 26%|██▌       | 12599/48845 [4:27:53<12:40:12,  1.26s/it] 26%|██▌       | 12600/48845 [4:27:54<12:41:49,  1.26s/it]                                                          {'loss': 1.9925, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12600/48845 [4:27:54<12:41:49,  1.26s/it] 26%|██▌       | 12601/48845 [4:27:58<19:56:14,  1.98s/it] 26%|██▌       | 12602/48845 [4:27:59<17:44:55,  1.76s/it] 26%|██▌       | 12603/48845 [4:28:00<16:13:51,  1.61s/it] 26%|██▌       | 12604/48845 [4:28:02<15:09:48,  1.51s/it] 26%|██▌       | 12605/48845 [4:28:03<14:25:29,  1.43s/it]                                                          {'loss': 1.9719, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12605/48845 [4:28:03<14:25:29,  1.43s/it] 26%|██▌       | 12606/48845 [4:28:04<13:54:56,  1.38s/it] 26%|██▌       | 12607/48845 [4:28:05<13:32:33,  1.35s/it] 26%|██▌       | 12608/48845 [4:28:07<13:16:20,  1.32s/it] 26%|██▌       | 12609/48845 [4:28:08<13:05:10,  1.30s/it] 26%|██▌       | 12610/48845 [4:28:09<12:58:10,  1.29s/it]                                                          {'loss': 2.057, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12610/48845 [4:28:09<12:58:10,  1.29s/it] 26%|██▌       | 12611/48845 [4:28:11<12:52:58,  1.28s/it] 26%|██▌       | 12612/48845 [4:28:12<12:49:24,  1.27s/it] 26%|██▌       | 12613/48845 [4:28:13<12:46:34,  1.27s/it] 26%|██▌       | 12614/48845 [4:28:14<12:44:42,  1.27s/it] 26%|██▌       | 12615/48845 [4:28:16<12:43:56,  1.27s/it]                                                          {'loss': 1.9594, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12615/48845 [4:28:16<12:43:56,  1.27s/it] 26%|██▌       | 12616/48845 [4:28:17<12:42:41,  1.26s/it] 26%|██▌       | 12617/48845 [4:28:18<12:41:41,  1.26s/it] 26%|██▌       | 12618/48845 [4:28:19<12:41:40,  1.26s/it] 26%|██▌       | 12619/48845 [4:28:21<12:44:53,  1.27s/it] 26%|██▌       | 12620/48845 [4:28:22<12:43:13,  1.26s/it]                                                          {'loss': 2.1014, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12620/48845 [4:28:22<12:43:13,  1.26s/it] 26%|██▌       | 12621/48845 [4:28:23<12:42:42,  1.26s/it] 26%|██▌       | 12622/48845 [4:28:24<12:41:12,  1.26s/it] 26%|██▌       | 12623/48845 [4:28:26<12:41:23,  1.26s/it] 26%|██▌       | 12624/48845 [4:28:27<12:40:46,  1.26s/it] 26%|██▌       | 12625/48845 [4:28:28<12:40:29,  1.26s/it]                                                          {'loss': 1.9902, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12625/48845 [4:28:28<12:40:29,  1.26s/it] 26%|██▌       | 12626/48845 [4:28:29<12:40:07,  1.26s/it] 26%|██▌       | 12627/48845 [4:28:31<12:40:02,  1.26s/it] 26%|██▌       | 12628/48845 [4:28:32<12:40:04,  1.26s/it] 26%|██▌       | 12629/48845 [4:28:33<12:39:57,  1.26s/it] 26%|██▌       | 12630/48845 [4:28:34<12:40:17,  1.26s/it]                                                          {'loss': 1.9246, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12630/48845 [4:28:34<12:40:17,  1.26s/it] 26%|██▌       | 12631/48845 [4:28:36<12:40:16,  1.26s/it] 26%|██▌       | 12632/48845 [4:28:37<12:41:16,  1.26s/it] 26%|██▌       | 12633/48845 [4:28:38<12:41:04,  1.26s/it] 26%|██▌       | 12634/48845 [4:28:40<12:40:34,  1.26s/it] 26%|██▌       | 12635/48845 [4:28:41<12:39:46,  1.26s/it]                                                          {'loss': 1.9129, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12635/48845 [4:28:41<12:39:46,  1.26s/it] 26%|██▌       | 12636/48845 [4:28:42<12:39:14,  1.26s/it] 26%|██▌       | 12637/48845 [4:28:43<12:39:01,  1.26s/it] 26%|██▌       | 12638/48845 [4:28:45<12:38:38,  1.26s/it] 26%|██▌       | 12639/48845 [4:28:46<12:38:36,  1.26s/it] 26%|██▌       | 12640/48845 [4:28:47<12:39:16,  1.26s/it]                                                          {'loss': 2.0985, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12640/48845 [4:28:47<12:39:16,  1.26s/it] 26%|██▌       | 12641/48845 [4:28:48<12:41:16,  1.26s/it] 26%|██▌       | 12642/48845 [4:28:50<12:41:09,  1.26s/it] 26%|��█▌       | 12643/48845 [4:28:51<12:41:25,  1.26s/it] 26%|██▌       | 12644/48845 [4:28:52<12:40:26,  1.26s/it] 26%|██▌       | 12645/48845 [4:28:53<12:40:31,  1.26s/it]                                                          {'loss': 2.0462, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12645/48845 [4:28:53<12:40:31,  1.26s/it] 26%|██▌       | 12646/48845 [4:28:55<12:40:16,  1.26s/it] 26%|██▌       | 12647/48845 [4:28:56<12:40:15,  1.26s/it] 26%|██▌       | 12648/48845 [4:28:57<12:40:38,  1.26s/it] 26%|██▌       | 12649/48845 [4:28:58<12:40:29,  1.26s/it] 26%|██▌       | 12650/48845 [4:29:00<12:40:10,  1.26s/it]                                                          {'loss': 1.941, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.29}
+ 26%|██▌       | 12650/48845 [4:29:00<12:40:10,  1.26s/it] 26%|██▌       | 12651/48845 [4:29:01<12:39:48,  1.26s/it] 26%|██▌       | 12652/48845 [4:29:02<12:39:28,  1.26s/it] 26%|██▌       | 12653/48845 [4:29:03<12:40:32,  1.26s/it] 26%|██▌       | 12654/48845 [4:29:05<12:39:38,  1.26s/it] 26%|██▌       | 12655/48845 [4:29:06<12:39:47,  1.26s/it]                                                          {'loss': 1.9458, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12655/48845 [4:29:06<12:39:47,  1.26s/it] 26%|██▌       | 12656/48845 [4:29:07<12:39:37,  1.26s/it] 26%|██▌       | 12657/48845 [4:29:09<13:07:02,  1.30s/it] 26%|██▌       | 12658/48845 [4:29:10<12:57:55,  1.29s/it] 26%|██▌       | 12659/48845 [4:29:11<12:52:47,  1.28s/it] 26%|██▌       | 12660/48845 [4:29:12<12:48:21,  1.27s/it]                                                          {'loss': 1.9333, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12660/48845 [4:29:12<12:48:21,  1.27s/it] 26%|██▌       | 12661/48845 [4:29:14<13:04:46,  1.30s/it] 26%|██▌       | 12662/48845 [4:29:15<12:57:17,  1.29s/it] 26%|██▌       | 12663/48845 [4:29:16<12:51:46,  1.28s/it] 26%|██▌       | 12664/48845 [4:29:18<12:48:10,  1.27s/it] 26%|██▌       | 12665/48845 [4:29:19<12:46:01,  1.27s/it]                                                          {'loss': 1.9979, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12665/48845 [4:29:19<12:46:01,  1.27s/it] 26%|██▌       | 12666/48845 [4:29:20<12:43:48,  1.27s/it] 26%|██▌       | 12667/48845 [4:29:21<12:42:57,  1.27s/it] 26%|██▌       | 12668/48845 [4:29:23<12:41:03,  1.26s/it] 26%|██▌       | 12669/48845 [4:29:24<12:40:56,  1.26s/it] 26%|██▌       | 12670/48845 [4:29:25<12:40:31,  1.26s/it]                                                          {'loss': 2.0735, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12670/48845 [4:29:25<12:40:31,  1.26s/it] 26%|██▌       | 12671/48845 [4:29:26<12:41:39,  1.26s/it] 26%|██▌       | 12672/48845 [4:29:28<12:41:30,  1.26s/it] 26%|██▌       | 12673/48845 [4:29:29<12:41:10,  1.26s/it] 26%|██▌       | 12674/48845 [4:29:30<12:40:49,  1.26s/it] 26%|██▌       | 12675/48845 [4:29:31<12:42:47,  1.27s/it]                                                          {'loss': 1.9261, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12675/48845 [4:29:31<12:42:47,  1.27s/it] 26%|██▌       | 12676/48845 [4:29:33<12:42:16,  1.26s/it] 26%|██▌       | 12677/48845 [4:29:34<12:42:10,  1.26s/it] 26%|██▌       | 12678/48845 [4:29:35<12:41:29,  1.26s/it] 26%|██▌       | 12679/48845 [4:29:36<12:40:23,  1.26s/it] 26%|██▌       | 12680/48845 [4:29:38<12:40:26,  1.26s/it]                                                          {'loss': 2.1005, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12680/48845 [4:29:38<12:40:26,  1.26s/it] 26%|██▌       | 12681/48845 [4:29:39<12:41:11,  1.26s/it] 26%|██▌       | 12682/48845 [4:29:40<12:40:01,  1.26s/it] 26%|██▌       | 12683/48845 [4:29:42<12:39:30,  1.26s/it] 26%|██▌       | 12684/48845 [4:29:43<12:38:51,  1.26s/it] 26%|██▌       | 12685/48845 [4:29:44<12:38:53,  1.26s/it]                                                          {'loss': 2.0679, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12685/48845 [4:29:44<12:38:53,  1.26s/it] 26%|██▌       | 12686/48845 [4:29:45<12:38:14,  1.26s/it] 26%|██▌       | 12687/48845 [4:29:47<12:38:51,  1.26s/it] 26%|██▌       | 12688/48845 [4:29:48<12:38:34,  1.26s/it] 26%|██▌       | 12689/48845 [4:29:49<12:38:18,  1.26s/it] 26%|██▌       | 12690/48845 [4:29:50<12:39:45,  1.26s/it]                                                          {'loss': 1.9733, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12690/48845 [4:29:50<12:39:45,  1.26s/it] 26%|██▌       | 12691/48845 [4:29:52<12:39:19,  1.26s/it] 26%|██▌       | 12692/48845 [4:29:53<12:39:26,  1.26s/it] 26%|██▌       | 12693/48845 [4:29:54<12:39:47,  1.26s/it] 26%|██▌       | 12694/48845 [4:29:55<12:39:03,  1.26s/it] 26%|██▌       | 12695/48845 [4:29:57<12:38:28,  1.26s/it]                                                          {'loss': 2.0221, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12695/48845 [4:29:57<12:38:28,  1.26s/it] 26%|██▌       | 12696/48845 [4:29:58<12:38:26,  1.26s/it] 26%|██▌       | 12697/48845 [4:29:59<12:39:38,  1.26s/it] 26%|██▌       | 12698/48845 [4:30:00<12:39:31,  1.26s/it] 26%|██▌       | 12699/48845 [4:30:02<12:39:10,  1.26s/it] 26%|██▌       | 12700/48845 [4:30:03<12:38:55,  1.26s/it]                                                          {'loss': 1.9657, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12700/48845 [4:30:03<12:38:55,  1.26s/it] 26%|██▌       | 12701/48845 [4:30:04<12:39:19,  1.26s/it] 26%|██▌       | 12702/48845 [4:30:05<12:38:59,  1.26s/it] 26%|██▌       | 12703/48845 [4:30:07<12:39:03,  1.26s/it] 26%|██▌       | 12704/48845 [4:30:08<12:38:37,  1.26s/it] 26%|██▌       | 12705/48845 [4:30:09<12:40:09,  1.26s/it]                                                          {'loss': 2.0661, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12705/48845 [4:30:09<12:40:09,  1.26s/it] 26%|██▌       | 12706/48845 [4:30:10<12:39:21,  1.26s/it] 26%|██▌       | 12707/48845 [4:30:12<12:38:59,  1.26s/it] 26%|██▌       | 12708/48845 [4:30:13<12:39:56,  1.26s/it] 26%|██▌       | 12709/48845 [4:30:14<12:39:45,  1.26s/it] 26%|██▌       | 12710/48845 [4:30:16<12:40:23,  1.26s/it]                                                          {'loss': 2.0619, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12710/48845 [4:30:16<12:40:23,  1.26s/it] 26%|██▌       | 12711/48845 [4:30:17<12:40:07,  1.26s/it] 26%|██▌       | 12712/48845 [4:30:18<12:39:31,  1.26s/it] 26%|██▌       | 12713/48845 [4:30:19<12:39:02,  1.26s/it] 26%|██▌       | 12714/48845 [4:30:21<12:39:06,  1.26s/it] 26%|██▌       | 12715/48845 [4:30:22<12:38:42,  1.26s/it]                                                          {'loss': 1.9342, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12715/48845 [4:30:22<12:38:42,  1.26s/it] 26%|██▌       | 12716/48845 [4:30:23<12:40:17,  1.26s/it] 26%|██▌       | 12717/48845 [4:30:24<12:39:58,  1.26s/it] 26%|██▌       | 12718/48845 [4:30:26<12:39:13,  1.26s/it] 26%|██▌       | 12719/48845 [4:30:27<12:39:27,  1.26s/it] 26%|██▌       | 12720/48845 [4:30:28<12:39:11,  1.26s/it]                                                          {'loss': 1.9408, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12720/48845 [4:30:28<12:39:11,  1.26s/it] 26%|██▌       | 12721/48845 [4:30:29<12:39:18,  1.26s/it] 26%|██▌       | 12722/48845 [4:30:31<12:38:53,  1.26s/it] 26%|██▌       | 12723/48845 [4:30:32<12:38:44,  1.26s/it] 26%|██▌       | 12724/48845 [4:30:33<12:38:35,  1.26s/it] 26%|██▌       | 12725/48845 [4:30:34<12:38:24,  1.26s/it]                                                          {'loss': 2.108, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12725/48845 [4:30:34<12:38:24,  1.26s/it] 26%|██▌       | 12726/48845 [4:30:36<12:39:42,  1.26s/it] 26%|██▌       | 12727/48845 [4:30:37<12:40:13,  1.26s/it] 26%|██▌       | 12728/48845 [4:30:38<12:40:09,  1.26s/it] 26%|██▌       | 12729/48845 [4:30:40<12:40:27,  1.26s/it] 26%|██▌       | 12730/48845 [4:30:41<12:39:23,  1.26s/it]                                                          {'loss': 2.0172, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12730/48845 [4:30:41<12:39:23,  1.26s/it] 26%|██▌       | 12731/48845 [4:30:42<12:39:19,  1.26s/it] 26%|██▌       | 12732/48845 [4:30:43<12:38:57,  1.26s/it] 26%|██▌       | 12733/48845 [4:30:45<12:38:34,  1.26s/it] 26%|██▌       | 12734/48845 [4:30:46<12:38:56,  1.26s/it] 26%|██▌       | 12735/48845 [4:30:47<12:38:44,  1.26s/it]                                                          {'loss': 2.0961, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12735/48845 [4:30:47<12:38:44,  1.26s/it] 26%|██▌       | 12736/48845 [4:30:48<12:38:43,  1.26s/it] 26%|██▌       | 12737/48845 [4:30:50<12:38:07,  1.26s/it] 26%|██▌       | 12738/48845 [4:30:51<12:37:46,  1.26s/it] 26%|██▌       | 12739/48845 [4:30:52<12:37:52,  1.26s/it] 26%|██▌       | 12740/48845 [4:30:53<12:37:28,  1.26s/it]                                                          {'loss': 1.9156, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12740/48845 [4:30:53<12:37:28,  1.26s/it] 26%|██▌       | 12741/48845 [4:30:55<12:37:04,  1.26s/it] 26%|██▌       | 12742/48845 [4:30:56<12:37:42,  1.26s/it] 26%|██▌       | 12743/48845 [4:30:57<12:37:27,  1.26s/it] 26%|██▌       | 12744/48845 [4:30:58<12:38:50,  1.26s/it] 26%|██▌       | 12745/48845 [4:31:00<12:38:25,  1.26s/it]                                                          {'loss': 1.8914, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.3}
+ 26%|██▌       | 12745/48845 [4:31:00<12:38:25,  1.26s/it] 26%|██▌       | 12746/48845 [4:31:01<12:38:40,  1.26s/it] 26%|██▌       | 12747/48845 [4:31:02<12:38:21,  1.26s/it] 26%|██▌       | 12748/48845 [4:31:03<12:37:23,  1.26s/it] 26%|██▌       | 12749/48845 [4:31:05<12:38:16,  1.26s/it] 26%|██▌       | 12750/48845 [4:31:06<12:38:21,  1.26s/it]                                                          {'loss': 1.9872, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12750/48845 [4:31:06<12:38:21,  1.26s/it] 26%|██▌       | 12751/48845 [4:31:07<12:38:32,  1.26s/it] 26%|██▌       | 12752/48845 [4:31:08<12:37:55,  1.26s/it] 26%|██▌       | 12753/48845 [4:31:10<12:38:02,  1.26s/it] 26%|██▌       | 12754/48845 [4:31:11<12:37:58,  1.26s/it] 26%|██▌       | 12755/48845 [4:31:12<12:39:14,  1.26s/it]                                                          {'loss': 1.9325, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12755/48845 [4:31:12<12:39:14,  1.26s/it] 26%|██▌       | 12756/48845 [4:31:14<12:38:50,  1.26s/it] 26%|██▌       | 12757/48845 [4:31:15<12:38:55,  1.26s/it] 26%|██▌       | 12758/48845 [4:31:16<12:39:03,  1.26s/it] 26%|██▌       | 12759/48845 [4:31:17<12:38:58,  1.26s/it] 26%|██▌       | 12760/48845 [4:31:19<12:37:59,  1.26s/it]                                                          {'loss': 1.9484, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12760/48845 [4:31:19<12:37:59,  1.26s/it] 26%|██▌       | 12761/48845 [4:31:20<12:39:07,  1.26s/it] 26%|██▌       | 12762/48845 [4:31:21<12:38:24,  1.26s/it] 26%|██▌       | 12763/48845 [4:31:22<12:38:56,  1.26s/it] 26%|██▌       | 12764/48845 [4:31:24<12:38:48,  1.26s/it] 26%|██▌       | 12765/48845 [4:31:25<12:38:16,  1.26s/it]                                                          {'loss': 1.968, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12765/48845 [4:31:25<12:38:16,  1.26s/it] 26%|██▌       | 12766/48845 [4:31:26<12:37:50,  1.26s/it] 26%|██▌       | 12767/48845 [4:31:27<12:38:16,  1.26s/it] 26%|██▌       | 12768/48845 [4:31:29<12:38:20,  1.26s/it] 26%|██▌       | 12769/48845 [4:31:30<12:38:04,  1.26s/it] 26%|██▌       | 12770/48845 [4:31:31<12:39:07,  1.26s/it]                                                          {'loss': 1.9409, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12770/48845 [4:31:31<12:39:07,  1.26s/it] 26%|██▌       | 12771/48845 [4:31:32<12:38:22,  1.26s/it] 26%|██▌       | 12772/48845 [4:31:34<12:38:04,  1.26s/it] 26%|██▌       | 12773/48845 [4:31:35<12:37:41,  1.26s/it] 26%|██▌       | 12774/48845 [4:31:36<12:37:23,  1.26s/it] 26%|██▌       | 12775/48845 [4:31:37<12:37:31,  1.26s/it]                                                          {'loss': 1.944, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12775/48845 [4:31:37<12:37:31,  1.26s/it] 26%|██▌       | 12776/48845 [4:31:39<12:37:22,  1.26s/it] 26%|██▌       | 12777/48845 [4:31:40<12:37:10,  1.26s/it] 26%|██▌       | 12778/48845 [4:31:41<12:37:01,  1.26s/it] 26%|██▌       | 12779/48845 [4:31:43<12:36:31,  1.26s/it] 26%|██▌       | 12780/48845 [4:31:44<12:36:56,  1.26s/it]                                                          {'loss': 2.0685, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12780/48845 [4:31:44<12:36:56,  1.26s/it] 26%|██▌       | 12781/48845 [4:31:45<12:36:50,  1.26s/it] 26%|██▌       | 12782/48845 [4:31:46<12:36:30,  1.26s/it] 26%|██▌       | 12783/48845 [4:31:48<12:36:32,  1.26s/it] 26%|██▌       | 12784/48845 [4:31:49<12:36:39,  1.26s/it] 26%|██▌       | 12785/48845 [4:31:50<12:37:45,  1.26s/it]                                                          {'loss': 2.1565, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12785/48845 [4:31:50<12:37:45,  1.26s/it] 26%|██▌       | 12786/48845 [4:31:51<12:37:16,  1.26s/it] 26%|██▌       | 12787/48845 [4:31:53<12:37:17,  1.26s/it] 26%|██▌       | 12788/48845 [4:31:54<12:36:50,  1.26s/it] 26%|██▌       | 12789/48845 [4:31:55<12:36:19,  1.26s/it] 26%|██▌       | 12790/48845 [4:31:56<12:36:39,  1.26s/it]                                                          {'loss': 1.948, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12790/48845 [4:31:56<12:36:39,  1.26s/it] 26%|██▌       | 12791/48845 [4:31:58<12:36:41,  1.26s/it] 26%|██▌       | 12792/48845 [4:31:59<12:36:53,  1.26s/it] 26%|██▌       | 12793/48845 [4:32:00<12:36:48,  1.26s/it] 26%|██▌       | 12794/48845 [4:32:01<12:36:42,  1.26s/it] 26%|██▌       | 12795/48845 [4:32:03<12:37:14,  1.26s/it]                                                          {'loss': 1.9335, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12795/48845 [4:32:03<12:37:14,  1.26s/it] 26%|██▌       | 12796/48845 [4:32:04<12:37:12,  1.26s/it] 26%|██▌       | 12797/48845 [4:32:05<12:37:03,  1.26s/it] 26%|██▌       | 12798/48845 [4:32:06<12:36:15,  1.26s/it] 26%|██▌       | 12799/48845 [4:32:08<12:35:23,  1.26s/it] 26%|██▌       | 12800/48845 [4:32:09<12:36:07,  1.26s/it]                                                          {'loss': 2.0813, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12800/48845 [4:32:09<12:36:07,  1.26s/it] 26%|██▌       | 12801/48845 [4:32:13<19:50:50,  1.98s/it] 26%|██▌       | 12802/48845 [4:32:14<17:40:17,  1.77s/it] 26%|██▌       | 12803/48845 [4:32:15<16:08:40,  1.61s/it] 26%|██▌       | 12804/48845 [4:32:16<15:04:42,  1.51s/it] 26%|██▌       | 12805/48845 [4:32:18<14:21:05,  1.43s/it]                                                          {'loss': 1.9318, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12805/48845 [4:32:18<14:21:05,  1.43s/it] 26%|██▌       | 12806/48845 [4:32:19<13:49:58,  1.38s/it] 26%|██▌       | 12807/48845 [4:32:20<13:27:27,  1.34s/it] 26%|██▌       | 12808/48845 [4:32:21<13:11:23,  1.32s/it] 26%|██▌       | 12809/48845 [4:32:23<13:00:36,  1.30s/it] 26%|██▌       | 12810/48845 [4:32:24<12:53:38,  1.29s/it]                                                          {'loss': 1.9934, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12810/48845 [4:32:24<12:53:38,  1.29s/it] 26%|██▌       | 12811/48845 [4:32:25<12:48:00,  1.28s/it] 26%|██▌       | 12812/48845 [4:32:26<12:44:13,  1.27s/it] 26%|██▌       | 12813/48845 [4:32:28<12:41:48,  1.27s/it] 26%|██▌       | 12814/48845 [4:32:29<12:39:35,  1.26s/it] 26%|██▌       | 12815/48845 [4:32:30<12:38:20,  1.26s/it]                                                          {'loss': 2.0116, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12815/48845 [4:32:30<12:38:20,  1.26s/it] 26%|██▌       | 12816/48845 [4:32:32<12:37:32,  1.26s/it] 26%|██▌       | 12817/48845 [4:32:33<12:37:10,  1.26s/it] 26%|██▌       | 12818/48845 [4:32:34<12:37:12,  1.26s/it] 26%|██▌       | 12819/48845 [4:32:35<12:37:27,  1.26s/it] 26%|██▌       | 12820/48845 [4:32:37<12:36:39,  1.26s/it]                                                          {'loss': 1.8622, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▌       | 12820/48845 [4:32:37<12:36:39,  1.26s/it] 26%|██▌       | 12821/48845 [4:32:38<12:36:54,  1.26s/it] 26%|██▋       | 12822/48845 [4:32:39<12:37:23,  1.26s/it] 26%|██▋       | 12823/48845 [4:32:40<12:37:08,  1.26s/it] 26%|██▋       | 12824/48845 [4:32:42<12:36:45,  1.26s/it] 26%|██▋       | 12825/48845 [4:32:43<12:38:21,  1.26s/it]                                                          {'loss': 1.8203, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▋       | 12825/48845 [4:32:43<12:38:21,  1.26s/it] 26%|██▋       | 12826/48845 [4:32:44<12:37:23,  1.26s/it] 26%|██▋       | 12827/48845 [4:32:45<12:36:52,  1.26s/it] 26%|██▋       | 12828/48845 [4:32:47<12:36:16,  1.26s/it] 26%|██▋       | 12829/48845 [4:32:48<12:35:46,  1.26s/it] 26%|██▋       | 12830/48845 [4:32:49<12:36:01,  1.26s/it]                                                          {'loss': 1.9826, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▋       | 12830/48845 [4:32:49<12:36:01,  1.26s/it] 26%|██▋       | 12831/48845 [4:32:50<12:35:36,  1.26s/it] 26%|██▋       | 12832/48845 [4:32:52<12:35:33,  1.26s/it] 26%|██▋       | 12833/48845 [4:32:53<12:35:35,  1.26s/it] 26%|██▋       | 12834/48845 [4:32:54<12:35:08,  1.26s/it] 26%|██▋       | 12835/48845 [4:32:55<12:36:15,  1.26s/it]                                                          {'loss': 2.1416, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▋       | 12835/48845 [4:32:55<12:36:15,  1.26s/it] 26%|██▋       | 12836/48845 [4:32:57<12:35:53,  1.26s/it] 26%|██▋       | 12837/48845 [4:32:58<12:35:23,  1.26s/it] 26%|██▋       | 12838/48845 [4:32:59<12:35:24,  1.26s/it] 26%|█��▋       | 12839/48845 [4:33:00<12:35:42,  1.26s/it] 26%|██▋       | 12840/48845 [4:33:02<12:36:11,  1.26s/it]                                                          {'loss': 1.9901, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▋       | 12840/48845 [4:33:02<12:36:11,  1.26s/it] 26%|██▋       | 12841/48845 [4:33:03<12:36:06,  1.26s/it] 26%|██▋       | 12842/48845 [4:33:04<12:36:11,  1.26s/it] 26%|██▋       | 12843/48845 [4:33:06<12:35:32,  1.26s/it] 26%|██▋       | 12844/48845 [4:33:07<12:34:43,  1.26s/it] 26%|██▋       | 12845/48845 [4:33:08<12:34:33,  1.26s/it]                                                          {'loss': 1.887, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.31}
+ 26%|██▋       | 12845/48845 [4:33:08<12:34:33,  1.26s/it] 26%|██▋       | 12846/48845 [4:33:09<12:34:35,  1.26s/it] 26%|██▋       | 12847/48845 [4:33:11<12:34:52,  1.26s/it] 26%|██▋       | 12848/48845 [4:33:12<12:34:30,  1.26s/it] 26%|██▋       | 12849/48845 [4:33:13<12:34:31,  1.26s/it] 26%|██▋       | 12850/48845 [4:33:14<12:34:08,  1.26s/it]                                                          {'loss': 1.9272, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12850/48845 [4:33:14<12:34:08,  1.26s/it] 26%|██▋       | 12851/48845 [4:33:16<12:33:54,  1.26s/it] 26%|██▋       | 12852/48845 [4:33:17<12:34:33,  1.26s/it] 26%|██▋       | 12853/48845 [4:33:18<12:34:38,  1.26s/it] 26%|██▋       | 12854/48845 [4:33:19<12:35:05,  1.26s/it] 26%|██▋       | 12855/48845 [4:33:21<12:35:09,  1.26s/it]                                                          {'loss': 2.0444, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12855/48845 [4:33:21<12:35:09,  1.26s/it] 26%|██▋       | 12856/48845 [4:33:22<12:35:35,  1.26s/it] 26%|██▋       | 12857/48845 [4:33:23<12:35:52,  1.26s/it] 26%|██▋       | 12858/48845 [4:33:24<12:35:48,  1.26s/it] 26%|██▋       | 12859/48845 [4:33:26<12:35:16,  1.26s/it] 26%|██▋       | 12860/48845 [4:33:27<12:35:00,  1.26s/it]                                                          {'loss': 1.8968, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12860/48845 [4:33:27<12:35:00,  1.26s/it] 26%|██▋       | 12861/48845 [4:33:28<12:34:55,  1.26s/it] 26%|██▋       | 12862/48845 [4:33:29<12:35:18,  1.26s/it] 26%|██▋       | 12863/48845 [4:33:31<12:34:31,  1.26s/it] 26%|██▋       | 12864/48845 [4:33:32<12:34:36,  1.26s/it] 26%|██▋       | 12865/48845 [4:33:33<12:35:40,  1.26s/it]                                                          {'loss': 1.9942, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12865/48845 [4:33:33<12:35:40,  1.26s/it] 26%|██▋       | 12866/48845 [4:33:34<12:35:21,  1.26s/it] 26%|██▋       | 12867/48845 [4:33:36<12:35:05,  1.26s/it] 26%|██▋       | 12868/48845 [4:33:37<12:47:02,  1.28s/it] 26%|██▋       | 12869/48845 [4:33:38<12:43:15,  1.27s/it] 26%|██▋       | 12870/48845 [4:33:40<12:41:06,  1.27s/it]                                                          {'loss': 2.0211, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12870/48845 [4:33:40<12:41:06,  1.27s/it] 26%|██▋       | 12871/48845 [4:33:41<12:39:44,  1.27s/it] 26%|██▋       | 12872/48845 [4:33:42<12:38:22,  1.26s/it] 26%|██▋       | 12873/48845 [4:33:43<12:36:38,  1.26s/it] 26%|██▋       | 12874/48845 [4:33:45<12:35:33,  1.26s/it] 26%|██▋       | 12875/48845 [4:33:46<12:35:26,  1.26s/it]                                                          {'loss': 1.9115, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12875/48845 [4:33:46<12:35:26,  1.26s/it] 26%|██▋       | 12876/48845 [4:33:47<12:35:41,  1.26s/it] 26%|██▋       | 12877/48845 [4:33:48<12:35:45,  1.26s/it] 26%|██▋       | 12878/48845 [4:33:50<12:35:34,  1.26s/it] 26%|██▋       | 12879/48845 [4:33:51<12:35:04,  1.26s/it] 26%|██▋       | 12880/48845 [4:33:52<12:34:18,  1.26s/it]                                                          {'loss': 1.953, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12880/48845 [4:33:52<12:34:18,  1.26s/it] 26%|██▋       | 12881/48845 [4:33:53<12:35:02,  1.26s/it] 26%|██▋       | 12882/48845 [4:33:55<12:35:43,  1.26s/it] 26%|██▋       | 12883/48845 [4:33:56<12:35:09,  1.26s/it] 26%|██▋       | 12884/48845 [4:33:57<12:34:15,  1.26s/it] 26%|██▋       | 12885/48845 [4:33:58<12:34:50,  1.26s/it]                                                          {'loss': 2.1632, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12885/48845 [4:33:58<12:34:50,  1.26s/it] 26%|██▋       | 12886/48845 [4:34:00<12:35:46,  1.26s/it] 26%|██▋       | 12887/48845 [4:34:01<12:35:22,  1.26s/it] 26%|██▋       | 12888/48845 [4:34:02<12:34:46,  1.26s/it] 26%|██▋       | 12889/48845 [4:34:04<12:34:47,  1.26s/it] 26%|██▋       | 12890/48845 [4:34:05<12:34:35,  1.26s/it]                                                          {'loss': 1.9428, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12890/48845 [4:34:05<12:34:35,  1.26s/it] 26%|██▋       | 12891/48845 [4:34:06<12:35:02,  1.26s/it] 26%|██▋       | 12892/48845 [4:34:07<12:35:24,  1.26s/it] 26%|██▋       | 12893/48845 [4:34:09<12:34:51,  1.26s/it] 26%|██▋       | 12894/48845 [4:34:10<12:34:41,  1.26s/it] 26%|██▋       | 12895/48845 [4:34:11<12:34:26,  1.26s/it]                                                          {'loss': 2.2212, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12895/48845 [4:34:11<12:34:26,  1.26s/it] 26%|██▋       | 12896/48845 [4:34:12<12:34:58,  1.26s/it] 26%|██▋       | 12897/48845 [4:34:14<12:34:13,  1.26s/it] 26%|██▋       | 12898/48845 [4:34:15<12:34:32,  1.26s/it] 26%|██▋       | 12899/48845 [4:34:16<12:33:52,  1.26s/it] 26%|██▋       | 12900/48845 [4:34:17<12:34:13,  1.26s/it]                                                          {'loss': 2.0504, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12900/48845 [4:34:17<12:34:13,  1.26s/it] 26%|██▋       | 12901/48845 [4:34:19<12:34:55,  1.26s/it] 26%|██▋       | 12902/48845 [4:34:20<12:34:09,  1.26s/it] 26%|██▋       | 12903/48845 [4:34:21<12:33:32,  1.26s/it] 26%|██▋       | 12904/48845 [4:34:22<12:34:01,  1.26s/it] 26%|██▋       | 12905/48845 [4:34:24<12:33:42,  1.26s/it]                                                          {'loss': 1.9755, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12905/48845 [4:34:24<12:33:42,  1.26s/it] 26%|██▋       | 12906/48845 [4:34:25<12:34:00,  1.26s/it] 26%|██▋       | 12907/48845 [4:34:26<12:34:00,  1.26s/it] 26%|██▋       | 12908/48845 [4:34:27<12:34:26,  1.26s/it] 26%|██▋       | 12909/48845 [4:34:29<12:33:12,  1.26s/it] 26%|██▋       | 12910/48845 [4:34:30<12:33:59,  1.26s/it]                                                          {'loss': 1.9835, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12910/48845 [4:34:30<12:33:59,  1.26s/it] 26%|██▋       | 12911/48845 [4:34:31<12:33:48,  1.26s/it] 26%|██▋       | 12912/48845 [4:34:32<12:33:38,  1.26s/it] 26%|██▋       | 12913/48845 [4:34:34<12:34:42,  1.26s/it] 26%|██▋       | 12914/48845 [4:34:35<12:34:33,  1.26s/it] 26%|██▋       | 12915/48845 [4:34:36<12:34:15,  1.26s/it]                                                          {'loss': 2.0424, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12915/48845 [4:34:36<12:34:15,  1.26s/it] 26%|██▋       | 12916/48845 [4:34:38<12:33:29,  1.26s/it] 26%|██▋       | 12917/48845 [4:34:39<12:33:39,  1.26s/it] 26%|██▋       | 12918/48845 [4:34:40<12:33:59,  1.26s/it] 26%|██▋       | 12919/48845 [4:34:41<12:33:28,  1.26s/it] 26%|██▋       | 12920/48845 [4:34:43<12:33:00,  1.26s/it]                                                          {'loss': 1.9436, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12920/48845 [4:34:43<12:33:00,  1.26s/it] 26%|██▋       | 12921/48845 [4:34:44<12:33:10,  1.26s/it] 26%|██▋       | 12922/48845 [4:34:45<12:32:52,  1.26s/it] 26%|██▋       | 12923/48845 [4:34:46<12:33:17,  1.26s/it] 26%|██▋       | 12924/48845 [4:34:48<12:33:51,  1.26s/it] 26%|██▋       | 12925/48845 [4:34:49<12:34:53,  1.26s/it]                                                          {'loss': 2.31, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12925/48845 [4:34:49<12:34:53,  1.26s/it] 26%|██▋       | 12926/48845 [4:34:50<12:34:32,  1.26s/it] 26%|██▋       | 12927/48845 [4:34:51<12:34:06,  1.26s/it] 26%|██▋       | 12928/48845 [4:34:53<12:34:33,  1.26s/it] 26%|██▋       | 12929/48845 [4:34:54<12:34:17,  1.26s/it] 26%|██▋       | 12930/48845 [4:34:55<12:33:57,  1.26s/it]                                                          {'loss': 1.9684, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12930/48845 [4:34:55<12:33:57,  1.26s/it] 26%|██▋       | 12931/48845 [4:34:56<12:33:38,  1.26s/it] 26%|██▋       | 12932/48845 [4:34:58<12:33:46,  1.26s/it] 26%|██▋       | 12933/48845 [4:34:59<12:34:13,  1.26s/it] 26%|██▋       | 12934/48845 [4:35:00<12:33:49,  1.26s/it] 26%|██▋       | 12935/48845 [4:35:01<12:33:15,  1.26s/it]                                                          {'loss': 2.0771, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12935/48845 [4:35:01<12:33:15,  1.26s/it] 26%|██▋       | 12936/48845 [4:35:03<12:33:24,  1.26s/it] 26%|██▋       | 12937/48845 [4:35:04<12:34:01,  1.26s/it] 26%|██▋       | 12938/48845 [4:35:05<12:34:09,  1.26s/it] 26%|██▋       | 12939/48845 [4:35:06<12:34:21,  1.26s/it] 26%|██▋       | 12940/48845 [4:35:08<12:34:09,  1.26s/it]                                                          {'loss': 2.0262, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.32}
+ 26%|██▋       | 12940/48845 [4:35:08<12:34:09,  1.26s/it] 26%|██▋       | 12941/48845 [4:35:09<12:34:43,  1.26s/it] 26%|██▋       | 12942/48845 [4:35:10<12:34:00,  1.26s/it] 26%|██▋       | 12943/48845 [4:35:12<12:34:41,  1.26s/it] 27%|██▋       | 12944/48845 [4:35:13<12:34:07,  1.26s/it] 27%|██▋       | 12945/48845 [4:35:14<12:34:07,  1.26s/it]                                                          {'loss': 1.9931, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12945/48845 [4:35:14<12:34:07,  1.26s/it] 27%|██▋       | 12946/48845 [4:35:15<12:34:47,  1.26s/it] 27%|██▋       | 12947/48845 [4:35:17<12:33:13,  1.26s/it] 27%|██▋       | 12948/48845 [4:35:18<12:33:56,  1.26s/it] 27%|██▋       | 12949/48845 [4:35:19<12:33:32,  1.26s/it] 27%|██▋       | 12950/48845 [4:35:20<12:33:30,  1.26s/it]                                                          {'loss': 1.9291, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12950/48845 [4:35:20<12:33:30,  1.26s/it] 27%|██▋       | 12951/48845 [4:35:22<12:33:15,  1.26s/it] 27%|██▋       | 12952/48845 [4:35:23<12:33:51,  1.26s/it] 27%|██▋       | 12953/48845 [4:35:24<12:34:15,  1.26s/it] 27%|██▋       | 12954/48845 [4:35:25<12:33:43,  1.26s/it] 27%|██▋       | 12955/48845 [4:35:27<12:33:57,  1.26s/it]                                                          {'loss': 1.8862, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12955/48845 [4:35:27<12:33:57,  1.26s/it] 27%|██▋       | 12956/48845 [4:35:28<12:34:53,  1.26s/it] 27%|██▋       | 12957/48845 [4:35:29<12:34:22,  1.26s/it] 27%|██▋       | 12958/48845 [4:35:30<12:34:32,  1.26s/it] 27%|██▋       | 12959/48845 [4:35:32<12:33:46,  1.26s/it] 27%|██▋       | 12960/48845 [4:35:33<12:44:02,  1.28s/it]                                                          {'loss': 2.32, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12960/48845 [4:35:33<12:44:02,  1.28s/it] 27%|██▋       | 12961/48845 [4:35:34<12:40:51,  1.27s/it] 27%|██▋       | 12962/48845 [4:35:36<12:39:15,  1.27s/it] 27%|██▋       | 12963/48845 [4:35:37<12:37:31,  1.27s/it] 27%|██▋       | 12964/48845 [4:35:38<12:36:22,  1.26s/it] 27%|██▋       | 12965/48845 [4:35:39<12:35:39,  1.26s/it]                                                          {'loss': 1.9731, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12965/48845 [4:35:39<12:35:39,  1.26s/it] 27%|██▋       | 12966/48845 [4:35:41<12:35:10,  1.26s/it] 27%|██▋       | 12967/48845 [4:35:42<12:34:18,  1.26s/it] 27%|██▋       | 12968/48845 [4:35:43<12:33:38,  1.26s/it] 27%|██▋       | 12969/48845 [4:35:44<12:33:45,  1.26s/it] 27%|██▋       | 12970/48845 [4:35:46<12:34:52,  1.26s/it]                                                          {'loss': 2.0514, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12970/48845 [4:35:46<12:34:52,  1.26s/it] 27%|██▋       | 12971/48845 [4:35:47<12:34:35,  1.26s/it] 27%|██▋       | 12972/48845 [4:35:48<12:33:49,  1.26s/it] 27%|██▋       | 12973/48845 [4:35:49<12:34:31,  1.26s/it] 27%|██▋       | 12974/48845 [4:35:51<12:33:40,  1.26s/it] 27%|██▋       | 12975/48845 [4:35:52<12:34:24,  1.26s/it]                                                          {'loss': 2.0323, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12975/48845 [4:35:52<12:34:24,  1.26s/it] 27%|██▋       | 12976/48845 [4:35:53<12:34:42,  1.26s/it] 27%|██▋       | 12977/48845 [4:35:54<12:33:59,  1.26s/it] 27%|██▋       | 12978/48845 [4:35:56<12:34:41,  1.26s/it] 27%|██▋       | 12979/48845 [4:35:57<12:33:28,  1.26s/it] 27%|██▋       | 12980/48845 [4:35:58<12:33:36,  1.26s/it]                                                          {'loss': 1.9902, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12980/48845 [4:35:58<12:33:36,  1.26s/it] 27%|██▋       | 12981/48845 [4:35:59<12:33:35,  1.26s/it] 27%|██▋       | 12982/48845 [4:36:01<12:33:27,  1.26s/it] 27%|██▋       | 12983/48845 [4:36:02<12:33:11,  1.26s/it] 27%|██▋       | 12984/48845 [4:36:03<12:32:43,  1.26s/it] 27%|██▋       | 12985/48845 [4:36:05<12:32:10,  1.26s/it]                                                          {'loss': 1.9385, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12985/48845 [4:36:05<12:32:10,  1.26s/it] 27%|██▋       | 12986/48845 [4:36:06<12:32:25,  1.26s/it] 27%|██▋       | 12987/48845 [4:36:07<12:32:18,  1.26s/it] 27%|██▋       | 12988/48845 [4:36:08<12:33:06,  1.26s/it] 27%|██▋       | 12989/48845 [4:36:10<12:32:41,  1.26s/it] 27%|██▋       | 12990/48845 [4:36:11<12:33:10,  1.26s/it]                                                          {'loss': 1.9879, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12990/48845 [4:36:11<12:33:10,  1.26s/it] 27%|██▋       | 12991/48845 [4:36:12<12:32:33,  1.26s/it] 27%|██▋       | 12992/48845 [4:36:13<12:32:32,  1.26s/it] 27%|██▋       | 12993/48845 [4:36:15<12:32:29,  1.26s/it] 27%|██▋       | 12994/48845 [4:36:16<12:32:59,  1.26s/it] 27%|██▋       | 12995/48845 [4:36:17<12:33:04,  1.26s/it]                                                          {'loss': 2.047, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 12995/48845 [4:36:17<12:33:04,  1.26s/it] 27%|██▋       | 12996/48845 [4:36:18<12:33:00,  1.26s/it] 27%|██▋       | 12997/48845 [4:36:20<12:32:38,  1.26s/it] 27%|██▋       | 12998/48845 [4:36:21<12:32:33,  1.26s/it] 27%|██▋       | 12999/48845 [4:36:22<12:46:10,  1.28s/it] 27%|██▋       | 13000/48845 [4:36:24<12:44:13,  1.28s/it]                                                          {'loss': 1.8822, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13000/48845 [4:36:24<12:44:13,  1.28s/it] 27%|██▋       | 13001/48845 [4:36:27<19:51:11,  1.99s/it] 27%|██▋       | 13002/48845 [4:36:28<17:38:58,  1.77s/it] 27%|██▋       | 13003/48845 [4:36:30<16:06:31,  1.62s/it] 27%|██▋       | 13004/48845 [4:36:31<15:01:56,  1.51s/it] 27%|██▋       | 13005/48845 [4:36:32<14:17:38,  1.44s/it]                                                          {'loss': 1.9994, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13005/48845 [4:36:32<14:17:38,  1.44s/it] 27%|██▋       | 13006/48845 [4:36:33<13:45:56,  1.38s/it] 27%|██▋       | 13007/48845 [4:36:35<13:23:45,  1.35s/it] 27%|██▋       | 13008/48845 [4:36:36<13:10:58,  1.32s/it] 27%|██▋       | 13009/48845 [4:36:37<12:58:40,  1.30s/it] 27%|██▋       | 13010/48845 [4:36:39<12:50:47,  1.29s/it]                                                          {'loss': 1.933, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13010/48845 [4:36:39<12:50:47,  1.29s/it] 27%|██▋       | 13011/48845 [4:36:40<12:44:23,  1.28s/it] 27%|██▋       | 13012/48845 [4:36:41<12:47:07,  1.28s/it] 27%|██▋       | 13013/48845 [4:36:42<12:42:33,  1.28s/it] 27%|██▋       | 13014/48845 [4:36:44<12:39:12,  1.27s/it] 27%|██▋       | 13015/48845 [4:36:45<12:36:48,  1.27s/it]                                                          {'loss': 2.049, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13015/48845 [4:36:45<12:36:48,  1.27s/it] 27%|██▋       | 13016/48845 [4:36:46<12:35:49,  1.27s/it] 27%|██▋       | 13017/48845 [4:36:47<12:34:20,  1.26s/it] 27%|██▋       | 13018/48845 [4:36:49<12:33:31,  1.26s/it] 27%|██▋       | 13019/48845 [4:36:50<12:33:02,  1.26s/it] 27%|██▋       | 13020/48845 [4:36:51<12:32:45,  1.26s/it]                                                          {'loss': 2.0378, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13020/48845 [4:36:51<12:32:45,  1.26s/it] 27%|██▋       | 13021/48845 [4:36:52<12:33:00,  1.26s/it] 27%|██▋       | 13022/48845 [4:36:54<12:32:13,  1.26s/it] 27%|██▋       | 13023/48845 [4:36:55<12:32:32,  1.26s/it] 27%|██▋       | 13024/48845 [4:36:56<12:32:28,  1.26s/it] 27%|██▋       | 13025/48845 [4:36:57<12:32:48,  1.26s/it]                                                          {'loss': 1.9955, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13025/48845 [4:36:57<12:32:48,  1.26s/it] 27%|██▋       | 13026/48845 [4:36:59<12:33:58,  1.26s/it] 27%|██▋       | 13027/48845 [4:37:00<12:32:57,  1.26s/it] 27%|██▋       | 13028/48845 [4:37:01<12:32:10,  1.26s/it] 27%|██▋       | 13029/48845 [4:37:02<12:32:16,  1.26s/it] 27%|██▋       | 13030/48845 [4:37:04<12:33:02,  1.26s/it]                                                          {'loss': 2.0631, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13030/48845 [4:37:04<12:33:02,  1.26s/it] 27%|██▋       | 13031/48845 [4:37:05<12:32:47,  1.26s/it] 27%|██▋       | 13032/48845 [4:37:06<12:32:24,  1.26s/it] 27%|██▋       | 13033/48845 [4:37:08<12:31:57,  1.26s/it] 27%|██▋       | 13034/48845 [4:37:09<12:31:49,  1.26s/it] 27%|██▋       | 13035/48845 [4:37:10<12:31:48,  1.26s/it]                                                          {'loss': 1.8423, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13035/48845 [4:37:10<12:31:48,  1.26s/it] 27%|██▋       | 13036/48845 [4:37:11<12:31:18,  1.26s/it] 27%|██▋       | 13037/48845 [4:37:13<12:31:09,  1.26s/it] 27%|██▋       | 13038/48845 [4:37:14<12:31:30,  1.26s/it] 27%|██▋       | 13039/48845 [4:37:15<12:31:46,  1.26s/it] 27%|██▋       | 13040/48845 [4:37:16<12:31:25,  1.26s/it]                                                          {'loss': 1.8027, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.33}
+ 27%|██▋       | 13040/48845 [4:37:16<12:31:25,  1.26s/it] 27%|██▋       | 13041/48845 [4:37:18<12:32:01,  1.26s/it] 27%|██▋       | 13042/48845 [4:37:19<12:32:49,  1.26s/it] 27%|██▋       | 13043/48845 [4:37:20<12:33:23,  1.26s/it] 27%|██▋       | 13044/48845 [4:37:21<12:36:03,  1.27s/it] 27%|██▋       | 13045/48845 [4:37:23<12:35:01,  1.27s/it]                                                          {'loss': 1.9274, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13045/48845 [4:37:23<12:35:01,  1.27s/it] 27%|██▋       | 13046/48845 [4:37:24<12:34:29,  1.26s/it] 27%|██▋       | 13047/48845 [4:37:25<12:34:22,  1.26s/it] 27%|██▋       | 13048/48845 [4:37:26<12:32:56,  1.26s/it] 27%|██▋       | 13049/48845 [4:37:28<12:32:46,  1.26s/it] 27%|██▋       | 13050/48845 [4:37:29<12:33:04,  1.26s/it]                                                          {'loss': 1.9143, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13050/48845 [4:37:29<12:33:04,  1.26s/it] 27%|██▋       | 13051/48845 [4:37:30<12:32:59,  1.26s/it] 27%|██▋       | 13052/48845 [4:37:31<12:32:21,  1.26s/it] 27%|██▋       | 13053/48845 [4:37:33<12:31:49,  1.26s/it] 27%|██▋       | 13054/48845 [4:37:34<12:31:11,  1.26s/it] 27%|██▋       | 13055/48845 [4:37:35<12:32:56,  1.26s/it]                                                          {'loss': 1.9288, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13055/48845 [4:37:35<12:32:56,  1.26s/it] 27%|██▋       | 13056/48845 [4:37:37<12:33:58,  1.26s/it] 27%|██▋       | 13057/48845 [4:37:38<12:33:18,  1.26s/it] 27%|██▋       | 13058/48845 [4:37:39<12:32:50,  1.26s/it] 27%|██▋       | 13059/48845 [4:37:40<12:40:21,  1.27s/it] 27%|██▋       | 13060/48845 [4:37:42<12:37:26,  1.27s/it]                                                          {'loss': 1.9802, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13060/48845 [4:37:42<12:37:26,  1.27s/it] 27%|██▋       | 13061/48845 [4:37:43<12:36:17,  1.27s/it] 27%|██▋       | 13062/48845 [4:37:44<12:34:19,  1.26s/it] 27%|██▋       | 13063/48845 [4:37:45<12:37:52,  1.27s/it] 27%|██▋       | 13064/48845 [4:37:47<12:35:47,  1.27s/it] 27%|██▋       | 13065/48845 [4:37:48<12:33:37,  1.26s/it]                                                          {'loss': 2.0186, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13065/48845 [4:37:48<12:33:37,  1.26s/it] 27%|██▋       | 13066/48845 [4:37:49<12:32:38,  1.26s/it] 27%|██▋       | 13067/48845 [4:37:50<12:32:33,  1.26s/it] 27%|██▋       | 13068/48845 [4:37:52<12:31:32,  1.26s/it] 27%|██▋       | 13069/48845 [4:37:53<12:31:40,  1.26s/it] 27%|██▋       | 13070/48845 [4:37:54<12:31:28,  1.26s/it]                                                          {'loss': 2.0845, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13070/48845 [4:37:54<12:31:28,  1.26s/it] 27%|██▋       | 13071/48845 [4:37:56<12:31:32,  1.26s/it] 27%|██▋       | 13072/48845 [4:37:57<12:31:56,  1.26s/it] 27%|██▋       | 13073/48845 [4:37:58<12:31:44,  1.26s/it] 27%|██▋       | 13074/48845 [4:37:59<12:31:25,  1.26s/it] 27%|██▋       | 13075/48845 [4:38:01<12:30:34,  1.26s/it]                                                          {'loss': 2.0101, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13075/48845 [4:38:01<12:30:34,  1.26s/it] 27%|██▋       | 13076/48845 [4:38:02<12:30:17,  1.26s/it] 27%|██▋       | 13077/48845 [4:38:03<12:30:44,  1.26s/it] 27%|██▋       | 13078/48845 [4:38:04<12:30:46,  1.26s/it] 27%|██▋       | 13079/48845 [4:38:06<12:31:38,  1.26s/it] 27%|██▋       | 13080/48845 [4:38:07<12:30:54,  1.26s/it]                                                          {'loss': 2.0295, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13080/48845 [4:38:07<12:30:54,  1.26s/it] 27%|██▋       | 13081/48845 [4:38:08<12:30:51,  1.26s/it] 27%|██▋       | 13082/48845 [4:38:09<12:31:08,  1.26s/it] 27%|██▋       | 13083/48845 [4:38:11<12:31:07,  1.26s/it] 27%|██▋       | 13084/48845 [4:38:12<12:31:04,  1.26s/it] 27%|██▋       | 13085/48845 [4:38:13<12:31:19,  1.26s/it]                                                          {'loss': 1.9696, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13085/48845 [4:38:13<12:31:19,  1.26s/it] 27%|██▋       | 13086/48845 [4:38:14<12:31:12,  1.26s/it] 27%|██▋       | 13087/48845 [4:38:16<12:31:12,  1.26s/it] 27%|██▋       | 13088/48845 [4:38:17<12:31:03,  1.26s/it] 27%|██▋       | 13089/48845 [4:38:18<12:31:41,  1.26s/it] 27%|██▋       | 13090/48845 [4:38:19<12:31:43,  1.26s/it]                                                          {'loss': 2.047, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13090/48845 [4:38:19<12:31:43,  1.26s/it] 27%|██▋       | 13091/48845 [4:38:21<12:31:36,  1.26s/it] 27%|██▋       | 13092/48845 [4:38:22<12:30:57,  1.26s/it] 27%|██▋       | 13093/48845 [4:38:23<12:30:32,  1.26s/it] 27%|██▋       | 13094/48845 [4:38:24<12:30:18,  1.26s/it] 27%|██▋       | 13095/48845 [4:38:26<12:30:21,  1.26s/it]                                                          {'loss': 2.1376, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13095/48845 [4:38:26<12:30:21,  1.26s/it] 27%|██▋       | 13096/48845 [4:38:27<12:31:08,  1.26s/it] 27%|██▋       | 13097/48845 [4:38:28<12:30:53,  1.26s/it] 27%|██▋       | 13098/48845 [4:38:30<12:30:26,  1.26s/it] 27%|██▋       | 13099/48845 [4:38:31<12:31:49,  1.26s/it] 27%|██▋       | 13100/48845 [4:38:32<12:31:49,  1.26s/it]                                                          {'loss': 2.0492, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13100/48845 [4:38:32<12:31:49,  1.26s/it] 27%|██▋       | 13101/48845 [4:38:33<12:32:01,  1.26s/it] 27%|██▋       | 13102/48845 [4:38:35<12:31:37,  1.26s/it] 27%|██▋       | 13103/48845 [4:38:36<12:30:42,  1.26s/it] 27%|██▋       | 13104/48845 [4:38:37<12:29:56,  1.26s/it] 27%|██▋       | 13105/48845 [4:38:38<12:30:11,  1.26s/it]                                                          {'loss': 2.0589, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13105/48845 [4:38:38<12:30:11,  1.26s/it] 27%|██▋       | 13106/48845 [4:38:40<12:30:17,  1.26s/it] 27%|██▋       | 13107/48845 [4:38:41<12:30:03,  1.26s/it] 27%|██▋       | 13108/48845 [4:38:42<12:29:27,  1.26s/it] 27%|██▋       | 13109/48845 [4:38:43<12:29:18,  1.26s/it] 27%|██▋       | 13110/48845 [4:38:45<12:29:51,  1.26s/it]                                                          {'loss': 1.9785, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13110/48845 [4:38:45<12:29:51,  1.26s/it] 27%|██▋       | 13111/48845 [4:38:46<12:30:01,  1.26s/it] 27%|██▋       | 13112/48845 [4:38:47<12:30:17,  1.26s/it] 27%|██▋       | 13113/48845 [4:38:48<12:29:48,  1.26s/it] 27%|██▋       | 13114/48845 [4:38:50<12:30:11,  1.26s/it] 27%|██▋       | 13115/48845 [4:38:51<12:30:45,  1.26s/it]                                                          {'loss': 2.0065, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13115/48845 [4:38:51<12:30:45,  1.26s/it] 27%|██▋       | 13116/48845 [4:38:52<12:30:01,  1.26s/it] 27%|██▋       | 13117/48845 [4:38:53<12:30:14,  1.26s/it] 27%|██▋       | 13118/48845 [4:38:55<12:29:29,  1.26s/it] 27%|██▋       | 13119/48845 [4:38:56<12:30:22,  1.26s/it] 27%|██▋       | 13120/48845 [4:38:57<12:31:00,  1.26s/it]                                                          {'loss': 2.0228, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13120/48845 [4:38:57<12:31:00,  1.26s/it] 27%|██▋       | 13121/48845 [4:38:59<12:30:40,  1.26s/it] 27%|██▋       | 13122/48845 [4:39:00<12:30:07,  1.26s/it] 27%|██▋       | 13123/48845 [4:39:01<12:29:30,  1.26s/it] 27%|██▋       | 13124/48845 [4:39:02<12:29:14,  1.26s/it] 27%|██▋       | 13125/48845 [4:39:04<12:29:37,  1.26s/it]                                                          {'loss': 1.9023, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13125/48845 [4:39:04<12:29:37,  1.26s/it] 27%|██▋       | 13126/48845 [4:39:05<12:29:20,  1.26s/it] 27%|██▋       | 13127/48845 [4:39:06<12:40:37,  1.28s/it] 27%|██▋       | 13128/48845 [4:39:07<12:36:43,  1.27s/it] 27%|██▋       | 13129/48845 [4:39:09<12:34:30,  1.27s/it] 27%|██▋       | 13130/48845 [4:39:10<12:33:00,  1.27s/it]                                                          {'loss': 2.0981, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13130/48845 [4:39:10<12:33:00,  1.27s/it] 27%|██▋       | 13131/48845 [4:39:11<12:32:06,  1.26s/it] 27%|██▋       | 13132/48845 [4:39:12<12:31:37,  1.26s/it] 27%|██▋       | 13133/48845 [4:39:14<12:30:21,  1.26s/it] 27%|██▋       | 13134/48845 [4:39:15<12:30:25,  1.26s/it] 27%|██▋       | 13135/48845 [4:39:16<12:30:07,  1.26s/it]                                                          {'loss': 1.9952, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.34}
+ 27%|██▋       | 13135/48845 [4:39:16<12:30:07,  1.26s/it] 27%|██▋       | 13136/48845 [4:39:17<12:30:51,  1.26s/it] 27%|██▋       | 13137/48845 [4:39:19<12:30:11,  1.26s/it] 27%|██▋       | 13138/48845 [4:39:20<12:30:09,  1.26s/it] 27%|██▋       | 13139/48845 [4:39:21<12:30:18,  1.26s/it] 27%|██▋       | 13140/48845 [4:39:23<12:31:06,  1.26s/it]                                                          {'loss': 2.0774, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13140/48845 [4:39:23<12:31:06,  1.26s/it] 27%|██▋       | 13141/48845 [4:39:24<12:31:05,  1.26s/it] 27%|██▋       | 13142/48845 [4:39:25<12:31:18,  1.26s/it] 27%|██▋       | 13143/48845 [4:39:26<12:30:34,  1.26s/it] 27%|██▋       | 13144/48845 [4:39:28<12:30:50,  1.26s/it] 27%|██▋       | 13145/48845 [4:39:29<12:30:35,  1.26s/it]                                                          {'loss': 1.95, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13145/48845 [4:39:29<12:30:35,  1.26s/it] 27%|██▋       | 13146/48845 [4:39:30<12:56:33,  1.31s/it] 27%|██▋       | 13147/48845 [4:39:31<12:48:01,  1.29s/it] 27%|██▋       | 13148/48845 [4:39:33<12:43:00,  1.28s/it] 27%|██▋       | 13149/48845 [4:39:34<12:38:24,  1.27s/it] 27%|██▋       | 13150/48845 [4:39:35<12:36:11,  1.27s/it]                                                          {'loss': 2.0034, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13150/48845 [4:39:35<12:36:11,  1.27s/it] 27%|██▋       | 13151/48845 [4:39:37<12:36:11,  1.27s/it] 27%|██▋       | 13152/48845 [4:39:38<12:34:18,  1.27s/it] 27%|██▋       | 13153/48845 [4:39:39<12:33:26,  1.27s/it] 27%|██▋       | 13154/48845 [4:39:40<12:32:04,  1.26s/it] 27%|██▋       | 13155/48845 [4:39:42<12:31:15,  1.26s/it]                                                          {'loss': 1.9107, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13155/48845 [4:39:42<12:31:15,  1.26s/it] 27%|██▋       | 13156/48845 [4:39:43<12:31:07,  1.26s/it] 27%|██▋       | 13157/48845 [4:39:44<12:29:55,  1.26s/it] 27%|██▋       | 13158/48845 [4:39:45<12:30:10,  1.26s/it] 27%|██▋       | 13159/48845 [4:39:47<12:30:38,  1.26s/it] 27%|██▋       | 13160/48845 [4:39:48<12:29:40,  1.26s/it]                                                          {'loss': 2.248, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13160/48845 [4:39:48<12:29:40,  1.26s/it] 27%|██▋       | 13161/48845 [4:39:49<12:30:36,  1.26s/it] 27%|██▋       | 13162/48845 [4:39:50<12:29:37,  1.26s/it] 27%|██▋       | 13163/48845 [4:39:52<12:29:39,  1.26s/it] 27%|██▋       | 13164/48845 [4:39:53<12:30:55,  1.26s/it] 27%|██▋       | 13165/48845 [4:39:54<12:30:57,  1.26s/it]                                                          {'loss': 1.8738, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13165/48845 [4:39:54<12:30:57,  1.26s/it] 27%|██▋       | 13166/48845 [4:39:55<12:29:58,  1.26s/it] 27%|██▋       | 13167/48845 [4:39:57<12:29:12,  1.26s/it] 27%|██▋       | 13168/48845 [4:39:58<12:28:55,  1.26s/it] 27%|██▋       | 13169/48845 [4:39:59<12:28:54,  1.26s/it] 27%|██▋       | 13170/48845 [4:40:00<12:28:51,  1.26s/it]                                                          {'loss': 1.9549, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13170/48845 [4:40:00<12:28:51,  1.26s/it] 27%|██▋       | 13171/48845 [4:40:02<12:30:20,  1.26s/it] 27%|██▋       | 13172/48845 [4:40:03<12:28:50,  1.26s/it] 27%|██▋       | 13173/48845 [4:40:04<12:29:11,  1.26s/it] 27%|██▋       | 13174/48845 [4:40:06<12:28:57,  1.26s/it] 27%|██▋       | 13175/48845 [4:40:07<12:28:22,  1.26s/it]                                                          {'loss': 1.8891, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13175/48845 [4:40:07<12:28:22,  1.26s/it] 27%|██▋       | 13176/48845 [4:40:08<12:29:07,  1.26s/it] 27%|██▋       | 13177/48845 [4:40:09<12:29:16,  1.26s/it] 27%|██▋       | 13178/48845 [4:40:11<12:28:35,  1.26s/it] 27%|██▋       | 13179/48845 [4:40:12<12:29:18,  1.26s/it] 27%|██▋       | 13180/48845 [4:40:13<12:28:54,  1.26s/it]                                                          {'loss': 1.9731, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13180/48845 [4:40:13<12:28:54,  1.26s/it] 27%|██▋       | 13181/48845 [4:40:14<12:38:17,  1.28s/it] 27%|██▋       | 13182/48845 [4:40:16<12:35:07,  1.27s/it] 27%|██▋       | 13183/48845 [4:40:17<12:33:33,  1.27s/it] 27%|██▋       | 13184/48845 [4:40:18<12:32:39,  1.27s/it] 27%|██▋       | 13185/48845 [4:40:19<12:31:40,  1.26s/it]                                                          {'loss': 2.0078, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13185/48845 [4:40:19<12:31:40,  1.26s/it] 27%|██▋       | 13186/48845 [4:40:21<12:29:56,  1.26s/it] 27%|██▋       | 13187/48845 [4:40:22<12:29:09,  1.26s/it] 27%|██▋       | 13188/48845 [4:40:23<12:29:11,  1.26s/it] 27%|██▋       | 13189/48845 [4:40:24<12:30:32,  1.26s/it] 27%|██▋       | 13190/48845 [4:40:26<12:30:05,  1.26s/it]                                                          {'loss': 2.0354, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13190/48845 [4:40:26<12:30:05,  1.26s/it] 27%|██▋       | 13191/48845 [4:40:27<12:31:17,  1.26s/it] 27%|██▋       | 13192/48845 [4:40:28<12:30:21,  1.26s/it] 27%|██▋       | 13193/48845 [4:40:30<12:30:19,  1.26s/it] 27%|██▋       | 13194/48845 [4:40:31<12:29:55,  1.26s/it] 27%|██▋       | 13195/48845 [4:40:32<12:28:36,  1.26s/it]                                                          {'loss': 2.0658, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13195/48845 [4:40:32<12:28:36,  1.26s/it] 27%|██▋       | 13196/48845 [4:40:33<12:29:00,  1.26s/it] 27%|██▋       | 13197/48845 [4:40:35<12:28:26,  1.26s/it] 27%|██▋       | 13198/48845 [4:40:36<12:28:28,  1.26s/it] 27%|██▋       | 13199/48845 [4:40:37<12:28:11,  1.26s/it] 27%|██▋       | 13200/48845 [4:40:38<12:28:05,  1.26s/it]                                                          {'loss': 1.9869, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13200/48845 [4:40:38<12:28:05,  1.26s/it] 27%|██▋       | 13201/48845 [4:40:42<19:47:11,  2.00s/it] 27%|██▋       | 13202/48845 [4:40:43<17:35:42,  1.78s/it] 27%|██▋       | 13203/48845 [4:40:45<16:03:07,  1.62s/it] 27%|██▋       | 13204/48845 [4:40:46<14:57:47,  1.51s/it] 27%|██▋       | 13205/48845 [4:40:47<14:13:54,  1.44s/it]                                                          {'loss': 2.1325, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13205/48845 [4:40:47<14:13:54,  1.44s/it] 27%|██▋       | 13206/48845 [4:40:48<13:42:01,  1.38s/it] 27%|██▋       | 13207/48845 [4:40:50<13:19:49,  1.35s/it] 27%|██▋       | 13208/48845 [4:40:51<13:03:16,  1.32s/it] 27%|██▋       | 13209/48845 [4:40:52<12:52:29,  1.30s/it] 27%|██▋       | 13210/48845 [4:40:53<12:45:00,  1.29s/it]                                                          {'loss': 2.1551, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13210/48845 [4:40:53<12:45:00,  1.29s/it] 27%|██▋       | 13211/48845 [4:40:55<12:39:30,  1.28s/it] 27%|██▋       | 13212/48845 [4:40:56<12:35:59,  1.27s/it] 27%|██▋       | 13213/48845 [4:40:57<12:34:04,  1.27s/it] 27%|██▋       | 13214/48845 [4:40:58<12:31:53,  1.27s/it] 27%|██▋       | 13215/48845 [4:41:00<12:30:58,  1.26s/it]                                                          {'loss': 2.1448, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13215/48845 [4:41:00<12:30:58,  1.26s/it] 27%|██▋       | 13216/48845 [4:41:01<12:32:55,  1.27s/it] 27%|██▋       | 13217/48845 [4:41:02<12:31:36,  1.27s/it] 27%|██▋       | 13218/48845 [4:41:03<12:30:00,  1.26s/it] 27%|██▋       | 13219/48845 [4:41:05<12:29:12,  1.26s/it] 27%|██▋       | 13220/48845 [4:41:06<12:40:27,  1.28s/it]                                                          {'loss': 2.0077, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13220/48845 [4:41:06<12:40:27,  1.28s/it] 27%|██▋       | 13221/48845 [4:41:07<12:36:38,  1.27s/it] 27%|██▋       | 13222/48845 [4:41:09<12:34:14,  1.27s/it] 27%|██▋       | 13223/48845 [4:41:10<12:31:39,  1.27s/it] 27%|██▋       | 13224/48845 [4:41:11<12:30:19,  1.26s/it] 27%|██▋       | 13225/48845 [4:41:12<12:29:11,  1.26s/it]                                                          {'loss': 2.0165, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13225/48845 [4:41:12<12:29:11,  1.26s/it] 27%|██▋       | 13226/48845 [4:41:14<12:28:42,  1.26s/it] 27%|██▋       | 13227/48845 [4:41:15<12:28:44,  1.26s/it] 27%|██▋       | 13228/48845 [4:41:16<12:27:35,  1.26s/it] 27%|██▋       | 13229/48845 [4:41:17<12:27:51,  1.26s/it] 27%|██▋       | 13230/48845 [4:41:19<12:27:32,  1.26s/it]                                                          {'loss': 1.988, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13230/48845 [4:41:19<12:27:32,  1.26s/it] 27%|██▋       | 13231/48845 [4:41:20<12:28:16,  1.26s/it] 27%|██▋       | 13232/48845 [4:41:21<12:27:49,  1.26s/it] 27%|██▋       | 13233/48845 [4:41:22<12:27:24,  1.26s/it] 27%|██▋       | 13234/48845 [4:41:24<12:27:14,  1.26s/it] 27%|██▋       | 13235/48845 [4:41:25<12:26:54,  1.26s/it]                                                          {'loss': 1.9738, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.35}
+ 27%|██▋       | 13235/48845 [4:41:25<12:26:54,  1.26s/it] 27%|██▋       | 13236/48845 [4:41:26<12:28:18,  1.26s/it] 27%|██▋       | 13237/48845 [4:41:27<12:28:19,  1.26s/it] 27%|██▋       | 13238/48845 [4:41:29<12:27:48,  1.26s/it] 27%|██▋       | 13239/48845 [4:41:30<12:28:12,  1.26s/it] 27%|██▋       | 13240/48845 [4:41:31<12:27:58,  1.26s/it]                                                          {'loss': 1.9294, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13240/48845 [4:41:31<12:27:58,  1.26s/it] 27%|██▋       | 13241/48845 [4:41:33<12:27:44,  1.26s/it] 27%|██▋       | 13242/48845 [4:41:34<12:26:48,  1.26s/it] 27%|██▋       | 13243/48845 [4:41:35<12:26:16,  1.26s/it] 27%|██▋       | 13244/48845 [4:41:36<12:38:02,  1.28s/it] 27%|██▋       | 13245/48845 [4:41:38<12:34:58,  1.27s/it]                                                          {'loss': 1.9361, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13245/48845 [4:41:38<12:34:58,  1.27s/it] 27%|██▋       | 13246/48845 [4:41:39<12:32:07,  1.27s/it] 27%|██▋       | 13247/48845 [4:41:40<12:30:06,  1.26s/it] 27%|██▋       | 13248/48845 [4:41:41<12:29:15,  1.26s/it] 27%|██▋       | 13249/48845 [4:41:43<12:28:14,  1.26s/it] 27%|██▋       | 13250/48845 [4:41:44<12:28:01,  1.26s/it]                                                          {'loss': 1.9514, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13250/48845 [4:41:44<12:28:01,  1.26s/it] 27%|██▋       | 13251/48845 [4:41:45<12:27:26,  1.26s/it] 27%|██▋       | 13252/48845 [4:41:46<12:27:32,  1.26s/it] 27%|██▋       | 13253/48845 [4:41:48<12:27:16,  1.26s/it] 27%|██▋       | 13254/48845 [4:41:49<12:27:43,  1.26s/it] 27%|██▋       | 13255/48845 [4:41:50<12:27:23,  1.26s/it]                                                          {'loss': 2.0303, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13255/48845 [4:41:50<12:27:23,  1.26s/it] 27%|██▋       | 13256/48845 [4:41:52<12:33:37,  1.27s/it] 27%|██▋       | 13257/48845 [4:41:53<12:32:05,  1.27s/it] 27%|██▋       | 13258/48845 [4:41:54<12:30:40,  1.27s/it] 27%|██▋       | 13259/48845 [4:41:55<12:30:03,  1.26s/it] 27%|██▋       | 13260/48845 [4:41:57<12:53:30,  1.30s/it]                                                          {'loss': 1.9641, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13260/48845 [4:41:57<12:53:30,  1.30s/it] 27%|██▋       | 13261/48845 [4:41:58<12:44:37,  1.29s/it] 27%|██▋       | 13262/48845 [4:41:59<12:39:09,  1.28s/it] 27%|██▋       | 13263/48845 [4:42:00<12:34:52,  1.27s/it] 27%|██▋       | 13264/48845 [4:42:02<12:32:20,  1.27s/it] 27%|██▋       | 13265/48845 [4:42:03<12:30:03,  1.26s/it]                                                          {'loss': 1.8413, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13265/48845 [4:42:03<12:30:03,  1.26s/it] 27%|██▋       | 13266/48845 [4:42:04<12:29:01,  1.26s/it] 27%|██▋       | 13267/48845 [4:42:05<12:29:09,  1.26s/it] 27%|██▋       | 13268/48845 [4:42:07<12:28:28,  1.26s/it] 27%|██▋       | 13269/48845 [4:42:08<12:27:43,  1.26s/it] 27%|██▋       | 13270/48845 [4:42:09<12:27:19,  1.26s/it]                                                          {'loss': 2.0294, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13270/48845 [4:42:09<12:27:19,  1.26s/it] 27%|██▋       | 13271/48845 [4:42:11<12:26:58,  1.26s/it] 27%|██▋       | 13272/48845 [4:42:12<12:26:56,  1.26s/it] 27%|██▋       | 13273/48845 [4:42:13<12:26:47,  1.26s/it] 27%|██▋       | 13274/48845 [4:42:14<12:27:28,  1.26s/it] 27%|██▋       | 13275/48845 [4:42:16<12:27:57,  1.26s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13275/48845 [4:42:16<12:27:57,  1.26s/it] 27%|██▋       | 13276/48845 [4:42:17<12:27:31,  1.26s/it] 27%|██▋       | 13277/48845 [4:42:18<12:27:27,  1.26s/it] 27%|██▋       | 13278/48845 [4:42:19<12:27:17,  1.26s/it] 27%|██▋       | 13279/48845 [4:42:21<12:26:26,  1.26s/it] 27%|██▋       | 13280/48845 [4:42:22<12:26:54,  1.26s/it]                                                          {'loss': 2.0652, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13280/48845 [4:42:22<12:26:54,  1.26s/it] 27%|██▋       | 13281/48845 [4:42:23<12:27:42,  1.26s/it] 27%|██▋       | 13282/48845 [4:42:24<12:27:55,  1.26s/it] 27%|██▋       | 13283/48845 [4:42:26<12:28:02,  1.26s/it] 27%|██▋       | 13284/48845 [4:42:27<12:27:19,  1.26s/it] 27%|██▋       | 13285/48845 [4:42:28<12:27:08,  1.26s/it]                                                          {'loss': 2.0318, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13285/48845 [4:42:28<12:27:08,  1.26s/it] 27%|██▋       | 13286/48845 [4:42:29<12:26:50,  1.26s/it] 27%|██▋       | 13287/48845 [4:42:31<12:28:24,  1.26s/it] 27%|██▋       | 13288/48845 [4:42:32<12:28:14,  1.26s/it] 27%|██▋       | 13289/48845 [4:42:33<12:27:29,  1.26s/it] 27%|██▋       | 13290/48845 [4:42:34<12:27:07,  1.26s/it]                                                          {'loss': 1.8222, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13290/48845 [4:42:34<12:27:07,  1.26s/it] 27%|██▋       | 13291/48845 [4:42:36<12:26:29,  1.26s/it] 27%|██▋       | 13292/48845 [4:42:37<12:26:13,  1.26s/it] 27%|██▋       | 13293/48845 [4:42:38<12:26:27,  1.26s/it] 27%|██▋       | 13294/48845 [4:42:40<12:25:42,  1.26s/it] 27%|██▋       | 13295/48845 [4:42:41<12:25:46,  1.26s/it]                                                          {'loss': 1.9522, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13295/48845 [4:42:41<12:25:46,  1.26s/it] 27%|██▋       | 13296/48845 [4:42:42<12:25:59,  1.26s/it] 27%|██▋       | 13297/48845 [4:42:43<12:26:42,  1.26s/it] 27%|██▋       | 13298/48845 [4:42:45<12:26:34,  1.26s/it] 27%|██▋       | 13299/48845 [4:42:46<12:25:56,  1.26s/it] 27%|██▋       | 13300/48845 [4:42:47<12:26:35,  1.26s/it]                                                          {'loss': 1.8904, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13300/48845 [4:42:47<12:26:35,  1.26s/it] 27%|██▋       | 13301/48845 [4:42:48<12:26:33,  1.26s/it] 27%|██▋       | 13302/48845 [4:42:50<12:26:15,  1.26s/it] 27%|██▋       | 13303/48845 [4:42:51<12:26:36,  1.26s/it] 27%|██▋       | 13304/48845 [4:42:52<12:25:13,  1.26s/it] 27%|██▋       | 13305/48845 [4:42:53<12:25:15,  1.26s/it]                                                          {'loss': 2.0051, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13305/48845 [4:42:53<12:25:15,  1.26s/it] 27%|██▋       | 13306/48845 [4:42:55<12:25:56,  1.26s/it] 27%|██▋       | 13307/48845 [4:42:56<12:26:02,  1.26s/it] 27%|██▋       | 13308/48845 [4:42:57<12:25:48,  1.26s/it] 27%|██▋       | 13309/48845 [4:42:58<12:25:17,  1.26s/it] 27%|██▋       | 13310/48845 [4:43:00<12:25:46,  1.26s/it]                                                          {'loss': 2.0153, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13310/48845 [4:43:00<12:25:46,  1.26s/it] 27%|██▋       | 13311/48845 [4:43:01<12:25:38,  1.26s/it] 27%|██▋       | 13312/48845 [4:43:02<12:25:24,  1.26s/it] 27%|██▋       | 13313/48845 [4:43:03<12:25:18,  1.26s/it] 27%|██▋       | 13314/48845 [4:43:05<12:24:54,  1.26s/it] 27%|██▋       | 13315/48845 [4:43:06<12:25:29,  1.26s/it]                                                          {'loss': 1.9703, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13315/48845 [4:43:06<12:25:29,  1.26s/it] 27%|██▋       | 13316/48845 [4:43:07<12:25:26,  1.26s/it] 27%|██▋       | 13317/48845 [4:43:08<12:26:16,  1.26s/it] 27%|██▋       | 13318/48845 [4:43:10<12:25:42,  1.26s/it] 27%|██▋       | 13319/48845 [4:43:11<12:25:38,  1.26s/it] 27%|██▋       | 13320/48845 [4:43:12<12:25:59,  1.26s/it]                                                          {'loss': 1.9595, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13320/48845 [4:43:12<12:25:59,  1.26s/it] 27%|██▋       | 13321/48845 [4:43:14<12:26:05,  1.26s/it] 27%|██▋       | 13322/48845 [4:43:15<12:25:36,  1.26s/it] 27%|██▋       | 13323/48845 [4:43:16<12:25:51,  1.26s/it] 27%|██▋       | 13324/48845 [4:43:17<12:24:57,  1.26s/it] 27%|██▋       | 13325/48845 [4:43:19<12:25:58,  1.26s/it]                                                          {'loss': 2.1501, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13325/48845 [4:43:19<12:25:58,  1.26s/it] 27%|██▋       | 13326/48845 [4:43:20<12:27:51,  1.26s/it] 27%|██▋       | 13327/48845 [4:43:21<12:26:58,  1.26s/it] 27%|██▋       | 13328/48845 [4:43:22<12:26:25,  1.26s/it] 27%|██▋       | 13329/48845 [4:43:24<12:25:40,  1.26s/it] 27%|██▋       | 13330/48845 [4:43:25<12:26:10,  1.26s/it]                                                          {'loss': 2.1115, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.36}
+ 27%|██▋       | 13330/48845 [4:43:25<12:26:10,  1.26s/it] 27%|██▋       | 13331/48845 [4:43:26<12:26:28,  1.26s/it] 27%|██▋       | 13332/48845 [4:43:27<12:26:16,  1.26s/it] 27%|██▋       | 13333/48845 [4:43:29<12:25:44,  1.26s/it] 27%|██▋       | 13334/48845 [4:43:30<12:26:50,  1.26s/it] 27%|██▋       | 13335/48845 [4:43:31<12:26:48,  1.26s/it]                                                          {'loss': 2.0428, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13335/48845 [4:43:31<12:26:48,  1.26s/it] 27%|██▋       | 13336/48845 [4:43:32<12:26:30,  1.26s/it] 27%|██▋       | 13337/48845 [4:43:34<12:26:06,  1.26s/it] 27%|██▋       | 13338/48845 [4:43:35<12:27:35,  1.26s/it] 27%|██▋       | 13339/48845 [4:43:36<12:27:23,  1.26s/it] 27%|██▋       | 13340/48845 [4:43:37<12:27:17,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13340/48845 [4:43:37<12:27:17,  1.26s/it] 27%|██▋       | 13341/48845 [4:43:39<12:26:55,  1.26s/it] 27%|██▋       | 13342/48845 [4:43:40<12:26:26,  1.26s/it] 27%|██▋       | 13343/48845 [4:43:41<12:26:24,  1.26s/it] 27%|██▋       | 13344/48845 [4:43:43<12:26:15,  1.26s/it] 27%|██▋       | 13345/48845 [4:43:44<12:26:01,  1.26s/it]                                                          {'loss': 2.0334, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13345/48845 [4:43:44<12:26:01,  1.26s/it] 27%|██▋       | 13346/48845 [4:43:45<12:26:09,  1.26s/it] 27%|██▋       | 13347/48845 [4:43:46<12:25:57,  1.26s/it] 27%|██▋       | 13348/48845 [4:43:48<12:26:08,  1.26s/it] 27%|██▋       | 13349/48845 [4:43:49<12:25:25,  1.26s/it] 27%|██▋       | 13350/48845 [4:43:50<12:25:03,  1.26s/it]                                                          {'loss': 1.9487, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13350/48845 [4:43:50<12:25:03,  1.26s/it] 27%|██▋       | 13351/48845 [4:43:51<12:25:23,  1.26s/it] 27%|██▋       | 13352/48845 [4:43:53<12:24:56,  1.26s/it] 27%|██▋       | 13353/48845 [4:43:54<12:25:12,  1.26s/it] 27%|██▋       | 13354/48845 [4:43:55<12:24:56,  1.26s/it] 27%|██▋       | 13355/48845 [4:43:56<12:24:32,  1.26s/it]                                                          {'loss': 2.0264, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13355/48845 [4:43:56<12:24:32,  1.26s/it] 27%|██▋       | 13356/48845 [4:43:58<12:24:55,  1.26s/it] 27%|██▋       | 13357/48845 [4:43:59<12:25:08,  1.26s/it] 27%|██▋       | 13358/48845 [4:44:00<12:24:48,  1.26s/it] 27%|██▋       | 13359/48845 [4:44:01<12:24:51,  1.26s/it] 27%|██▋       | 13360/48845 [4:44:03<12:24:54,  1.26s/it]                                                          {'loss': 1.9142, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13360/48845 [4:44:03<12:24:54,  1.26s/it] 27%|██▋       | 13361/48845 [4:44:04<12:24:54,  1.26s/it] 27%|██▋       | 13362/48845 [4:44:05<12:24:25,  1.26s/it] 27%|██▋       | 13363/48845 [4:44:06<12:24:54,  1.26s/it] 27%|██▋       | 13364/48845 [4:44:08<12:25:13,  1.26s/it] 27%|██▋       | 13365/48845 [4:44:09<12:24:42,  1.26s/it]                                                          {'loss': 2.0826, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13365/48845 [4:44:09<12:24:42,  1.26s/it] 27%|██▋       | 13366/48845 [4:44:10<12:25:06,  1.26s/it] 27%|██▋       | 13367/48845 [4:44:12<12:24:46,  1.26s/it] 27%|██▋       | 13368/48845 [4:44:13<12:24:23,  1.26s/it] 27%|██▋       | 13369/48845 [4:44:14<12:24:11,  1.26s/it] 27%|██▋       | 13370/48845 [4:44:15<12:25:15,  1.26s/it]                                                          {'loss': 2.0859, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13370/48845 [4:44:15<12:25:15,  1.26s/it] 27%|██▋       | 13371/48845 [4:44:17<12:25:41,  1.26s/it] 27%|██▋       | 13372/48845 [4:44:18<12:24:35,  1.26s/it] 27%|██▋       | 13373/48845 [4:44:19<12:24:58,  1.26s/it] 27%|██▋       | 13374/48845 [4:44:20<12:24:29,  1.26s/it] 27%|██▋       | 13375/48845 [4:44:22<12:23:59,  1.26s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██���       | 13375/48845 [4:44:22<12:23:59,  1.26s/it] 27%|██▋       | 13376/48845 [4:44:23<12:24:30,  1.26s/it] 27%|██▋       | 13377/48845 [4:44:24<12:23:56,  1.26s/it] 27%|██▋       | 13378/48845 [4:44:25<12:24:06,  1.26s/it] 27%|██▋       | 13379/48845 [4:44:27<12:24:48,  1.26s/it] 27%|██▋       | 13380/48845 [4:44:28<12:25:14,  1.26s/it]                                                          {'loss': 1.9446, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13380/48845 [4:44:28<12:25:14,  1.26s/it] 27%|██▋       | 13381/48845 [4:44:29<12:25:35,  1.26s/it] 27%|██▋       | 13382/48845 [4:44:30<12:24:32,  1.26s/it] 27%|██▋       | 13383/48845 [4:44:32<12:24:10,  1.26s/it] 27%|██▋       | 13384/48845 [4:44:33<12:24:09,  1.26s/it] 27%|██▋       | 13385/48845 [4:44:34<12:23:59,  1.26s/it]                                                          {'loss': 2.0875, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13385/48845 [4:44:34<12:23:59,  1.26s/it] 27%|██▋       | 13386/48845 [4:44:35<12:24:36,  1.26s/it] 27%|██▋       | 13387/48845 [4:44:37<12:24:55,  1.26s/it] 27%|██▋       | 13388/48845 [4:44:38<12:25:00,  1.26s/it] 27%|██▋       | 13389/48845 [4:44:39<12:24:50,  1.26s/it] 27%|██▋       | 13390/48845 [4:44:40<12:23:48,  1.26s/it]                                                          {'loss': 1.9587, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13390/48845 [4:44:40<12:23:48,  1.26s/it] 27%|██▋       | 13391/48845 [4:44:42<12:25:13,  1.26s/it] 27%|██▋       | 13392/48845 [4:44:43<12:24:25,  1.26s/it] 27%|██▋       | 13393/48845 [4:44:44<12:24:23,  1.26s/it] 27%|██▋       | 13394/48845 [4:44:46<12:23:54,  1.26s/it] 27%|██▋       | 13395/48845 [4:44:47<12:24:11,  1.26s/it]                                                          {'loss': 1.9367, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13395/48845 [4:44:47<12:24:11,  1.26s/it] 27%|██▋       | 13396/48845 [4:44:48<12:25:35,  1.26s/it] 27%|██▋       | 13397/48845 [4:44:49<12:24:47,  1.26s/it] 27%|██▋       | 13398/48845 [4:44:51<12:43:19,  1.29s/it] 27%|██▋       | 13399/48845 [4:44:52<12:40:22,  1.29s/it] 27%|██▋       | 13400/48845 [4:44:53<12:35:30,  1.28s/it]                                                          {'loss': 1.7727, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13400/48845 [4:44:53<12:35:30,  1.28s/it] 27%|██▋       | 13401/48845 [4:44:57<19:43:48,  2.00s/it] 27%|██▋       | 13402/48845 [4:44:58<17:31:51,  1.78s/it] 27%|██▋       | 13403/48845 [4:44:59<15:59:01,  1.62s/it] 27%|██▋       | 13404/48845 [4:45:01<14:54:22,  1.51s/it] 27%|██▋       | 13405/48845 [4:45:02<14:09:30,  1.44s/it]                                                          {'loss': 1.9036, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13405/48845 [4:45:02<14:09:30,  1.44s/it] 27%|██▋       | 13406/48845 [4:45:03<13:37:55,  1.38s/it] 27%|██▋       | 13407/48845 [4:45:04<13:16:06,  1.35s/it] 27%|██▋       | 13408/48845 [4:45:06<13:00:26,  1.32s/it] 27%|██▋       | 13409/48845 [4:45:07<12:49:32,  1.30s/it] 27%|██▋       | 13410/48845 [4:45:08<12:41:28,  1.29s/it]                                                          {'loss': 2.0579, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13410/48845 [4:45:08<12:41:28,  1.29s/it] 27%|██▋       | 13411/48845 [4:45:10<12:36:37,  1.28s/it] 27%|██▋       | 13412/48845 [4:45:11<12:34:24,  1.28s/it] 27%|██▋       | 13413/48845 [4:45:12<12:31:37,  1.27s/it] 27%|██▋       | 13414/48845 [4:45:13<12:30:20,  1.27s/it] 27%|██▋       | 13415/48845 [4:45:15<12:27:55,  1.27s/it]                                                          {'loss': 2.0121, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13415/48845 [4:45:15<12:27:55,  1.27s/it] 27%|██▋       | 13416/48845 [4:45:16<12:26:45,  1.26s/it] 27%|██▋       | 13417/48845 [4:45:17<12:25:49,  1.26s/it] 27%|██▋       | 13418/48845 [4:45:18<12:25:21,  1.26s/it] 27%|██▋       | 13419/48845 [4:45:20<12:23:54,  1.26s/it] 27%|██▋       | 13420/48845 [4:45:21<12:24:04,  1.26s/it]                                                          {'loss': 1.8713, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13420/48845 [4:45:21<12:24:04,  1.26s/it] 27%|██▋       | 13421/48845 [4:45:22<12:25:17,  1.26s/it] 27%|██▋       | 13422/48845 [4:45:23<12:24:31,  1.26s/it] 27%|██▋       | 13423/48845 [4:45:25<12:24:11,  1.26s/it] 27%|██▋       | 13424/48845 [4:45:26<12:24:16,  1.26s/it] 27%|██▋       | 13425/48845 [4:45:27<12:24:03,  1.26s/it]                                                          {'loss': 1.8236, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13425/48845 [4:45:27<12:24:03,  1.26s/it] 27%|██▋       | 13426/48845 [4:45:28<12:23:45,  1.26s/it] 27%|██▋       | 13427/48845 [4:45:30<12:23:51,  1.26s/it] 27%|██▋       | 13428/48845 [4:45:31<12:24:19,  1.26s/it] 27%|██▋       | 13429/48845 [4:45:32<12:24:26,  1.26s/it] 27%|██▋       | 13430/48845 [4:45:33<12:24:19,  1.26s/it]                                                          {'loss': 2.1214, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.37}
+ 27%|██▋       | 13430/48845 [4:45:33<12:24:19,  1.26s/it] 27%|██▋       | 13431/48845 [4:45:35<12:24:35,  1.26s/it] 27%|██▋       | 13432/48845 [4:45:36<12:24:17,  1.26s/it] 28%|██▊       | 13433/48845 [4:45:37<12:23:59,  1.26s/it] 28%|██▊       | 13434/48845 [4:45:39<12:23:19,  1.26s/it] 28%|██▊       | 13435/48845 [4:45:40<12:23:23,  1.26s/it]                                                          {'loss': 2.0069, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13435/48845 [4:45:40<12:23:23,  1.26s/it] 28%|██▊       | 13436/48845 [4:45:41<12:23:58,  1.26s/it] 28%|██▊       | 13437/48845 [4:45:42<12:24:00,  1.26s/it] 28%|██▊       | 13438/48845 [4:45:44<12:24:00,  1.26s/it] 28%|██▊       | 13439/48845 [4:45:45<12:23:32,  1.26s/it] 28%|██▊       | 13440/48845 [4:45:46<12:22:59,  1.26s/it]                                                          {'loss': 2.1136, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13440/48845 [4:45:46<12:22:59,  1.26s/it] 28%|██▊       | 13441/48845 [4:45:47<12:24:33,  1.26s/it] 28%|██▊       | 13442/48845 [4:45:49<12:23:10,  1.26s/it] 28%|██▊       | 13443/48845 [4:45:50<12:23:16,  1.26s/it] 28%|██▊       | 13444/48845 [4:45:51<12:22:27,  1.26s/it] 28%|██▊       | 13445/48845 [4:45:52<12:22:41,  1.26s/it]                                                          {'loss': 2.0916, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13445/48845 [4:45:52<12:22:41,  1.26s/it] 28%|██▊       | 13446/48845 [4:45:54<12:24:25,  1.26s/it] 28%|██▊       | 13447/48845 [4:45:55<12:23:28,  1.26s/it] 28%|██▊       | 13448/48845 [4:45:56<12:23:57,  1.26s/it] 28%|██▊       | 13449/48845 [4:45:57<12:26:00,  1.26s/it] 28%|██▊       | 13450/48845 [4:45:59<12:24:59,  1.26s/it]                                                          {'loss': 2.0099, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13450/48845 [4:45:59<12:24:59,  1.26s/it] 28%|██▊       | 13451/48845 [4:46:00<12:25:21,  1.26s/it] 28%|██▊       | 13452/48845 [4:46:01<12:24:30,  1.26s/it] 28%|██▊       | 13453/48845 [4:46:02<12:23:11,  1.26s/it] 28%|██▊       | 13454/48845 [4:46:04<12:23:33,  1.26s/it] 28%|██▊       | 13455/48845 [4:46:05<12:23:17,  1.26s/it]                                                          {'loss': 2.1039, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13455/48845 [4:46:05<12:23:17,  1.26s/it] 28%|██▊       | 13456/48845 [4:46:06<12:23:25,  1.26s/it] 28%|██▊       | 13457/48845 [4:46:07<12:22:44,  1.26s/it] 28%|██▊       | 13458/48845 [4:46:09<12:22:48,  1.26s/it] 28%|██▊       | 13459/48845 [4:46:10<12:23:28,  1.26s/it] 28%|██▊       | 13460/48845 [4:46:11<12:22:59,  1.26s/it]                                                          {'loss': 1.891, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13460/48845 [4:46:11<12:22:59,  1.26s/it] 28%|██▊       | 13461/48845 [4:46:13<12:23:08,  1.26s/it] 28%|██▊       | 13462/48845 [4:46:14<12:22:43,  1.26s/it] 28%|██▊       | 13463/48845 [4:46:15<12:22:44,  1.26s/it] 28%|██▊       | 13464/48845 [4:46:16<12:22:36,  1.26s/it] 28%|██▊       | 13465/48845 [4:46:18<12:22:45,  1.26s/it]                                                          {'loss': 2.0481, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13465/48845 [4:46:18<12:22:45,  1.26s/it] 28%|██▊       | 13466/48845 [4:46:19<12:22:51,  1.26s/it] 28%|██▊       | 13467/48845 [4:46:20<12:22:27,  1.26s/it] 28%|██▊       | 13468/48845 [4:46:21<12:22:16,  1.26s/it] 28%|██▊       | 13469/48845 [4:46:23<12:22:29,  1.26s/it] 28%|██▊       | 13470/48845 [4:46:24<12:23:01,  1.26s/it]                                                          {'loss': 1.8351, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13470/48845 [4:46:24<12:23:01,  1.26s/it] 28%|██▊       | 13471/48845 [4:46:25<12:23:20,  1.26s/it] 28%|██▊       | 13472/48845 [4:46:26<12:22:44,  1.26s/it] 28%|██▊       | 13473/48845 [4:46:28<12:22:43,  1.26s/it] 28%|██▊       | 13474/48845 [4:46:29<12:22:34,  1.26s/it] 28%|██▊       | 13475/48845 [4:46:30<12:21:47,  1.26s/it]                                                          {'loss': 2.0405, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13475/48845 [4:46:30<12:21:47,  1.26s/it] 28%|██▊       | 13476/48845 [4:46:31<12:22:22,  1.26s/it] 28%|██▊       | 13477/48845 [4:46:33<12:22:00,  1.26s/it] 28%|██▊       | 13478/48845 [4:46:34<12:22:09,  1.26s/it] 28%|██▊       | 13479/48845 [4:46:35<12:21:58,  1.26s/it] 28%|██▊       | 13480/48845 [4:46:36<12:22:05,  1.26s/it]                                                          {'loss': 2.1268, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13480/48845 [4:46:36<12:22:05,  1.26s/it] 28%|██▊       | 13481/48845 [4:46:38<12:21:55,  1.26s/it] 28%|██▊       | 13482/48845 [4:46:39<12:21:48,  1.26s/it] 28%|██▊       | 13483/48845 [4:46:40<12:21:50,  1.26s/it] 28%|██▊       | 13484/48845 [4:46:42<12:22:32,  1.26s/it] 28%|██▊       | 13485/48845 [4:46:43<12:22:19,  1.26s/it]                                                          {'loss': 2.0482, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13485/48845 [4:46:43<12:22:19,  1.26s/it] 28%|██▊       | 13486/48845 [4:46:44<12:22:26,  1.26s/it] 28%|██▊       | 13487/48845 [4:46:45<12:22:22,  1.26s/it] 28%|██▊       | 13488/48845 [4:46:47<12:22:07,  1.26s/it] 28%|██▊       | 13489/48845 [4:46:48<12:22:11,  1.26s/it] 28%|██▊       | 13490/48845 [4:46:49<12:21:52,  1.26s/it]                                                          {'loss': 2.0611, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13490/48845 [4:46:49<12:21:52,  1.26s/it] 28%|██▊       | 13491/48845 [4:46:50<12:22:21,  1.26s/it] 28%|██▊       | 13492/48845 [4:46:52<12:22:14,  1.26s/it] 28%|██▊       | 13493/48845 [4:46:53<12:21:56,  1.26s/it] 28%|██▊       | 13494/48845 [4:46:54<12:22:24,  1.26s/it] 28%|██▊       | 13495/48845 [4:46:55<12:22:09,  1.26s/it]                                                          {'loss': 1.9809, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13495/48845 [4:46:55<12:22:09,  1.26s/it] 28%|██▊       | 13496/48845 [4:46:57<12:22:51,  1.26s/it] 28%|██▊       | 13497/48845 [4:46:58<12:22:39,  1.26s/it] 28%|██▊       | 13498/48845 [4:46:59<12:22:03,  1.26s/it] 28%|██▊       | 13499/48845 [4:47:00<12:22:22,  1.26s/it] 28%|██▊       | 13500/48845 [4:47:02<12:21:45,  1.26s/it]                                                          {'loss': 2.0337, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13500/48845 [4:47:02<12:21:45,  1.26s/it] 28%|██▊       | 13501/48845 [4:47:03<12:21:34,  1.26s/it] 28%|██▊       | 13502/48845 [4:47:04<12:21:48,  1.26s/it] 28%|██▊       | 13503/48845 [4:47:05<12:21:44,  1.26s/it] 28%|██▊       | 13504/48845 [4:47:07<12:21:56,  1.26s/it] 28%|██▊       | 13505/48845 [4:47:08<12:21:42,  1.26s/it]                                                          {'loss': 1.9194, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13505/48845 [4:47:08<12:21:42,  1.26s/it] 28%|██▊       | 13506/48845 [4:47:09<12:21:48,  1.26s/it] 28%|██▊       | 13507/48845 [4:47:10<12:21:38,  1.26s/it] 28%|██▊       | 13508/48845 [4:47:12<12:21:15,  1.26s/it] 28%|██▊       | 13509/48845 [4:47:13<12:21:17,  1.26s/it] 28%|██▊       | 13510/48845 [4:47:14<12:21:24,  1.26s/it]                                                          {'loss': 1.9956, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13510/48845 [4:47:14<12:21:24,  1.26s/it] 28%|██▊       | 13511/48845 [4:47:16<12:21:56,  1.26s/it] 28%|██▊       | 13512/48845 [4:47:17<12:22:06,  1.26s/it] 28%|██▊       | 13513/48845 [4:47:18<12:22:26,  1.26s/it] 28%|██▊       | 13514/48845 [4:47:19<12:22:23,  1.26s/it] 28%|██▊       | 13515/48845 [4:47:21<12:22:45,  1.26s/it]                                                          {'loss': 2.1852, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13515/48845 [4:47:21<12:22:45,  1.26s/it] 28%|██▊       | 13516/48845 [4:47:22<12:22:32,  1.26s/it] 28%|██▊       | 13517/48845 [4:47:23<12:21:08,  1.26s/it] 28%|██▊       | 13518/48845 [4:47:24<12:21:34,  1.26s/it] 28%|██▊       | 13519/48845 [4:47:26<12:22:26,  1.26s/it] 28%|██▊       | 13520/48845 [4:47:27<12:22:12,  1.26s/it]                                                          {'loss': 1.9495, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13520/48845 [4:47:27<12:22:12,  1.26s/it] 28%|██▊       | 13521/48845 [4:47:28<12:22:18,  1.26s/it] 28%|██▊       | 13522/48845 [4:47:29<12:22:45,  1.26s/it] 28%|██▊       | 13523/48845 [4:47:31<12:23:00,  1.26s/it] 28%|██▊       | 13524/48845 [4:47:32<12:22:38,  1.26s/it] 28%|██▊       | 13525/48845 [4:47:33<12:22:52,  1.26s/it]                                                          {'loss': 2.0048, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13525/48845 [4:47:33<12:22:52,  1.26s/it] 28%|██▊       | 13526/48845 [4:47:34<12:22:34,  1.26s/it] 28%|██▊       | 13527/48845 [4:47:36<12:22:17,  1.26s/it] 28%|██▊       | 13528/48845 [4:47:37<12:22:02,  1.26s/it] 28%|██▊       | 13529/48845 [4:47:38<12:23:29,  1.26s/it] 28%|██▊       | 13530/48845 [4:47:39<12:24:35,  1.27s/it]                                                          {'loss': 2.0502, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.38}
+ 28%|██▊       | 13530/48845 [4:47:39<12:24:35,  1.27s/it] 28%|██▊       | 13531/48845 [4:47:41<12:23:51,  1.26s/it] 28%|██▊       | 13532/48845 [4:47:42<12:22:37,  1.26s/it] 28%|██▊       | 13533/48845 [4:47:43<12:22:52,  1.26s/it] 28%|██▊       | 13534/48845 [4:47:45<12:22:19,  1.26s/it] 28%|██▊       | 13535/48845 [4:47:46<12:22:42,  1.26s/it]                                                          {'loss': 2.0116, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13535/48845 [4:47:46<12:22:42,  1.26s/it] 28%|██▊       | 13536/48845 [4:47:47<12:23:31,  1.26s/it] 28%|██▊       | 13537/48845 [4:47:48<12:23:10,  1.26s/it] 28%|██▊       | 13538/48845 [4:47:50<12:24:56,  1.27s/it] 28%|██▊       | 13539/48845 [4:47:51<12:23:05,  1.26s/it] 28%|██▊       | 13540/48845 [4:47:52<12:22:42,  1.26s/it]                                                          {'loss': 1.9255, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13540/48845 [4:47:52<12:22:42,  1.26s/it] 28%|██▊       | 13541/48845 [4:47:53<12:22:39,  1.26s/it] 28%|██▊       | 13542/48845 [4:47:55<12:22:41,  1.26s/it] 28%|██▊       | 13543/48845 [4:47:56<12:22:02,  1.26s/it] 28%|██▊       | 13544/48845 [4:47:57<12:21:07,  1.26s/it] 28%|██▊       | 13545/48845 [4:47:58<12:22:49,  1.26s/it]                                                          {'loss': 2.0573, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13545/48845 [4:47:58<12:22:49,  1.26s/it] 28%|██▊       | 13546/48845 [4:48:00<12:22:58,  1.26s/it] 28%|██▊       | 13547/48845 [4:48:01<12:22:19,  1.26s/it] 28%|██▊       | 13548/48845 [4:48:02<12:22:37,  1.26s/it] 28%|██▊       | 13549/48845 [4:48:03<12:21:54,  1.26s/it] 28%|██▊       | 13550/48845 [4:48:05<12:21:02,  1.26s/it]                                                          {'loss': 1.9838, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13550/48845 [4:48:05<12:21:02,  1.26s/it] 28%|██▊       | 13551/48845 [4:48:06<12:21:16,  1.26s/it] 28%|██▊       | 13552/48845 [4:48:07<12:20:52,  1.26s/it] 28%|██▊       | 13553/48845 [4:48:08<12:20:48,  1.26s/it] 28%|██▊       | 13554/48845 [4:48:10<12:20:48,  1.26s/it] 28%|██▊       | 13555/48845 [4:48:11<12:20:18,  1.26s/it]                                                          {'loss': 2.0537, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13555/48845 [4:48:11<12:20:18,  1.26s/it] 28%|██▊       | 13556/48845 [4:48:12<12:21:01,  1.26s/it] 28%|██▊       | 13557/48845 [4:48:14<12:20:34,  1.26s/it] 28%|██▊       | 13558/48845 [4:48:15<12:20:39,  1.26s/it] 28%|██▊       | 13559/48845 [4:48:16<12:20:45,  1.26s/it] 28%|██▊       | 13560/48845 [4:48:17<12:20:37,  1.26s/it]                                                          {'loss': 2.0811, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13560/48845 [4:48:17<12:20:37,  1.26s/it] 28%|██▊       | 13561/48845 [4:48:19<12:21:07,  1.26s/it] 28%|██▊       | 13562/48845 [4:48:20<12:21:14,  1.26s/it] 28%|██▊       | 13563/48845 [4:48:21<12:21:42,  1.26s/it] 28%|██▊       | 13564/48845 [4:48:22<12:21:26,  1.26s/it] 28%|██▊       | 13565/48845 [4:48:24<12:20:24,  1.26s/it]                                                          {'loss': 1.9418, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13565/48845 [4:48:24<12:20:24,  1.26s/it] 28%|██▊       | 13566/48845 [4:48:25<12:20:40,  1.26s/it] 28%|██▊       | 13567/48845 [4:48:26<12:20:47,  1.26s/it] 28%|██▊       | 13568/48845 [4:48:27<12:20:53,  1.26s/it] 28%|██▊       | 13569/48845 [4:48:29<12:20:17,  1.26s/it] 28%|██▊       | 13570/48845 [4:48:30<12:20:45,  1.26s/it]                                                          {'loss': 1.9288, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13570/48845 [4:48:30<12:20:45,  1.26s/it] 28%|██▊       | 13571/48845 [4:48:31<12:21:28,  1.26s/it] 28%|██▊       | 13572/48845 [4:48:32<12:20:12,  1.26s/it] 28%|██▊       | 13573/48845 [4:48:34<12:20:28,  1.26s/it] 28%|██▊       | 13574/48845 [4:48:35<12:20:22,  1.26s/it] 28%|██▊       | 13575/48845 [4:48:36<12:21:14,  1.26s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13575/48845 [4:48:36<12:21:14,  1.26s/it] 28%|██▊       | 13576/48845 [4:48:37<12:21:02,  1.26s/it] 28%|██▊       | 13577/48845 [4:48:39<12:20:53,  1.26s/it] 28%|██▊       | 13578/48845 [4:48:40<12:20:31,  1.26s/it] 28%|██▊       | 13579/48845 [4:48:41<12:20:50,  1.26s/it] 28%|██▊       | 13580/48845 [4:48:43<12:21:19,  1.26s/it]                                                          {'loss': 2.1139, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13580/48845 [4:48:43<12:21:19,  1.26s/it] 28%|██▊       | 13581/48845 [4:48:44<12:21:14,  1.26s/it] 28%|██▊       | 13582/48845 [4:48:45<12:20:55,  1.26s/it] 28%|██▊       | 13583/48845 [4:48:46<12:21:06,  1.26s/it] 28%|██▊       | 13584/48845 [4:48:48<12:21:18,  1.26s/it] 28%|██▊       | 13585/48845 [4:48:49<12:20:39,  1.26s/it]                                                          {'loss': 1.9384, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13585/48845 [4:48:49<12:20:39,  1.26s/it] 28%|██▊       | 13586/48845 [4:48:50<12:23:39,  1.27s/it] 28%|██▊       | 13587/48845 [4:48:51<12:23:10,  1.26s/it] 28%|██▊       | 13588/48845 [4:48:53<12:21:59,  1.26s/it] 28%|██▊       | 13589/48845 [4:48:54<12:22:00,  1.26s/it] 28%|██▊       | 13590/48845 [4:48:55<12:21:35,  1.26s/it]                                                          {'loss': 2.0148, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13590/48845 [4:48:55<12:21:35,  1.26s/it] 28%|██▊       | 13591/48845 [4:48:56<12:21:31,  1.26s/it] 28%|██▊       | 13592/48845 [4:48:58<12:22:22,  1.26s/it] 28%|██▊       | 13593/48845 [4:48:59<12:21:27,  1.26s/it] 28%|██▊       | 13594/48845 [4:49:00<12:20:30,  1.26s/it] 28%|██▊       | 13595/48845 [4:49:01<12:19:48,  1.26s/it]                                                          {'loss': 2.1676, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13595/48845 [4:49:01<12:19:48,  1.26s/it] 28%|██▊       | 13596/48845 [4:49:03<12:19:16,  1.26s/it] 28%|██▊       | 13597/48845 [4:49:04<12:19:36,  1.26s/it] 28%|██▊       | 13598/48845 [4:49:05<12:19:21,  1.26s/it] 28%|██▊       | 13599/48845 [4:49:06<12:20:51,  1.26s/it] 28%|██▊       | 13600/48845 [4:49:08<12:20:41,  1.26s/it]                                                          {'loss': 2.0422, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13600/48845 [4:49:08<12:20:41,  1.26s/it] 28%|██▊       | 13601/48845 [4:49:11<19:37:05,  2.00s/it] 28%|██▊       | 13602/48845 [4:49:13<17:24:55,  1.78s/it] 28%|██▊       | 13603/48845 [4:49:14<15:53:07,  1.62s/it] 28%|██▊       | 13604/48845 [4:49:15<14:49:12,  1.51s/it] 28%|██▊       | 13605/48845 [4:49:17<14:03:55,  1.44s/it]                                                          {'loss': 1.9714, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13605/48845 [4:49:17<14:03:55,  1.44s/it] 28%|██▊       | 13606/48845 [4:49:18<13:31:58,  1.38s/it] 28%|██▊       | 13607/48845 [4:49:19<13:09:42,  1.34s/it] 28%|██▊       | 13608/48845 [4:49:20<12:53:55,  1.32s/it] 28%|██▊       | 13609/48845 [4:49:22<12:43:06,  1.30s/it] 28%|██▊       | 13610/48845 [4:49:23<12:35:28,  1.29s/it]                                                          {'loss': 2.0598, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13610/48845 [4:49:23<12:35:28,  1.29s/it] 28%|██▊       | 13611/48845 [4:49:24<12:30:28,  1.28s/it] 28%|██▊       | 13612/48845 [4:49:25<12:26:38,  1.27s/it] 28%|██▊       | 13613/48845 [4:49:27<12:24:03,  1.27s/it] 28%|██▊       | 13614/48845 [4:49:28<12:22:56,  1.27s/it] 28%|██▊       | 13615/48845 [4:49:29<12:21:53,  1.26s/it]                                                          {'loss': 2.2161, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13615/48845 [4:49:29<12:21:53,  1.26s/it] 28%|██▊       | 13616/48845 [4:49:30<12:21:28,  1.26s/it] 28%|██▊       | 13617/48845 [4:49:32<12:20:10,  1.26s/it] 28%|██▊       | 13618/48845 [4:49:33<12:19:17,  1.26s/it] 28%|██▊       | 13619/48845 [4:49:34<12:18:51,  1.26s/it] 28%|██▊       | 13620/48845 [4:49:35<12:19:04,  1.26s/it]                                                          {'loss': 2.0045, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13620/48845 [4:49:35<12:19:04,  1.26s/it] 28%|██▊       | 13621/48845 [4:49:37<12:19:56,  1.26s/it] 28%|██▊       | 13622/48845 [4:49:38<12:19:32,  1.26s/it] 28%|██▊       | 13623/48845 [4:49:39<12:19:16,  1.26s/it] 28%|██▊       | 13624/48845 [4:49:40<12:18:33,  1.26s/it] 28%|██▊       | 13625/48845 [4:49:42<12:19:36,  1.26s/it]                                                          {'loss': 1.9549, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.39}
+ 28%|██▊       | 13625/48845 [4:49:42<12:19:36,  1.26s/it] 28%|██▊       | 13626/48845 [4:49:43<12:20:35,  1.26s/it] 28%|██▊       | 13627/48845 [4:49:44<12:20:11,  1.26s/it] 28%|██▊       | 13628/48845 [4:49:45<12:20:07,  1.26s/it] 28%|██▊       | 13629/48845 [4:49:47<12:19:23,  1.26s/it] 28%|██▊       | 13630/48845 [4:49:48<12:20:22,  1.26s/it]                                                          {'loss': 2.0625, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13630/48845 [4:49:48<12:20:22,  1.26s/it] 28%|██▊       | 13631/48845 [4:49:49<12:20:20,  1.26s/it] 28%|██▊       | 13632/48845 [4:49:51<12:19:57,  1.26s/it] 28%|██▊       | 13633/48845 [4:49:52<12:19:50,  1.26s/it] 28%|██▊       | 13634/48845 [4:49:53<12:19:15,  1.26s/it] 28%|██▊       | 13635/48845 [4:49:54<12:20:02,  1.26s/it]                                                          {'loss': 2.1561, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13635/48845 [4:49:54<12:20:02,  1.26s/it] 28%|██▊       | 13636/48845 [4:49:56<12:20:38,  1.26s/it] 28%|██▊       | 13637/48845 [4:49:57<12:19:28,  1.26s/it] 28%|██▊       | 13638/48845 [4:49:58<12:19:04,  1.26s/it] 28%|██▊       | 13639/48845 [4:49:59<12:18:30,  1.26s/it] 28%|██▊       | 13640/48845 [4:50:01<12:18:35,  1.26s/it]                                                          {'loss': 2.1693, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13640/48845 [4:50:01<12:18:35,  1.26s/it] 28%|██▊       | 13641/48845 [4:50:02<12:18:56,  1.26s/it] 28%|██▊       | 13642/48845 [4:50:03<12:18:47,  1.26s/it] 28%|██▊       | 13643/48845 [4:50:04<12:18:28,  1.26s/it] 28%|██▊       | 13644/48845 [4:50:06<12:18:39,  1.26s/it] 28%|██▊       | 13645/48845 [4:50:07<12:19:07,  1.26s/it]                                                          {'loss': 2.0253, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13645/48845 [4:50:07<12:19:07,  1.26s/it] 28%|██▊       | 13646/48845 [4:50:08<12:19:56,  1.26s/it] 28%|██▊       | 13647/48845 [4:50:09<12:19:51,  1.26s/it] 28%|██▊       | 13648/48845 [4:50:11<12:19:57,  1.26s/it] 28%|██▊       | 13649/48845 [4:50:12<12:20:25,  1.26s/it] 28%|██▊       | 13650/48845 [4:50:13<12:20:22,  1.26s/it]                                                          {'loss': 1.985, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13650/48845 [4:50:13<12:20:22,  1.26s/it] 28%|██▊       | 13651/48845 [4:50:14<12:19:54,  1.26s/it] 28%|██▊       | 13652/48845 [4:50:16<12:19:54,  1.26s/it] 28%|██▊       | 13653/48845 [4:50:17<12:18:57,  1.26s/it] 28%|██▊       | 13654/48845 [4:50:18<12:19:39,  1.26s/it] 28%|██▊       | 13655/48845 [4:50:19<12:19:18,  1.26s/it]                                                          {'loss': 1.8824, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13655/48845 [4:50:19<12:19:18,  1.26s/it] 28%|██▊       | 13656/48845 [4:50:21<12:20:18,  1.26s/it] 28%|██▊       | 13657/48845 [4:50:22<12:19:57,  1.26s/it] 28%|██▊       | 13658/48845 [4:50:23<12:18:35,  1.26s/it] 28%|██▊       | 13659/48845 [4:50:25<12:18:24,  1.26s/it] 28%|██▊       | 13660/48845 [4:50:26<12:18:38,  1.26s/it]                                                          {'loss': 2.1156, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13660/48845 [4:50:26<12:18:38,  1.26s/it] 28%|██▊       | 13661/48845 [4:50:27<12:18:33,  1.26s/it] 28%|██▊       | 13662/48845 [4:50:28<12:18:10,  1.26s/it] 28%|██▊       | 13663/48845 [4:50:30<12:17:56,  1.26s/it] 28%|██▊       | 13664/48845 [4:50:31<12:18:53,  1.26s/it] 28%|██▊       | 13665/48845 [4:50:32<12:18:20,  1.26s/it]                                                          {'loss': 1.9051, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13665/48845 [4:50:32<12:18:20,  1.26s/it] 28%|██▊       | 13666/48845 [4:50:33<12:18:39,  1.26s/it] 28%|██▊       | 13667/48845 [4:50:35<12:19:18,  1.26s/it] 28%|██▊       | 13668/48845 [4:50:36<12:18:56,  1.26s/it] 28%|██▊       | 13669/48845 [4:50:37<12:19:37,  1.26s/it] 28%|██▊       | 13670/48845 [4:50:38<12:19:16,  1.26s/it]                                                          {'loss': 1.8856, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13670/48845 [4:50:38<12:19:16,  1.26s/it] 28%|██▊       | 13671/48845 [4:50:40<12:20:26,  1.26s/it] 28%|██▊       | 13672/48845 [4:50:41<12:20:38,  1.26s/it] 28%|██▊       | 13673/48845 [4:50:42<12:19:53,  1.26s/it] 28%|██▊       | 13674/48845 [4:50:43<12:20:43,  1.26s/it] 28%|██▊       | 13675/48845 [4:50:45<12:20:26,  1.26s/it]                                                          {'loss': 1.9398, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13675/48845 [4:50:45<12:20:26,  1.26s/it] 28%|██▊       | 13676/48845 [4:50:46<12:44:08,  1.30s/it] 28%|██▊       | 13677/48845 [4:50:47<12:36:27,  1.29s/it] 28%|██▊       | 13678/48845 [4:50:49<12:31:04,  1.28s/it] 28%|██▊       | 13679/48845 [4:50:50<12:27:56,  1.28s/it] 28%|██▊       | 13680/48845 [4:50:51<12:25:17,  1.27s/it]                                                          {'loss': 2.0931, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13680/48845 [4:50:51<12:25:17,  1.27s/it] 28%|██▊       | 13681/48845 [4:50:52<12:23:47,  1.27s/it] 28%|██▊       | 13682/48845 [4:50:54<12:21:34,  1.27s/it] 28%|██▊       | 13683/48845 [4:50:55<12:24:15,  1.27s/it] 28%|██▊       | 13684/48845 [4:50:56<12:22:52,  1.27s/it] 28%|██▊       | 13685/48845 [4:50:57<12:21:07,  1.26s/it]                                                          {'loss': 2.065, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13685/48845 [4:50:57<12:21:07,  1.26s/it] 28%|██▊       | 13686/48845 [4:50:59<12:20:09,  1.26s/it] 28%|██▊       | 13687/48845 [4:51:00<12:19:09,  1.26s/it] 28%|██▊       | 13688/48845 [4:51:01<12:19:20,  1.26s/it] 28%|██▊       | 13689/48845 [4:51:03<12:19:29,  1.26s/it] 28%|██▊       | 13690/48845 [4:51:04<12:18:51,  1.26s/it]                                                          {'loss': 1.8862, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13690/48845 [4:51:04<12:18:51,  1.26s/it] 28%|██▊       | 13691/48845 [4:51:05<12:18:57,  1.26s/it] 28%|██▊       | 13692/48845 [4:51:06<12:18:52,  1.26s/it] 28%|██▊       | 13693/48845 [4:51:08<12:17:59,  1.26s/it] 28%|██▊       | 13694/48845 [4:51:09<12:17:51,  1.26s/it] 28%|██▊       | 13695/48845 [4:51:10<12:18:12,  1.26s/it]                                                          {'loss': 1.8988, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13695/48845 [4:51:10<12:18:12,  1.26s/it] 28%|██▊       | 13696/48845 [4:51:11<12:18:03,  1.26s/it] 28%|██▊       | 13697/48845 [4:51:13<12:18:25,  1.26s/it] 28%|██▊       | 13698/48845 [4:51:14<12:18:10,  1.26s/it] 28%|██▊       | 13699/48845 [4:51:15<12:17:57,  1.26s/it] 28%|██▊       | 13700/48845 [4:51:16<12:17:31,  1.26s/it]                                                          {'loss': 1.9438, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13700/48845 [4:51:16<12:17:31,  1.26s/it] 28%|██▊       | 13701/48845 [4:51:18<12:18:20,  1.26s/it] 28%|██▊       | 13702/48845 [4:51:19<12:17:27,  1.26s/it] 28%|██▊       | 13703/48845 [4:51:20<12:17:32,  1.26s/it] 28%|██▊       | 13704/48845 [4:51:21<12:18:18,  1.26s/it] 28%|██▊       | 13705/48845 [4:51:23<12:18:42,  1.26s/it]                                                          {'loss': 2.0365, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13705/48845 [4:51:23<12:18:42,  1.26s/it] 28%|██▊       | 13706/48845 [4:51:24<12:18:31,  1.26s/it] 28%|██▊       | 13707/48845 [4:51:25<12:17:59,  1.26s/it] 28%|██▊       | 13708/48845 [4:51:26<12:17:29,  1.26s/it] 28%|██▊       | 13709/48845 [4:51:28<12:17:52,  1.26s/it] 28%|██▊       | 13710/48845 [4:51:29<12:17:58,  1.26s/it]                                                          {'loss': 2.0837, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13710/48845 [4:51:29<12:17:58,  1.26s/it] 28%|██▊       | 13711/48845 [4:51:30<12:18:54,  1.26s/it] 28%|██▊       | 13712/48845 [4:51:32<12:19:02,  1.26s/it] 28%|██▊       | 13713/48845 [4:51:33<12:18:10,  1.26s/it] 28%|██▊       | 13714/48845 [4:51:34<12:18:23,  1.26s/it] 28%|██▊       | 13715/48845 [4:51:35<12:18:32,  1.26s/it]                                                          {'loss': 2.14, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13715/48845 [4:51:35<12:18:32,  1.26s/it] 28%|██▊       | 13716/48845 [4:51:37<12:17:42,  1.26s/it] 28%|██▊       | 13717/48845 [4:51:38<12:18:54,  1.26s/it] 28%|██▊       | 13718/48845 [4:51:39<12:18:22,  1.26s/it] 28%|██▊       | 13719/48845 [4:51:40<12:17:52,  1.26s/it] 28%|██▊       | 13720/48845 [4:51:42<12:17:48,  1.26s/it]                                                          {'loss': 2.1744, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13720/48845 [4:51:42<12:17:48,  1.26s/it] 28%|██▊       | 13721/48845 [4:51:43<12:17:29,  1.26s/it] 28%|██▊       | 13722/48845 [4:51:44<12:17:20,  1.26s/it] 28%|██▊       | 13723/48845 [4:51:45<12:17:03,  1.26s/it] 28%|██▊       | 13724/48845 [4:51:47<12:17:23,  1.26s/it] 28%|██▊       | 13725/48845 [4:51:48<12:16:56,  1.26s/it]                                                          {'loss': 2.0276, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.4}
+ 28%|██▊       | 13725/48845 [4:51:48<12:16:56,  1.26s/it] 28%|██▊       | 13726/48845 [4:51:49<12:17:05,  1.26s/it] 28%|██▊       | 13727/48845 [4:51:50<12:17:53,  1.26s/it] 28%|██▊       | 13728/48845 [4:51:52<12:17:28,  1.26s/it] 28%|██▊       | 13729/48845 [4:51:53<12:17:27,  1.26s/it] 28%|██▊       | 13730/48845 [4:51:54<12:16:37,  1.26s/it]                                                          {'loss': 2.0261, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13730/48845 [4:51:54<12:16:37,  1.26s/it] 28%|██▊       | 13731/48845 [4:51:55<12:17:05,  1.26s/it] 28%|██▊       | 13732/48845 [4:51:57<12:17:17,  1.26s/it] 28%|██▊       | 13733/48845 [4:51:58<12:16:20,  1.26s/it] 28%|██▊       | 13734/48845 [4:51:59<12:16:33,  1.26s/it] 28%|██▊       | 13735/48845 [4:52:00<12:16:48,  1.26s/it]                                                          {'loss': 2.07, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13735/48845 [4:52:00<12:16:48,  1.26s/it] 28%|██▊       | 13736/48845 [4:52:02<12:18:16,  1.26s/it] 28%|██▊       | 13737/48845 [4:52:03<12:18:19,  1.26s/it] 28%|██▊       | 13738/48845 [4:52:04<12:17:24,  1.26s/it] 28%|██▊       | 13739/48845 [4:52:06<12:17:35,  1.26s/it] 28%|██▊       | 13740/48845 [4:52:07<12:17:14,  1.26s/it]                                                          {'loss': 2.0263, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13740/48845 [4:52:07<12:17:14,  1.26s/it] 28%|██▊       | 13741/48845 [4:52:08<12:17:39,  1.26s/it] 28%|██▊       | 13742/48845 [4:52:09<12:16:55,  1.26s/it] 28%|██▊       | 13743/48845 [4:52:11<12:16:06,  1.26s/it] 28%|██▊       | 13744/48845 [4:52:12<12:16:30,  1.26s/it] 28%|██▊       | 13745/48845 [4:52:13<12:15:46,  1.26s/it]                                                          {'loss': 1.9868, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13745/48845 [4:52:13<12:15:46,  1.26s/it] 28%|██▊       | 13746/48845 [4:52:14<12:16:02,  1.26s/it] 28%|██▊       | 13747/48845 [4:52:16<12:16:02,  1.26s/it] 28%|██▊       | 13748/48845 [4:52:17<12:15:44,  1.26s/it] 28%|██▊       | 13749/48845 [4:52:18<12:16:29,  1.26s/it] 28%|██▊       | 13750/48845 [4:52:19<12:16:50,  1.26s/it]                                                          {'loss': 2.0748, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13750/48845 [4:52:19<12:16:50,  1.26s/it] 28%|██▊       | 13751/48845 [4:52:21<12:16:44,  1.26s/it] 28%|██▊       | 13752/48845 [4:52:22<12:17:41,  1.26s/it] 28%|██▊       | 13753/48845 [4:52:23<12:16:53,  1.26s/it] 28%|██▊       | 13754/48845 [4:52:24<12:17:13,  1.26s/it] 28%|██▊       | 13755/48845 [4:52:26<12:16:24,  1.26s/it]                                                          {'loss': 2.0012, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13755/48845 [4:52:26<12:16:24,  1.26s/it] 28%|██▊       | 13756/48845 [4:52:27<12:16:16,  1.26s/it] 28%|██▊       | 13757/48845 [4:52:28<12:16:50,  1.26s/it] 28%|██▊       | 13758/48845 [4:52:29<12:16:31,  1.26s/it] 28%|██▊       | 13759/48845 [4:52:31<12:16:19,  1.26s/it] 28%|██▊       | 13760/48845 [4:52:32<12:15:58,  1.26s/it]                                                          {'loss': 2.0412, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13760/48845 [4:52:32<12:15:58,  1.26s/it] 28%|██▊       | 13761/48845 [4:52:33<12:16:31,  1.26s/it] 28%|██▊       | 13762/48845 [4:52:34<12:17:09,  1.26s/it] 28%|██▊       | 13763/48845 [4:52:36<12:16:00,  1.26s/it] 28%|██▊       | 13764/48845 [4:52:37<12:15:57,  1.26s/it] 28%|██▊       | 13765/48845 [4:52:38<12:15:44,  1.26s/it]                                                          {'loss': 2.0078, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13765/48845 [4:52:38<12:15:44,  1.26s/it] 28%|██▊       | 13766/48845 [4:52:40<12:15:48,  1.26s/it] 28%|██▊       | 13767/48845 [4:52:41<12:16:22,  1.26s/it] 28%|██▊       | 13768/48845 [4:52:42<12:16:29,  1.26s/it] 28%|██▊       | 13769/48845 [4:52:43<12:18:22,  1.26s/it] 28%|██▊       | 13770/48845 [4:52:45<12:17:42,  1.26s/it]                                                          {'loss': 1.9321, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13770/48845 [4:52:45<12:17:42,  1.26s/it] 28%|██▊       | 13771/48845 [4:52:46<12:17:24,  1.26s/it] 28%|██▊       | 13772/48845 [4:52:47<12:16:59,  1.26s/it] 28%|██▊       | 13773/48845 [4:52:48<12:17:28,  1.26s/it] 28%|██▊       | 13774/48845 [4:52:50<12:16:23,  1.26s/it] 28%|██▊       | 13775/48845 [4:52:51<12:15:19,  1.26s/it]                                                          {'loss': 1.9409, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13775/48845 [4:52:51<12:15:19,  1.26s/it] 28%|██▊       | 13776/48845 [4:52:52<12:14:55,  1.26s/it] 28%|██▊       | 13777/48845 [4:52:53<12:16:05,  1.26s/it] 28%|██▊       | 13778/48845 [4:52:55<12:15:29,  1.26s/it] 28%|██▊       | 13779/48845 [4:52:56<12:16:16,  1.26s/it] 28%|██▊       | 13780/48845 [4:52:57<12:15:20,  1.26s/it]                                                          {'loss': 2.187, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13780/48845 [4:52:57<12:15:20,  1.26s/it] 28%|██▊       | 13781/48845 [4:52:58<12:15:26,  1.26s/it] 28%|██▊       | 13782/48845 [4:53:00<12:15:54,  1.26s/it] 28%|██▊       | 13783/48845 [4:53:01<12:15:08,  1.26s/it] 28%|██▊       | 13784/48845 [4:53:02<12:15:37,  1.26s/it] 28%|██▊       | 13785/48845 [4:53:03<12:15:29,  1.26s/it]                                                          {'loss': 2.0652, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13785/48845 [4:53:03<12:15:29,  1.26s/it] 28%|██▊       | 13786/48845 [4:53:05<12:15:35,  1.26s/it] 28%|██▊       | 13787/48845 [4:53:06<12:16:28,  1.26s/it] 28%|██▊       | 13788/48845 [4:53:07<12:15:54,  1.26s/it] 28%|██▊       | 13789/48845 [4:53:09<12:16:22,  1.26s/it] 28%|██▊       | 13790/48845 [4:53:10<12:15:46,  1.26s/it]                                                          {'loss': 2.0889, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13790/48845 [4:53:10<12:15:46,  1.26s/it] 28%|██▊       | 13791/48845 [4:53:11<12:15:56,  1.26s/it] 28%|██▊       | 13792/48845 [4:53:12<12:15:49,  1.26s/it] 28%|██▊       | 13793/48845 [4:53:14<12:15:38,  1.26s/it] 28%|██▊       | 13794/48845 [4:53:15<12:17:13,  1.26s/it] 28%|██▊       | 13795/48845 [4:53:16<12:16:19,  1.26s/it]                                                          {'loss': 2.0577, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13795/48845 [4:53:16<12:16:19,  1.26s/it] 28%|██▊       | 13796/48845 [4:53:17<12:15:51,  1.26s/it] 28%|██▊       | 13797/48845 [4:53:19<12:15:54,  1.26s/it] 28%|██▊       | 13798/48845 [4:53:20<12:15:25,  1.26s/it] 28%|██▊       | 13799/48845 [4:53:21<12:15:25,  1.26s/it] 28%|██▊       | 13800/48845 [4:53:22<12:16:26,  1.26s/it]                                                          {'loss': 1.838, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13800/48845 [4:53:22<12:16:26,  1.26s/it] 28%|██▊       | 13801/48845 [4:53:26<19:17:23,  1.98s/it] 28%|██▊       | 13802/48845 [4:53:27<17:10:02,  1.76s/it] 28%|██▊       | 13803/48845 [4:53:29<15:41:50,  1.61s/it] 28%|██▊       | 13804/48845 [4:53:30<14:39:33,  1.51s/it] 28%|██▊       | 13805/48845 [4:53:31<13:55:34,  1.43s/it]                                                          {'loss': 2.0466, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13805/48845 [4:53:31<13:55:34,  1.43s/it] 28%|██▊       | 13806/48845 [4:53:32<13:25:33,  1.38s/it] 28%|██▊       | 13807/48845 [4:53:34<13:04:35,  1.34s/it] 28%|██▊       | 13808/48845 [4:53:35<12:49:25,  1.32s/it] 28%|██▊       | 13809/48845 [4:53:36<12:39:18,  1.30s/it] 28%|██▊       | 13810/48845 [4:53:37<12:31:41,  1.29s/it]                                                          {'loss': 2.152, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13810/48845 [4:53:37<12:31:41,  1.29s/it] 28%|██▊       | 13811/48845 [4:53:39<12:26:36,  1.28s/it] 28%|██▊       | 13812/48845 [4:53:40<12:22:56,  1.27s/it] 28%|██▊       | 13813/48845 [4:53:41<12:20:09,  1.27s/it] 28%|██▊       | 13814/48845 [4:53:42<12:18:41,  1.27s/it] 28%|██▊       | 13815/48845 [4:53:44<12:18:23,  1.26s/it]                                                          {'loss': 1.9897, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|█��▊       | 13815/48845 [4:53:44<12:18:23,  1.26s/it] 28%|██▊       | 13816/48845 [4:53:45<12:17:33,  1.26s/it] 28%|██▊       | 13817/48845 [4:53:46<12:18:05,  1.26s/it] 28%|██▊       | 13818/48845 [4:53:47<12:16:57,  1.26s/it] 28%|██▊       | 13819/48845 [4:53:49<12:16:23,  1.26s/it] 28%|██▊       | 13820/48845 [4:53:50<12:15:46,  1.26s/it]                                                          {'loss': 2.0539, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.41}
+ 28%|██▊       | 13820/48845 [4:53:50<12:15:46,  1.26s/it] 28%|██▊       | 13821/48845 [4:53:51<12:15:57,  1.26s/it] 28%|██▊       | 13822/48845 [4:53:52<12:15:56,  1.26s/it] 28%|██▊       | 13823/48845 [4:53:54<12:15:36,  1.26s/it] 28%|██▊       | 13824/48845 [4:53:55<12:15:30,  1.26s/it] 28%|██▊       | 13825/48845 [4:53:56<12:16:46,  1.26s/it]                                                          {'loss': 2.0216, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13825/48845 [4:53:56<12:16:46,  1.26s/it] 28%|██▊       | 13826/48845 [4:53:58<12:15:53,  1.26s/it] 28%|██▊       | 13827/48845 [4:53:59<12:15:26,  1.26s/it] 28%|██▊       | 13828/48845 [4:54:00<12:15:30,  1.26s/it] 28%|██▊       | 13829/48845 [4:54:01<12:15:31,  1.26s/it] 28%|██▊       | 13830/48845 [4:54:03<12:14:24,  1.26s/it]                                                          {'loss': 2.007, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13830/48845 [4:54:03<12:14:24,  1.26s/it] 28%|██▊       | 13831/48845 [4:54:04<12:13:38,  1.26s/it] 28%|██▊       | 13832/48845 [4:54:05<12:14:41,  1.26s/it] 28%|██▊       | 13833/48845 [4:54:06<12:14:52,  1.26s/it] 28%|██▊       | 13834/48845 [4:54:08<12:14:32,  1.26s/it] 28%|██▊       | 13835/48845 [4:54:09<12:14:07,  1.26s/it]                                                          {'loss': 1.9077, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13835/48845 [4:54:09<12:14:07,  1.26s/it] 28%|██▊       | 13836/48845 [4:54:10<12:14:51,  1.26s/it] 28%|██▊       | 13837/48845 [4:54:11<12:15:01,  1.26s/it] 28%|██▊       | 13838/48845 [4:54:13<12:14:37,  1.26s/it] 28%|██▊       | 13839/48845 [4:54:14<12:14:36,  1.26s/it] 28%|██▊       | 13840/48845 [4:54:15<12:14:41,  1.26s/it]                                                          {'loss': 1.9699, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13840/48845 [4:54:15<12:14:41,  1.26s/it] 28%|██▊       | 13841/48845 [4:54:16<12:14:59,  1.26s/it] 28%|██▊       | 13842/48845 [4:54:18<12:15:03,  1.26s/it] 28%|██▊       | 13843/48845 [4:54:19<12:14:34,  1.26s/it] 28%|██▊       | 13844/48845 [4:54:20<12:14:45,  1.26s/it] 28%|██▊       | 13845/48845 [4:54:21<12:13:56,  1.26s/it]                                                          {'loss': 1.9634, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13845/48845 [4:54:21<12:13:56,  1.26s/it] 28%|██▊       | 13846/48845 [4:54:23<12:13:41,  1.26s/it] 28%|██▊       | 13847/48845 [4:54:24<12:14:12,  1.26s/it] 28%|██▊       | 13848/48845 [4:54:25<12:14:17,  1.26s/it] 28%|██▊       | 13849/48845 [4:54:26<12:14:34,  1.26s/it] 28%|██▊       | 13850/48845 [4:54:28<12:14:28,  1.26s/it]                                                          {'loss': 1.9358, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13850/48845 [4:54:28<12:14:28,  1.26s/it] 28%|██▊       | 13851/48845 [4:54:29<12:14:23,  1.26s/it] 28%|██▊       | 13852/48845 [4:54:30<12:14:24,  1.26s/it] 28%|██▊       | 13853/48845 [4:54:32<12:14:32,  1.26s/it] 28%|██▊       | 13854/48845 [4:54:33<12:14:25,  1.26s/it] 28%|██▊       | 13855/48845 [4:54:34<12:14:01,  1.26s/it]                                                          {'loss': 1.9179, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13855/48845 [4:54:34<12:14:01,  1.26s/it] 28%|██▊       | 13856/48845 [4:54:35<12:14:47,  1.26s/it] 28%|██▊       | 13857/48845 [4:54:37<12:14:29,  1.26s/it] 28%|██▊       | 13858/48845 [4:54:38<12:13:22,  1.26s/it] 28%|██▊       | 13859/48845 [4:54:39<12:13:25,  1.26s/it] 28%|██▊       | 13860/48845 [4:54:40<12:13:14,  1.26s/it]                                                          {'loss': 2.0282, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13860/48845 [4:54:40<12:13:14,  1.26s/it] 28%|██▊       | 13861/48845 [4:54:42<12:13:12,  1.26s/it] 28%|██▊       | 13862/48845 [4:54:43<12:13:58,  1.26s/it] 28%|██▊       | 13863/48845 [4:54:44<12:13:37,  1.26s/it] 28%|██▊       | 13864/48845 [4:54:45<12:14:43,  1.26s/it] 28%|██▊       | 13865/48845 [4:54:47<12:14:33,  1.26s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13865/48845 [4:54:47<12:14:33,  1.26s/it] 28%|██▊       | 13866/48845 [4:54:48<12:14:22,  1.26s/it] 28%|██▊       | 13867/48845 [4:54:49<12:14:15,  1.26s/it] 28%|██▊       | 13868/48845 [4:54:50<12:14:11,  1.26s/it] 28%|██▊       | 13869/48845 [4:54:52<12:14:33,  1.26s/it] 28%|██▊       | 13870/48845 [4:54:53<12:14:18,  1.26s/it]                                                          {'loss': 1.8759, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13870/48845 [4:54:53<12:14:18,  1.26s/it] 28%|██▊       | 13871/48845 [4:54:54<12:14:10,  1.26s/it] 28%|██▊       | 13872/48845 [4:54:55<12:13:47,  1.26s/it] 28%|██▊       | 13873/48845 [4:54:57<12:13:46,  1.26s/it] 28%|██▊       | 13874/48845 [4:54:58<12:13:57,  1.26s/it] 28%|██▊       | 13875/48845 [4:54:59<12:13:48,  1.26s/it]                                                          {'loss': 2.0309, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13875/48845 [4:54:59<12:13:48,  1.26s/it] 28%|██▊       | 13876/48845 [4:55:00<12:13:57,  1.26s/it] 28%|██▊       | 13877/48845 [4:55:02<12:13:58,  1.26s/it] 28%|██▊       | 13878/48845 [4:55:03<12:14:21,  1.26s/it] 28%|██▊       | 13879/48845 [4:55:04<12:14:19,  1.26s/it] 28%|██▊       | 13880/48845 [4:55:06<12:14:06,  1.26s/it]                                                          {'loss': 2.1035, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13880/48845 [4:55:06<12:14:06,  1.26s/it] 28%|██▊       | 13881/48845 [4:55:07<12:14:13,  1.26s/it] 28%|██▊       | 13882/48845 [4:55:08<12:14:12,  1.26s/it] 28%|██▊       | 13883/48845 [4:55:09<12:13:33,  1.26s/it] 28%|██▊       | 13884/48845 [4:55:11<12:13:51,  1.26s/it] 28%|██▊       | 13885/48845 [4:55:12<12:13:31,  1.26s/it]                                                          {'loss': 1.9913, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13885/48845 [4:55:12<12:13:31,  1.26s/it] 28%|██▊       | 13886/48845 [4:55:13<12:13:47,  1.26s/it] 28%|██▊       | 13887/48845 [4:55:14<12:13:06,  1.26s/it] 28%|██▊       | 13888/48845 [4:55:16<12:13:22,  1.26s/it] 28%|██▊       | 13889/48845 [4:55:17<12:14:44,  1.26s/it] 28%|██▊       | 13890/48845 [4:55:18<12:15:12,  1.26s/it]                                                          {'loss': 2.2063, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13890/48845 [4:55:18<12:15:12,  1.26s/it] 28%|██▊       | 13891/48845 [4:55:19<12:15:21,  1.26s/it] 28%|██▊       | 13892/48845 [4:55:21<12:15:00,  1.26s/it] 28%|██▊       | 13893/48845 [4:55:22<12:14:37,  1.26s/it] 28%|██▊       | 13894/48845 [4:55:23<12:14:46,  1.26s/it] 28%|██▊       | 13895/48845 [4:55:24<12:14:34,  1.26s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13895/48845 [4:55:24<12:14:34,  1.26s/it] 28%|██▊       | 13896/48845 [4:55:26<12:14:49,  1.26s/it] 28%|██▊       | 13897/48845 [4:55:27<12:15:04,  1.26s/it] 28%|██▊       | 13898/48845 [4:55:28<12:14:28,  1.26s/it] 28%|██▊       | 13899/48845 [4:55:29<12:14:22,  1.26s/it] 28%|██▊       | 13900/48845 [4:55:31<12:13:42,  1.26s/it]                                                          {'loss': 2.0182, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13900/48845 [4:55:31<12:13:42,  1.26s/it] 28%|██▊       | 13901/48845 [4:55:32<12:13:53,  1.26s/it] 28%|██▊       | 13902/48845 [4:55:33<12:14:15,  1.26s/it] 28%|██▊       | 13903/48845 [4:55:34<12:13:59,  1.26s/it] 28%|██▊       | 13904/48845 [4:55:36<12:13:42,  1.26s/it] 28%|██▊       | 13905/48845 [4:55:37<12:13:27,  1.26s/it]                                                          {'loss': 2.0096, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13905/48845 [4:55:37<12:13:27,  1.26s/it] 28%|██▊       | 13906/48845 [4:55:38<12:13:51,  1.26s/it] 28%|██▊       | 13907/48845 [4:55:40<12:14:03,  1.26s/it] 28%|██▊       | 13908/48845 [4:55:41<12:13:19,  1.26s/it] 28%|██▊       | 13909/48845 [4:55:42<12:13:20,  1.26s/it] 28%|██▊       | 13910/48845 [4:55:43<12:13:13,  1.26s/it]                                                          {'loss': 2.2137, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13910/48845 [4:55:43<12:13:13,  1.26s/it] 28%|██▊       | 13911/48845 [4:55:45<12:13:21,  1.26s/it] 28%|██▊       | 13912/48845 [4:55:46<12:13:30,  1.26s/it] 28%|██▊       | 13913/48845 [4:55:47<12:13:24,  1.26s/it] 28%|██▊       | 13914/48845 [4:55:48<12:12:59,  1.26s/it] 28%|██▊       | 13915/48845 [4:55:50<12:12:45,  1.26s/it]                                                          {'loss': 2.0097, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13915/48845 [4:55:50<12:12:45,  1.26s/it] 28%|██▊       | 13916/48845 [4:55:51<12:12:26,  1.26s/it] 28%|██▊       | 13917/48845 [4:55:52<12:12:50,  1.26s/it] 28%|██▊       | 13918/48845 [4:55:53<12:13:09,  1.26s/it] 28%|██▊       | 13919/48845 [4:55:55<12:13:15,  1.26s/it] 28%|██▊       | 13920/48845 [4:55:56<12:12:36,  1.26s/it]                                                          {'loss': 1.9518, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.42}
+ 28%|██▊       | 13920/48845 [4:55:56<12:12:36,  1.26s/it] 29%|██▊       | 13921/48845 [4:55:57<12:13:21,  1.26s/it] 29%|██▊       | 13922/48845 [4:55:58<12:13:55,  1.26s/it] 29%|██▊       | 13923/48845 [4:56:00<12:13:48,  1.26s/it] 29%|██▊       | 13924/48845 [4:56:01<12:13:22,  1.26s/it] 29%|██▊       | 13925/48845 [4:56:02<12:13:19,  1.26s/it]                                                          {'loss': 2.0324, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13925/48845 [4:56:02<12:13:19,  1.26s/it] 29%|██▊       | 13926/48845 [4:56:03<12:13:19,  1.26s/it] 29%|██▊       | 13927/48845 [4:56:05<12:13:41,  1.26s/it] 29%|██▊       | 13928/48845 [4:56:06<12:13:21,  1.26s/it] 29%|██▊       | 13929/48845 [4:56:07<12:13:42,  1.26s/it] 29%|██▊       | 13930/48845 [4:56:09<12:12:56,  1.26s/it]                                                          {'loss': 2.0729, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13930/48845 [4:56:09<12:12:56,  1.26s/it] 29%|██▊       | 13931/48845 [4:56:10<12:12:30,  1.26s/it] 29%|██▊       | 13932/48845 [4:56:11<12:12:57,  1.26s/it] 29%|██▊       | 13933/48845 [4:56:12<12:12:18,  1.26s/it] 29%|██▊       | 13934/48845 [4:56:14<12:12:42,  1.26s/it] 29%|██▊       | 13935/48845 [4:56:15<12:12:27,  1.26s/it]                                                          {'loss': 2.0785, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13935/48845 [4:56:15<12:12:27,  1.26s/it] 29%|██▊       | 13936/48845 [4:56:16<12:12:23,  1.26s/it] 29%|██▊       | 13937/48845 [4:56:17<12:12:27,  1.26s/it] 29%|██▊       | 13938/48845 [4:56:19<12:12:15,  1.26s/it] 29%|██▊       | 13939/48845 [4:56:20<12:12:32,  1.26s/it] 29%|██▊       | 13940/48845 [4:56:21<12:12:46,  1.26s/it]                                                          {'loss': 2.1221, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13940/48845 [4:56:21<12:12:46,  1.26s/it] 29%|██▊       | 13941/48845 [4:56:22<12:13:14,  1.26s/it] 29%|██▊       | 13942/48845 [4:56:24<12:13:39,  1.26s/it] 29%|██▊       | 13943/48845 [4:56:25<12:12:55,  1.26s/it] 29%|██▊       | 13944/48845 [4:56:26<12:13:44,  1.26s/it] 29%|██▊       | 13945/48845 [4:56:27<12:13:21,  1.26s/it]                                                          {'loss': 2.246, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13945/48845 [4:56:27<12:13:21,  1.26s/it] 29%|██▊       | 13946/48845 [4:56:29<12:13:16,  1.26s/it] 29%|██▊       | 13947/48845 [4:56:30<12:13:37,  1.26s/it] 29%|██▊       | 13948/48845 [4:56:31<12:13:01,  1.26s/it] 29%|██▊       | 13949/48845 [4:56:32<12:12:57,  1.26s/it] 29%|██▊       | 13950/48845 [4:56:34<12:14:44,  1.26s/it]                                                          {'loss': 1.9453, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13950/48845 [4:56:34<12:14:44,  1.26s/it] 29%|██▊       | 13951/48845 [4:56:35<12:13:49,  1.26s/it] 29%|██▊       | 13952/48845 [4:56:36<12:13:26,  1.26s/it] 29%|██▊       | 13953/48845 [4:56:37<12:12:53,  1.26s/it] 29%|██▊       | 13954/48845 [4:56:39<12:12:19,  1.26s/it] 29%|██▊       | 13955/48845 [4:56:40<12:12:47,  1.26s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13955/48845 [4:56:40<12:12:47,  1.26s/it] 29%|██▊       | 13956/48845 [4:56:41<12:12:38,  1.26s/it] 29%|██▊       | 13957/48845 [4:56:43<12:13:09,  1.26s/it] 29%|██▊       | 13958/48845 [4:56:44<12:12:48,  1.26s/it] 29%|██▊       | 13959/48845 [4:56:45<12:12:35,  1.26s/it] 29%|██▊       | 13960/48845 [4:56:46<12:12:41,  1.26s/it]                                                          {'loss': 2.0133, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13960/48845 [4:56:46<12:12:41,  1.26s/it] 29%|██▊       | 13961/48845 [4:56:48<12:12:29,  1.26s/it] 29%|██▊       | 13962/48845 [4:56:49<12:12:28,  1.26s/it] 29%|██▊       | 13963/48845 [4:56:50<12:11:59,  1.26s/it] 29%|██▊       | 13964/48845 [4:56:51<12:12:14,  1.26s/it] 29%|██▊       | 13965/48845 [4:56:53<12:12:17,  1.26s/it]                                                          {'loss': 2.1008, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13965/48845 [4:56:53<12:12:17,  1.26s/it] 29%|██▊       | 13966/48845 [4:56:54<12:11:58,  1.26s/it] 29%|██▊       | 13967/48845 [4:56:55<12:11:23,  1.26s/it] 29%|██▊       | 13968/48845 [4:56:56<12:11:11,  1.26s/it] 29%|██▊       | 13969/48845 [4:56:58<12:10:50,  1.26s/it] 29%|██▊       | 13970/48845 [4:56:59<12:10:50,  1.26s/it]                                                          {'loss': 1.9987, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13970/48845 [4:56:59<12:10:50,  1.26s/it] 29%|██▊       | 13971/48845 [4:57:00<12:11:15,  1.26s/it] 29%|██▊       | 13972/48845 [4:57:01<12:12:08,  1.26s/it] 29%|██▊       | 13973/48845 [4:57:03<12:12:24,  1.26s/it] 29%|██▊       | 13974/48845 [4:57:04<12:11:57,  1.26s/it] 29%|██▊       | 13975/48845 [4:57:05<12:11:38,  1.26s/it]                                                          {'loss': 2.0342, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13975/48845 [4:57:05<12:11:38,  1.26s/it] 29%|██▊       | 13976/48845 [4:57:06<12:12:19,  1.26s/it] 29%|██▊       | 13977/48845 [4:57:08<12:12:40,  1.26s/it] 29%|██▊       | 13978/48845 [4:57:09<12:12:23,  1.26s/it] 29%|██▊       | 13979/48845 [4:57:10<12:12:37,  1.26s/it] 29%|██▊       | 13980/48845 [4:57:12<12:12:34,  1.26s/it]                                                          {'loss': 1.9638, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13980/48845 [4:57:12<12:12:34,  1.26s/it] 29%|██▊       | 13981/48845 [4:57:13<12:11:48,  1.26s/it] 29%|██▊       | 13982/48845 [4:57:14<12:11:41,  1.26s/it] 29%|██▊       | 13983/48845 [4:57:15<12:11:51,  1.26s/it] 29%|██▊       | 13984/48845 [4:57:17<12:11:39,  1.26s/it] 29%|██▊       | 13985/48845 [4:57:18<12:11:06,  1.26s/it]                                                          {'loss': 1.9107, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13985/48845 [4:57:18<12:11:06,  1.26s/it] 29%|██▊       | 13986/48845 [4:57:19<12:11:28,  1.26s/it] 29%|██▊       | 13987/48845 [4:57:20<12:11:12,  1.26s/it] 29%|██▊       | 13988/48845 [4:57:22<12:10:54,  1.26s/it] 29%|██▊       | 13989/48845 [4:57:23<12:11:28,  1.26s/it] 29%|██▊       | 13990/48845 [4:57:24<12:10:28,  1.26s/it]                                                          {'loss': 1.8656, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13990/48845 [4:57:24<12:10:28,  1.26s/it] 29%|██▊       | 13991/48845 [4:57:25<12:10:52,  1.26s/it] 29%|██▊       | 13992/48845 [4:57:27<12:11:11,  1.26s/it] 29%|██▊       | 13993/48845 [4:57:28<12:10:39,  1.26s/it] 29%|██▊       | 13994/48845 [4:57:29<12:11:30,  1.26s/it] 29%|██▊       | 13995/48845 [4:57:30<12:11:19,  1.26s/it]                                                          {'loss': 1.9427, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 13995/48845 [4:57:30<12:11:19,  1.26s/it] 29%|██▊       | 13996/48845 [4:57:32<12:11:11,  1.26s/it] 29%|██▊       | 13997/48845 [4:57:33<12:11:49,  1.26s/it] 29%|██▊       | 13998/48845 [4:57:34<12:11:17,  1.26s/it] 29%|██▊       | 13999/48845 [4:57:35<12:10:46,  1.26s/it] 29%|██▊       | 14000/48845 [4:57:37<12:10:35,  1.26s/it]                                                          {'loss': 2.024, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 14000/48845 [4:57:37<12:10:35,  1.26s/it] 29%|██▊       | 14001/48845 [4:57:40<19:09:53,  1.98s/it] 29%|██▊       | 14002/48845 [4:57:42<17:04:16,  1.76s/it] 29%|██▊       | 14003/48845 [4:57:43<15:36:00,  1.61s/it] 29%|██▊       | 14004/48845 [4:57:44<14:33:53,  1.50s/it] 29%|██▊       | 14005/48845 [4:57:45<13:50:36,  1.43s/it]                                                          {'loss': 1.8626, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 14005/48845 [4:57:45<13:50:36,  1.43s/it] 29%|██▊       | 14006/48845 [4:57:47<13:20:31,  1.38s/it] 29%|██▊       | 14007/48845 [4:57:48<12:58:24,  1.34s/it] 29%|██▊       | 14008/48845 [4:57:49<13:12:26,  1.36s/it] 29%|██▊       | 14009/48845 [4:57:51<12:54:17,  1.33s/it] 29%|██▊       | 14010/48845 [4:57:52<12:40:41,  1.31s/it]                                                          {'loss': 1.9701, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 14010/48845 [4:57:52<12:40:41,  1.31s/it] 29%|██▊       | 14011/48845 [4:57:53<12:31:48,  1.29s/it] 29%|██▊       | 14012/48845 [4:57:54<12:25:25,  1.28s/it] 29%|██▊       | 14013/48845 [4:57:56<12:21:27,  1.28s/it] 29%|██▊       | 14014/48845 [4:57:57<12:18:01,  1.27s/it] 29%|██▊       | 14015/48845 [4:57:58<12:15:41,  1.27s/it]                                                          {'loss': 1.9389, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.43}
+ 29%|██▊       | 14015/48845 [4:57:58<12:15:41,  1.27s/it] 29%|██▊       | 14016/48845 [4:57:59<12:13:55,  1.26s/it] 29%|██▊       | 14017/48845 [4:58:01<12:12:48,  1.26s/it] 29%|██▊       | 14018/48845 [4:58:02<12:11:39,  1.26s/it] 29%|██▊       | 14019/48845 [4:58:03<12:11:21,  1.26s/it] 29%|██▊       | 14020/48845 [4:58:04<12:11:31,  1.26s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▊       | 14020/48845 [4:58:04<12:11:31,  1.26s/it] 29%|██▊       | 14021/48845 [4:58:06<12:11:31,  1.26s/it] 29%|██▊       | 14022/48845 [4:58:07<12:11:16,  1.26s/it] 29%|██▊       | 14023/48845 [4:58:08<12:11:04,  1.26s/it] 29%|██▊       | 14024/48845 [4:58:09<12:10:31,  1.26s/it] 29%|██▊       | 14025/48845 [4:58:11<12:10:04,  1.26s/it]                                                          {'loss': 2.1108, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▊       | 14025/48845 [4:58:11<12:10:04,  1.26s/it] 29%|██▊       | 14026/48845 [4:58:12<12:09:47,  1.26s/it] 29%|██▊       | 14027/48845 [4:58:13<12:10:20,  1.26s/it] 29%|██▊       | 14028/48845 [4:58:14<12:10:15,  1.26s/it] 29%|██▊       | 14029/48845 [4:58:16<12:09:43,  1.26s/it] 29%|██▊       | 14030/48845 [4:58:17<12:09:55,  1.26s/it]                                                          {'loss': 1.981, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▊       | 14030/48845 [4:58:17<12:09:55,  1.26s/it] 29%|██▊       | 14031/48845 [4:58:18<12:09:55,  1.26s/it] 29%|██▊       | 14032/48845 [4:58:19<12:09:47,  1.26s/it] 29%|██▊       | 14033/48845 [4:58:21<12:10:01,  1.26s/it] 29%|██▊       | 14034/48845 [4:58:22<12:10:12,  1.26s/it] 29%|██▊       | 14035/48845 [4:58:23<12:10:28,  1.26s/it]                                                          {'loss': 1.951, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▊       | 14035/48845 [4:58:23<12:10:28,  1.26s/it] 29%|██▊       | 14036/48845 [4:58:25<12:10:42,  1.26s/it] 29%|██▊       | 14037/48845 [4:58:26<12:10:25,  1.26s/it] 29%|██▊       | 14038/48845 [4:58:27<12:10:43,  1.26s/it] 29%|██▊       | 14039/48845 [4:58:28<12:10:38,  1.26s/it] 29%|██▊       | 14040/48845 [4:58:30<12:13:22,  1.26s/it]                                                          {'loss': 2.005, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▊       | 14040/48845 [4:58:30<12:13:22,  1.26s/it] 29%|██▊       | 14041/48845 [4:58:31<12:12:05,  1.26s/it] 29%|██▊       | 14042/48845 [4:58:32<12:12:25,  1.26s/it] 29%|██▉       | 14043/48845 [4:58:33<12:13:50,  1.27s/it] 29%|██▉       | 14044/48845 [4:58:35<12:12:13,  1.26s/it] 29%|██▉       | 14045/48845 [4:58:36<12:11:33,  1.26s/it]                                                          {'loss': 2.0769, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14045/48845 [4:58:36<12:11:33,  1.26s/it] 29%|██▉       | 14046/48845 [4:58:37<12:11:47,  1.26s/it] 29%|██▉       | 14047/48845 [4:58:38<12:10:57,  1.26s/it] 29%|██▉       | 14048/48845 [4:58:40<12:10:48,  1.26s/it] 29%|██▉       | 14049/48845 [4:58:41<12:10:30,  1.26s/it] 29%|██▉       | 14050/48845 [4:58:42<12:10:23,  1.26s/it]                                                          {'loss': 1.9908, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14050/48845 [4:58:42<12:10:23,  1.26s/it] 29%|██▉       | 14051/48845 [4:58:43<12:12:09,  1.26s/it] 29%|██▉       | 14052/48845 [4:58:45<12:11:04,  1.26s/it] 29%|██▉       | 14053/48845 [4:58:46<12:11:30,  1.26s/it] 29%|██▉       | 14054/48845 [4:58:47<12:10:57,  1.26s/it] 29%|██▉       | 14055/48845 [4:58:48<12:10:49,  1.26s/it]                                                          {'loss': 1.9996, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14055/48845 [4:58:49<12:10:49,  1.26s/it] 29%|██▉       | 14056/48845 [4:58:50<12:10:11,  1.26s/it] 29%|██▉       | 14057/48845 [4:58:51<12:09:42,  1.26s/it] 29%|██▉       | 14058/48845 [4:58:52<12:10:08,  1.26s/it] 29%|██▉       | 14059/48845 [4:58:54<12:09:42,  1.26s/it] 29%|██▉       | 14060/48845 [4:58:55<12:10:04,  1.26s/it]                                                          {'loss': 1.9033, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14060/48845 [4:58:55<12:10:04,  1.26s/it] 29%|██▉       | 14061/48845 [4:58:56<12:09:37,  1.26s/it] 29%|██▉       | 14062/48845 [4:58:57<12:10:10,  1.26s/it] 29%|██▉       | 14063/48845 [4:58:59<12:10:23,  1.26s/it] 29%|██▉       | 14064/48845 [4:59:00<12:09:57,  1.26s/it] 29%|██▉       | 14065/48845 [4:59:01<12:10:20,  1.26s/it]                                                          {'loss': 2.0487, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14065/48845 [4:59:01<12:10:20,  1.26s/it] 29%|██▉       | 14066/48845 [4:59:02<12:11:01,  1.26s/it] 29%|██▉       | 14067/48845 [4:59:04<12:10:11,  1.26s/it] 29%|██▉       | 14068/48845 [4:59:05<12:10:20,  1.26s/it] 29%|██▉       | 14069/48845 [4:59:06<12:09:46,  1.26s/it] 29%|██▉       | 14070/48845 [4:59:07<12:09:35,  1.26s/it]                                                          {'loss': 2.1475, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14070/48845 [4:59:07<12:09:35,  1.26s/it] 29%|██▉       | 14071/48845 [4:59:09<12:09:44,  1.26s/it] 29%|██▉       | 14072/48845 [4:59:10<12:10:06,  1.26s/it] 29%|██▉       | 14073/48845 [4:59:11<12:10:04,  1.26s/it] 29%|██▉       | 14074/48845 [4:59:12<12:09:44,  1.26s/it] 29%|██▉       | 14075/48845 [4:59:14<12:09:24,  1.26s/it]                                                          {'loss': 1.9885, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14075/48845 [4:59:14<12:09:24,  1.26s/it] 29%|██▉       | 14076/48845 [4:59:15<12:09:50,  1.26s/it] 29%|██▉       | 14077/48845 [4:59:16<12:10:16,  1.26s/it] 29%|██▉       | 14078/48845 [4:59:17<12:11:19,  1.26s/it] 29%|██▉       | 14079/48845 [4:59:19<12:09:56,  1.26s/it] 29%|██▉       | 14080/48845 [4:59:20<12:09:17,  1.26s/it]                                                          {'loss': 2.1125, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14080/48845 [4:59:20<12:09:17,  1.26s/it] 29%|██▉       | 14081/48845 [4:59:21<12:09:30,  1.26s/it] 29%|██▉       | 14082/48845 [4:59:23<12:09:17,  1.26s/it] 29%|██▉       | 14083/48845 [4:59:24<12:09:59,  1.26s/it] 29%|██▉       | 14084/48845 [4:59:25<12:09:53,  1.26s/it] 29%|██▉       | 14085/48845 [4:59:26<12:09:31,  1.26s/it]                                                          {'loss': 1.974, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14085/48845 [4:59:26<12:09:31,  1.26s/it] 29%|██▉       | 14086/48845 [4:59:28<12:10:13,  1.26s/it] 29%|██▉       | 14087/48845 [4:59:29<12:09:49,  1.26s/it] 29%|██▉       | 14088/48845 [4:59:30<12:10:14,  1.26s/it] 29%|██▉       | 14089/48845 [4:59:31<12:09:37,  1.26s/it] 29%|██▉       | 14090/48845 [4:59:33<12:10:43,  1.26s/it]                                                          {'loss': 1.9451, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14090/48845 [4:59:33<12:10:43,  1.26s/it] 29%|██▉       | 14091/48845 [4:59:34<12:11:00,  1.26s/it] 29%|██▉       | 14092/48845 [4:59:35<12:09:55,  1.26s/it] 29%|██▉       | 14093/48845 [4:59:36<12:09:56,  1.26s/it] 29%|██▉       | 14094/48845 [4:59:38<12:09:17,  1.26s/it] 29%|██▉       | 14095/48845 [4:59:39<12:08:55,  1.26s/it]                                                          {'loss': 2.0176, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14095/48845 [4:59:39<12:08:55,  1.26s/it] 29%|██▉       | 14096/48845 [4:59:40<12:08:35,  1.26s/it] 29%|██▉       | 14097/48845 [4:59:41<12:08:56,  1.26s/it] 29%|██▉       | 14098/48845 [4:59:43<12:08:48,  1.26s/it] 29%|██▉       | 14099/48845 [4:59:44<12:09:21,  1.26s/it] 29%|██▉       | 14100/48845 [4:59:45<12:09:06,  1.26s/it]                                                          {'loss': 2.1547, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14100/48845 [4:59:45<12:09:06,  1.26s/it] 29%|██▉       | 14101/48845 [4:59:46<12:09:31,  1.26s/it] 29%|██▉       | 14102/48845 [4:59:48<12:09:48,  1.26s/it] 29%|██▉       | 14103/48845 [4:59:49<12:10:03,  1.26s/it] 29%|██▉       | 14104/48845 [4:59:50<12:37:17,  1.31s/it] 29%|██▉       | 14105/48845 [4:59:52<12:28:55,  1.29s/it]                                                          {'loss': 2.0905, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14105/48845 [4:59:52<12:28:55,  1.29s/it] 29%|██▉       | 14106/48845 [4:59:53<12:24:20,  1.29s/it] 29%|██▉       | 14107/48845 [4:59:54<12:20:02,  1.28s/it] 29%|██▉       | 14108/48845 [4:59:55<12:17:02,  1.27s/it] 29%|██▉       | 14109/48845 [4:59:57<12:14:16,  1.27s/it] 29%|██▉       | 14110/48845 [4:59:58<12:11:54,  1.26s/it]                                                          {'loss': 2.205, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14110/48845 [4:59:58<12:11:54,  1.26s/it] 29%|██▉       | 14111/48845 [4:59:59<12:11:06,  1.26s/it] 29%|██▉       | 14112/48845 [5:00:00<12:10:45,  1.26s/it] 29%|██▉       | 14113/48845 [5:00:02<12:09:30,  1.26s/it] 29%|██▉       | 14114/48845 [5:00:03<12:09:17,  1.26s/it] 29%|██▉       | 14115/48845 [5:00:04<12:08:28,  1.26s/it]                                                          {'loss': 2.0008, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.44}
+ 29%|██▉       | 14115/48845 [5:00:04<12:08:28,  1.26s/it] 29%|██▉       | 14116/48845 [5:00:05<12:08:26,  1.26s/it] 29%|██▉       | 14117/48845 [5:00:07<12:08:31,  1.26s/it] 29%|██▉       | 14118/48845 [5:00:08<12:08:30,  1.26s/it] 29%|██▉       | 14119/48845 [5:00:09<12:08:53,  1.26s/it] 29%|██▉       | 14120/48845 [5:00:11<12:09:29,  1.26s/it]                                                          {'loss': 1.9263, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.45}
+ 29%|██▉       | 14120/48845 [5:00:11<12:09:29,  1.26s/it] 29%|██▉       | 14121/48845 [5:00:12<12:09:02,  1.26s/it] 29%|██▉       | 14122/48845 [5:00:13<12:09:24,  1.26s/it] 29%|██▉       | 14123/48845 [5:00:14<12:08:34,  1.26s/it] 29%|██▉       | 14124/48845 [5:00:16<12:08:41,  1.26s/it] 29%|██▉       | 14125/48845 [5:00:17<12:08:31,  1.26s/it]                                                          {'loss': 2.0176, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.45}
+ 29%|██▉       | 14125/48845 [5:00:17<12:08:31,  1.26s/it] 29%|██▉       | 14126/48845 [5:00:18<12:08:28,  1.26s/it] 29%|██▉       | 14127/48845 [5:00:19<12:08:41,  1.26s/it] 29%|██▉       | 14128/48845 [5:00:21<12:08:41,  1.26s/it] 29%|██▉       | 14129/48845 [5:00:22<12:08:48,  1.26s/it] 29%|██▉       | 14130/48845 [5:00:23<12:09:00,  1.26s/it]                                                          {'loss': 2.078, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.45}
+ 29%|██▉       | 14130/48845 [5:00:23<12:09:00,  1.26s/it] 29%|██▉       | 14131/48845 [5:00:24<12:08:19,  1.26s/it] 29%|██▉       | 14132/48845 [5:00:26<12:08:46,  1.26s/it] 29%|██▉       | 14133/48845 [5:00:27<12:08:25,  1.26s/it] 29%|██▉       | 14134/48845 [5:00:28<12:08:41,  1.26s/it] 29%|██▉       | 14135/48845 [5:00:29<12:08:10,  1.26s/it]                                                          {'loss': 2.0944, 'learning_rate': 4.0882741795693975e-05, 'epoch': 1.45}
+ 29%|██▉       | 14135/48845 [5:00:29<12:08:10,  1.26s/it] 29%|██▉       | 14136/48845 [5:00:31<12:08:33,  1.26s/it] 29%|██▉       | 14137/48845 [5:00:32<12:08:40,  1.26s/it] 29%|██▉       | 14138/48845 [5:00:33<12:09:12,  1.26s/it] 29%|██▉       | 14139/48845 [5:00:34<12:08:58,  1.26s/it] 29%|██▉       | 14140/48845 [5:00:36<12:43:22,  1.32s/it]                                                          {'loss': 1.9518, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14140/48845 [5:00:36<12:43:22,  1.32s/it] 29%|██▉       | 14141/48845 [5:00:37<12:33:07,  1.30s/it] 29%|██▉       | 14142/48845 [5:00:38<12:26:12,  1.29s/it] 29%|██▉       | 14143/48845 [5:00:40<12:20:26,  1.28s/it] 29%|██▉       | 14144/48845 [5:00:41<12:17:22,  1.27s/it] 29%|██▉       | 14145/48845 [5:00:42<12:14:16,  1.27s/it]                                                          {'loss': 2.0262, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14145/48845 [5:00:42<12:14:16,  1.27s/it] 29%|██▉       | 14146/48845 [5:00:43<12:12:27,  1.27s/it] 29%|██▉       | 14147/48845 [5:00:45<12:11:29,  1.26s/it] 29%|██▉       | 14148/48845 [5:00:46<12:10:10,  1.26s/it] 29%|██▉       | 14149/48845 [5:00:47<12:09:16,  1.26s/it] 29%|██▉       | 14150/48845 [5:00:49<12:09:08,  1.26s/it]                                                          {'loss': 2.0819, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14150/48845 [5:00:49<12:09:08,  1.26s/it] 29%|██▉       | 14151/48845 [5:00:50<12:08:52,  1.26s/it] 29%|██▉       | 14152/48845 [5:00:51<12:08:46,  1.26s/it] 29%|██▉       | 14153/48845 [5:00:52<12:08:29,  1.26s/it] 29%|██▉       | 14154/48845 [5:00:54<12:08:36,  1.26s/it] 29%|██▉       | 14155/48845 [5:00:55<12:08:29,  1.26s/it]                                                          {'loss': 2.008, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14155/48845 [5:00:55<12:08:29,  1.26s/it] 29%|██▉       | 14156/48845 [5:00:56<12:08:01,  1.26s/it] 29%|██▉       | 14157/48845 [5:00:57<12:08:13,  1.26s/it] 29%|██▉       | 14158/48845 [5:00:59<12:08:20,  1.26s/it] 29%|██▉       | 14159/48845 [5:01:00<12:08:05,  1.26s/it] 29%|██▉       | 14160/48845 [5:01:01<12:07:40,  1.26s/it]                                                          {'loss': 2.09, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14160/48845 [5:01:01<12:07:40,  1.26s/it] 29%|██▉       | 14161/48845 [5:01:02<12:07:50,  1.26s/it] 29%|██▉       | 14162/48845 [5:01:04<12:08:37,  1.26s/it] 29%|██▉       | 14163/48845 [5:01:05<12:33:34,  1.30s/it] 29%|██▉       | 14164/48845 [5:01:06<12:25:10,  1.29s/it] 29%|██▉       | 14165/48845 [5:01:08<12:19:24,  1.28s/it]                                                          {'loss': 1.9996, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14165/48845 [5:01:08<12:19:24,  1.28s/it] 29%|██▉       | 14166/48845 [5:01:09<12:15:50,  1.27s/it] 29%|██▉       | 14167/48845 [5:01:10<12:13:43,  1.27s/it] 29%|██▉       | 14168/48845 [5:01:11<12:11:58,  1.27s/it] 29%|██▉       | 14169/48845 [5:01:13<12:10:30,  1.26s/it] 29%|██▉       | 14170/48845 [5:01:14<12:10:04,  1.26s/it]                                                          {'loss': 1.9368, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14170/48845 [5:01:14<12:10:04,  1.26s/it] 29%|██▉       | 14171/48845 [5:01:15<12:09:11,  1.26s/it] 29%|██▉       | 14172/48845 [5:01:16<12:09:26,  1.26s/it] 29%|██▉       | 14173/48845 [5:01:18<12:09:25,  1.26s/it] 29%|██▉       | 14174/48845 [5:01:19<12:08:33,  1.26s/it] 29%|██▉       | 14175/48845 [5:01:20<12:08:43,  1.26s/it]                                                          {'loss': 2.1067, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14175/48845 [5:01:20<12:08:43,  1.26s/it] 29%|██▉       | 14176/48845 [5:01:21<12:08:05,  1.26s/it] 29%|██▉       | 14177/48845 [5:01:23<12:07:49,  1.26s/it] 29%|██▉       | 14178/48845 [5:01:24<12:07:25,  1.26s/it] 29%|██▉       | 14179/48845 [5:01:25<12:08:37,  1.26s/it] 29%|██▉       | 14180/48845 [5:01:26<12:09:09,  1.26s/it]                                                          {'loss': 2.1071, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14180/48845 [5:01:26<12:09:09,  1.26s/it] 29%|██▉       | 14181/48845 [5:01:28<12:08:53,  1.26s/it] 29%|██▉       | 14182/48845 [5:01:29<12:08:19,  1.26s/it] 29%|██▉       | 14183/48845 [5:01:30<12:08:03,  1.26s/it] 29%|██▉       | 14184/48845 [5:01:31<12:08:07,  1.26s/it] 29%|██▉       | 14185/48845 [5:01:33<12:07:28,  1.26s/it]                                                          {'loss': 2.3081, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14185/48845 [5:01:33<12:07:28,  1.26s/it] 29%|██▉       | 14186/48845 [5:01:34<12:07:45,  1.26s/it] 29%|██▉       | 14187/48845 [5:01:35<12:07:22,  1.26s/it] 29%|██▉       | 14188/48845 [5:01:37<12:07:45,  1.26s/it] 29%|██▉       | 14189/48845 [5:01:38<12:07:07,  1.26s/it] 29%|██▉       | 14190/48845 [5:01:39<12:07:19,  1.26s/it]                                                          {'loss': 2.1027, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14190/48845 [5:01:39<12:07:19,  1.26s/it] 29%|██▉       | 14191/48845 [5:01:40<12:07:39,  1.26s/it] 29%|██▉       | 14192/48845 [5:01:42<12:07:05,  1.26s/it] 29%|██▉       | 14193/48845 [5:01:43<12:07:12,  1.26s/it] 29%|██▉       | 14194/48845 [5:01:44<12:07:00,  1.26s/it] 29%|██▉       | 14195/48845 [5:01:45<12:06:27,  1.26s/it]                                                          {'loss': 1.8479, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14195/48845 [5:01:45<12:06:27,  1.26s/it] 29%|██▉       | 14196/48845 [5:01:47<12:07:09,  1.26s/it] 29%|██▉       | 14197/48845 [5:01:48<12:07:33,  1.26s/it] 29%|██▉       | 14198/48845 [5:01:49<12:07:26,  1.26s/it] 29%|██▉       | 14199/48845 [5:01:50<12:15:06,  1.27s/it] 29%|██▉       | 14200/48845 [5:01:52<12:12:21,  1.27s/it]                                                          {'loss': 1.9927, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14200/48845 [5:01:52<12:12:21,  1.27s/it] 29%|██▉       | 14201/48845 [5:01:55<19:01:51,  1.98s/it] 29%|██▉       | 14202/48845 [5:01:57<16:57:02,  1.76s/it] 29%|██▉       | 14203/48845 [5:01:58<15:29:49,  1.61s/it] 29%|██▉       | 14204/48845 [5:01:59<14:28:30,  1.50s/it] 29%|██▉       | 14205/48845 [5:02:00<13:46:20,  1.43s/it]                                                          {'loss': 2.0566, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14205/48845 [5:02:00<13:46:20,  1.43s/it] 29%|██▉       | 14206/48845 [5:02:02<13:17:06,  1.38s/it] 29%|██▉       | 14207/48845 [5:02:03<12:55:42,  1.34s/it] 29%|██▉       | 14208/48845 [5:02:04<12:41:48,  1.32s/it] 29%|██▉       | 14209/48845 [5:02:05<12:30:59,  1.30s/it] 29%|██▉       | 14210/48845 [5:02:07<12:24:05,  1.29s/it]                                                          {'loss': 1.8939, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.45}
+ 29%|██▉       | 14210/48845 [5:02:07<12:24:05,  1.29s/it] 29%|██▉       | 14211/48845 [5:02:08<12:19:32,  1.28s/it] 29%|██▉       | 14212/48845 [5:02:09<12:16:36,  1.28s/it] 29%|██▉       | 14213/48845 [5:02:10<12:13:49,  1.27s/it] 29%|██▉       | 14214/48845 [5:02:12<12:10:31,  1.27s/it] 29%|██▉       | 14215/48845 [5:02:13<12:08:48,  1.26s/it]                                                          {'loss': 2.0196, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14215/48845 [5:02:13<12:08:48,  1.26s/it] 29%|██▉       | 14216/48845 [5:02:14<12:08:51,  1.26s/it] 29%|██▉       | 14217/48845 [5:02:15<12:07:53,  1.26s/it] 29%|██▉       | 14218/48845 [5:02:17<12:06:55,  1.26s/it] 29%|██▉       | 14219/48845 [5:02:18<12:06:31,  1.26s/it] 29%|██▉       | 14220/48845 [5:02:19<12:06:00,  1.26s/it]                                                          {'loss': 2.1252, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14220/48845 [5:02:19<12:06:00,  1.26s/it] 29%|██▉       | 14221/48845 [5:02:20<12:06:14,  1.26s/it] 29%|██▉       | 14222/48845 [5:02:22<12:06:06,  1.26s/it] 29%|██▉       | 14223/48845 [5:02:23<12:06:36,  1.26s/it] 29%|██▉       | 14224/48845 [5:02:24<12:06:04,  1.26s/it] 29%|██▉       | 14225/48845 [5:02:26<12:05:53,  1.26s/it]                                                          {'loss': 2.0105, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14225/48845 [5:02:26<12:05:53,  1.26s/it] 29%|██▉       | 14226/48845 [5:02:27<12:05:46,  1.26s/it] 29%|██▉       | 14227/48845 [5:02:28<12:05:10,  1.26s/it] 29%|██▉       | 14228/48845 [5:02:29<12:06:06,  1.26s/it] 29%|██▉       | 14229/48845 [5:02:31<12:06:01,  1.26s/it] 29%|██▉       | 14230/48845 [5:02:32<12:06:30,  1.26s/it]                                                          {'loss': 2.0511, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14230/48845 [5:02:32<12:06:30,  1.26s/it] 29%|██▉       | 14231/48845 [5:02:33<12:06:35,  1.26s/it] 29%|██▉       | 14232/48845 [5:02:34<12:06:08,  1.26s/it] 29%|██▉       | 14233/48845 [5:02:36<12:06:18,  1.26s/it] 29%|██▉       | 14234/48845 [5:02:37<12:06:17,  1.26s/it] 29%|██▉       | 14235/48845 [5:02:38<12:07:09,  1.26s/it]                                                          {'loss': 1.9372, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14235/48845 [5:02:38<12:07:09,  1.26s/it] 29%|██▉       | 14236/48845 [5:02:39<12:06:38,  1.26s/it] 29%|██▉       | 14237/48845 [5:02:41<12:06:39,  1.26s/it] 29%|██▉       | 14238/48845 [5:02:42<12:06:26,  1.26s/it] 29%|██▉       | 14239/48845 [5:02:43<12:06:33,  1.26s/it] 29%|██▉       | 14240/48845 [5:02:44<12:05:58,  1.26s/it]                                                          {'loss': 2.2353, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14240/48845 [5:02:44<12:05:58,  1.26s/it] 29%|██▉       | 14241/48845 [5:02:46<12:06:09,  1.26s/it] 29%|██▉       | 14242/48845 [5:02:47<12:06:16,  1.26s/it] 29%|██▉       | 14243/48845 [5:02:48<12:07:06,  1.26s/it] 29%|██▉       | 14244/48845 [5:02:49<12:06:35,  1.26s/it] 29%|██▉       | 14245/48845 [5:02:51<12:06:22,  1.26s/it]                                                          {'loss': 2.0642, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14245/48845 [5:02:51<12:06:22,  1.26s/it] 29%|██▉       | 14246/48845 [5:02:52<12:05:55,  1.26s/it] 29%|██▉       | 14247/48845 [5:02:53<12:06:01,  1.26s/it] 29%|██▉       | 14248/48845 [5:02:54<12:06:09,  1.26s/it] 29%|██▉       | 14249/48845 [5:02:56<12:06:05,  1.26s/it] 29%|██▉       | 14250/48845 [5:02:57<12:05:54,  1.26s/it]                                                          {'loss': 2.1004, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14250/48845 [5:02:57<12:05:54,  1.26s/it] 29%|██▉       | 14251/48845 [5:02:58<12:05:57,  1.26s/it] 29%|██▉       | 14252/48845 [5:03:00<12:05:20,  1.26s/it] 29%|██▉       | 14253/48845 [5:03:01<12:05:34,  1.26s/it] 29%|██▉       | 14254/48845 [5:03:02<12:05:10,  1.26s/it] 29%|██▉       | 14255/48845 [5:03:03<12:05:57,  1.26s/it]                                                          {'loss': 2.1396, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14255/48845 [5:03:03<12:05:57,  1.26s/it] 29%|██▉       | 14256/48845 [5:03:05<12:05:35,  1.26s/it] 29%|██▉       | 14257/48845 [5:03:06<12:05:33,  1.26s/it] 29%|██▉       | 14258/48845 [5:03:07<12:05:51,  1.26s/it] 29%|██▉       | 14259/48845 [5:03:08<12:05:09,  1.26s/it] 29%|██▉       | 14260/48845 [5:03:10<12:05:48,  1.26s/it]                                                          {'loss': 2.0824, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14260/48845 [5:03:10<12:05:48,  1.26s/it] 29%|██▉       | 14261/48845 [5:03:11<12:05:22,  1.26s/it] 29%|██▉       | 14262/48845 [5:03:12<12:06:01,  1.26s/it] 29%|██▉       | 14263/48845 [5:03:13<12:05:05,  1.26s/it] 29%|██▉       | 14264/48845 [5:03:15<12:04:57,  1.26s/it] 29%|██▉       | 14265/48845 [5:03:16<12:05:38,  1.26s/it]                                                          {'loss': 2.3256, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14265/48845 [5:03:16<12:05:38,  1.26s/it] 29%|██▉       | 14266/48845 [5:03:17<12:05:48,  1.26s/it] 29%|██▉       | 14267/48845 [5:03:18<12:05:22,  1.26s/it] 29%|██▉       | 14268/48845 [5:03:20<12:04:50,  1.26s/it] 29%|██▉       | 14269/48845 [5:03:21<12:05:09,  1.26s/it] 29%|██▉       | 14270/48845 [5:03:22<12:05:45,  1.26s/it]                                                          {'loss': 2.0772, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14270/48845 [5:03:22<12:05:45,  1.26s/it] 29%|██▉       | 14271/48845 [5:03:23<12:06:06,  1.26s/it] 29%|██▉       | 14272/48845 [5:03:25<12:06:00,  1.26s/it] 29%|██▉       | 14273/48845 [5:03:26<12:05:36,  1.26s/it] 29%|██▉       | 14274/48845 [5:03:27<12:05:21,  1.26s/it] 29%|██▉       | 14275/48845 [5:03:28<12:06:04,  1.26s/it]                                                          {'loss': 1.9958, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14275/48845 [5:03:28<12:06:04,  1.26s/it] 29%|██▉       | 14276/48845 [5:03:30<12:05:44,  1.26s/it] 29%|██▉       | 14277/48845 [5:03:31<12:06:05,  1.26s/it] 29%|██▉       | 14278/48845 [5:03:32<12:05:40,  1.26s/it] 29%|██▉       | 14279/48845 [5:03:34<12:05:14,  1.26s/it] 29%|██▉       | 14280/48845 [5:03:35<12:05:41,  1.26s/it]                                                          {'loss': 1.8839, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14280/48845 [5:03:35<12:05:41,  1.26s/it] 29%|██▉       | 14281/48845 [5:03:36<12:05:34,  1.26s/it] 29%|██▉       | 14282/48845 [5:03:37<12:05:50,  1.26s/it] 29%|██▉       | 14283/48845 [5:03:39<12:05:44,  1.26s/it] 29%|██▉       | 14284/48845 [5:03:40<12:05:20,  1.26s/it] 29%|██▉       | 14285/48845 [5:03:41<12:05:58,  1.26s/it]                                                          {'loss': 2.1575, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14285/48845 [5:03:41<12:05:58,  1.26s/it] 29%|██▉       | 14286/48845 [5:03:42<12:05:43,  1.26s/it] 29%|██▉       | 14287/48845 [5:03:44<12:05:41,  1.26s/it] 29%|██▉       | 14288/48845 [5:03:45<12:05:11,  1.26s/it] 29%|██▉       | 14289/48845 [5:03:46<12:05:34,  1.26s/it] 29%|██▉       | 14290/48845 [5:03:47<12:05:58,  1.26s/it]                                                          {'loss': 1.9613, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14290/48845 [5:03:47<12:05:58,  1.26s/it] 29%|██▉       | 14291/48845 [5:03:49<12:05:35,  1.26s/it] 29%|██▉       | 14292/48845 [5:03:50<12:05:17,  1.26s/it] 29%|██▉       | 14293/48845 [5:03:51<12:04:55,  1.26s/it] 29%|██▉       | 14294/48845 [5:03:52<12:04:39,  1.26s/it] 29%|██▉       | 14295/48845 [5:03:54<12:04:28,  1.26s/it]                                                          {'loss': 2.2144, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14295/48845 [5:03:54<12:04:28,  1.26s/it] 29%|██▉       | 14296/48845 [5:03:55<12:05:17,  1.26s/it] 29%|██▉       | 14297/48845 [5:03:56<12:06:19,  1.26s/it] 29%|██▉       | 14298/48845 [5:03:57<12:05:22,  1.26s/it] 29%|██▉       | 14299/48845 [5:03:59<12:05:24,  1.26s/it] 29%|██▉       | 14300/48845 [5:04:00<12:05:46,  1.26s/it]                                                          {'loss': 2.0552, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14300/48845 [5:04:00<12:05:46,  1.26s/it] 29%|██▉       | 14301/48845 [5:04:01<12:05:43,  1.26s/it] 29%|██▉       | 14302/48845 [5:04:03<12:05:40,  1.26s/it] 29%|██▉       | 14303/48845 [5:04:04<12:04:26,  1.26s/it] 29%|██▉       | 14304/48845 [5:04:05<12:04:17,  1.26s/it] 29%|██▉       | 14305/48845 [5:04:06<12:05:05,  1.26s/it]                                                          {'loss': 1.9726, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14305/48845 [5:04:06<12:05:05,  1.26s/it] 29%|██▉       | 14306/48845 [5:04:08<12:04:29,  1.26s/it] 29%|██▉       | 14307/48845 [5:04:09<12:04:26,  1.26s/it] 29%|██▉       | 14308/48845 [5:04:10<12:04:29,  1.26s/it] 29%|██▉       | 14309/48845 [5:04:11<12:04:20,  1.26s/it] 29%|██▉       | 14310/48845 [5:04:13<12:05:25,  1.26s/it]                                                          {'loss': 2.1706, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.46}
+ 29%|██▉       | 14310/48845 [5:04:13<12:05:25,  1.26s/it] 29%|██▉       | 14311/48845 [5:04:14<12:05:26,  1.26s/it] 29%|██▉       | 14312/48845 [5:04:15<12:05:35,  1.26s/it] 29%|██▉       | 14313/48845 [5:04:16<12:05:24,  1.26s/it] 29%|██▉       | 14314/48845 [5:04:18<12:04:56,  1.26s/it] 29%|██▉       | 14315/48845 [5:04:19<12:05:31,  1.26s/it]                                                          {'loss': 1.8475, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14315/48845 [5:04:19<12:05:31,  1.26s/it] 29%|██▉       | 14316/48845 [5:04:20<12:04:37,  1.26s/it] 29%|██▉       | 14317/48845 [5:04:21<12:04:11,  1.26s/it] 29%|██▉       | 14318/48845 [5:04:23<12:03:47,  1.26s/it] 29%|██▉       | 14319/48845 [5:04:24<12:03:19,  1.26s/it] 29%|██▉       | 14320/48845 [5:04:25<12:04:26,  1.26s/it]                                                          {'loss': 2.2379, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14320/48845 [5:04:25<12:04:26,  1.26s/it] 29%|██▉       | 14321/48845 [5:04:26<12:04:41,  1.26s/it] 29%|██▉       | 14322/48845 [5:04:28<12:04:56,  1.26s/it] 29%|██▉       | 14323/48845 [5:04:29<12:04:34,  1.26s/it] 29%|██▉       | 14324/48845 [5:04:30<12:04:45,  1.26s/it] 29%|██▉       | 14325/48845 [5:04:31<12:05:18,  1.26s/it]                                                          {'loss': 2.1013, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14325/48845 [5:04:31<12:05:18,  1.26s/it] 29%|██▉       | 14326/48845 [5:04:33<12:05:11,  1.26s/it] 29%|██▉       | 14327/48845 [5:04:34<12:04:45,  1.26s/it] 29%|██▉       | 14328/48845 [5:04:35<12:04:07,  1.26s/it] 29%|██▉       | 14329/48845 [5:04:36<12:04:00,  1.26s/it] 29%|██▉       | 14330/48845 [5:04:38<12:03:44,  1.26s/it]                                                          {'loss': 2.0221, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14330/48845 [5:04:38<12:03:44,  1.26s/it] 29%|██▉       | 14331/48845 [5:04:39<12:04:17,  1.26s/it] 29%|██▉       | 14332/48845 [5:04:40<12:04:55,  1.26s/it] 29%|██▉       | 14333/48845 [5:04:42<12:05:09,  1.26s/it] 29%|██▉       | 14334/48845 [5:04:43<12:04:38,  1.26s/it] 29%|██▉       | 14335/48845 [5:04:44<12:04:48,  1.26s/it]                                                          {'loss': 2.2295, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14335/48845 [5:04:44<12:04:48,  1.26s/it] 29%|██▉       | 14336/48845 [5:04:45<12:04:48,  1.26s/it] 29%|██▉       | 14337/48845 [5:04:47<12:05:07,  1.26s/it] 29%|██▉       | 14338/48845 [5:04:48<12:05:04,  1.26s/it] 29%|██▉       | 14339/48845 [5:04:49<12:04:24,  1.26s/it] 29%|██▉       | 14340/48845 [5:04:50<12:05:02,  1.26s/it]                                                          {'loss': 1.9773, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14340/48845 [5:04:50<12:05:02,  1.26s/it] 29%|██▉       | 14341/48845 [5:04:52<12:07:21,  1.26s/it] 29%|██▉       | 14342/48845 [5:04:53<12:06:12,  1.26s/it] 29%|██▉       | 14343/48845 [5:04:54<12:06:26,  1.26s/it] 29%|██▉       | 14344/48845 [5:04:55<12:05:27,  1.26s/it] 29%|██▉       | 14345/48845 [5:04:57<12:24:48,  1.30s/it]                                                          {'loss': 2.2058, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14345/48845 [5:04:57<12:24:48,  1.30s/it] 29%|██▉       | 14346/48845 [5:04:58<12:18:31,  1.28s/it] 29%|██▉       | 14347/48845 [5:04:59<12:13:24,  1.28s/it] 29%|██▉       | 14348/48845 [5:05:01<12:11:01,  1.27s/it] 29%|██▉       | 14349/48845 [5:05:02<12:09:06,  1.27s/it] 29%|██▉       | 14350/48845 [5:05:03<12:07:28,  1.27s/it]                                                          {'loss': 2.1946, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14350/48845 [5:05:03<12:07:28,  1.27s/it] 29%|██▉       | 14351/48845 [5:05:04<12:07:43,  1.27s/it] 29%|██▉       | 14352/48845 [5:05:06<12:06:15,  1.26s/it] 29%|██▉       | 14353/48845 [5:05:07<12:05:57,  1.26s/it] 29%|██▉       | 14354/48845 [5:05:08<12:05:26,  1.26s/it] 29%|██▉       | 14355/48845 [5:05:09<12:04:52,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14355/48845 [5:05:09<12:04:52,  1.26s/it] 29%|██▉       | 14356/48845 [5:05:11<12:05:03,  1.26s/it] 29%|██▉       | 14357/48845 [5:05:12<12:05:12,  1.26s/it] 29%|██▉       | 14358/48845 [5:05:13<12:04:20,  1.26s/it] 29%|██▉       | 14359/48845 [5:05:14<12:03:55,  1.26s/it] 29%|██▉       | 14360/48845 [5:05:16<12:03:36,  1.26s/it]                                                          {'loss': 2.2777, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14360/48845 [5:05:16<12:03:36,  1.26s/it] 29%|██▉       | 14361/48845 [5:05:17<12:05:42,  1.26s/it] 29%|██▉       | 14362/48845 [5:05:18<12:05:08,  1.26s/it] 29%|██▉       | 14363/48845 [5:05:19<12:04:50,  1.26s/it] 29%|██▉       | 14364/48845 [5:05:21<12:04:52,  1.26s/it] 29%|██▉       | 14365/48845 [5:05:22<12:03:44,  1.26s/it]                                                          {'loss': 2.221, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14365/48845 [5:05:22<12:03:44,  1.26s/it] 29%|██▉       | 14366/48845 [5:05:23<12:05:02,  1.26s/it] 29%|██▉       | 14367/48845 [5:05:25<12:04:21,  1.26s/it] 29%|██▉       | 14368/48845 [5:05:26<12:04:38,  1.26s/it] 29%|██▉       | 14369/48845 [5:05:27<12:05:11,  1.26s/it] 29%|██▉       | 14370/48845 [5:05:28<12:04:38,  1.26s/it]                                                          {'loss': 2.0114, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14370/48845 [5:05:28<12:04:38,  1.26s/it] 29%|██▉       | 14371/48845 [5:05:30<12:04:25,  1.26s/it] 29%|██▉       | 14372/48845 [5:05:31<12:05:12,  1.26s/it] 29%|██▉       | 14373/48845 [5:05:32<12:04:43,  1.26s/it] 29%|██▉       | 14374/48845 [5:05:33<12:04:51,  1.26s/it] 29%|██▉       | 14375/48845 [5:05:35<12:03:30,  1.26s/it]                                                          {'loss': 2.1118, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14375/48845 [5:05:35<12:03:30,  1.26s/it] 29%|██▉       | 14376/48845 [5:05:36<12:03:51,  1.26s/it] 29%|██▉       | 14377/48845 [5:05:37<12:03:17,  1.26s/it] 29%|██▉       | 14378/48845 [5:05:38<12:03:14,  1.26s/it] 29%|██▉       | 14379/48845 [5:05:40<12:03:06,  1.26s/it] 29%|██▉       | 14380/48845 [5:05:41<12:03:32,  1.26s/it]                                                          {'loss': 2.0069, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14380/48845 [5:05:41<12:03:32,  1.26s/it] 29%|██▉       | 14381/48845 [5:05:42<12:03:35,  1.26s/it] 29%|██▉       | 14382/48845 [5:05:43<12:03:28,  1.26s/it] 29%|██▉       | 14383/48845 [5:05:45<12:03:18,  1.26s/it] 29%|██▉       | 14384/48845 [5:05:46<12:03:33,  1.26s/it] 29%|██▉       | 14385/48845 [5:05:47<12:03:20,  1.26s/it]                                                          {'loss': 2.1511, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14385/48845 [5:05:47<12:03:20,  1.26s/it] 29%|██▉       | 14386/48845 [5:05:48<12:03:39,  1.26s/it] 29%|██▉       | 14387/48845 [5:05:50<12:03:26,  1.26s/it] 29%|██▉       | 14388/48845 [5:05:51<12:03:27,  1.26s/it] 29%|██▉       | 14389/48845 [5:05:52<12:03:31,  1.26s/it] 29%|██▉       | 14390/48845 [5:05:53<12:03:07,  1.26s/it]                                                          {'loss': 1.9979, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14390/48845 [5:05:54<12:03:07,  1.26s/it] 29%|██▉       | 14391/48845 [5:05:55<12:03:17,  1.26s/it] 29%|██▉       | 14392/48845 [5:05:56<12:03:05,  1.26s/it] 29%|██▉       | 14393/48845 [5:05:57<12:03:25,  1.26s/it] 29%|██▉       | 14394/48845 [5:05:59<12:03:30,  1.26s/it] 29%|██▉       | 14395/48845 [5:06:00<12:03:06,  1.26s/it]                                                          {'loss': 2.1234, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14395/48845 [5:06:00<12:03:06,  1.26s/it] 29%|██▉       | 14396/48845 [5:06:01<12:03:29,  1.26s/it] 29%|██▉       | 14397/48845 [5:06:02<12:03:02,  1.26s/it] 29%|██▉       | 14398/48845 [5:06:04<12:02:52,  1.26s/it] 29%|██▉       | 14399/48845 [5:06:05<12:03:48,  1.26s/it] 29%|██▉       | 14400/48845 [5:06:06<12:04:37,  1.26s/it]                                                          {'loss': 2.058, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14400/48845 [5:06:06<12:04:37,  1.26s/it] 29%|██▉       | 14401/48845 [5:06:10<18:57:40,  1.98s/it] 29%|██▉       | 14402/48845 [5:06:11<16:53:00,  1.76s/it] 29%|██▉       | 14403/48845 [5:06:12<15:25:36,  1.61s/it] 29%|██▉       | 14404/48845 [5:06:14<14:25:14,  1.51s/it] 29%|██▉       | 14405/48845 [5:06:15<13:42:34,  1.43s/it]                                                          {'loss': 1.9444, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.47}
+ 29%|██▉       | 14405/48845 [5:06:15<13:42:34,  1.43s/it] 29%|██▉       | 14406/48845 [5:06:16<13:12:58,  1.38s/it] 29%|██▉       | 14407/48845 [5:06:17<12:50:50,  1.34s/it] 29%|██▉       | 14408/48845 [5:06:19<12:36:18,  1.32s/it] 29%|██▉       | 14409/48845 [5:06:20<12:25:56,  1.30s/it] 30%|██▉       | 14410/48845 [5:06:21<12:18:48,  1.29s/it]                                                          {'loss': 2.1728, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14410/48845 [5:06:21<12:18:48,  1.29s/it] 30%|██▉       | 14411/48845 [5:06:22<12:15:08,  1.28s/it] 30%|██▉       | 14412/48845 [5:06:24<12:10:24,  1.27s/it] 30%|██▉       | 14413/48845 [5:06:25<12:07:34,  1.27s/it] 30%|██▉       | 14414/48845 [5:06:26<12:06:33,  1.27s/it] 30%|██▉       | 14415/48845 [5:06:27<12:05:19,  1.26s/it]                                                          {'loss': 2.1879, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14415/48845 [5:06:27<12:05:19,  1.26s/it] 30%|██▉       | 14416/48845 [5:06:29<12:05:08,  1.26s/it] 30%|██▉       | 14417/48845 [5:06:30<12:04:01,  1.26s/it] 30%|██▉       | 14418/48845 [5:06:31<12:03:00,  1.26s/it] 30%|██▉       | 14419/48845 [5:06:32<12:03:09,  1.26s/it] 30%|██▉       | 14420/48845 [5:06:34<12:02:39,  1.26s/it]                                                          {'loss': 2.0299, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14420/48845 [5:06:34<12:02:39,  1.26s/it] 30%|██▉       | 14421/48845 [5:06:35<12:02:54,  1.26s/it] 30%|██▉       | 14422/48845 [5:06:36<12:02:45,  1.26s/it] 30%|██▉       | 14423/48845 [5:06:37<12:03:05,  1.26s/it] 30%|██▉       | 14424/48845 [5:06:39<12:03:47,  1.26s/it] 30%|██▉       | 14425/48845 [5:06:40<12:03:48,  1.26s/it]                                                          {'loss': 1.9359, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14425/48845 [5:06:40<12:03:48,  1.26s/it] 30%|██▉       | 14426/48845 [5:06:41<12:03:42,  1.26s/it] 30%|██▉       | 14427/48845 [5:06:43<12:03:37,  1.26s/it] 30%|██▉       | 14428/48845 [5:06:44<12:02:49,  1.26s/it] 30%|██▉       | 14429/48845 [5:06:45<12:02:49,  1.26s/it] 30%|██▉       | 14430/48845 [5:06:46<12:01:33,  1.26s/it]                                                          {'loss': 2.0055, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14430/48845 [5:06:46<12:01:33,  1.26s/it] 30%|██▉       | 14431/48845 [5:06:48<12:04:01,  1.26s/it] 30%|██▉       | 14432/48845 [5:06:49<12:03:36,  1.26s/it] 30%|██▉       | 14433/48845 [5:06:50<12:03:10,  1.26s/it] 30%|██▉       | 14434/48845 [5:06:51<12:02:50,  1.26s/it] 30%|██▉       | 14435/48845 [5:06:53<12:02:54,  1.26s/it]                                                          {'loss': 2.0135, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14435/48845 [5:06:53<12:02:54,  1.26s/it] 30%|██▉       | 14436/48845 [5:06:54<12:03:10,  1.26s/it] 30%|██▉       | 14437/48845 [5:06:55<12:02:59,  1.26s/it] 30%|██▉       | 14438/48845 [5:06:56<12:02:30,  1.26s/it] 30%|██▉       | 14439/48845 [5:06:58<12:02:40,  1.26s/it] 30%|██▉       | 14440/48845 [5:06:59<12:02:03,  1.26s/it]                                                          {'loss': 1.9823, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14440/48845 [5:06:59<12:02:03,  1.26s/it] 30%|██▉       | 14441/48845 [5:07:00<12:02:28,  1.26s/it] 30%|██▉       | 14442/48845 [5:07:01<12:02:59,  1.26s/it] 30%|██▉       | 14443/48845 [5:07:03<12:02:35,  1.26s/it] 30%|██▉       | 14444/48845 [5:07:04<12:02:51,  1.26s/it] 30%|██▉       | 14445/48845 [5:07:05<12:02:22,  1.26s/it]                                                          {'loss': 1.9405, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14445/48845 [5:07:05<12:02:22,  1.26s/it] 30%|██▉       | 14446/48845 [5:07:06<12:02:17,  1.26s/it] 30%|██▉       | 14447/48845 [5:07:08<12:02:20,  1.26s/it] 30%|██▉       | 14448/48845 [5:07:09<12:01:59,  1.26s/it] 30%|██▉       | 14449/48845 [5:07:10<12:02:31,  1.26s/it] 30%|██▉       | 14450/48845 [5:07:11<12:02:04,  1.26s/it]                                                          {'loss': 2.1759, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14450/48845 [5:07:11<12:02:04,  1.26s/it] 30%|██▉       | 14451/48845 [5:07:13<12:01:48,  1.26s/it] 30%|██▉       | 14452/48845 [5:07:14<12:02:39,  1.26s/it] 30%|██▉       | 14453/48845 [5:07:15<12:02:18,  1.26s/it] 30%|██▉       | 14454/48845 [5:07:17<12:02:21,  1.26s/it] 30%|██▉       | 14455/48845 [5:07:18<12:09:19,  1.27s/it]                                                          {'loss': 1.8795, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14455/48845 [5:07:18<12:09:19,  1.27s/it] 30%|██▉       | 14456/48845 [5:07:19<12:06:36,  1.27s/it] 30%|██▉       | 14457/48845 [5:07:20<12:05:08,  1.27s/it] 30%|██▉       | 14458/48845 [5:07:22<12:04:02,  1.26s/it] 30%|██▉       | 14459/48845 [5:07:23<12:02:50,  1.26s/it] 30%|██▉       | 14460/48845 [5:07:24<12:02:20,  1.26s/it]                                                          {'loss': 2.2086, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14460/48845 [5:07:24<12:02:20,  1.26s/it] 30%|██▉       | 14461/48845 [5:07:25<12:01:59,  1.26s/it] 30%|██▉       | 14462/48845 [5:07:27<12:01:52,  1.26s/it] 30%|██▉       | 14463/48845 [5:07:28<12:01:55,  1.26s/it] 30%|██▉       | 14464/48845 [5:07:29<12:02:01,  1.26s/it] 30%|██▉       | 14465/48845 [5:07:30<12:01:58,  1.26s/it]                                                          {'loss': 2.1465, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14465/48845 [5:07:30<12:01:58,  1.26s/it] 30%|██▉       | 14466/48845 [5:07:32<12:01:42,  1.26s/it] 30%|██▉       | 14467/48845 [5:07:33<12:01:23,  1.26s/it] 30%|██▉       | 14468/48845 [5:07:34<12:01:36,  1.26s/it] 30%|██▉       | 14469/48845 [5:07:35<12:01:54,  1.26s/it] 30%|██▉       | 14470/48845 [5:07:37<12:01:30,  1.26s/it]                                                          {'loss': 2.0418, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14470/48845 [5:07:37<12:01:30,  1.26s/it] 30%|██▉       | 14471/48845 [5:07:38<12:01:17,  1.26s/it] 30%|██▉       | 14472/48845 [5:07:39<12:01:29,  1.26s/it] 30%|██▉       | 14473/48845 [5:07:41<12:02:15,  1.26s/it] 30%|██▉       | 14474/48845 [5:07:42<12:01:39,  1.26s/it] 30%|██▉       | 14475/48845 [5:07:43<12:01:26,  1.26s/it]                                                          {'loss': 1.9559, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14475/48845 [5:07:43<12:01:26,  1.26s/it] 30%|██▉       | 14476/48845 [5:07:44<12:01:26,  1.26s/it] 30%|██▉       | 14477/48845 [5:07:46<12:01:27,  1.26s/it] 30%|██▉       | 14478/48845 [5:07:47<12:01:07,  1.26s/it] 30%|██▉       | 14479/48845 [5:07:48<12:01:36,  1.26s/it] 30%|██▉       | 14480/48845 [5:07:49<12:01:18,  1.26s/it]                                                          {'loss': 1.8907, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14480/48845 [5:07:49<12:01:18,  1.26s/it] 30%|██▉       | 14481/48845 [5:07:51<12:01:33,  1.26s/it] 30%|██▉       | 14482/48845 [5:07:52<12:01:06,  1.26s/it] 30%|██▉       | 14483/48845 [5:07:53<12:02:03,  1.26s/it] 30%|██▉       | 14484/48845 [5:07:54<12:01:35,  1.26s/it] 30%|██▉       | 14485/48845 [5:07:56<12:01:12,  1.26s/it]                                                          {'loss': 2.0518, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14485/48845 [5:07:56<12:01:12,  1.26s/it] 30%|██▉       | 14486/48845 [5:07:57<12:01:25,  1.26s/it] 30%|██▉       | 14487/48845 [5:07:58<12:00:54,  1.26s/it] 30%|██▉       | 14488/48845 [5:07:59<12:01:17,  1.26s/it] 30%|██▉       | 14489/48845 [5:08:01<12:00:58,  1.26s/it] 30%|██▉       | 14490/48845 [5:08:02<12:01:11,  1.26s/it]                                                          {'loss': 2.3343, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14490/48845 [5:08:02<12:01:11,  1.26s/it] 30%|██▉       | 14491/48845 [5:08:03<12:01:02,  1.26s/it] 30%|██▉       | 14492/48845 [5:08:04<12:00:52,  1.26s/it] 30%|██▉       | 14493/48845 [5:08:06<12:01:10,  1.26s/it] 30%|██▉       | 14494/48845 [5:08:07<12:01:37,  1.26s/it] 30%|██▉       | 14495/48845 [5:08:08<12:02:03,  1.26s/it]                                                          {'loss': 2.1907, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14495/48845 [5:08:08<12:02:03,  1.26s/it] 30%|██▉       | 14496/48845 [5:08:09<12:01:33,  1.26s/it] 30%|██▉       | 14497/48845 [5:08:11<12:01:19,  1.26s/it] 30%|██▉       | 14498/48845 [5:08:12<12:01:22,  1.26s/it] 30%|██▉       | 14499/48845 [5:08:13<12:00:37,  1.26s/it] 30%|██▉       | 14500/48845 [5:08:15<12:00:51,  1.26s/it]                                                          {'loss': 2.0284, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14500/48845 [5:08:15<12:00:51,  1.26s/it] 30%|██▉       | 14501/48845 [5:08:16<12:01:03,  1.26s/it] 30%|██▉       | 14502/48845 [5:08:17<12:00:50,  1.26s/it] 30%|██▉       | 14503/48845 [5:08:18<12:01:21,  1.26s/it] 30%|██▉       | 14504/48845 [5:08:20<12:01:16,  1.26s/it] 30%|██▉       | 14505/48845 [5:08:21<12:02:10,  1.26s/it]                                                          {'loss': 2.0092, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.48}
+ 30%|██▉       | 14505/48845 [5:08:21<12:02:10,  1.26s/it] 30%|██▉       | 14506/48845 [5:08:22<12:01:53,  1.26s/it] 30%|██▉       | 14507/48845 [5:08:23<12:00:37,  1.26s/it] 30%|██▉       | 14508/48845 [5:08:25<12:00:46,  1.26s/it] 30%|██▉       | 14509/48845 [5:08:26<12:00:01,  1.26s/it] 30%|██▉       | 14510/48845 [5:08:27<12:00:23,  1.26s/it]                                                          {'loss': 2.0522, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14510/48845 [5:08:27<12:00:23,  1.26s/it] 30%|██▉       | 14511/48845 [5:08:28<12:00:34,  1.26s/it] 30%|██▉       | 14512/48845 [5:08:30<12:00:32,  1.26s/it] 30%|██▉       | 14513/48845 [5:08:31<12:01:00,  1.26s/it] 30%|██▉       | 14514/48845 [5:08:32<12:00:40,  1.26s/it] 30%|██▉       | 14515/48845 [5:08:33<12:01:46,  1.26s/it]                                                          {'loss': 1.9624, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14515/48845 [5:08:33<12:01:46,  1.26s/it] 30%|██▉       | 14516/48845 [5:08:35<12:02:47,  1.26s/it] 30%|██▉       | 14517/48845 [5:08:36<12:02:19,  1.26s/it] 30%|██▉       | 14518/48845 [5:08:37<12:01:50,  1.26s/it] 30%|██▉       | 14519/48845 [5:08:38<12:01:59,  1.26s/it] 30%|██▉       | 14520/48845 [5:08:40<12:01:16,  1.26s/it]                                                          {'loss': 1.9092, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14520/48845 [5:08:40<12:01:16,  1.26s/it] 30%|██▉       | 14521/48845 [5:08:41<12:02:13,  1.26s/it] 30%|██▉       | 14522/48845 [5:08:42<12:01:02,  1.26s/it] 30%|██▉       | 14523/48845 [5:08:44<12:01:41,  1.26s/it] 30%|██▉       | 14524/48845 [5:08:45<12:01:24,  1.26s/it] 30%|██▉       | 14525/48845 [5:08:46<12:00:53,  1.26s/it]                                                          {'loss': 1.9706, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14525/48845 [5:08:46<12:00:53,  1.26s/it] 30%|██▉       | 14526/48845 [5:08:47<12:00:58,  1.26s/it] 30%|██▉       | 14527/48845 [5:08:49<12:00:32,  1.26s/it] 30%|██▉       | 14528/48845 [5:08:50<12:01:05,  1.26s/it] 30%|██▉       | 14529/48845 [5:08:51<12:00:53,  1.26s/it] 30%|██▉       | 14530/48845 [5:08:52<12:01:27,  1.26s/it]                                                          {'loss': 2.0593, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14530/48845 [5:08:52<12:01:27,  1.26s/it] 30%|██▉       | 14531/48845 [5:08:54<12:01:50,  1.26s/it] 30%|██▉       | 14532/48845 [5:08:55<12:01:37,  1.26s/it] 30%|██▉       | 14533/48845 [5:08:56<12:00:54,  1.26s/it] 30%|██▉       | 14534/48845 [5:08:57<12:00:53,  1.26s/it] 30%|██▉       | 14535/48845 [5:08:59<12:01:01,  1.26s/it]                                                          {'loss': 1.7968, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14535/48845 [5:08:59<12:01:01,  1.26s/it] 30%|██▉       | 14536/48845 [5:09:00<12:01:44,  1.26s/it] 30%|██▉       | 14537/48845 [5:09:01<12:01:13,  1.26s/it] 30%|██▉       | 14538/48845 [5:09:02<12:01:00,  1.26s/it] 30%|██▉       | 14539/48845 [5:09:04<12:00:40,  1.26s/it] 30%|██▉       | 14540/48845 [5:09:05<12:00:06,  1.26s/it]                                                          {'loss': 2.1081, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14540/48845 [5:09:05<12:00:06,  1.26s/it] 30%|██▉       | 14541/48845 [5:09:06<12:00:20,  1.26s/it] 30%|██▉       | 14542/48845 [5:09:07<11:59:36,  1.26s/it] 30%|██▉       | 14543/48845 [5:09:09<11:59:33,  1.26s/it] 30%|██▉       | 14544/48845 [5:09:10<12:00:08,  1.26s/it] 30%|██▉       | 14545/48845 [5:09:11<11:59:38,  1.26s/it]                                                          {'loss': 2.184, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14545/48845 [5:09:11<11:59:38,  1.26s/it] 30%|██▉       | 14546/48845 [5:09:12<11:59:47,  1.26s/it] 30%|██▉       | 14547/48845 [5:09:14<11:59:42,  1.26s/it] 30%|██▉       | 14548/48845 [5:09:15<11:59:56,  1.26s/it] 30%|██▉       | 14549/48845 [5:09:16<11:59:32,  1.26s/it] 30%|██▉       | 14550/48845 [5:09:18<11:59:51,  1.26s/it]                                                          {'loss': 2.0759, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14550/48845 [5:09:18<11:59:51,  1.26s/it] 30%|██▉       | 14551/48845 [5:09:19<12:00:05,  1.26s/it] 30%|██▉       | 14552/48845 [5:09:20<12:00:25,  1.26s/it] 30%|██▉       | 14553/48845 [5:09:21<11:59:55,  1.26s/it] 30%|██▉       | 14554/48845 [5:09:23<12:00:43,  1.26s/it] 30%|██▉       | 14555/48845 [5:09:24<12:00:30,  1.26s/it]                                                          {'loss': 2.0492, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14555/48845 [5:09:24<12:00:30,  1.26s/it] 30%|██▉       | 14556/48845 [5:09:25<12:00:39,  1.26s/it] 30%|██▉       | 14557/48845 [5:09:26<12:00:20,  1.26s/it] 30%|██▉       | 14558/48845 [5:09:28<11:59:44,  1.26s/it] 30%|██▉       | 14559/48845 [5:09:29<12:00:24,  1.26s/it] 30%|██▉       | 14560/48845 [5:09:30<12:00:03,  1.26s/it]                                                          {'loss': 2.065, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14560/48845 [5:09:30<12:00:03,  1.26s/it] 30%|██▉       | 14561/48845 [5:09:31<11:59:42,  1.26s/it] 30%|██▉       | 14562/48845 [5:09:33<11:59:43,  1.26s/it] 30%|██▉       | 14563/48845 [5:09:34<11:59:45,  1.26s/it] 30%|██▉       | 14564/48845 [5:09:35<12:00:00,  1.26s/it] 30%|██▉       | 14565/48845 [5:09:36<11:59:49,  1.26s/it]                                                          {'loss': 2.0621, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14565/48845 [5:09:36<11:59:49,  1.26s/it] 30%|██▉       | 14566/48845 [5:09:38<12:00:26,  1.26s/it] 30%|██▉       | 14567/48845 [5:09:39<11:59:42,  1.26s/it] 30%|██▉       | 14568/48845 [5:09:40<12:00:51,  1.26s/it] 30%|██▉       | 14569/48845 [5:09:41<12:00:24,  1.26s/it] 30%|██▉       | 14570/48845 [5:09:43<12:00:17,  1.26s/it]                                                          {'loss': 2.1262, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14570/48845 [5:09:43<12:00:17,  1.26s/it] 30%|██▉       | 14571/48845 [5:09:44<12:00:02,  1.26s/it] 30%|██▉       | 14572/48845 [5:09:45<12:00:26,  1.26s/it] 30%|██▉       | 14573/48845 [5:09:47<12:00:16,  1.26s/it] 30%|██▉       | 14574/48845 [5:09:48<12:00:36,  1.26s/it] 30%|██▉       | 14575/48845 [5:09:49<12:00:30,  1.26s/it]                                                          {'loss': 2.0528, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14575/48845 [5:09:49<12:00:30,  1.26s/it] 30%|██▉       | 14576/48845 [5:09:50<12:00:28,  1.26s/it] 30%|██▉       | 14577/48845 [5:09:52<12:00:21,  1.26s/it] 30%|██▉       | 14578/48845 [5:09:53<12:00:06,  1.26s/it] 30%|██▉       | 14579/48845 [5:09:54<12:00:07,  1.26s/it] 30%|██▉       | 14580/48845 [5:09:55<11:59:29,  1.26s/it]                                                          {'loss': 1.928, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14580/48845 [5:09:55<11:59:29,  1.26s/it] 30%|██▉       | 14581/48845 [5:09:57<12:00:22,  1.26s/it] 30%|██▉       | 14582/48845 [5:09:58<11:59:56,  1.26s/it] 30%|██▉       | 14583/48845 [5:09:59<11:59:31,  1.26s/it] 30%|██▉       | 14584/48845 [5:10:00<11:59:42,  1.26s/it] 30%|██▉       | 14585/48845 [5:10:02<11:59:47,  1.26s/it]                                                          {'loss': 2.0785, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14585/48845 [5:10:02<11:59:47,  1.26s/it] 30%|██▉       | 14586/48845 [5:10:03<11:59:50,  1.26s/it] 30%|██▉       | 14587/48845 [5:10:04<11:59:45,  1.26s/it] 30%|██▉       | 14588/48845 [5:10:05<11:59:42,  1.26s/it] 30%|██▉       | 14589/48845 [5:10:07<11:59:26,  1.26s/it] 30%|██▉       | 14590/48845 [5:10:08<12:00:02,  1.26s/it]                                                          {'loss': 2.0415, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14590/48845 [5:10:08<12:00:02,  1.26s/it] 30%|██▉       | 14591/48845 [5:10:09<11:59:54,  1.26s/it] 30%|██▉       | 14592/48845 [5:10:10<12:00:14,  1.26s/it] 30%|██▉       | 14593/48845 [5:10:12<12:00:20,  1.26s/it] 30%|██▉       | 14594/48845 [5:10:13<11:59:56,  1.26s/it] 30%|██▉       | 14595/48845 [5:10:14<11:59:44,  1.26s/it]                                                          {'loss': 2.1863, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14595/48845 [5:10:14<11:59:44,  1.26s/it] 30%|██▉       | 14596/48845 [5:10:16<12:00:18,  1.26s/it] 30%|██▉       | 14597/48845 [5:10:17<12:00:34,  1.26s/it] 30%|██▉       | 14598/48845 [5:10:18<12:00:25,  1.26s/it] 30%|██▉       | 14599/48845 [5:10:19<11:59:46,  1.26s/it] 30%|██▉       | 14600/48845 [5:10:21<11:59:26,  1.26s/it]                                                          {'loss': 2.0724, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.49}
+ 30%|██▉       | 14600/48845 [5:10:21<11:59:26,  1.26s/it] 30%|██▉       | 14601/48845 [5:10:24<18:45:08,  1.97s/it] 30%|██▉       | 14602/48845 [5:10:25<16:43:58,  1.76s/it] 30%|██▉       | 14603/48845 [5:10:27<15:18:14,  1.61s/it] 30%|██▉       | 14604/48845 [5:10:28<14:18:07,  1.50s/it] 30%|██▉       | 14605/48845 [5:10:29<13:36:28,  1.43s/it]                                                          {'loss': 2.0995, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14605/48845 [5:10:29<13:36:28,  1.43s/it] 30%|██▉       | 14606/48845 [5:10:31<13:07:31,  1.38s/it] 30%|██▉       | 14607/48845 [5:10:32<12:47:00,  1.34s/it] 30%|██▉       | 14608/48845 [5:10:33<12:32:18,  1.32s/it] 30%|██▉       | 14609/48845 [5:10:34<12:22:16,  1.30s/it] 30%|██▉       | 14610/48845 [5:10:36<12:15:29,  1.29s/it]                                                          {'loss': 1.8746, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14610/48845 [5:10:36<12:15:29,  1.29s/it] 30%|██▉       | 14611/48845 [5:10:37<12:10:13,  1.28s/it] 30%|██▉       | 14612/48845 [5:10:38<12:07:08,  1.27s/it] 30%|██▉       | 14613/48845 [5:10:39<12:04:36,  1.27s/it] 30%|██▉       | 14614/48845 [5:10:41<12:02:45,  1.27s/it] 30%|██▉       | 14615/48845 [5:10:42<12:01:27,  1.26s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14615/48845 [5:10:42<12:01:27,  1.26s/it] 30%|██▉       | 14616/48845 [5:10:43<12:00:47,  1.26s/it] 30%|██▉       | 14617/48845 [5:10:44<11:59:50,  1.26s/it] 30%|██▉       | 14618/48845 [5:10:46<11:58:59,  1.26s/it] 30%|██▉       | 14619/48845 [5:10:47<11:58:58,  1.26s/it] 30%|██▉       | 14620/48845 [5:10:48<11:59:18,  1.26s/it]                                                          {'loss': 1.9486, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14620/48845 [5:10:48<11:59:18,  1.26s/it] 30%|██▉       | 14621/48845 [5:10:49<11:59:15,  1.26s/it] 30%|██▉       | 14622/48845 [5:10:51<11:59:33,  1.26s/it] 30%|██▉       | 14623/48845 [5:10:52<11:58:45,  1.26s/it] 30%|██▉       | 14624/48845 [5:10:53<11:57:45,  1.26s/it] 30%|██▉       | 14625/48845 [5:10:54<11:58:24,  1.26s/it]                                                          {'loss': 2.2111, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14625/48845 [5:10:54<11:58:24,  1.26s/it] 30%|██▉       | 14626/48845 [5:10:56<11:58:01,  1.26s/it] 30%|██▉       | 14627/48845 [5:10:57<11:57:43,  1.26s/it] 30%|██▉       | 14628/48845 [5:10:58<11:57:15,  1.26s/it] 30%|██▉       | 14629/48845 [5:10:59<11:57:23,  1.26s/it] 30%|██▉       | 14630/48845 [5:11:01<11:57:24,  1.26s/it]                                                          {'loss': 1.9034, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14630/48845 [5:11:01<11:57:24,  1.26s/it] 30%|██▉       | 14631/48845 [5:11:02<11:57:44,  1.26s/it] 30%|██▉       | 14632/48845 [5:11:03<11:57:47,  1.26s/it] 30%|██▉       | 14633/48845 [5:11:05<11:56:58,  1.26s/it] 30%|██▉       | 14634/48845 [5:11:06<11:57:08,  1.26s/it] 30%|██▉       | 14635/48845 [5:11:07<11:56:56,  1.26s/it]                                                          {'loss': 2.1264, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14635/48845 [5:11:07<11:56:56,  1.26s/it] 30%|██▉       | 14636/48845 [5:11:08<11:56:55,  1.26s/it] 30%|██▉       | 14637/48845 [5:11:10<11:57:34,  1.26s/it] 30%|██▉       | 14638/48845 [5:11:11<11:57:37,  1.26s/it] 30%|██▉       | 14639/48845 [5:11:12<11:57:09,  1.26s/it] 30%|██▉       | 14640/48845 [5:11:13<11:56:45,  1.26s/it]                                                          {'loss': 2.0901, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14640/48845 [5:11:13<11:56:45,  1.26s/it] 30%|██▉       | 14641/48845 [5:11:15<11:57:08,  1.26s/it] 30%|██▉       | 14642/48845 [5:11:16<11:57:20,  1.26s/it] 30%|██▉       | 14643/48845 [5:11:17<11:57:23,  1.26s/it] 30%|██▉       | 14644/48845 [5:11:18<11:57:51,  1.26s/it] 30%|██▉       | 14645/48845 [5:11:20<11:58:39,  1.26s/it]                                                          {'loss': 2.0567, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14645/48845 [5:11:20<11:58:39,  1.26s/it] 30%|██▉       | 14646/48845 [5:11:21<11:58:15,  1.26s/it] 30%|██▉       | 14647/48845 [5:11:22<11:58:30,  1.26s/it] 30%|██▉       | 14648/48845 [5:11:23<11:58:12,  1.26s/it] 30%|██▉       | 14649/48845 [5:11:25<11:57:57,  1.26s/it] 30%|██▉       | 14650/48845 [5:11:26<11:56:50,  1.26s/it]                                                          {'loss': 2.0845, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|██▉       | 14650/48845 [5:11:26<11:56:50,  1.26s/it] 30%|██▉       | 14651/48845 [5:11:27<11:58:19,  1.26s/it] 30%|██▉       | 14652/48845 [5:11:28<11:58:47,  1.26s/it] 30%|██▉       | 14653/48845 [5:11:30<11:58:14,  1.26s/it] 30%|███       | 14654/48845 [5:11:31<11:57:45,  1.26s/it] 30%|███       | 14655/48845 [5:11:32<11:58:01,  1.26s/it]                                                          {'loss': 2.0101, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14655/48845 [5:11:32<11:58:01,  1.26s/it] 30%|███       | 14656/48845 [5:11:33<11:57:51,  1.26s/it] 30%|███       | 14657/48845 [5:11:35<11:58:09,  1.26s/it] 30%|███       | 14658/48845 [5:11:36<11:57:29,  1.26s/it] 30%|███       | 14659/48845 [5:11:37<11:57:51,  1.26s/it] 30%|███       | 14660/48845 [5:11:39<11:57:53,  1.26s/it]                                                          {'loss': 1.9381, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14660/48845 [5:11:39<11:57:53,  1.26s/it] 30%|███       | 14661/48845 [5:11:40<11:57:56,  1.26s/it] 30%|███       | 14662/48845 [5:11:41<11:58:06,  1.26s/it] 30%|███       | 14663/48845 [5:11:42<11:58:14,  1.26s/it] 30%|███       | 14664/48845 [5:11:44<11:58:17,  1.26s/it] 30%|███       | 14665/48845 [5:11:45<11:58:23,  1.26s/it]                                                          {'loss': 2.1186, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14665/48845 [5:11:45<11:58:23,  1.26s/it] 30%|███       | 14666/48845 [5:11:46<11:58:26,  1.26s/it] 30%|███       | 14667/48845 [5:11:47<11:59:08,  1.26s/it] 30%|███       | 14668/48845 [5:11:49<11:58:53,  1.26s/it] 30%|███       | 14669/48845 [5:11:50<11:58:33,  1.26s/it] 30%|███       | 14670/48845 [5:11:51<11:58:56,  1.26s/it]                                                          {'loss': 2.0124, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14670/48845 [5:11:51<11:58:56,  1.26s/it] 30%|███       | 14671/48845 [5:11:52<11:58:26,  1.26s/it] 30%|███       | 14672/48845 [5:11:54<11:59:16,  1.26s/it] 30%|███       | 14673/48845 [5:11:55<11:59:55,  1.26s/it] 30%|███       | 14674/48845 [5:11:56<11:59:24,  1.26s/it] 30%|███       | 14675/48845 [5:11:57<11:58:44,  1.26s/it]                                                          {'loss': 2.1954, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14675/48845 [5:11:57<11:58:44,  1.26s/it] 30%|███       | 14676/48845 [5:11:59<11:58:50,  1.26s/it] 30%|███       | 14677/48845 [5:12:00<11:58:19,  1.26s/it] 30%|███       | 14678/48845 [5:12:01<11:58:43,  1.26s/it] 30%|███       | 14679/48845 [5:12:02<11:58:28,  1.26s/it] 30%|███       | 14680/48845 [5:12:04<11:58:17,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14680/48845 [5:12:04<11:58:17,  1.26s/it] 30%|███       | 14681/48845 [5:12:05<11:58:29,  1.26s/it] 30%|███       | 14682/48845 [5:12:06<11:58:12,  1.26s/it] 30%|███       | 14683/48845 [5:12:08<11:58:02,  1.26s/it] 30%|███       | 14684/48845 [5:12:09<11:58:31,  1.26s/it] 30%|███       | 14685/48845 [5:12:10<11:58:40,  1.26s/it]                                                          {'loss': 1.9955, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14685/48845 [5:12:10<11:58:40,  1.26s/it] 30%|███       | 14686/48845 [5:12:11<11:58:31,  1.26s/it] 30%|███       | 14687/48845 [5:12:13<11:58:18,  1.26s/it] 30%|███       | 14688/48845 [5:12:14<11:58:23,  1.26s/it] 30%|███       | 14689/48845 [5:12:15<11:57:27,  1.26s/it] 30%|███       | 14690/48845 [5:12:16<11:57:13,  1.26s/it]                                                          {'loss': 2.0143, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14690/48845 [5:12:16<11:57:13,  1.26s/it] 30%|███       | 14691/48845 [5:12:18<11:57:41,  1.26s/it] 30%|███       | 14692/48845 [5:12:19<11:57:01,  1.26s/it] 30%|███       | 14693/48845 [5:12:20<11:57:15,  1.26s/it] 30%|███       | 14694/48845 [5:12:21<11:56:13,  1.26s/it] 30%|███       | 14695/48845 [5:12:23<11:57:06,  1.26s/it]                                                          {'loss': 2.1523, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14695/48845 [5:12:23<11:57:06,  1.26s/it] 30%|███       | 14696/48845 [5:12:24<11:58:09,  1.26s/it] 30%|███       | 14697/48845 [5:12:25<11:57:24,  1.26s/it] 30%|███       | 14698/48845 [5:12:26<11:57:35,  1.26s/it] 30%|███       | 14699/48845 [5:12:28<11:57:20,  1.26s/it] 30%|███       | 14700/48845 [5:12:29<11:56:54,  1.26s/it]                                                          {'loss': 2.0166, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.5}
+ 30%|███       | 14700/48845 [5:12:29<11:56:54,  1.26s/it] 30%|███       | 14701/48845 [5:12:30<11:57:19,  1.26s/it] 30%|███       | 14702/48845 [5:12:31<11:57:35,  1.26s/it] 30%|███       | 14703/48845 [5:12:33<11:57:40,  1.26s/it] 30%|███       | 14704/48845 [5:12:34<11:57:45,  1.26s/it] 30%|███       | 14705/48845 [5:12:35<11:56:45,  1.26s/it]                                                          {'loss': 1.9487, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14705/48845 [5:12:35<11:56:45,  1.26s/it] 30%|███       | 14706/48845 [5:12:37<11:57:26,  1.26s/it] 30%|███       | 14707/48845 [5:12:38<11:57:20,  1.26s/it] 30%|███       | 14708/48845 [5:12:39<11:57:10,  1.26s/it] 30%|███       | 14709/48845 [5:12:40<11:57:06,  1.26s/it] 30%|███       | 14710/48845 [5:12:42<11:56:52,  1.26s/it]                                                          {'loss': 1.9548, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14710/48845 [5:12:42<11:56:52,  1.26s/it] 30%|███       | 14711/48845 [5:12:43<11:56:42,  1.26s/it] 30%|███       | 14712/48845 [5:12:44<11:56:39,  1.26s/it] 30%|███       | 14713/48845 [5:12:45<11:56:06,  1.26s/it] 30%|███       | 14714/48845 [5:12:47<11:57:00,  1.26s/it] 30%|███       | 14715/48845 [5:12:48<11:56:37,  1.26s/it]                                                          {'loss': 2.1494, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14715/48845 [5:12:48<11:56:37,  1.26s/it] 30%|███       | 14716/48845 [5:12:49<11:57:00,  1.26s/it] 30%|███       | 14717/48845 [5:12:50<11:56:34,  1.26s/it] 30%|███       | 14718/48845 [5:12:52<11:56:19,  1.26s/it] 30%|███       | 14719/48845 [5:12:53<11:56:36,  1.26s/it] 30%|███       | 14720/48845 [5:12:54<11:55:52,  1.26s/it]                                                          {'loss': 2.0347, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14720/48845 [5:12:54<11:55:52,  1.26s/it] 30%|███       | 14721/48845 [5:12:55<11:56:35,  1.26s/it] 30%|███       | 14722/48845 [5:12:57<11:56:18,  1.26s/it] 30%|███       | 14723/48845 [5:12:58<11:56:20,  1.26s/it] 30%|███       | 14724/48845 [5:12:59<11:56:14,  1.26s/it] 30%|███       | 14725/48845 [5:13:00<11:56:02,  1.26s/it]                                                          {'loss': 1.9278, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14725/48845 [5:13:00<11:56:02,  1.26s/it] 30%|███       | 14726/48845 [5:13:02<11:55:46,  1.26s/it] 30%|███       | 14727/48845 [5:13:03<11:55:30,  1.26s/it] 30%|███       | 14728/48845 [5:13:04<11:55:40,  1.26s/it] 30%|███       | 14729/48845 [5:13:05<11:55:37,  1.26s/it] 30%|███       | 14730/48845 [5:13:07<11:55:45,  1.26s/it]                                                          {'loss': 1.9809, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14730/48845 [5:13:07<11:55:45,  1.26s/it] 30%|███       | 14731/48845 [5:13:08<11:56:04,  1.26s/it] 30%|███       | 14732/48845 [5:13:09<11:55:43,  1.26s/it] 30%|███       | 14733/48845 [5:13:11<11:56:38,  1.26s/it] 30%|███       | 14734/48845 [5:13:12<11:56:18,  1.26s/it] 30%|███       | 14735/48845 [5:13:13<11:56:27,  1.26s/it]                                                          {'loss': 2.1551, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14735/48845 [5:13:13<11:56:27,  1.26s/it] 30%|███       | 14736/48845 [5:13:14<11:56:55,  1.26s/it] 30%|███       | 14737/48845 [5:13:16<11:56:27,  1.26s/it] 30%|███       | 14738/48845 [5:13:17<11:56:05,  1.26s/it] 30%|███       | 14739/48845 [5:13:18<11:56:28,  1.26s/it] 30%|███       | 14740/48845 [5:13:19<11:56:09,  1.26s/it]                                                          {'loss': 2.0188, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14740/48845 [5:13:19<11:56:09,  1.26s/it] 30%|███       | 14741/48845 [5:13:21<11:56:11,  1.26s/it] 30%|███       | 14742/48845 [5:13:22<11:56:53,  1.26s/it] 30%|███       | 14743/48845 [5:13:23<11:56:28,  1.26s/it] 30%|███       | 14744/48845 [5:13:24<11:55:54,  1.26s/it] 30%|███       | 14745/48845 [5:13:26<11:55:27,  1.26s/it]                                                          {'loss': 2.1082, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14745/48845 [5:13:26<11:55:27,  1.26s/it] 30%|███       | 14746/48845 [5:13:27<11:56:32,  1.26s/it] 30%|███       | 14747/48845 [5:13:28<11:56:17,  1.26s/it] 30%|███       | 14748/48845 [5:13:29<11:56:07,  1.26s/it] 30%|███       | 14749/48845 [5:13:31<11:56:43,  1.26s/it] 30%|███       | 14750/48845 [5:13:32<11:56:04,  1.26s/it]                                                          {'loss': 2.0721, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14750/48845 [5:13:32<11:56:04,  1.26s/it] 30%|███       | 14751/48845 [5:13:33<11:56:43,  1.26s/it] 30%|███       | 14752/48845 [5:13:34<11:56:31,  1.26s/it] 30%|███       | 14753/48845 [5:13:36<11:56:09,  1.26s/it] 30%|███       | 14754/48845 [5:13:37<11:56:30,  1.26s/it] 30%|███       | 14755/48845 [5:13:38<11:56:26,  1.26s/it]                                                          {'loss': 2.327, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14755/48845 [5:13:38<11:56:26,  1.26s/it] 30%|███       | 14756/48845 [5:13:40<11:56:30,  1.26s/it] 30%|███       | 14757/48845 [5:13:41<11:56:32,  1.26s/it] 30%|███       | 14758/48845 [5:13:42<11:55:59,  1.26s/it] 30%|███       | 14759/48845 [5:13:43<11:56:13,  1.26s/it] 30%|███       | 14760/48845 [5:13:45<11:55:55,  1.26s/it]                                                          {'loss': 1.9411, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14760/48845 [5:13:45<11:55:55,  1.26s/it] 30%|███       | 14761/48845 [5:13:46<11:56:03,  1.26s/it] 30%|███       | 14762/48845 [5:13:47<11:56:00,  1.26s/it] 30%|███       | 14763/48845 [5:13:48<11:55:10,  1.26s/it] 30%|███       | 14764/48845 [5:13:50<11:55:42,  1.26s/it] 30%|███       | 14765/48845 [5:13:51<11:55:01,  1.26s/it]                                                          {'loss': 1.969, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14765/48845 [5:13:51<11:55:01,  1.26s/it] 30%|███       | 14766/48845 [5:13:52<11:55:13,  1.26s/it] 30%|███       | 14767/48845 [5:13:53<11:55:38,  1.26s/it] 30%|███       | 14768/48845 [5:13:55<11:55:21,  1.26s/it] 30%|███       | 14769/48845 [5:13:56<11:54:55,  1.26s/it] 30%|███       | 14770/48845 [5:13:57<11:55:17,  1.26s/it]                                                          {'loss': 2.1499, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14770/48845 [5:13:57<11:55:17,  1.26s/it] 30%|███       | 14771/48845 [5:13:58<11:55:36,  1.26s/it] 30%|███       | 14772/48845 [5:14:00<11:56:09,  1.26s/it] 30%|███       | 14773/48845 [5:14:01<11:55:11,  1.26s/it] 30%|███       | 14774/48845 [5:14:02<11:55:22,  1.26s/it] 30%|███       | 14775/48845 [5:14:03<11:54:39,  1.26s/it]                                                          {'loss': 2.0237, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14775/48845 [5:14:03<11:54:39,  1.26s/it] 30%|███       | 14776/48845 [5:14:05<11:55:10,  1.26s/it] 30%|███       | 14777/48845 [5:14:06<11:56:03,  1.26s/it] 30%|███       | 14778/48845 [5:14:07<11:55:10,  1.26s/it] 30%|███       | 14779/48845 [5:14:09<11:55:12,  1.26s/it] 30%|███       | 14780/48845 [5:14:10<11:54:27,  1.26s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14780/48845 [5:14:10<11:54:27,  1.26s/it] 30%|███       | 14781/48845 [5:14:11<11:53:55,  1.26s/it] 30%|███       | 14782/48845 [5:14:12<11:54:17,  1.26s/it] 30%|███       | 14783/48845 [5:14:14<11:54:08,  1.26s/it] 30%|███       | 14784/48845 [5:14:15<11:54:22,  1.26s/it] 30%|███       | 14785/48845 [5:14:16<11:53:38,  1.26s/it]                                                          {'loss': 1.9229, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14785/48845 [5:14:16<11:53:38,  1.26s/it] 30%|███       | 14786/48845 [5:14:17<11:53:51,  1.26s/it] 30%|███       | 14787/48845 [5:14:19<11:54:04,  1.26s/it] 30%|███       | 14788/48845 [5:14:20<11:53:46,  1.26s/it] 30%|███       | 14789/48845 [5:14:21<11:54:13,  1.26s/it] 30%|███       | 14790/48845 [5:14:22<11:54:24,  1.26s/it]                                                          {'loss': 2.1822, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14790/48845 [5:14:22<11:54:24,  1.26s/it] 30%|███       | 14791/48845 [5:14:24<11:54:29,  1.26s/it] 30%|███       | 14792/48845 [5:14:25<11:54:15,  1.26s/it] 30%|███       | 14793/48845 [5:14:26<11:54:22,  1.26s/it] 30%|███       | 14794/48845 [5:14:27<11:54:47,  1.26s/it] 30%|███       | 14795/48845 [5:14:29<11:54:22,  1.26s/it]                                                          {'loss': 2.0865, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14795/48845 [5:14:29<11:54:22,  1.26s/it] 30%|███       | 14796/48845 [5:14:30<11:54:53,  1.26s/it] 30%|███       | 14797/48845 [5:14:31<11:54:53,  1.26s/it] 30%|███       | 14798/48845 [5:14:32<11:54:45,  1.26s/it] 30%|███       | 14799/48845 [5:14:34<11:54:45,  1.26s/it] 30%|███       | 14800/48845 [5:14:35<11:54:06,  1.26s/it]                                                          {'loss': 2.0243, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.51}
+ 30%|███       | 14800/48845 [5:14:35<11:54:06,  1.26s/it] 30%|███       | 14801/48845 [5:14:39<18:40:38,  1.98s/it] 30%|███       | 14802/48845 [5:14:40<16:39:17,  1.76s/it] 30%|███       | 14803/48845 [5:14:41<15:14:32,  1.61s/it] 30%|███       | 14804/48845 [5:14:42<14:14:22,  1.51s/it] 30%|███       | 14805/48845 [5:14:44<13:32:22,  1.43s/it]                                                          {'loss': 2.0741, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14805/48845 [5:14:44<13:32:22,  1.43s/it] 30%|███       | 14806/48845 [5:14:45<13:03:25,  1.38s/it] 30%|███       | 14807/48845 [5:14:46<12:42:25,  1.34s/it] 30%|███       | 14808/48845 [5:14:47<12:27:59,  1.32s/it] 30%|███       | 14809/48845 [5:14:49<12:18:47,  1.30s/it] 30%|███       | 14810/48845 [5:14:50<12:11:49,  1.29s/it]                                                          {'loss': 2.0902, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14810/48845 [5:14:50<12:11:49,  1.29s/it] 30%|███       | 14811/48845 [5:14:51<12:06:18,  1.28s/it] 30%|███       | 14812/48845 [5:14:52<12:02:29,  1.27s/it] 30%|███       | 14813/48845 [5:14:54<11:59:20,  1.27s/it] 30%|███       | 14814/48845 [5:14:55<11:57:22,  1.26s/it] 30%|███       | 14815/48845 [5:14:56<11:55:42,  1.26s/it]                                                          {'loss': 2.1851, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14815/48845 [5:14:56<11:55:42,  1.26s/it] 30%|███       | 14816/48845 [5:14:57<11:56:45,  1.26s/it] 30%|███       | 14817/48845 [5:14:59<11:56:09,  1.26s/it] 30%|███       | 14818/48845 [5:15:00<11:55:26,  1.26s/it] 30%|███       | 14819/48845 [5:15:01<11:55:13,  1.26s/it] 30%|███       | 14820/48845 [5:15:03<11:55:13,  1.26s/it]                                                          {'loss': 2.0225, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14820/48845 [5:15:03<11:55:13,  1.26s/it] 30%|███       | 14821/48845 [5:15:04<11:55:29,  1.26s/it] 30%|███       | 14822/48845 [5:15:05<11:55:15,  1.26s/it] 30%|███       | 14823/48845 [5:15:06<11:55:04,  1.26s/it] 30%|███       | 14824/48845 [5:15:08<11:55:44,  1.26s/it] 30%|███       | 14825/48845 [5:15:09<11:55:26,  1.26s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14825/48845 [5:15:09<11:55:26,  1.26s/it] 30%|███       | 14826/48845 [5:15:10<11:56:24,  1.26s/it] 30%|███       | 14827/48845 [5:15:11<11:55:38,  1.26s/it] 30%|███       | 14828/48845 [5:15:13<11:55:04,  1.26s/it] 30%|███       | 14829/48845 [5:15:14<11:55:12,  1.26s/it] 30%|███       | 14830/48845 [5:15:15<11:54:57,  1.26s/it]                                                          {'loss': 1.9967, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14830/48845 [5:15:15<11:54:57,  1.26s/it] 30%|███       | 14831/48845 [5:15:16<11:54:54,  1.26s/it] 30%|███       | 14832/48845 [5:15:18<11:55:02,  1.26s/it] 30%|███       | 14833/48845 [5:15:19<11:54:42,  1.26s/it] 30%|███       | 14834/48845 [5:15:20<11:54:49,  1.26s/it] 30%|███       | 14835/48845 [5:15:21<11:54:42,  1.26s/it]                                                          {'loss': 2.211, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14835/48845 [5:15:21<11:54:42,  1.26s/it] 30%|███       | 14836/48845 [5:15:23<11:54:36,  1.26s/it] 30%|███       | 14837/48845 [5:15:24<11:54:41,  1.26s/it] 30%|███       | 14838/48845 [5:15:25<11:53:56,  1.26s/it] 30%|███       | 14839/48845 [5:15:26<11:53:43,  1.26s/it] 30%|███       | 14840/48845 [5:15:28<11:53:40,  1.26s/it]                                                          {'loss': 2.0712, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14840/48845 [5:15:28<11:53:40,  1.26s/it] 30%|███       | 14841/48845 [5:15:29<11:55:27,  1.26s/it] 30%|███       | 14842/48845 [5:15:30<11:55:42,  1.26s/it] 30%|███       | 14843/48845 [5:15:32<11:55:24,  1.26s/it] 30%|███       | 14844/48845 [5:15:33<11:58:04,  1.27s/it] 30%|███       | 14845/48845 [5:15:34<11:57:35,  1.27s/it]                                                          {'loss': 2.0791, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14845/48845 [5:15:34<11:57:35,  1.27s/it] 30%|███       | 14846/48845 [5:15:35<11:56:18,  1.26s/it] 30%|███       | 14847/48845 [5:15:37<11:55:22,  1.26s/it] 30%|███       | 14848/48845 [5:15:38<11:55:15,  1.26s/it] 30%|███       | 14849/48845 [5:15:39<11:54:38,  1.26s/it] 30%|███       | 14850/48845 [5:15:41<12:19:51,  1.31s/it]                                                          {'loss': 1.9477, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14850/48845 [5:15:41<12:19:51,  1.31s/it] 30%|███       | 14851/48845 [5:15:42<12:12:23,  1.29s/it] 30%|███       | 14852/48845 [5:15:43<12:06:40,  1.28s/it] 30%|███       | 14853/48845 [5:15:44<12:03:21,  1.28s/it] 30%|███       | 14854/48845 [5:15:46<12:00:45,  1.27s/it] 30%|███       | 14855/48845 [5:15:47<11:58:17,  1.27s/it]                                                          {'loss': 2.0963, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14855/48845 [5:15:47<11:58:17,  1.27s/it] 30%|███       | 14856/48845 [5:15:48<11:57:08,  1.27s/it] 30%|███       | 14857/48845 [5:15:49<11:56:00,  1.26s/it] 30%|███       | 14858/48845 [5:15:51<11:55:06,  1.26s/it] 30%|███       | 14859/48845 [5:15:52<11:56:19,  1.26s/it] 30%|███       | 14860/48845 [5:15:53<11:55:18,  1.26s/it]                                                          {'loss': 2.014, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14860/48845 [5:15:53<11:55:18,  1.26s/it] 30%|███       | 14861/48845 [5:15:54<11:56:33,  1.27s/it] 30%|███       | 14862/48845 [5:15:56<11:55:33,  1.26s/it] 30%|███       | 14863/48845 [5:15:57<11:55:05,  1.26s/it] 30%|███       | 14864/48845 [5:15:58<11:54:10,  1.26s/it] 30%|███       | 14865/48845 [5:15:59<11:54:07,  1.26s/it]                                                          {'loss': 2.0165, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14865/48845 [5:15:59<11:54:07,  1.26s/it] 30%|███       | 14866/48845 [5:16:01<11:53:59,  1.26s/it] 30%|███       | 14867/48845 [5:16:02<11:54:12,  1.26s/it] 30%|███       | 14868/48845 [5:16:03<11:54:07,  1.26s/it] 30%|███       | 14869/48845 [5:16:04<11:53:50,  1.26s/it] 30%|███       | 14870/48845 [5:16:06<11:54:26,  1.26s/it]                                                          {'loss': 1.976, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14870/48845 [5:16:06<11:54:26,  1.26s/it] 30%|███       | 14871/48845 [5:16:07<11:53:40,  1.26s/it] 30%|███       | 14872/48845 [5:16:08<11:54:06,  1.26s/it] 30%|███       | 14873/48845 [5:16:10<11:54:09,  1.26s/it] 30%|███       | 14874/48845 [5:16:11<11:53:56,  1.26s/it] 30%|███       | 14875/48845 [5:16:12<11:54:14,  1.26s/it]                                                          {'loss': 1.929, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14875/48845 [5:16:12<11:54:14,  1.26s/it] 30%|███       | 14876/48845 [5:16:13<11:55:30,  1.26s/it] 30%|███       | 14877/48845 [5:16:15<11:54:19,  1.26s/it] 30%|███       | 14878/48845 [5:16:16<11:54:15,  1.26s/it] 30%|███       | 14879/48845 [5:16:17<11:54:21,  1.26s/it] 30%|███       | 14880/48845 [5:16:18<11:53:37,  1.26s/it]                                                          {'loss': 2.088, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14880/48845 [5:16:18<11:53:37,  1.26s/it] 30%|███       | 14881/48845 [5:16:20<11:55:15,  1.26s/it] 30%|███       | 14882/48845 [5:16:21<11:54:30,  1.26s/it] 30%|███       | 14883/48845 [5:16:22<11:53:47,  1.26s/it] 30%|███       | 14884/48845 [5:16:23<11:53:15,  1.26s/it] 30%|███       | 14885/48845 [5:16:25<11:53:21,  1.26s/it]                                                          {'loss': 2.1739, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14885/48845 [5:16:25<11:53:21,  1.26s/it] 30%|███       | 14886/48845 [5:16:26<11:53:31,  1.26s/it] 30%|███       | 14887/48845 [5:16:27<11:53:43,  1.26s/it] 30%|███       | 14888/48845 [5:16:28<11:54:35,  1.26s/it] 30%|███       | 14889/48845 [5:16:30<11:53:57,  1.26s/it] 30%|███       | 14890/48845 [5:16:31<11:53:33,  1.26s/it]                                                          {'loss': 2.0255, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14890/48845 [5:16:31<11:53:33,  1.26s/it] 30%|███       | 14891/48845 [5:16:32<11:53:39,  1.26s/it] 30%|███       | 14892/48845 [5:16:34<11:53:30,  1.26s/it] 30%|███       | 14893/48845 [5:16:35<11:53:46,  1.26s/it] 30%|███       | 14894/48845 [5:16:36<11:53:28,  1.26s/it] 30%|███       | 14895/48845 [5:16:37<11:52:46,  1.26s/it]                                                          {'loss': 2.0228, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.52}
+ 30%|███       | 14895/48845 [5:16:37<11:52:46,  1.26s/it] 30%|███       | 14896/48845 [5:16:39<11:53:33,  1.26s/it] 30%|███       | 14897/48845 [5:16:40<11:53:14,  1.26s/it] 31%|███       | 14898/48845 [5:16:41<11:53:28,  1.26s/it] 31%|███       | 14899/48845 [5:16:42<11:53:21,  1.26s/it] 31%|███       | 14900/48845 [5:16:44<11:53:01,  1.26s/it]                                                          {'loss': 2.1192, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14900/48845 [5:16:44<11:53:01,  1.26s/it] 31%|███       | 14901/48845 [5:16:45<11:53:39,  1.26s/it] 31%|███       | 14902/48845 [5:16:46<11:53:33,  1.26s/it] 31%|███       | 14903/48845 [5:16:47<11:53:05,  1.26s/it] 31%|███       | 14904/48845 [5:16:49<11:53:41,  1.26s/it] 31%|███       | 14905/48845 [5:16:50<11:52:59,  1.26s/it]                                                          {'loss': 2.0834, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14905/48845 [5:16:50<11:52:59,  1.26s/it] 31%|███       | 14906/48845 [5:16:51<11:53:19,  1.26s/it] 31%|███       | 14907/48845 [5:16:52<11:52:48,  1.26s/it] 31%|███       | 14908/48845 [5:16:54<11:52:53,  1.26s/it] 31%|███       | 14909/48845 [5:16:55<11:53:07,  1.26s/it] 31%|███       | 14910/48845 [5:16:56<11:52:51,  1.26s/it]                                                          {'loss': 2.0595, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14910/48845 [5:16:56<11:52:51,  1.26s/it] 31%|███       | 14911/48845 [5:16:57<11:53:22,  1.26s/it] 31%|███       | 14912/48845 [5:16:59<11:53:04,  1.26s/it] 31%|███       | 14913/48845 [5:17:00<11:52:34,  1.26s/it] 31%|███       | 14914/48845 [5:17:01<11:53:00,  1.26s/it] 31%|███       | 14915/48845 [5:17:03<11:53:31,  1.26s/it]                                                          {'loss': 2.0032, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14915/48845 [5:17:03<11:53:31,  1.26s/it] 31%|███       | 14916/48845 [5:17:04<11:53:15,  1.26s/it] 31%|███       | 14917/48845 [5:17:05<11:53:20,  1.26s/it] 31%|███       | 14918/48845 [5:17:06<11:53:45,  1.26s/it] 31%|███       | 14919/48845 [5:17:08<11:53:07,  1.26s/it] 31%|███       | 14920/48845 [5:17:09<11:52:56,  1.26s/it]                                                          {'loss': 2.0026, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14920/48845 [5:17:09<11:52:56,  1.26s/it] 31%|███       | 14921/48845 [5:17:10<11:52:39,  1.26s/it] 31%|███       | 14922/48845 [5:17:11<11:52:36,  1.26s/it] 31%|███       | 14923/48845 [5:17:13<11:52:51,  1.26s/it] 31%|███       | 14924/48845 [5:17:14<11:52:51,  1.26s/it] 31%|███       | 14925/48845 [5:17:15<11:52:15,  1.26s/it]                                                          {'loss': 2.0014, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14925/48845 [5:17:15<11:52:15,  1.26s/it] 31%|███       | 14926/48845 [5:17:16<11:51:43,  1.26s/it] 31%|███       | 14927/48845 [5:17:18<11:52:07,  1.26s/it] 31%|███       | 14928/48845 [5:17:19<11:51:51,  1.26s/it] 31%|███       | 14929/48845 [5:17:20<11:51:35,  1.26s/it] 31%|███       | 14930/48845 [5:17:21<11:51:27,  1.26s/it]                                                          {'loss': 2.0552, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14930/48845 [5:17:21<11:51:27,  1.26s/it] 31%|███       | 14931/48845 [5:17:23<11:51:38,  1.26s/it] 31%|███       | 14932/48845 [5:17:24<11:52:13,  1.26s/it] 31%|███       | 14933/48845 [5:17:25<11:52:10,  1.26s/it] 31%|███       | 14934/48845 [5:17:26<11:52:46,  1.26s/it] 31%|███       | 14935/48845 [5:17:28<11:51:49,  1.26s/it]                                                          {'loss': 2.2283, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14935/48845 [5:17:28<11:51:49,  1.26s/it] 31%|███       | 14936/48845 [5:17:29<11:52:11,  1.26s/it] 31%|███       | 14937/48845 [5:17:30<11:52:42,  1.26s/it] 31%|███       | 14938/48845 [5:17:31<11:52:47,  1.26s/it] 31%|███       | 14939/48845 [5:17:33<11:52:27,  1.26s/it] 31%|███       | 14940/48845 [5:17:34<11:52:37,  1.26s/it]                                                          {'loss': 2.0353, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14940/48845 [5:17:34<11:52:37,  1.26s/it] 31%|█��█       | 14941/48845 [5:17:35<11:51:54,  1.26s/it] 31%|███       | 14942/48845 [5:17:37<11:52:07,  1.26s/it] 31%|███       | 14943/48845 [5:17:38<11:51:27,  1.26s/it] 31%|███       | 14944/48845 [5:17:39<11:51:34,  1.26s/it] 31%|███       | 14945/48845 [5:17:40<12:06:06,  1.29s/it]                                                          {'loss': 2.0199, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14945/48845 [5:17:40<12:06:06,  1.29s/it] 31%|███       | 14946/48845 [5:17:42<12:03:03,  1.28s/it] 31%|███       | 14947/48845 [5:17:43<12:00:24,  1.28s/it] 31%|███       | 14948/48845 [5:17:44<11:57:11,  1.27s/it] 31%|███       | 14949/48845 [5:17:45<11:55:09,  1.27s/it] 31%|███       | 14950/48845 [5:17:47<11:54:20,  1.26s/it]                                                          {'loss': 2.0951, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14950/48845 [5:17:47<11:54:20,  1.26s/it] 31%|███       | 14951/48845 [5:17:48<11:53:19,  1.26s/it] 31%|███       | 14952/48845 [5:17:49<11:53:57,  1.26s/it] 31%|███       | 14953/48845 [5:17:50<11:53:07,  1.26s/it] 31%|███       | 14954/48845 [5:17:52<11:53:16,  1.26s/it] 31%|███       | 14955/48845 [5:17:53<11:52:21,  1.26s/it]                                                          {'loss': 2.1181, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14955/48845 [5:17:53<11:52:21,  1.26s/it] 31%|███       | 14956/48845 [5:17:54<11:52:04,  1.26s/it] 31%|███       | 14957/48845 [5:17:56<11:51:38,  1.26s/it] 31%|███       | 14958/48845 [5:17:57<11:51:19,  1.26s/it] 31%|███       | 14959/48845 [5:17:58<11:51:02,  1.26s/it] 31%|███       | 14960/48845 [5:17:59<11:51:43,  1.26s/it]                                                          {'loss': 1.9949, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14960/48845 [5:17:59<11:51:43,  1.26s/it] 31%|███       | 14961/48845 [5:18:01<11:51:26,  1.26s/it] 31%|███       | 14962/48845 [5:18:02<11:51:36,  1.26s/it] 31%|███       | 14963/48845 [5:18:03<11:52:05,  1.26s/it] 31%|███       | 14964/48845 [5:18:04<11:52:09,  1.26s/it] 31%|███       | 14965/48845 [5:18:06<11:52:27,  1.26s/it]                                                          {'loss': 2.2551, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14965/48845 [5:18:06<11:52:27,  1.26s/it] 31%|███       | 14966/48845 [5:18:07<11:52:29,  1.26s/it] 31%|███       | 14967/48845 [5:18:08<11:52:07,  1.26s/it] 31%|███       | 14968/48845 [5:18:09<11:52:48,  1.26s/it] 31%|███       | 14969/48845 [5:18:11<11:54:13,  1.27s/it] 31%|███       | 14970/48845 [5:18:12<11:53:32,  1.26s/it]                                                          {'loss': 2.1118, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14970/48845 [5:18:12<11:53:32,  1.26s/it] 31%|███       | 14971/48845 [5:18:13<11:53:08,  1.26s/it] 31%|███       | 14972/48845 [5:18:14<11:52:08,  1.26s/it] 31%|███       | 14973/48845 [5:18:16<11:52:16,  1.26s/it] 31%|███       | 14974/48845 [5:18:17<11:51:47,  1.26s/it] 31%|███       | 14975/48845 [5:18:18<11:51:34,  1.26s/it]                                                          {'loss': 2.0802, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14975/48845 [5:18:18<11:51:34,  1.26s/it] 31%|███       | 14976/48845 [5:18:19<11:51:36,  1.26s/it] 31%|███       | 14977/48845 [5:18:21<11:50:26,  1.26s/it] 31%|███       | 14978/48845 [5:18:22<11:51:05,  1.26s/it] 31%|███       | 14979/48845 [5:18:23<11:51:22,  1.26s/it] 31%|███       | 14980/48845 [5:18:25<11:51:59,  1.26s/it]                                                          {'loss': 2.2286, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14980/48845 [5:18:25<11:51:59,  1.26s/it] 31%|███       | 14981/48845 [5:18:26<11:52:29,  1.26s/it] 31%|███       | 14982/48845 [5:18:27<11:51:45,  1.26s/it] 31%|███       | 14983/48845 [5:18:28<11:51:26,  1.26s/it] 31%|███       | 14984/48845 [5:18:30<11:50:52,  1.26s/it] 31%|███       | 14985/48845 [5:18:31<11:50:34,  1.26s/it]                                                          {'loss': 1.9836, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14985/48845 [5:18:31<11:50:34,  1.26s/it] 31%|███       | 14986/48845 [5:18:32<11:50:29,  1.26s/it] 31%|███       | 14987/48845 [5:18:33<11:50:24,  1.26s/it] 31%|███       | 14988/48845 [5:18:35<11:51:04,  1.26s/it] 31%|███       | 14989/48845 [5:18:36<11:50:26,  1.26s/it] 31%|███       | 14990/48845 [5:18:37<11:50:52,  1.26s/it]                                                          {'loss': 1.994, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14990/48845 [5:18:37<11:50:52,  1.26s/it] 31%|███       | 14991/48845 [5:18:38<11:52:26,  1.26s/it] 31%|███       | 14992/48845 [5:18:40<11:52:35,  1.26s/it] 31%|███       | 14993/48845 [5:18:41<11:52:10,  1.26s/it] 31%|███       | 14994/48845 [5:18:42<11:51:28,  1.26s/it] 31%|███       | 14995/48845 [5:18:43<11:51:39,  1.26s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.53}
+ 31%|███       | 14995/48845 [5:18:43<11:51:39,  1.26s/it] 31%|███       | 14996/48845 [5:18:45<11:52:23,  1.26s/it] 31%|███       | 14997/48845 [5:18:46<11:51:20,  1.26s/it] 31%|███       | 14998/48845 [5:18:47<12:12:09,  1.30s/it] 31%|███       | 14999/48845 [5:18:49<12:06:03,  1.29s/it] 31%|███       | 15000/48845 [5:18:50<12:01:07,  1.28s/it]                                                          {'loss': 2.2041, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15000/48845 [5:18:50<12:01:07,  1.28s/it] 31%|███       | 15001/48845 [5:18:54<18:47:25,  2.00s/it] 31%|███       | 15002/48845 [5:18:55<16:42:52,  1.78s/it] 31%|███       | 15003/48845 [5:18:56<15:15:20,  1.62s/it] 31%|███       | 15004/48845 [5:18:57<14:16:52,  1.52s/it] 31%|███       | 15005/48845 [5:18:59<13:32:28,  1.44s/it]                                                          {'loss': 2.0835, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15005/48845 [5:18:59<13:32:28,  1.44s/it] 31%|███       | 15006/48845 [5:19:00<13:01:57,  1.39s/it] 31%|███       | 15007/48845 [5:19:01<12:39:59,  1.35s/it] 31%|███       | 15008/48845 [5:19:02<12:44:08,  1.35s/it] 31%|███       | 15009/48845 [5:19:04<12:27:42,  1.33s/it] 31%|███       | 15010/48845 [5:19:05<12:16:31,  1.31s/it]                                                          {'loss': 2.0716, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15010/48845 [5:19:05<12:16:31,  1.31s/it] 31%|███       | 15011/48845 [5:19:06<12:08:22,  1.29s/it] 31%|███       | 15012/48845 [5:19:08<12:02:17,  1.28s/it] 31%|███       | 15013/48845 [5:19:09<11:59:03,  1.28s/it] 31%|███       | 15014/48845 [5:19:10<11:56:12,  1.27s/it] 31%|███       | 15015/48845 [5:19:11<11:54:17,  1.27s/it]                                                          {'loss': 2.1456, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15015/48845 [5:19:11<11:54:17,  1.27s/it] 31%|███       | 15016/48845 [5:19:13<11:52:44,  1.26s/it] 31%|███       | 15017/48845 [5:19:14<11:51:46,  1.26s/it] 31%|███       | 15018/48845 [5:19:15<11:51:15,  1.26s/it] 31%|███       | 15019/48845 [5:19:16<11:50:50,  1.26s/it] 31%|███       | 15020/48845 [5:19:18<11:50:18,  1.26s/it]                                                          {'loss': 2.1559, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15020/48845 [5:19:18<11:50:18,  1.26s/it] 31%|███       | 15021/48845 [5:19:19<11:50:13,  1.26s/it] 31%|███       | 15022/48845 [5:19:20<11:49:32,  1.26s/it] 31%|███       | 15023/48845 [5:19:21<11:48:39,  1.26s/it] 31%|███       | 15024/48845 [5:19:23<11:48:32,  1.26s/it] 31%|███       | 15025/48845 [5:19:24<11:49:32,  1.26s/it]                                                          {'loss': 2.056, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15025/48845 [5:19:24<11:49:32,  1.26s/it] 31%|███       | 15026/48845 [5:19:25<11:49:47,  1.26s/it] 31%|███       | 15027/48845 [5:19:26<11:49:10,  1.26s/it] 31%|███       | 15028/48845 [5:19:28<11:49:27,  1.26s/it] 31%|███       | 15029/48845 [5:19:29<11:49:14,  1.26s/it] 31%|███       | 15030/48845 [5:19:30<11:49:35,  1.26s/it]                                                          {'loss': 2.1802, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15030/48845 [5:19:30<11:49:35,  1.26s/it] 31%|███       | 15031/48845 [5:19:31<11:49:16,  1.26s/it] 31%|███       | 15032/48845 [5:19:33<11:51:23,  1.26s/it] 31%|███       | 15033/48845 [5:19:34<11:51:31,  1.26s/it] 31%|███       | 15034/48845 [5:19:35<11:50:42,  1.26s/it] 31%|███       | 15035/48845 [5:19:36<11:50:33,  1.26s/it]                                                          {'loss': 2.2444, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15035/48845 [5:19:37<11:50:33,  1.26s/it] 31%|███       | 15036/48845 [5:19:38<12:18:12,  1.31s/it] 31%|███       | 15037/48845 [5:19:39<12:09:51,  1.30s/it] 31%|███       | 15038/48845 [5:19:40<12:02:43,  1.28s/it] 31%|███       | 15039/48845 [5:19:42<11:58:17,  1.27s/it] 31%|███       | 15040/48845 [5:19:43<11:54:55,  1.27s/it]                                                          {'loss': 2.1307, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15040/48845 [5:19:43<11:54:55,  1.27s/it] 31%|███       | 15041/48845 [5:19:44<11:53:54,  1.27s/it] 31%|███       | 15042/48845 [5:19:45<11:53:40,  1.27s/it] 31%|███       | 15043/48845 [5:19:47<11:51:52,  1.26s/it] 31%|███       | 15044/48845 [5:19:48<11:51:06,  1.26s/it] 31%|███       | 15045/48845 [5:19:49<11:50:21,  1.26s/it]                                                          {'loss': 2.1794, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15045/48845 [5:19:49<11:50:21,  1.26s/it] 31%|███       | 15046/48845 [5:19:51<11:50:21,  1.26s/it] 31%|███       | 15047/48845 [5:19:52<11:49:18,  1.26s/it] 31%|███       | 15048/48845 [5:19:53<11:49:56,  1.26s/it] 31%|███       | 15049/48845 [5:19:54<11:50:10,  1.26s/it] 31%|███       | 15050/48845 [5:19:56<11:48:58,  1.26s/it]                                                          {'loss': 1.9607, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15050/48845 [5:19:56<11:48:58,  1.26s/it] 31%|███       | 15051/48845 [5:19:57<11:48:45,  1.26s/it] 31%|███       | 15052/48845 [5:19:58<11:49:11,  1.26s/it] 31%|███       | 15053/48845 [5:19:59<11:49:23,  1.26s/it] 31%|███       | 15054/48845 [5:20:01<11:50:29,  1.26s/it] 31%|███       | 15055/48845 [5:20:02<11:50:06,  1.26s/it]                                                          {'loss': 2.112, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15055/48845 [5:20:02<11:50:06,  1.26s/it] 31%|███       | 15056/48845 [5:20:03<11:50:35,  1.26s/it] 31%|███       | 15057/48845 [5:20:04<11:50:31,  1.26s/it] 31%|███       | 15058/48845 [5:20:06<11:51:11,  1.26s/it] 31%|███       | 15059/48845 [5:20:07<11:51:35,  1.26s/it] 31%|███       | 15060/48845 [5:20:08<11:50:57,  1.26s/it]                                                          {'loss': 2.1505, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15060/48845 [5:20:08<11:50:57,  1.26s/it] 31%|███       | 15061/48845 [5:20:09<11:49:56,  1.26s/it] 31%|███       | 15062/48845 [5:20:11<11:50:03,  1.26s/it] 31%|███       | 15063/48845 [5:20:12<11:48:30,  1.26s/it] 31%|███       | 15064/48845 [5:20:13<11:49:25,  1.26s/it] 31%|███       | 15065/48845 [5:20:14<11:48:52,  1.26s/it]                                                          {'loss': 2.0294, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15065/48845 [5:20:14<11:48:52,  1.26s/it] 31%|███       | 15066/48845 [5:20:16<11:48:46,  1.26s/it] 31%|███       | 15067/48845 [5:20:17<11:49:00,  1.26s/it] 31%|███       | 15068/48845 [5:20:18<11:50:30,  1.26s/it] 31%|███       | 15069/48845 [5:20:19<11:50:02,  1.26s/it] 31%|███       | 15070/48845 [5:20:21<11:50:25,  1.26s/it]                                                          {'loss': 2.1127, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15070/48845 [5:20:21<11:50:25,  1.26s/it] 31%|███       | 15071/48845 [5:20:22<11:50:05,  1.26s/it] 31%|███       | 15072/48845 [5:20:23<11:50:43,  1.26s/it] 31%|███       | 15073/48845 [5:20:25<11:50:15,  1.26s/it] 31%|███       | 15074/48845 [5:20:26<11:49:29,  1.26s/it] 31%|███       | 15075/48845 [5:20:27<11:50:02,  1.26s/it]                                                          {'loss': 2.0631, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15075/48845 [5:20:27<11:50:02,  1.26s/it] 31%|███       | 15076/48845 [5:20:28<11:51:58,  1.27s/it] 31%|███       | 15077/48845 [5:20:30<11:51:32,  1.26s/it] 31%|███       | 15078/48845 [5:20:31<11:51:01,  1.26s/it] 31%|███       | 15079/48845 [5:20:32<11:50:54,  1.26s/it] 31%|███       | 15080/48845 [5:20:33<11:50:38,  1.26s/it]                                                          {'loss': 2.1308, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15080/48845 [5:20:33<11:50:38,  1.26s/it] 31%|███       | 15081/48845 [5:20:35<11:50:57,  1.26s/it] 31%|███       | 15082/48845 [5:20:36<11:50:19,  1.26s/it] 31%|███       | 15083/48845 [5:20:37<11:50:28,  1.26s/it] 31%|███       | 15084/48845 [5:20:38<11:50:30,  1.26s/it] 31%|███       | 15085/48845 [5:20:40<11:50:03,  1.26s/it]                                                          {'loss': 1.9313, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15085/48845 [5:20:40<11:50:03,  1.26s/it] 31%|███       | 15086/48845 [5:20:41<11:50:14,  1.26s/it] 31%|███       | 15087/48845 [5:20:42<11:49:21,  1.26s/it] 31%|███       | 15088/48845 [5:20:43<11:50:45,  1.26s/it] 31%|███       | 15089/48845 [5:20:45<11:49:55,  1.26s/it] 31%|███       | 15090/48845 [5:20:46<11:49:27,  1.26s/it]                                                          {'loss': 1.9614, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.54}
+ 31%|███       | 15090/48845 [5:20:46<11:49:27,  1.26s/it] 31%|███       | 15091/48845 [5:20:47<11:50:11,  1.26s/it] 31%|███       | 15092/48845 [5:20:49<11:49:59,  1.26s/it] 31%|███       | 15093/48845 [5:20:50<11:49:29,  1.26s/it] 31%|███       | 15094/48845 [5:20:51<11:49:40,  1.26s/it] 31%|███       | 15095/48845 [5:20:52<11:49:17,  1.26s/it]                                                          {'loss': 1.9348, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15095/48845 [5:20:52<11:49:17,  1.26s/it] 31%|███       | 15096/48845 [5:20:54<11:49:21,  1.26s/it] 31%|███       | 15097/48845 [5:20:55<11:48:51,  1.26s/it] 31%|███       | 15098/48845 [5:20:56<11:48:10,  1.26s/it] 31%|███       | 15099/48845 [5:20:57<11:48:44,  1.26s/it] 31%|███       | 15100/48845 [5:20:59<11:48:27,  1.26s/it]                                                          {'loss': 2.2093, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15100/48845 [5:20:59<11:48:27,  1.26s/it] 31%|███       | 15101/48845 [5:21:00<11:48:54,  1.26s/it] 31%|███       | 15102/48845 [5:21:01<11:48:22,  1.26s/it] 31%|███       | 15103/48845 [5:21:02<11:48:03,  1.26s/it] 31%|███       | 15104/48845 [5:21:04<11:48:23,  1.26s/it] 31%|███       | 15105/48845 [5:21:05<11:48:50,  1.26s/it]                                                          {'loss': 2.106, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15105/48845 [5:21:05<11:48:50,  1.26s/it] 31%|███       | 15106/48845 [5:21:06<11:49:30,  1.26s/it] 31%|███       | 15107/48845 [5:21:07<11:48:46,  1.26s/it] 31%|███       | 15108/48845 [5:21:09<11:48:17,  1.26s/it] 31%|███       | 15109/48845 [5:21:10<11:48:08,  1.26s/it] 31%|███       | 15110/48845 [5:21:11<11:47:56,  1.26s/it]                                                          {'loss': 2.1201, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15110/48845 [5:21:11<11:47:56,  1.26s/it] 31%|███       | 15111/48845 [5:21:12<11:48:16,  1.26s/it] 31%|███       | 15112/48845 [5:21:14<11:48:47,  1.26s/it] 31%|███       | 15113/48845 [5:21:15<11:48:06,  1.26s/it] 31%|███       | 15114/48845 [5:21:16<11:48:29,  1.26s/it] 31%|███       | 15115/48845 [5:21:18<11:47:58,  1.26s/it]                                                          {'loss': 2.111, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15115/48845 [5:21:18<11:47:58,  1.26s/it] 31%|███       | 15116/48845 [5:21:19<11:48:19,  1.26s/it] 31%|███       | 15117/48845 [5:21:20<11:47:47,  1.26s/it] 31%|███       | 15118/48845 [5:21:21<11:47:33,  1.26s/it] 31%|███       | 15119/48845 [5:21:23<11:48:22,  1.26s/it] 31%|███       | 15120/48845 [5:21:24<11:48:19,  1.26s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15120/48845 [5:21:24<11:48:19,  1.26s/it] 31%|███       | 15121/48845 [5:21:25<11:48:22,  1.26s/it] 31%|███       | 15122/48845 [5:21:26<11:47:51,  1.26s/it] 31%|███       | 15123/48845 [5:21:28<11:47:52,  1.26s/it] 31%|███       | 15124/48845 [5:21:29<11:48:10,  1.26s/it] 31%|███       | 15125/48845 [5:21:30<11:48:13,  1.26s/it]                                                          {'loss': 2.0617, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15125/48845 [5:21:30<11:48:13,  1.26s/it] 31%|███       | 15126/48845 [5:21:31<11:48:30,  1.26s/it] 31%|███       | 15127/48845 [5:21:33<11:48:39,  1.26s/it] 31%|███       | 15128/48845 [5:21:34<11:48:24,  1.26s/it] 31%|███       | 15129/48845 [5:21:35<11:47:59,  1.26s/it] 31%|███       | 15130/48845 [5:21:36<11:47:55,  1.26s/it]                                                          {'loss': 2.1809, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15130/48845 [5:21:36<11:47:55,  1.26s/it] 31%|███       | 15131/48845 [5:21:38<11:48:21,  1.26s/it] 31%|███       | 15132/48845 [5:21:39<11:47:47,  1.26s/it] 31%|███       | 15133/48845 [5:21:40<11:47:22,  1.26s/it] 31%|███       | 15134/48845 [5:21:41<11:47:18,  1.26s/it] 31%|███       | 15135/48845 [5:21:43<11:47:17,  1.26s/it]                                                          {'loss': 2.1193, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15135/48845 [5:21:43<11:47:17,  1.26s/it] 31%|███       | 15136/48845 [5:21:44<11:47:46,  1.26s/it] 31%|███       | 15137/48845 [5:21:45<11:47:16,  1.26s/it] 31%|███       | 15138/48845 [5:21:46<11:47:04,  1.26s/it] 31%|███       | 15139/48845 [5:21:48<11:47:51,  1.26s/it] 31%|███       | 15140/48845 [5:21:49<11:47:44,  1.26s/it]                                                          {'loss': 2.1105, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15140/48845 [5:21:49<11:47:44,  1.26s/it] 31%|███       | 15141/48845 [5:21:50<11:47:55,  1.26s/it] 31%|███       | 15142/48845 [5:21:52<11:48:42,  1.26s/it] 31%|███       | 15143/48845 [5:21:53<11:48:36,  1.26s/it] 31%|███       | 15144/48845 [5:21:54<11:48:46,  1.26s/it] 31%|███       | 15145/48845 [5:21:55<11:48:46,  1.26s/it]                                                          {'loss': 2.0956, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15145/48845 [5:21:55<11:48:46,  1.26s/it] 31%|███       | 15146/48845 [5:21:57<11:48:50,  1.26s/it] 31%|███       | 15147/48845 [5:21:58<11:48:57,  1.26s/it] 31%|███       | 15148/48845 [5:21:59<11:48:09,  1.26s/it] 31%|███       | 15149/48845 [5:22:01<12:12:59,  1.31s/it] 31%|███       | 15150/48845 [5:22:02<12:06:24,  1.29s/it]                                                          {'loss': 2.0737, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15150/48845 [5:22:02<12:06:24,  1.29s/it] 31%|███       | 15151/48845 [5:22:03<12:01:32,  1.28s/it] 31%|███       | 15152/48845 [5:22:04<11:57:35,  1.28s/it] 31%|███       | 15153/48845 [5:22:06<11:54:02,  1.27s/it] 31%|███       | 15154/48845 [5:22:07<11:51:50,  1.27s/it] 31%|███       | 15155/48845 [5:22:08<11:49:32,  1.26s/it]                                                          {'loss': 2.0983, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15155/48845 [5:22:08<11:49:32,  1.26s/it] 31%|███       | 15156/48845 [5:22:09<11:49:15,  1.26s/it] 31%|███       | 15157/48845 [5:22:11<11:49:00,  1.26s/it] 31%|███       | 15158/48845 [5:22:12<11:49:01,  1.26s/it] 31%|███       | 15159/48845 [5:22:13<11:48:46,  1.26s/it] 31%|███       | 15160/48845 [5:22:14<11:48:03,  1.26s/it]                                                          {'loss': 2.1018, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15160/48845 [5:22:14<11:48:03,  1.26s/it] 31%|███       | 15161/48845 [5:22:16<11:48:02,  1.26s/it] 31%|███       | 15162/48845 [5:22:17<11:48:39,  1.26s/it] 31%|███       | 15163/48845 [5:22:18<11:48:22,  1.26s/it] 31%|███       | 15164/48845 [5:22:19<11:47:51,  1.26s/it] 31%|███       | 15165/48845 [5:22:21<11:48:11,  1.26s/it]                                                          {'loss': 2.1571, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15165/48845 [5:22:21<11:48:11,  1.26s/it] 31%|███       | 15166/48845 [5:22:22<11:48:22,  1.26s/it] 31%|███       | 15167/48845 [5:22:23<11:47:54,  1.26s/it] 31%|███       | 15168/48845 [5:22:24<11:47:51,  1.26s/it] 31%|███       | 15169/48845 [5:22:26<11:47:59,  1.26s/it] 31%|███       | 15170/48845 [5:22:27<11:47:25,  1.26s/it]                                                          {'loss': 2.118, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15170/48845 [5:22:27<11:47:25,  1.26s/it] 31%|███       | 15171/48845 [5:22:28<11:47:43,  1.26s/it] 31%|███       | 15172/48845 [5:22:30<11:47:30,  1.26s/it] 31%|███       | 15173/48845 [5:22:31<11:46:51,  1.26s/it] 31%|███       | 15174/48845 [5:22:32<11:47:26,  1.26s/it] 31%|███       | 15175/48845 [5:22:33<11:47:17,  1.26s/it]                                                          {'loss': 2.0463, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15175/48845 [5:22:33<11:47:17,  1.26s/it] 31%|███       | 15176/48845 [5:22:35<11:47:23,  1.26s/it] 31%|███       | 15177/48845 [5:22:36<11:47:06,  1.26s/it] 31%|███       | 15178/48845 [5:22:37<11:46:47,  1.26s/it] 31%|███       | 15179/48845 [5:22:38<11:47:13,  1.26s/it] 31%|███       | 15180/48845 [5:22:40<11:47:16,  1.26s/it]                                                          {'loss': 2.0509, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15180/48845 [5:22:40<11:47:16,  1.26s/it] 31%|███       | 15181/48845 [5:22:41<11:47:45,  1.26s/it] 31%|███       | 15182/48845 [5:22:42<11:48:30,  1.26s/it] 31%|███       | 15183/48845 [5:22:43<11:48:08,  1.26s/it] 31%|███       | 15184/48845 [5:22:45<11:48:15,  1.26s/it] 31%|███       | 15185/48845 [5:22:46<11:47:58,  1.26s/it]                                                          {'loss': 2.0414, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15185/48845 [5:22:46<11:47:58,  1.26s/it] 31%|███       | 15186/48845 [5:22:47<11:48:28,  1.26s/it] 31%|███       | 15187/48845 [5:22:48<11:48:23,  1.26s/it] 31%|███       | 15188/48845 [5:22:50<11:47:38,  1.26s/it] 31%|███       | 15189/48845 [5:22:51<11:47:21,  1.26s/it] 31%|███       | 15190/48845 [5:22:52<11:47:02,  1.26s/it]                                                          {'loss': 1.9636, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.55}
+ 31%|███       | 15190/48845 [5:22:52<11:47:02,  1.26s/it] 31%|███       | 15191/48845 [5:22:53<11:46:58,  1.26s/it] 31%|███       | 15192/48845 [5:22:55<11:47:07,  1.26s/it] 31%|███       | 15193/48845 [5:22:56<11:47:00,  1.26s/it] 31%|███       | 15194/48845 [5:22:57<11:46:52,  1.26s/it] 31%|███       | 15195/48845 [5:22:59<11:47:21,  1.26s/it]                                                          {'loss': 2.0684, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15195/48845 [5:22:59<11:47:21,  1.26s/it] 31%|███       | 15196/48845 [5:23:00<11:46:57,  1.26s/it] 31%|███       | 15197/48845 [5:23:01<11:47:38,  1.26s/it] 31%|███       | 15198/48845 [5:23:02<11:47:25,  1.26s/it] 31%|███       | 15199/48845 [5:23:04<11:47:42,  1.26s/it] 31%|███       | 15200/48845 [5:23:05<11:47:44,  1.26s/it]                                                          {'loss': 2.0965, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15200/48845 [5:23:05<11:47:44,  1.26s/it] 31%|███       | 15201/48845 [5:23:09<18:33:41,  1.99s/it] 31%|███       | 15202/48845 [5:23:10<16:31:42,  1.77s/it] 31%|███       | 15203/48845 [5:23:11<15:06:21,  1.62s/it] 31%|███       | 15204/48845 [5:23:12<14:06:18,  1.51s/it] 31%|███       | 15205/48845 [5:23:14<13:24:31,  1.43s/it]                                                          {'loss': 1.9713, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15205/48845 [5:23:14<13:24:31,  1.43s/it] 31%|███       | 15206/48845 [5:23:15<12:55:30,  1.38s/it] 31%|███       | 15207/48845 [5:23:16<12:34:01,  1.34s/it] 31%|███       | 15208/48845 [5:23:17<12:19:47,  1.32s/it] 31%|███       | 15209/48845 [5:23:19<12:09:26,  1.30s/it] 31%|███       | 15210/48845 [5:23:20<12:02:10,  1.29s/it]                                                          {'loss': 1.9531, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15210/48845 [5:23:20<12:02:10,  1.29s/it] 31%|███       | 15211/48845 [5:23:21<11:57:59,  1.28s/it] 31%|███       | 15212/48845 [5:23:22<11:54:17,  1.27s/it] 31%|███       | 15213/48845 [5:23:24<11:51:34,  1.27s/it] 31%|███       | 15214/48845 [5:23:25<11:49:31,  1.27s/it] 31%|███       | 15215/48845 [5:23:26<11:48:14,  1.26s/it]                                                          {'loss': 2.0308, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15215/48845 [5:23:26<11:48:14,  1.26s/it] 31%|███       | 15216/48845 [5:23:27<11:48:40,  1.26s/it] 31%|███       | 15217/48845 [5:23:29<11:47:36,  1.26s/it] 31%|███       | 15218/48845 [5:23:30<11:47:12,  1.26s/it] 31%|███       | 15219/48845 [5:23:31<11:48:35,  1.26s/it] 31%|███       | 15220/48845 [5:23:32<11:47:46,  1.26s/it]                                                          {'loss': 2.0813, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15220/48845 [5:23:32<11:47:46,  1.26s/it] 31%|███       | 15221/48845 [5:23:34<11:48:22,  1.26s/it] 31%|███       | 15222/48845 [5:23:35<11:47:28,  1.26s/it] 31%|███       | 15223/48845 [5:23:36<11:46:48,  1.26s/it] 31%|███       | 15224/48845 [5:23:38<11:46:57,  1.26s/it] 31%|███       | 15225/48845 [5:23:39<11:46:24,  1.26s/it]                                                          {'loss': 1.9257, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15225/48845 [5:23:39<11:46:24,  1.26s/it] 31%|███       | 15226/48845 [5:23:40<11:46:13,  1.26s/it] 31%|███       | 15227/48845 [5:23:41<11:45:35,  1.26s/it] 31%|███       | 15228/48845 [5:23:43<11:46:22,  1.26s/it] 31%|███       | 15229/48845 [5:23:44<11:46:14,  1.26s/it] 31%|███       | 15230/48845 [5:23:45<11:45:55,  1.26s/it]                                                          {'loss': 2.1639, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15230/48845 [5:23:45<11:45:55,  1.26s/it] 31%|███       | 15231/48845 [5:23:46<11:45:51,  1.26s/it] 31%|███       | 15232/48845 [5:23:48<11:45:44,  1.26s/it] 31%|███       | 15233/48845 [5:23:49<11:45:49,  1.26s/it] 31%|███       | 15234/48845 [5:23:50<11:45:47,  1.26s/it] 31%|███       | 15235/48845 [5:23:51<11:45:31,  1.26s/it]                                                          {'loss': 1.9517, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15235/48845 [5:23:51<11:45:31,  1.26s/it] 31%|███       | 15236/48845 [5:23:53<11:45:23,  1.26s/it] 31%|███       | 15237/48845 [5:23:54<11:45:03,  1.26s/it] 31%|███       | 15238/48845 [5:23:55<11:45:11,  1.26s/it] 31%|███       | 15239/48845 [5:23:56<11:45:26,  1.26s/it] 31%|███       | 15240/48845 [5:23:58<11:44:22,  1.26s/it]                                                          {'loss': 2.2573, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15240/48845 [5:23:58<11:44:22,  1.26s/it] 31%|███       | 15241/48845 [5:23:59<11:44:30,  1.26s/it] 31%|███       | 15242/48845 [5:24:00<11:44:39,  1.26s/it] 31%|███       | 15243/48845 [5:24:01<11:45:21,  1.26s/it] 31%|███       | 15244/48845 [5:24:03<11:46:00,  1.26s/it] 31%|███       | 15245/48845 [5:24:04<11:46:31,  1.26s/it]                                                          {'loss': 2.078, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15245/48845 [5:24:04<11:46:31,  1.26s/it] 31%|███       | 15246/48845 [5:24:05<11:46:15,  1.26s/it] 31%|███       | 15247/48845 [5:24:06<11:45:57,  1.26s/it] 31%|███       | 15248/48845 [5:24:08<11:45:38,  1.26s/it] 31%|███       | 15249/48845 [5:24:09<11:45:43,  1.26s/it] 31%|███       | 15250/48845 [5:24:10<11:45:11,  1.26s/it]                                                          {'loss': 2.1222, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15250/48845 [5:24:10<11:45:11,  1.26s/it] 31%|███       | 15251/48845 [5:24:12<11:45:31,  1.26s/it] 31%|███       | 15252/48845 [5:24:13<11:45:21,  1.26s/it] 31%|███       | 15253/48845 [5:24:14<11:45:16,  1.26s/it] 31%|███       | 15254/48845 [5:24:15<11:45:29,  1.26s/it] 31%|███       | 15255/48845 [5:24:17<11:45:08,  1.26s/it]                                                          {'loss': 2.0138, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15255/48845 [5:24:17<11:45:08,  1.26s/it] 31%|███       | 15256/48845 [5:24:18<11:45:21,  1.26s/it] 31%|███       | 15257/48845 [5:24:19<11:44:43,  1.26s/it] 31%|███       | 15258/48845 [5:24:20<11:45:02,  1.26s/it] 31%|███       | 15259/48845 [5:24:22<11:45:13,  1.26s/it] 31%|███       | 15260/48845 [5:24:23<11:45:08,  1.26s/it]                                                          {'loss': 2.0964, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███       | 15260/48845 [5:24:23<11:45:08,  1.26s/it] 31%|███       | 15261/48845 [5:24:24<11:44:59,  1.26s/it] 31%|███       | 15262/48845 [5:24:25<11:44:22,  1.26s/it] 31%|███       | 15263/48845 [5:24:27<11:44:44,  1.26s/it] 31%|███       | 15264/48845 [5:24:28<11:46:01,  1.26s/it] 31%|███▏      | 15265/48845 [5:24:29<11:45:35,  1.26s/it]                                                          {'loss': 2.1094, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███▏      | 15265/48845 [5:24:29<11:45:35,  1.26s/it] 31%|███▏      | 15266/48845 [5:24:30<11:45:33,  1.26s/it] 31%|███▏      | 15267/48845 [5:24:32<11:44:57,  1.26s/it] 31%|███▏      | 15268/48845 [5:24:33<11:45:03,  1.26s/it] 31%|███▏      | 15269/48845 [5:24:34<11:45:24,  1.26s/it] 31%|███▏      | 15270/48845 [5:24:35<11:44:30,  1.26s/it]                                                          {'loss': 1.9117, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███▏      | 15270/48845 [5:24:35<11:44:30,  1.26s/it] 31%|███▏      | 15271/48845 [5:24:37<11:45:06,  1.26s/it] 31%|███▏      | 15272/48845 [5:24:38<11:44:11,  1.26s/it] 31%|███▏      | 15273/48845 [5:24:39<11:44:01,  1.26s/it] 31%|███▏      | 15274/48845 [5:24:40<11:44:12,  1.26s/it] 31%|███▏      | 15275/48845 [5:24:42<11:44:00,  1.26s/it]                                                          {'loss': 2.0603, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███▏      | 15275/48845 [5:24:42<11:44:00,  1.26s/it] 31%|███▏      | 15276/48845 [5:24:43<11:44:46,  1.26s/it] 31%|███▏      | 15277/48845 [5:24:44<11:44:39,  1.26s/it] 31%|███▏      | 15278/48845 [5:24:46<11:44:21,  1.26s/it] 31%|███▏      | 15279/48845 [5:24:47<11:44:49,  1.26s/it] 31%|███▏      | 15280/48845 [5:24:48<11:45:18,  1.26s/it]                                                          {'loss': 2.0236, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███▏      | 15280/48845 [5:24:48<11:45:18,  1.26s/it] 31%|███▏      | 15281/48845 [5:24:49<11:45:35,  1.26s/it] 31%|███▏      | 15282/48845 [5:24:51<11:44:37,  1.26s/it] 31%|███▏      | 15283/48845 [5:24:52<11:44:45,  1.26s/it] 31%|███▏      | 15284/48845 [5:24:53<11:44:36,  1.26s/it] 31%|███▏      | 15285/48845 [5:24:54<11:44:19,  1.26s/it]                                                          {'loss': 2.0009, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.56}
+ 31%|███▏      | 15285/48845 [5:24:54<11:44:19,  1.26s/it] 31%|███▏      | 15286/48845 [5:24:56<11:44:14,  1.26s/it] 31%|███▏      | 15287/48845 [5:24:57<11:44:13,  1.26s/it] 31%|███▏      | 15288/48845 [5:24:58<11:44:20,  1.26s/it] 31%|███▏      | 15289/48845 [5:24:59<11:44:30,  1.26s/it] 31%|███▏      | 15290/48845 [5:25:01<11:44:33,  1.26s/it]                                                          {'loss': 2.0856, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15290/48845 [5:25:01<11:44:33,  1.26s/it] 31%|███▏      | 15291/48845 [5:25:02<11:44:18,  1.26s/it] 31%|███▏      | 15292/48845 [5:25:03<11:44:11,  1.26s/it] 31%|███▏      | 15293/48845 [5:25:04<11:44:29,  1.26s/it] 31%|███▏      | 15294/48845 [5:25:06<11:45:25,  1.26s/it] 31%|███▏      | 15295/48845 [5:25:07<11:44:58,  1.26s/it]                                                          {'loss': 2.0083, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15295/48845 [5:25:07<11:44:58,  1.26s/it] 31%|███▏      | 15296/48845 [5:25:08<11:44:42,  1.26s/it] 31%|███▏      | 15297/48845 [5:25:09<11:44:36,  1.26s/it] 31%|███▏      | 15298/48845 [5:25:11<11:44:37,  1.26s/it] 31%|███▏      | 15299/48845 [5:25:12<11:44:46,  1.26s/it] 31%|███▏      | 15300/48845 [5:25:13<11:44:24,  1.26s/it]                                                          {'loss': 1.9504, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15300/48845 [5:25:13<11:44:24,  1.26s/it] 31%|███▏      | 15301/48845 [5:25:15<11:44:34,  1.26s/it] 31%|███▏      | 15302/48845 [5:25:16<11:43:32,  1.26s/it] 31%|███▏      | 15303/48845 [5:25:17<11:43:26,  1.26s/it] 31%|███▏      | 15304/48845 [5:25:18<11:45:12,  1.26s/it] 31%|███▏      | 15305/48845 [5:25:20<11:45:05,  1.26s/it]                                                          {'loss': 1.9995, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15305/48845 [5:25:20<11:45:05,  1.26s/it] 31%|███▏      | 15306/48845 [5:25:21<11:45:08,  1.26s/it] 31%|███▏      | 15307/48845 [5:25:22<11:45:30,  1.26s/it] 31%|███▏      | 15308/48845 [5:25:23<11:45:22,  1.26s/it] 31%|███▏      | 15309/48845 [5:25:25<11:46:15,  1.26s/it] 31%|███▏      | 15310/48845 [5:25:26<11:46:35,  1.26s/it]                                                          {'loss': 2.0138, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15310/48845 [5:25:26<11:46:35,  1.26s/it] 31%|███▏      | 15311/48845 [5:25:27<11:46:38,  1.26s/it] 31%|███▏      | 15312/48845 [5:25:28<11:45:56,  1.26s/it] 31%|███▏      | 15313/48845 [5:25:30<11:45:40,  1.26s/it] 31%|███▏      | 15314/48845 [5:25:31<11:44:34,  1.26s/it] 31%|███▏      | 15315/48845 [5:25:32<11:45:05,  1.26s/it]                                                          {'loss': 1.9775, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15315/48845 [5:25:32<11:45:05,  1.26s/it] 31%|███▏      | 15316/48845 [5:25:33<11:44:23,  1.26s/it] 31%|███▏      | 15317/48845 [5:25:35<11:43:50,  1.26s/it] 31%|███▏      | 15318/48845 [5:25:36<11:44:04,  1.26s/it] 31%|███▏      | 15319/48845 [5:25:37<11:44:01,  1.26s/it] 31%|███▏      | 15320/48845 [5:25:38<11:44:13,  1.26s/it]                                                          {'loss': 2.1423, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15320/48845 [5:25:38<11:44:13,  1.26s/it] 31%|███▏      | 15321/48845 [5:25:40<11:46:09,  1.26s/it] 31%|███▏      | 15322/48845 [5:25:41<11:45:43,  1.26s/it] 31%|███▏      | 15323/48845 [5:25:42<11:45:30,  1.26s/it] 31%|███▏      | 15324/48845 [5:25:44<11:45:02,  1.26s/it] 31%|███▏      | 15325/48845 [5:25:45<11:44:32,  1.26s/it]                                                          {'loss': 2.0471, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15325/48845 [5:25:45<11:44:32,  1.26s/it] 31%|███▏      | 15326/48845 [5:25:46<11:44:00,  1.26s/it] 31%|███▏      | 15327/48845 [5:25:47<11:43:40,  1.26s/it] 31%|███▏      | 15328/48845 [5:25:49<11:44:27,  1.26s/it] 31%|███▏      | 15329/48845 [5:25:50<11:44:48,  1.26s/it] 31%|███▏      | 15330/48845 [5:25:51<11:44:25,  1.26s/it]                                                          {'loss': 2.3053, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15330/48845 [5:25:51<11:44:25,  1.26s/it] 31%|███▏      | 15331/48845 [5:25:52<11:43:47,  1.26s/it] 31%|███▏      | 15332/48845 [5:25:54<11:43:45,  1.26s/it] 31%|███▏      | 15333/48845 [5:25:55<11:44:07,  1.26s/it] 31%|███▏      | 15334/48845 [5:25:56<11:43:49,  1.26s/it] 31%|███▏      | 15335/48845 [5:25:57<11:44:26,  1.26s/it]                                                          {'loss': 2.1651, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15335/48845 [5:25:57<11:44:26,  1.26s/it] 31%|███▏      | 15336/48845 [5:25:59<11:44:20,  1.26s/it] 31%|███▏      | 15337/48845 [5:26:00<11:44:00,  1.26s/it] 31%|███▏      | 15338/48845 [5:26:01<11:43:48,  1.26s/it] 31%|███▏      | 15339/48845 [5:26:02<11:44:25,  1.26s/it] 31%|███▏      | 15340/48845 [5:26:04<11:44:18,  1.26s/it]                                                          {'loss': 2.1599, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15340/48845 [5:26:04<11:44:18,  1.26s/it] 31%|███▏      | 15341/48845 [5:26:05<11:44:38,  1.26s/it] 31%|███▏      | 15342/48845 [5:26:06<11:44:06,  1.26s/it] 31%|███▏      | 15343/48845 [5:26:07<11:44:28,  1.26s/it] 31%|███▏      | 15344/48845 [5:26:09<11:43:54,  1.26s/it] 31%|███▏      | 15345/48845 [5:26:10<11:43:28,  1.26s/it]                                                          {'loss': 1.8812, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15345/48845 [5:26:10<11:43:28,  1.26s/it] 31%|███▏      | 15346/48845 [5:26:11<11:43:59,  1.26s/it] 31%|███▏      | 15347/48845 [5:26:13<11:43:44,  1.26s/it] 31%|███▏      | 15348/48845 [5:26:14<11:43:48,  1.26s/it] 31%|███▏      | 15349/48845 [5:26:15<11:43:30,  1.26s/it] 31%|███▏      | 15350/48845 [5:26:16<11:43:28,  1.26s/it]                                                          {'loss': 2.0196, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15350/48845 [5:26:16<11:43:28,  1.26s/it] 31%|███▏      | 15351/48845 [5:26:18<11:45:13,  1.26s/it] 31%|███▏      | 15352/48845 [5:26:19<11:44:37,  1.26s/it] 31%|███▏      | 15353/48845 [5:26:20<11:43:50,  1.26s/it] 31%|███▏      | 15354/48845 [5:26:21<11:44:16,  1.26s/it] 31%|███▏      | 15355/48845 [5:26:23<11:44:22,  1.26s/it]                                                          {'loss': 2.0969, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15355/48845 [5:26:23<11:44:22,  1.26s/it] 31%|███▏      | 15356/48845 [5:26:24<11:43:30,  1.26s/it] 31%|███▏      | 15357/48845 [5:26:25<11:42:54,  1.26s/it] 31%|███▏      | 15358/48845 [5:26:26<11:43:08,  1.26s/it] 31%|███▏      | 15359/48845 [5:26:28<11:44:00,  1.26s/it] 31%|███▏      | 15360/48845 [5:26:29<11:44:29,  1.26s/it]                                                          {'loss': 1.9644, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15360/48845 [5:26:29<11:44:29,  1.26s/it] 31%|███▏      | 15361/48845 [5:26:30<11:43:46,  1.26s/it] 31%|███▏      | 15362/48845 [5:26:31<11:42:27,  1.26s/it] 31%|███▏      | 15363/48845 [5:26:33<11:43:36,  1.26s/it] 31%|███▏      | 15364/48845 [5:26:34<11:43:43,  1.26s/it] 31%|███▏      | 15365/48845 [5:26:35<11:43:16,  1.26s/it]                                                          {'loss': 2.1298, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15365/48845 [5:26:35<11:43:16,  1.26s/it] 31%|███▏      | 15366/48845 [5:26:36<11:43:55,  1.26s/it] 31%|███▏      | 15367/48845 [5:26:38<11:49:41,  1.27s/it] 31%|███▏      | 15368/48845 [5:26:39<11:47:19,  1.27s/it] 31%|███▏      | 15369/48845 [5:26:40<11:45:47,  1.26s/it] 31%|███▏      | 15370/48845 [5:26:42<11:45:29,  1.26s/it]                                                          {'loss': 2.1423, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15370/48845 [5:26:42<11:45:29,  1.26s/it] 31%|███▏      | 15371/48845 [5:26:43<11:45:52,  1.27s/it] 31%|███▏      | 15372/48845 [5:26:44<11:44:11,  1.26s/it] 31%|███▏      | 15373/48845 [5:26:45<11:43:43,  1.26s/it] 31%|███▏      | 15374/48845 [5:26:47<11:52:00,  1.28s/it] 31%|███▏      | 15375/48845 [5:26:48<11:49:15,  1.27s/it]                                                          {'loss': 2.0284, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15375/48845 [5:26:48<11:49:15,  1.27s/it] 31%|███▏      | 15376/48845 [5:26:49<11:48:12,  1.27s/it] 31%|███▏      | 15377/48845 [5:26:50<11:47:22,  1.27s/it] 31%|███▏      | 15378/48845 [5:26:52<11:56:21,  1.28s/it] 31%|███▏      | 15379/48845 [5:26:53<11:52:16,  1.28s/it] 31%|███▏      | 15380/48845 [5:26:54<11:50:11,  1.27s/it]                                                          {'loss': 2.0116, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15380/48845 [5:26:54<11:50:11,  1.27s/it] 31%|███▏      | 15381/48845 [5:26:56<11:48:19,  1.27s/it] 31%|███▏      | 15382/48845 [5:26:57<11:45:34,  1.27s/it] 31%|███▏      | 15383/48845 [5:26:58<11:45:21,  1.26s/it] 31%|███▏      | 15384/48845 [5:26:59<11:44:07,  1.26s/it] 31%|███▏      | 15385/48845 [5:27:01<11:43:29,  1.26s/it]                                                          {'loss': 2.1906, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.57}
+ 31%|███▏      | 15385/48845 [5:27:01<11:43:29,  1.26s/it] 31%|███▏      | 15386/48845 [5:27:02<11:43:45,  1.26s/it] 32%|███▏      | 15387/48845 [5:27:03<11:42:35,  1.26s/it] 32%|███▏      | 15388/48845 [5:27:04<11:42:29,  1.26s/it] 32%|███▏      | 15389/48845 [5:27:06<11:42:26,  1.26s/it] 32%|███▏      | 15390/48845 [5:27:07<11:43:32,  1.26s/it]                                                          {'loss': 2.2099, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15390/48845 [5:27:07<11:43:32,  1.26s/it] 32%|███▏      | 15391/48845 [5:27:08<11:43:54,  1.26s/it] 32%|███▏      | 15392/48845 [5:27:09<11:44:04,  1.26s/it] 32%|███▏      | 15393/48845 [5:27:11<11:43:56,  1.26s/it] 32%|███▏      | 15394/48845 [5:27:12<11:44:01,  1.26s/it] 32%|███▏      | 15395/48845 [5:27:13<11:43:41,  1.26s/it]                                                          {'loss': 2.0814, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15395/48845 [5:27:13<11:43:41,  1.26s/it] 32%|███▏      | 15396/48845 [5:27:14<11:43:33,  1.26s/it] 32%|███▏      | 15397/48845 [5:27:16<11:43:42,  1.26s/it] 32%|███▏      | 15398/48845 [5:27:17<11:43:24,  1.26s/it] 32%|███▏      | 15399/48845 [5:27:18<11:42:40,  1.26s/it] 32%|███▏      | 15400/48845 [5:27:20<11:42:22,  1.26s/it]                                                          {'loss': 2.1276, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15400/48845 [5:27:20<11:42:22,  1.26s/it] 32%|███▏      | 15401/48845 [5:27:23<18:21:59,  1.98s/it] 32%|███▏      | 15402/48845 [5:27:24<16:21:49,  1.76s/it] 32%|███▏      | 15403/48845 [5:27:26<14:57:34,  1.61s/it] 32%|███▏      | 15404/48845 [5:27:27<13:59:19,  1.51s/it] 32%|███▏      | 15405/48845 [5:27:28<13:17:53,  1.43s/it]                                                          {'loss': 1.9286, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15405/48845 [5:27:28<13:17:53,  1.43s/it] 32%|███▏      | 15406/48845 [5:27:29<12:49:12,  1.38s/it] 32%|███▏      | 15407/48845 [5:27:31<12:29:01,  1.34s/it] 32%|███▏      | 15408/48845 [5:27:32<12:14:34,  1.32s/it] 32%|███▏      | 15409/48845 [5:27:33<12:05:06,  1.30s/it] 32%|███▏      | 15410/48845 [5:27:34<11:58:11,  1.29s/it]                                                          {'loss': 2.0079, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15410/48845 [5:27:34<11:58:11,  1.29s/it] 32%|███▏      | 15411/48845 [5:27:36<11:53:09,  1.28s/it] 32%|███▏      | 15412/48845 [5:27:37<11:49:46,  1.27s/it] 32%|███▏      | 15413/48845 [5:27:38<11:47:13,  1.27s/it] 32%|███▏      | 15414/48845 [5:27:40<11:46:04,  1.27s/it] 32%|███▏      | 15415/48845 [5:27:41<11:44:36,  1.26s/it]                                                          {'loss': 1.9274, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15415/48845 [5:27:41<11:44:36,  1.26s/it] 32%|███▏      | 15416/48845 [5:27:42<11:43:52,  1.26s/it] 32%|███▏      | 15417/48845 [5:27:43<11:42:53,  1.26s/it] 32%|███▏      | 15418/48845 [5:27:45<11:42:53,  1.26s/it] 32%|███▏      | 15419/48845 [5:27:46<11:42:28,  1.26s/it] 32%|███▏      | 15420/48845 [5:27:47<11:42:18,  1.26s/it]                                                          {'loss': 1.8763, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15420/48845 [5:27:47<11:42:18,  1.26s/it] 32%|███▏      | 15421/48845 [5:27:48<11:43:07,  1.26s/it] 32%|███▏      | 15422/48845 [5:27:50<11:42:39,  1.26s/it] 32%|███▏      | 15423/48845 [5:27:51<11:41:25,  1.26s/it] 32%|███▏      | 15424/48845 [5:27:52<11:41:27,  1.26s/it] 32%|███▏      | 15425/48845 [5:27:53<11:41:21,  1.26s/it]                                                          {'loss': 2.1329, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15425/48845 [5:27:53<11:41:21,  1.26s/it] 32%|███▏      | 15426/48845 [5:27:55<11:42:18,  1.26s/it] 32%|███▏      | 15427/48845 [5:27:56<11:41:14,  1.26s/it] 32%|███▏      | 15428/48845 [5:27:57<11:41:10,  1.26s/it] 32%|███▏      | 15429/48845 [5:27:58<11:41:55,  1.26s/it] 32%|███▏      | 15430/48845 [5:28:00<11:41:35,  1.26s/it]                                                          {'loss': 2.0857, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15430/48845 [5:28:00<11:41:35,  1.26s/it] 32%|███▏      | 15431/48845 [5:28:01<11:41:44,  1.26s/it] 32%|███▏      | 15432/48845 [5:28:02<11:41:31,  1.26s/it] 32%|███▏      | 15433/48845 [5:28:03<11:42:34,  1.26s/it] 32%|███▏      | 15434/48845 [5:28:05<11:42:25,  1.26s/it] 32%|███▏      | 15435/48845 [5:28:06<11:42:01,  1.26s/it]                                                          {'loss': 2.0954, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15435/48845 [5:28:06<11:42:01,  1.26s/it] 32%|███▏      | 15436/48845 [5:28:07<11:41:42,  1.26s/it] 32%|███▏      | 15437/48845 [5:28:09<11:41:59,  1.26s/it] 32%|███▏      | 15438/48845 [5:28:10<11:42:03,  1.26s/it] 32%|███▏      | 15439/48845 [5:28:11<11:41:04,  1.26s/it] 32%|███▏      | 15440/48845 [5:28:12<11:40:32,  1.26s/it]                                                          {'loss': 2.0501, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15440/48845 [5:28:12<11:40:32,  1.26s/it] 32%|███▏      | 15441/48845 [5:28:14<11:41:37,  1.26s/it] 32%|███▏      | 15442/48845 [5:28:15<11:41:25,  1.26s/it] 32%|███▏      | 15443/48845 [5:28:16<11:41:16,  1.26s/it] 32%|███▏      | 15444/48845 [5:28:17<11:41:16,  1.26s/it] 32%|███▏      | 15445/48845 [5:28:19<11:42:42,  1.26s/it]                                                          {'loss': 2.0959, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15445/48845 [5:28:19<11:42:42,  1.26s/it] 32%|███▏      | 15446/48845 [5:28:20<11:43:09,  1.26s/it] 32%|███▏      | 15447/48845 [5:28:21<11:42:04,  1.26s/it] 32%|███▏      | 15448/48845 [5:28:22<11:41:42,  1.26s/it] 32%|███▏      | 15449/48845 [5:28:24<11:42:27,  1.26s/it] 32%|███▏      | 15450/48845 [5:28:25<11:42:22,  1.26s/it]                                                          {'loss': 2.0659, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15450/48845 [5:28:25<11:42:22,  1.26s/it] 32%|███▏      | 15451/48845 [5:28:26<11:42:24,  1.26s/it] 32%|███▏      | 15452/48845 [5:28:27<11:41:55,  1.26s/it] 32%|███▏      | 15453/48845 [5:28:29<11:42:03,  1.26s/it] 32%|███▏      | 15454/48845 [5:28:30<11:41:51,  1.26s/it] 32%|███▏      | 15455/48845 [5:28:31<11:42:29,  1.26s/it]                                                          {'loss': 2.0613, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15455/48845 [5:28:31<11:42:29,  1.26s/it] 32%|███▏      | 15456/48845 [5:28:32<11:42:26,  1.26s/it] 32%|███▏      | 15457/48845 [5:28:34<11:42:31,  1.26s/it] 32%|███▏      | 15458/48845 [5:28:35<11:42:02,  1.26s/it] 32%|███▏      | 15459/48845 [5:28:36<11:40:42,  1.26s/it] 32%|███▏      | 15460/48845 [5:28:38<11:41:04,  1.26s/it]                                                          {'loss': 2.133, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15460/48845 [5:28:38<11:41:04,  1.26s/it] 32%|███▏      | 15461/48845 [5:28:39<11:40:46,  1.26s/it] 32%|███▏      | 15462/48845 [5:28:40<11:40:38,  1.26s/it] 32%|███▏      | 15463/48845 [5:28:41<11:40:28,  1.26s/it] 32%|███▏      | 15464/48845 [5:28:43<11:40:41,  1.26s/it] 32%|███▏      | 15465/48845 [5:28:44<11:40:59,  1.26s/it]                                                          {'loss': 1.9417, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15465/48845 [5:28:44<11:40:59,  1.26s/it] 32%|███▏      | 15466/48845 [5:28:45<11:40:58,  1.26s/it] 32%|███▏      | 15467/48845 [5:28:46<11:40:41,  1.26s/it] 32%|███▏      | 15468/48845 [5:28:48<11:47:38,  1.27s/it] 32%|███▏      | 15469/48845 [5:28:49<11:45:12,  1.27s/it] 32%|███▏      | 15470/48845 [5:28:50<11:44:01,  1.27s/it]                                                          {'loss': 2.0352, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15470/48845 [5:28:50<11:44:01,  1.27s/it] 32%|███▏      | 15471/48845 [5:28:51<11:43:42,  1.27s/it] 32%|███▏      | 15472/48845 [5:28:53<11:42:30,  1.26s/it] 32%|███▏      | 15473/48845 [5:28:54<11:42:02,  1.26s/it] 32%|███▏      | 15474/48845 [5:28:55<11:41:13,  1.26s/it] 32%|███▏      | 15475/48845 [5:28:56<11:42:56,  1.26s/it]                                                          {'loss': 2.1723, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15475/48845 [5:28:56<11:42:56,  1.26s/it] 32%|███▏      | 15476/48845 [5:28:58<11:42:38,  1.26s/it] 32%|███▏      | 15477/48845 [5:28:59<11:42:40,  1.26s/it] 32%|███▏      | 15478/48845 [5:29:00<11:42:05,  1.26s/it] 32%|███▏      | 15479/48845 [5:29:02<11:41:36,  1.26s/it] 32%|███▏      | 15480/48845 [5:29:03<11:41:31,  1.26s/it]                                                          {'loss': 1.992, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.58}
+ 32%|███▏      | 15480/48845 [5:29:03<11:41:31,  1.26s/it] 32%|███▏      | 15481/48845 [5:29:04<11:41:49,  1.26s/it] 32%|███▏      | 15482/48845 [5:29:05<11:41:02,  1.26s/it] 32%|███▏      | 15483/48845 [5:29:07<11:40:06,  1.26s/it] 32%|███▏      | 15484/48845 [5:29:08<11:40:11,  1.26s/it] 32%|███▏      | 15485/48845 [5:29:09<11:40:37,  1.26s/it]                                                          {'loss': 2.0747, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15485/48845 [5:29:09<11:40:37,  1.26s/it] 32%|███▏      | 15486/48845 [5:29:10<11:41:09,  1.26s/it] 32%|███▏      | 15487/48845 [5:29:12<11:40:36,  1.26s/it] 32%|███▏      | 15488/48845 [5:29:13<11:40:23,  1.26s/it] 32%|███▏      | 15489/48845 [5:29:14<11:40:45,  1.26s/it] 32%|███▏      | 15490/48845 [5:29:15<11:40:22,  1.26s/it]                                                          {'loss': 1.9908, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15490/48845 [5:29:15<11:40:22,  1.26s/it] 32%|███▏      | 15491/48845 [5:29:17<11:40:43,  1.26s/it] 32%|███▏      | 15492/48845 [5:29:18<11:40:37,  1.26s/it] 32%|███▏      | 15493/48845 [5:29:19<11:40:23,  1.26s/it] 32%|███▏      | 15494/48845 [5:29:20<11:40:29,  1.26s/it] 32%|███▏      | 15495/48845 [5:29:22<11:40:14,  1.26s/it]                                                          {'loss': 2.0935, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15495/48845 [5:29:22<11:40:14,  1.26s/it] 32%|███▏      | 15496/48845 [5:29:23<11:40:01,  1.26s/it] 32%|███▏      | 15497/48845 [5:29:24<11:40:02,  1.26s/it] 32%|███▏      | 15498/48845 [5:29:25<11:39:27,  1.26s/it] 32%|███▏      | 15499/48845 [5:29:27<11:39:44,  1.26s/it] 32%|███▏      | 15500/48845 [5:29:28<11:39:29,  1.26s/it]                                                          {'loss': 1.8981, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15500/48845 [5:29:28<11:39:29,  1.26s/it] 32%|███▏      | 15501/48845 [5:29:29<11:39:50,  1.26s/it] 32%|███▏      | 15502/48845 [5:29:30<11:40:07,  1.26s/it] 32%|███▏      | 15503/48845 [5:29:32<11:40:27,  1.26s/it] 32%|███▏      | 15504/48845 [5:29:33<11:40:38,  1.26s/it] 32%|███▏      | 15505/48845 [5:29:34<11:40:24,  1.26s/it]                                                          {'loss': 1.9967, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15505/48845 [5:29:34<11:40:24,  1.26s/it] 32%|███▏      | 15506/48845 [5:29:36<11:40:52,  1.26s/it] 32%|███▏      | 15507/48845 [5:29:37<12:08:06,  1.31s/it] 32%|███▏      | 15508/48845 [5:29:38<11:59:31,  1.30s/it] 32%|███▏      | 15509/48845 [5:29:39<11:53:38,  1.28s/it] 32%|███▏      | 15510/48845 [5:29:41<11:49:08,  1.28s/it]                                                          {'loss': 1.9522, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15510/48845 [5:29:41<11:49:08,  1.28s/it] 32%|███▏      | 15511/48845 [5:29:42<11:46:29,  1.27s/it] 32%|███▏      | 15512/48845 [5:29:43<11:44:23,  1.27s/it] 32%|███▏      | 15513/48845 [5:29:45<11:43:00,  1.27s/it] 32%|███▏      | 15514/48845 [5:29:46<11:42:49,  1.27s/it] 32%|███▏      | 15515/48845 [5:29:47<11:41:14,  1.26s/it]                                                          {'loss': 2.0618, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15515/48845 [5:29:47<11:41:14,  1.26s/it] 32%|███▏      | 15516/48845 [5:29:48<11:41:05,  1.26s/it] 32%|███▏      | 15517/48845 [5:29:50<11:40:24,  1.26s/it] 32%|███▏      | 15518/48845 [5:29:51<11:40:00,  1.26s/it] 32%|███▏      | 15519/48845 [5:29:52<11:39:16,  1.26s/it] 32%|███▏      | 15520/48845 [5:29:53<11:39:03,  1.26s/it]                                                          {'loss': 1.9617, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15520/48845 [5:29:53<11:39:03,  1.26s/it] 32%|███▏      | 15521/48845 [5:29:55<11:39:53,  1.26s/it] 32%|███▏      | 15522/48845 [5:29:56<11:40:01,  1.26s/it] 32%|███▏      | 15523/48845 [5:29:57<11:40:02,  1.26s/it] 32%|███▏      | 15524/48845 [5:29:58<11:39:44,  1.26s/it] 32%|███▏      | 15525/48845 [5:30:00<11:39:54,  1.26s/it]                                                          {'loss': 2.0442, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15525/48845 [5:30:00<11:39:54,  1.26s/it] 32%|███▏      | 15526/48845 [5:30:01<11:40:45,  1.26s/it] 32%|███▏      | 15527/48845 [5:30:02<11:40:21,  1.26s/it] 32%|███▏      | 15528/48845 [5:30:03<11:39:49,  1.26s/it] 32%|███▏      | 15529/48845 [5:30:05<11:39:20,  1.26s/it] 32%|███▏      | 15530/48845 [5:30:06<11:38:50,  1.26s/it]                                                          {'loss': 1.9675, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15530/48845 [5:30:06<11:38:50,  1.26s/it] 32%|███▏      | 15531/48845 [5:30:07<11:39:09,  1.26s/it] 32%|███▏      | 15532/48845 [5:30:08<11:39:01,  1.26s/it] 32%|███▏      | 15533/48845 [5:30:10<11:38:52,  1.26s/it] 32%|███▏      | 15534/48845 [5:30:11<11:39:59,  1.26s/it] 32%|███▏      | 15535/48845 [5:30:12<11:39:16,  1.26s/it]                                                          {'loss': 1.9701, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15535/48845 [5:30:12<11:39:16,  1.26s/it] 32%|███▏      | 15536/48845 [5:30:13<11:40:19,  1.26s/it] 32%|███▏      | 15537/48845 [5:30:15<11:39:21,  1.26s/it] 32%|███▏      | 15538/48845 [5:30:16<11:39:24,  1.26s/it] 32%|███▏      | 15539/48845 [5:30:17<11:39:25,  1.26s/it] 32%|███▏      | 15540/48845 [5:30:19<11:38:56,  1.26s/it]                                                          {'loss': 1.9411, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15540/48845 [5:30:19<11:38:56,  1.26s/it] 32%|███▏      | 15541/48845 [5:30:20<11:39:16,  1.26s/it] 32%|███▏      | 15542/48845 [5:30:21<11:38:49,  1.26s/it] 32%|███▏      | 15543/48845 [5:30:22<11:39:07,  1.26s/it] 32%|███▏      | 15544/48845 [5:30:24<11:39:08,  1.26s/it] 32%|███▏      | 15545/48845 [5:30:25<11:38:52,  1.26s/it]                                                          {'loss': 2.0328, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15545/48845 [5:30:25<11:38:52,  1.26s/it] 32%|███▏      | 15546/48845 [5:30:26<11:41:17,  1.26s/it] 32%|███▏      | 15547/48845 [5:30:27<11:40:15,  1.26s/it] 32%|███▏      | 15548/48845 [5:30:29<11:40:14,  1.26s/it] 32%|███▏      | 15549/48845 [5:30:30<11:40:53,  1.26s/it] 32%|███▏      | 15550/48845 [5:30:31<11:40:44,  1.26s/it]                                                          {'loss': 1.9059, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15550/48845 [5:30:31<11:40:44,  1.26s/it] 32%|███▏      | 15551/48845 [5:30:32<11:41:35,  1.26s/it] 32%|███▏      | 15552/48845 [5:30:34<11:41:20,  1.26s/it] 32%|███▏      | 15553/48845 [5:30:35<11:40:11,  1.26s/it] 32%|███▏      | 15554/48845 [5:30:36<11:39:57,  1.26s/it] 32%|███▏      | 15555/48845 [5:30:37<11:39:42,  1.26s/it]                                                          {'loss': 2.0896, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15555/48845 [5:30:37<11:39:42,  1.26s/it] 32%|███▏      | 15556/48845 [5:30:39<11:39:30,  1.26s/it] 32%|███▏      | 15557/48845 [5:30:40<11:40:58,  1.26s/it] 32%|███▏      | 15558/48845 [5:30:41<11:40:06,  1.26s/it] 32%|███▏      | 15559/48845 [5:30:43<11:40:19,  1.26s/it] 32%|███▏      | 15560/48845 [5:30:44<11:40:07,  1.26s/it]                                                          {'loss': 2.0886, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15560/48845 [5:30:44<11:40:07,  1.26s/it] 32%|███▏      | 15561/48845 [5:30:45<11:40:18,  1.26s/it] 32%|███▏      | 15562/48845 [5:30:46<11:39:54,  1.26s/it] 32%|███▏      | 15563/48845 [5:30:48<11:39:24,  1.26s/it] 32%|███▏      | 15564/48845 [5:30:49<11:39:22,  1.26s/it] 32%|███▏      | 15565/48845 [5:30:50<11:39:27,  1.26s/it]                                                          {'loss': 2.126, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15565/48845 [5:30:50<11:39:27,  1.26s/it] 32%|███▏      | 15566/48845 [5:30:51<11:39:31,  1.26s/it] 32%|███▏      | 15567/48845 [5:30:53<11:40:04,  1.26s/it] 32%|███▏      | 15568/48845 [5:30:54<11:39:29,  1.26s/it] 32%|███▏      | 15569/48845 [5:30:55<11:38:38,  1.26s/it] 32%|███▏      | 15570/48845 [5:30:56<11:38:41,  1.26s/it]                                                          {'loss': 2.0788, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|██��▏      | 15570/48845 [5:30:56<11:38:41,  1.26s/it] 32%|███▏      | 15571/48845 [5:30:58<11:40:04,  1.26s/it] 32%|███▏      | 15572/48845 [5:30:59<11:39:21,  1.26s/it] 32%|███▏      | 15573/48845 [5:31:00<11:38:57,  1.26s/it] 32%|███▏      | 15574/48845 [5:31:01<11:38:06,  1.26s/it] 32%|███▏      | 15575/48845 [5:31:03<11:39:18,  1.26s/it]                                                          {'loss': 2.1214, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15575/48845 [5:31:03<11:39:18,  1.26s/it] 32%|███▏      | 15576/48845 [5:31:04<11:39:23,  1.26s/it] 32%|███▏      | 15577/48845 [5:31:05<11:39:20,  1.26s/it] 32%|███▏      | 15578/48845 [5:31:06<11:39:25,  1.26s/it] 32%|███▏      | 15579/48845 [5:31:08<11:39:03,  1.26s/it] 32%|███▏      | 15580/48845 [5:31:09<11:39:13,  1.26s/it]                                                          {'loss': 2.0249, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.59}
+ 32%|███▏      | 15580/48845 [5:31:09<11:39:13,  1.26s/it] 32%|███▏      | 15581/48845 [5:31:10<11:39:11,  1.26s/it] 32%|███▏      | 15582/48845 [5:31:12<11:38:41,  1.26s/it] 32%|███▏      | 15583/48845 [5:31:13<11:39:16,  1.26s/it] 32%|███▏      | 15584/48845 [5:31:14<11:38:58,  1.26s/it] 32%|███▏      | 15585/48845 [5:31:15<11:38:57,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15585/48845 [5:31:15<11:38:57,  1.26s/it] 32%|███▏      | 15586/48845 [5:31:17<11:39:29,  1.26s/it] 32%|███▏      | 15587/48845 [5:31:18<11:39:10,  1.26s/it] 32%|███▏      | 15588/48845 [5:31:19<11:39:27,  1.26s/it] 32%|███▏      | 15589/48845 [5:31:20<11:39:48,  1.26s/it] 32%|███▏      | 15590/48845 [5:31:22<11:39:09,  1.26s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15590/48845 [5:31:22<11:39:09,  1.26s/it] 32%|███▏      | 15591/48845 [5:31:23<11:40:28,  1.26s/it] 32%|███▏      | 15592/48845 [5:31:24<11:39:15,  1.26s/it] 32%|███▏      | 15593/48845 [5:31:25<11:38:59,  1.26s/it] 32%|███▏      | 15594/48845 [5:31:27<11:38:23,  1.26s/it] 32%|███▏      | 15595/48845 [5:31:28<11:38:10,  1.26s/it]                                                          {'loss': 2.1554, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15595/48845 [5:31:28<11:38:10,  1.26s/it] 32%|███▏      | 15596/48845 [5:31:29<11:38:30,  1.26s/it] 32%|███▏      | 15597/48845 [5:31:30<11:37:48,  1.26s/it] 32%|███▏      | 15598/48845 [5:31:32<11:37:22,  1.26s/it] 32%|███▏      | 15599/48845 [5:31:33<11:37:55,  1.26s/it] 32%|███▏      | 15600/48845 [5:31:34<11:37:26,  1.26s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15600/48845 [5:31:34<11:37:26,  1.26s/it] 32%|███▏      | 15601/48845 [5:31:38<18:18:17,  1.98s/it] 32%|███▏      | 15602/48845 [5:31:39<16:18:29,  1.77s/it] 32%|███▏      | 15603/48845 [5:31:40<14:54:16,  1.61s/it] 32%|███▏      | 15604/48845 [5:31:42<13:56:38,  1.51s/it] 32%|███▏      | 15605/48845 [5:31:43<13:14:57,  1.43s/it]                                                          {'loss': 2.1636, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15605/48845 [5:31:43<13:14:57,  1.43s/it] 32%|███▏      | 15606/48845 [5:31:44<12:46:21,  1.38s/it] 32%|███▏      | 15607/48845 [5:31:45<12:25:08,  1.35s/it] 32%|███▏      | 15608/48845 [5:31:47<12:10:59,  1.32s/it] 32%|███▏      | 15609/48845 [5:31:48<12:01:05,  1.30s/it] 32%|███▏      | 15610/48845 [5:31:49<11:53:59,  1.29s/it]                                                          {'loss': 2.1159, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15610/48845 [5:31:49<11:53:59,  1.29s/it] 32%|███▏      | 15611/48845 [5:31:50<11:49:03,  1.28s/it] 32%|███▏      | 15612/48845 [5:31:52<11:45:53,  1.27s/it] 32%|███▏      | 15613/48845 [5:31:53<11:44:07,  1.27s/it] 32%|███▏      | 15614/48845 [5:31:54<11:41:47,  1.27s/it] 32%|███▏      | 15615/48845 [5:31:56<11:40:00,  1.26s/it]                                                          {'loss': 1.9076, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15615/48845 [5:31:56<11:40:00,  1.26s/it] 32%|███▏      | 15616/48845 [5:31:57<11:38:49,  1.26s/it] 32%|███▏      | 15617/48845 [5:31:58<11:38:16,  1.26s/it] 32%|███▏      | 15618/48845 [5:31:59<11:37:57,  1.26s/it] 32%|███▏      | 15619/48845 [5:32:01<11:38:23,  1.26s/it] 32%|███▏      | 15620/48845 [5:32:02<11:37:49,  1.26s/it]                                                          {'loss': 2.231, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15620/48845 [5:32:02<11:37:49,  1.26s/it] 32%|███▏      | 15621/48845 [5:32:03<11:37:52,  1.26s/it] 32%|███▏      | 15622/48845 [5:32:04<11:38:07,  1.26s/it] 32%|███▏      | 15623/48845 [5:32:06<11:37:46,  1.26s/it] 32%|███▏      | 15624/48845 [5:32:07<11:38:19,  1.26s/it] 32%|███▏      | 15625/48845 [5:32:08<11:38:06,  1.26s/it]                                                          {'loss': 1.9731, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15625/48845 [5:32:08<11:38:06,  1.26s/it] 32%|███▏      | 15626/48845 [5:32:09<11:38:05,  1.26s/it] 32%|███▏      | 15627/48845 [5:32:11<11:36:51,  1.26s/it] 32%|███▏      | 15628/48845 [5:32:12<11:37:18,  1.26s/it] 32%|███▏      | 15629/48845 [5:32:13<11:36:56,  1.26s/it] 32%|███▏      | 15630/48845 [5:32:14<11:37:57,  1.26s/it]                                                          {'loss': 2.0141, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15630/48845 [5:32:14<11:37:57,  1.26s/it] 32%|███▏      | 15631/48845 [5:32:16<11:37:53,  1.26s/it] 32%|███▏      | 15632/48845 [5:32:17<11:36:37,  1.26s/it] 32%|███▏      | 15633/48845 [5:32:18<11:36:38,  1.26s/it] 32%|███▏      | 15634/48845 [5:32:19<11:38:35,  1.26s/it] 32%|███▏      | 15635/48845 [5:32:21<11:38:05,  1.26s/it]                                                          {'loss': 2.0125, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15635/48845 [5:32:21<11:38:05,  1.26s/it] 32%|███▏      | 15636/48845 [5:32:22<11:38:57,  1.26s/it] 32%|███▏      | 15637/48845 [5:32:23<11:39:04,  1.26s/it] 32%|███▏      | 15638/48845 [5:32:25<11:38:16,  1.26s/it] 32%|███▏      | 15639/48845 [5:32:26<11:37:59,  1.26s/it] 32%|███▏      | 15640/48845 [5:32:27<11:37:35,  1.26s/it]                                                          {'loss': 1.9071, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15640/48845 [5:32:27<11:37:35,  1.26s/it] 32%|███▏      | 15641/48845 [5:32:28<11:37:42,  1.26s/it] 32%|███▏      | 15642/48845 [5:32:30<11:37:50,  1.26s/it] 32%|███▏      | 15643/48845 [5:32:31<11:36:50,  1.26s/it] 32%|███▏      | 15644/48845 [5:32:32<11:36:41,  1.26s/it] 32%|███▏      | 15645/48845 [5:32:33<11:36:37,  1.26s/it]                                                          {'loss': 2.1813, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15645/48845 [5:32:33<11:36:37,  1.26s/it] 32%|███▏      | 15646/48845 [5:32:35<11:36:48,  1.26s/it] 32%|███▏      | 15647/48845 [5:32:36<11:37:00,  1.26s/it] 32%|███▏      | 15648/48845 [5:32:37<11:37:07,  1.26s/it] 32%|███▏      | 15649/48845 [5:32:38<11:36:46,  1.26s/it] 32%|███▏      | 15650/48845 [5:32:40<11:36:53,  1.26s/it]                                                          {'loss': 2.1552, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15650/48845 [5:32:40<11:36:53,  1.26s/it] 32%|███▏      | 15651/48845 [5:32:41<11:36:42,  1.26s/it] 32%|███▏      | 15652/48845 [5:32:42<11:36:52,  1.26s/it] 32%|███▏      | 15653/48845 [5:32:43<11:37:07,  1.26s/it] 32%|███▏      | 15654/48845 [5:32:45<11:37:31,  1.26s/it] 32%|███▏      | 15655/48845 [5:32:46<11:36:58,  1.26s/it]                                                          {'loss': 2.1214, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15655/48845 [5:32:46<11:36:58,  1.26s/it] 32%|███▏      | 15656/48845 [5:32:47<11:36:55,  1.26s/it] 32%|███▏      | 15657/48845 [5:32:48<11:37:22,  1.26s/it] 32%|███▏      | 15658/48845 [5:32:50<11:37:08,  1.26s/it] 32%|███▏      | 15659/48845 [5:32:51<11:37:20,  1.26s/it] 32%|███▏      | 15660/48845 [5:32:52<11:36:00,  1.26s/it]                                                          {'loss': 2.0115, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15660/48845 [5:32:52<11:36:00,  1.26s/it] 32%|███▏      | 15661/48845 [5:32:53<11:37:33,  1.26s/it] 32%|███▏      | 15662/48845 [5:32:55<11:37:35,  1.26s/it] 32%|███▏      | 15663/48845 [5:32:56<11:37:08,  1.26s/it] 32%|███▏      | 15664/48845 [5:32:57<11:36:58,  1.26s/it] 32%|███▏      | 15665/48845 [5:32:59<11:36:47,  1.26s/it]                                                          {'loss': 1.9399, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15665/48845 [5:32:59<11:36:47,  1.26s/it] 32%|███▏      | 15666/48845 [5:33:00<11:37:49,  1.26s/it] 32%|███▏      | 15667/48845 [5:33:01<11:37:35,  1.26s/it] 32%|███▏      | 15668/48845 [5:33:02<11:36:47,  1.26s/it] 32%|███▏      | 15669/48845 [5:33:04<11:36:43,  1.26s/it] 32%|███▏      | 15670/48845 [5:33:05<11:37:10,  1.26s/it]                                                          {'loss': 1.908, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15670/48845 [5:33:05<11:37:10,  1.26s/it] 32%|███▏      | 15671/48845 [5:33:06<11:37:02,  1.26s/it] 32%|███▏      | 15672/48845 [5:33:07<11:36:46,  1.26s/it] 32%|███▏      | 15673/48845 [5:33:09<11:36:35,  1.26s/it] 32%|███▏      | 15674/48845 [5:33:10<11:36:37,  1.26s/it] 32%|███▏      | 15675/48845 [5:33:11<11:36:23,  1.26s/it]                                                          {'loss': 1.9737, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.6}
+ 32%|███▏      | 15675/48845 [5:33:11<11:36:23,  1.26s/it] 32%|███▏      | 15676/48845 [5:33:12<11:37:16,  1.26s/it] 32%|███▏      | 15677/48845 [5:33:14<11:37:13,  1.26s/it] 32%|███▏      | 15678/48845 [5:33:15<11:36:50,  1.26s/it] 32%|███▏      | 15679/48845 [5:33:16<11:35:46,  1.26s/it] 32%|███▏      | 15680/48845 [5:33:17<11:37:09,  1.26s/it]                                                          {'loss': 1.9505, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15680/48845 [5:33:17<11:37:09,  1.26s/it] 32%|███▏      | 15681/48845 [5:33:19<11:37:06,  1.26s/it] 32%|███▏      | 15682/48845 [5:33:20<11:36:40,  1.26s/it] 32%|███▏      | 15683/48845 [5:33:21<11:35:32,  1.26s/it] 32%|███▏      | 15684/48845 [5:33:22<11:35:23,  1.26s/it] 32%|███▏      | 15685/48845 [5:33:24<11:35:50,  1.26s/it]                                                          {'loss': 2.0251, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15685/48845 [5:33:24<11:35:50,  1.26s/it] 32%|███▏      | 15686/48845 [5:33:25<11:35:57,  1.26s/it] 32%|███▏      | 15687/48845 [5:33:26<11:35:30,  1.26s/it] 32%|███▏      | 15688/48845 [5:33:27<11:35:46,  1.26s/it] 32%|███▏      | 15689/48845 [5:33:29<11:35:39,  1.26s/it] 32%|███▏      | 15690/48845 [5:33:30<11:36:23,  1.26s/it]                                                          {'loss': 1.9891, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15690/48845 [5:33:30<11:36:23,  1.26s/it] 32%|███▏      | 15691/48845 [5:33:31<11:35:56,  1.26s/it] 32%|███▏      | 15692/48845 [5:33:33<11:35:40,  1.26s/it] 32%|███▏      | 15693/48845 [5:33:34<11:35:03,  1.26s/it] 32%|███▏      | 15694/48845 [5:33:35<11:35:24,  1.26s/it] 32%|███▏      | 15695/48845 [5:33:36<11:35:32,  1.26s/it]                                                          {'loss': 2.0073, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15695/48845 [5:33:36<11:35:32,  1.26s/it] 32%|███▏      | 15696/48845 [5:33:38<11:35:41,  1.26s/it] 32%|███▏      | 15697/48845 [5:33:39<11:35:59,  1.26s/it] 32%|███▏      | 15698/48845 [5:33:40<11:35:12,  1.26s/it] 32%|███▏      | 15699/48845 [5:33:41<11:35:15,  1.26s/it] 32%|███▏      | 15700/48845 [5:33:43<11:35:02,  1.26s/it]                                                          {'loss': 1.9321, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15700/48845 [5:33:43<11:35:02,  1.26s/it] 32%|███▏      | 15701/48845 [5:33:44<11:35:12,  1.26s/it] 32%|███▏      | 15702/48845 [5:33:45<11:35:15,  1.26s/it] 32%|███▏      | 15703/48845 [5:33:46<11:35:25,  1.26s/it] 32%|███▏      | 15704/48845 [5:33:48<11:35:01,  1.26s/it] 32%|███▏      | 15705/48845 [5:33:49<11:35:05,  1.26s/it]                                                          {'loss': 1.9645, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15705/48845 [5:33:49<11:35:05,  1.26s/it] 32%|███▏      | 15706/48845 [5:33:50<11:35:20,  1.26s/it] 32%|███▏      | 15707/48845 [5:33:51<11:36:02,  1.26s/it] 32%|███▏      | 15708/48845 [5:33:53<11:35:15,  1.26s/it] 32%|███▏      | 15709/48845 [5:33:54<11:34:58,  1.26s/it] 32%|███▏      | 15710/48845 [5:33:55<11:34:32,  1.26s/it]                                                          {'loss': 2.0639, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15710/48845 [5:33:55<11:34:32,  1.26s/it] 32%|███▏      | 15711/48845 [5:33:56<11:34:36,  1.26s/it] 32%|███▏      | 15712/48845 [5:33:58<11:34:54,  1.26s/it] 32%|███▏      | 15713/48845 [5:33:59<11:34:41,  1.26s/it] 32%|███▏      | 15714/48845 [5:34:00<11:35:03,  1.26s/it] 32%|███▏      | 15715/48845 [5:34:01<11:34:53,  1.26s/it]                                                          {'loss': 2.054, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15715/48845 [5:34:01<11:34:53,  1.26s/it] 32%|███▏      | 15716/48845 [5:34:03<11:34:55,  1.26s/it] 32%|███▏      | 15717/48845 [5:34:04<11:34:12,  1.26s/it] 32%|███▏      | 15718/48845 [5:34:05<11:34:32,  1.26s/it] 32%|███▏      | 15719/48845 [5:34:07<11:34:35,  1.26s/it] 32%|███▏      | 15720/48845 [5:34:08<11:33:33,  1.26s/it]                                                          {'loss': 2.2062, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15720/48845 [5:34:08<11:33:33,  1.26s/it] 32%|███▏      | 15721/48845 [5:34:09<11:34:05,  1.26s/it] 32%|███▏      | 15722/48845 [5:34:10<11:34:09,  1.26s/it] 32%|███▏      | 15723/48845 [5:34:12<11:34:57,  1.26s/it] 32%|███▏      | 15724/48845 [5:34:13<11:35:43,  1.26s/it] 32%|███▏      | 15725/48845 [5:34:14<11:34:46,  1.26s/it]                                                          {'loss': 2.0636, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15725/48845 [5:34:14<11:34:46,  1.26s/it] 32%|███▏      | 15726/48845 [5:34:15<11:36:01,  1.26s/it] 32%|███▏      | 15727/48845 [5:34:17<11:36:04,  1.26s/it] 32%|███▏      | 15728/48845 [5:34:18<11:35:44,  1.26s/it] 32%|███▏      | 15729/48845 [5:34:19<11:35:14,  1.26s/it] 32%|███▏      | 15730/48845 [5:34:20<11:34:53,  1.26s/it]                                                          {'loss': 2.1434, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15730/48845 [5:34:20<11:34:53,  1.26s/it] 32%|███▏      | 15731/48845 [5:34:22<11:35:14,  1.26s/it] 32%|███▏      | 15732/48845 [5:34:23<11:34:50,  1.26s/it] 32%|███▏      | 15733/48845 [5:34:24<11:34:13,  1.26s/it] 32%|███▏      | 15734/48845 [5:34:25<11:35:27,  1.26s/it] 32%|███▏      | 15735/48845 [5:34:27<11:34:58,  1.26s/it]                                                          {'loss': 2.0136, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15735/48845 [5:34:27<11:34:58,  1.26s/it] 32%|███▏      | 15736/48845 [5:34:28<11:34:56,  1.26s/it] 32%|███▏      | 15737/48845 [5:34:29<11:34:23,  1.26s/it] 32%|███▏      | 15738/48845 [5:34:30<11:34:31,  1.26s/it] 32%|███▏      | 15739/48845 [5:34:32<11:34:31,  1.26s/it] 32%|███▏      | 15740/48845 [5:34:33<11:34:07,  1.26s/it]                                                          {'loss': 2.0672, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15740/48845 [5:34:33<11:34:07,  1.26s/it] 32%|███▏      | 15741/48845 [5:34:34<11:34:57,  1.26s/it] 32%|███▏      | 15742/48845 [5:34:35<11:34:48,  1.26s/it] 32%|███▏      | 15743/48845 [5:34:37<11:35:02,  1.26s/it] 32%|███▏      | 15744/48845 [5:34:38<11:35:43,  1.26s/it] 32%|███▏      | 15745/48845 [5:34:39<11:35:36,  1.26s/it]                                                          {'loss': 2.0666, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15745/48845 [5:34:39<11:35:36,  1.26s/it] 32%|███▏      | 15746/48845 [5:34:41<11:35:40,  1.26s/it] 32%|███▏      | 15747/48845 [5:34:42<11:34:25,  1.26s/it] 32%|███▏      | 15748/48845 [5:34:43<11:34:36,  1.26s/it] 32%|███▏      | 15749/48845 [5:34:44<11:35:11,  1.26s/it] 32%|███▏      | 15750/48845 [5:34:46<11:35:11,  1.26s/it]                                                          {'loss': 2.0798, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15750/48845 [5:34:46<11:35:11,  1.26s/it] 32%|███▏      | 15751/48845 [5:34:47<11:35:33,  1.26s/it] 32%|███▏      | 15752/48845 [5:34:48<11:34:45,  1.26s/it] 32%|███▏      | 15753/48845 [5:34:49<11:34:49,  1.26s/it] 32%|███▏      | 15754/48845 [5:34:51<11:34:48,  1.26s/it] 32%|███▏      | 15755/48845 [5:34:52<11:35:13,  1.26s/it]                                                          {'loss': 2.2066, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15755/48845 [5:34:52<11:35:13,  1.26s/it] 32%|███▏      | 15756/48845 [5:34:53<11:34:53,  1.26s/it] 32%|███▏      | 15757/48845 [5:34:54<11:34:40,  1.26s/it] 32%|███▏      | 15758/48845 [5:34:56<11:34:09,  1.26s/it] 32%|███▏      | 15759/48845 [5:34:57<11:34:36,  1.26s/it] 32%|███▏      | 15760/48845 [5:34:58<11:34:57,  1.26s/it]                                                          {'loss': 2.2586, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15760/48845 [5:34:58<11:34:57,  1.26s/it] 32%|███▏      | 15761/48845 [5:34:59<11:35:29,  1.26s/it] 32%|███▏      | 15762/48845 [5:35:01<11:35:15,  1.26s/it] 32%|███▏      | 15763/48845 [5:35:02<11:35:25,  1.26s/it] 32%|███▏      | 15764/48845 [5:35:03<11:35:41,  1.26s/it] 32%|███▏      | 15765/48845 [5:35:04<11:35:09,  1.26s/it]                                                          {'loss': 2.1336, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15765/48845 [5:35:04<11:35:09,  1.26s/it] 32%|███▏      | 15766/48845 [5:35:06<11:34:28,  1.26s/it] 32%|███▏      | 15767/48845 [5:35:07<11:35:20,  1.26s/it] 32%|███▏      | 15768/48845 [5:35:08<11:35:12,  1.26s/it] 32%|███▏      | 15769/48845 [5:35:10<11:34:25,  1.26s/it] 32%|███▏      | 15770/48845 [5:35:11<11:34:24,  1.26s/it]                                                          {'loss': 1.9396, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15770/48845 [5:35:11<11:34:24,  1.26s/it] 32%|███▏      | 15771/48845 [5:35:12<11:34:44,  1.26s/it] 32%|███▏      | 15772/48845 [5:35:13<11:34:53,  1.26s/it] 32%|███▏      | 15773/48845 [5:35:15<11:35:10,  1.26s/it] 32%|███▏      | 15774/48845 [5:35:16<11:34:40,  1.26s/it] 32%|███▏      | 15775/48845 [5:35:17<11:34:07,  1.26s/it]                                                          {'loss': 2.0885, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.61}
+ 32%|███▏      | 15775/48845 [5:35:17<11:34:07,  1.26s/it] 32%|███▏      | 15776/48845 [5:35:18<11:34:30,  1.26s/it] 32%|███▏      | 15777/48845 [5:35:20<11:34:49,  1.26s/it] 32%|███▏      | 15778/48845 [5:35:21<11:34:44,  1.26s/it] 32%|███▏      | 15779/48845 [5:35:22<11:34:18,  1.26s/it] 32%|███▏      | 15780/48845 [5:35:23<11:33:56,  1.26s/it]                                                          {'loss': 2.0826, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15780/48845 [5:35:23<11:33:56,  1.26s/it] 32%|███▏      | 15781/48845 [5:35:25<11:33:52,  1.26s/it] 32%|███▏      | 15782/48845 [5:35:26<11:34:00,  1.26s/it] 32%|███▏      | 15783/48845 [5:35:27<11:34:15,  1.26s/it] 32%|███▏      | 15784/48845 [5:35:28<11:34:50,  1.26s/it] 32%|███▏      | 15785/48845 [5:35:30<11:35:25,  1.26s/it]                                                          {'loss': 1.9544, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15785/48845 [5:35:30<11:35:25,  1.26s/it] 32%|███▏      | 15786/48845 [5:35:31<11:34:41,  1.26s/it] 32%|███▏      | 15787/48845 [5:35:32<11:34:13,  1.26s/it] 32%|███▏      | 15788/48845 [5:35:33<11:34:53,  1.26s/it] 32%|███▏      | 15789/48845 [5:35:35<11:34:25,  1.26s/it] 32%|███▏      | 15790/48845 [5:35:36<11:34:56,  1.26s/it]                                                          {'loss': 2.02, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15790/48845 [5:35:36<11:34:56,  1.26s/it] 32%|███▏      | 15791/48845 [5:35:37<11:34:26,  1.26s/it] 32%|███▏      | 15792/48845 [5:35:38<11:33:51,  1.26s/it] 32%|███▏      | 15793/48845 [5:35:40<11:33:57,  1.26s/it] 32%|███▏      | 15794/48845 [5:35:41<11:34:00,  1.26s/it] 32%|███▏      | 15795/48845 [5:35:42<11:34:27,  1.26s/it]                                                          {'loss': 2.0513, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15795/48845 [5:35:42<11:34:27,  1.26s/it] 32%|███▏      | 15796/48845 [5:35:44<11:34:41,  1.26s/it] 32%|███▏      | 15797/48845 [5:35:45<11:34:03,  1.26s/it] 32%|███▏      | 15798/48845 [5:35:46<11:33:45,  1.26s/it] 32%|███▏      | 15799/48845 [5:35:47<11:33:31,  1.26s/it] 32%|███▏      | 15800/48845 [5:35:49<11:34:13,  1.26s/it]                                                          {'loss': 1.9613, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15800/48845 [5:35:49<11:34:13,  1.26s/it] 32%|███▏      | 15801/48845 [5:35:52<18:25:02,  2.01s/it] 32%|███▏      | 15802/48845 [5:35:54<16:21:24,  1.78s/it] 32%|███▏      | 15803/48845 [5:35:55<14:55:41,  1.63s/it] 32%|███▏      | 15804/48845 [5:35:56<13:54:32,  1.52s/it] 32%|███▏      | 15805/48845 [5:35:57<13:11:36,  1.44s/it]                                                          {'loss': 2.0155, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15805/48845 [5:35:57<13:11:36,  1.44s/it] 32%|███▏      | 15806/48845 [5:35:59<12:43:34,  1.39s/it] 32%|███▏      | 15807/48845 [5:36:00<12:22:35,  1.35s/it] 32%|███▏      | 15808/48845 [5:36:01<12:24:12,  1.35s/it] 32%|███▏      | 15809/48845 [5:36:03<12:09:13,  1.32s/it] 32%|███▏      | 15810/48845 [5:36:04<11:58:47,  1.31s/it]                                                          {'loss': 2.0856, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15810/48845 [5:36:04<11:58:47,  1.31s/it] 32%|███▏      | 15811/48845 [5:36:05<11:50:47,  1.29s/it] 32%|███▏      | 15812/48845 [5:36:06<11:45:40,  1.28s/it] 32%|███▏      | 15813/48845 [5:36:08<11:41:24,  1.27s/it] 32%|███▏      | 15814/48845 [5:36:09<11:38:21,  1.27s/it] 32%|███▏      | 15815/48845 [5:36:10<11:36:20,  1.26s/it]                                                          {'loss': 2.0757, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15815/48845 [5:36:10<11:36:20,  1.26s/it] 32%|███▏      | 15816/48845 [5:36:11<11:35:23,  1.26s/it] 32%|███▏      | 15817/48845 [5:36:13<11:35:06,  1.26s/it] 32%|███▏      | 15818/48845 [5:36:14<11:33:33,  1.26s/it] 32%|███▏      | 15819/48845 [5:36:15<11:33:27,  1.26s/it] 32%|███▏      | 15820/48845 [5:36:16<11:33:49,  1.26s/it]                                                          {'loss': 2.0124, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15820/48845 [5:36:16<11:33:49,  1.26s/it] 32%|███▏      | 15821/48845 [5:36:18<11:33:02,  1.26s/it] 32%|███▏      | 15822/48845 [5:36:19<11:33:04,  1.26s/it] 32%|███▏      | 15823/48845 [5:36:20<11:32:47,  1.26s/it] 32%|███▏      | 15824/48845 [5:36:21<11:32:29,  1.26s/it] 32%|███▏      | 15825/48845 [5:36:23<11:32:53,  1.26s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15825/48845 [5:36:23<11:32:53,  1.26s/it] 32%|███▏      | 15826/48845 [5:36:24<11:33:56,  1.26s/it] 32%|███▏      | 15827/48845 [5:36:25<11:34:09,  1.26s/it] 32%|███▏      | 15828/48845 [5:36:26<11:33:14,  1.26s/it] 32%|███▏      | 15829/48845 [5:36:28<11:33:39,  1.26s/it] 32%|███▏      | 15830/48845 [5:36:29<11:32:57,  1.26s/it]                                                          {'loss': 2.1715, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15830/48845 [5:36:29<11:32:57,  1.26s/it] 32%|███▏      | 15831/48845 [5:36:30<11:32:54,  1.26s/it] 32%|███▏      | 15832/48845 [5:36:31<11:33:35,  1.26s/it] 32%|███▏      | 15833/48845 [5:36:33<11:32:28,  1.26s/it] 32%|███▏      | 15834/48845 [5:36:34<11:32:36,  1.26s/it] 32%|███▏      | 15835/48845 [5:36:35<11:32:07,  1.26s/it]                                                          {'loss': 1.9067, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15835/48845 [5:36:35<11:32:07,  1.26s/it] 32%|███▏      | 15836/48845 [5:36:36<11:32:17,  1.26s/it] 32%|███▏      | 15837/48845 [5:36:38<11:33:05,  1.26s/it] 32%|███▏      | 15838/48845 [5:36:39<11:32:52,  1.26s/it] 32%|███▏      | 15839/48845 [5:36:40<11:33:14,  1.26s/it] 32%|███▏      | 15840/48845 [5:36:42<11:32:36,  1.26s/it]                                                          {'loss': 2.0786, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15840/48845 [5:36:42<11:32:36,  1.26s/it] 32%|███▏      | 15841/48845 [5:36:43<11:32:01,  1.26s/it] 32%|███▏      | 15842/48845 [5:36:44<12:39:31,  1.38s/it] 32%|███▏      | 15843/48845 [5:36:46<12:19:11,  1.34s/it] 32%|███▏      | 15844/48845 [5:36:47<12:05:03,  1.32s/it] 32%|███▏      | 15845/48845 [5:36:48<11:55:12,  1.30s/it]                                                          {'loss': 2.0382, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15845/48845 [5:36:48<11:55:12,  1.30s/it] 32%|███▏      | 15846/48845 [5:36:49<11:48:41,  1.29s/it] 32%|███▏      | 15847/48845 [5:36:51<11:44:38,  1.28s/it] 32%|███▏      | 15848/48845 [5:36:52<11:40:32,  1.27s/it] 32%|███▏      | 15849/48845 [5:36:53<11:37:57,  1.27s/it] 32%|███▏      | 15850/48845 [5:36:55<11:36:36,  1.27s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15850/48845 [5:36:55<11:36:36,  1.27s/it] 32%|███▏      | 15851/48845 [5:36:56<11:35:15,  1.26s/it] 32%|███▏      | 15852/48845 [5:36:57<11:34:25,  1.26s/it] 32%|███▏      | 15853/48845 [5:36:58<11:33:57,  1.26s/it] 32%|███▏      | 15854/48845 [5:37:00<11:33:42,  1.26s/it] 32%|███▏      | 15855/48845 [5:37:01<11:32:50,  1.26s/it]                                                          {'loss': 1.9672, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15855/48845 [5:37:01<11:32:50,  1.26s/it] 32%|███▏      | 15856/48845 [5:37:02<11:32:53,  1.26s/it] 32%|███▏      | 15857/48845 [5:37:03<11:33:20,  1.26s/it] 32%|███▏      | 15858/48845 [5:37:05<11:34:10,  1.26s/it] 32%|███▏      | 15859/48845 [5:37:06<11:33:43,  1.26s/it] 32%|███▏      | 15860/48845 [5:37:07<11:32:35,  1.26s/it]                                                          {'loss': 1.9195, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15860/48845 [5:37:07<11:32:35,  1.26s/it] 32%|███▏      | 15861/48845 [5:37:08<11:32:39,  1.26s/it] 32%|███▏      | 15862/48845 [5:37:10<11:33:26,  1.26s/it] 32%|███▏      | 15863/48845 [5:37:11<11:32:24,  1.26s/it] 32%|███▏      | 15864/48845 [5:37:12<11:32:45,  1.26s/it] 32%|███▏      | 15865/48845 [5:37:13<11:32:54,  1.26s/it]                                                          {'loss': 2.192, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15865/48845 [5:37:13<11:32:54,  1.26s/it] 32%|███▏      | 15866/48845 [5:37:15<11:32:16,  1.26s/it] 32%|███▏      | 15867/48845 [5:37:16<11:32:26,  1.26s/it] 32%|███▏      | 15868/48845 [5:37:17<11:31:29,  1.26s/it] 32%|███▏      | 15869/48845 [5:37:18<11:31:58,  1.26s/it] 32%|███▏      | 15870/48845 [5:37:20<11:31:27,  1.26s/it]                                                          {'loss': 2.0382, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.62}
+ 32%|███▏      | 15870/48845 [5:37:20<11:31:27,  1.26s/it] 32%|███▏      | 15871/48845 [5:37:21<11:31:47,  1.26s/it] 32%|███▏      | 15872/48845 [5:37:22<11:31:59,  1.26s/it] 32%|███▏      | 15873/48845 [5:37:24<11:32:02,  1.26s/it] 32%|███▏      | 15874/48845 [5:37:25<11:32:22,  1.26s/it] 33%|███▎      | 15875/48845 [5:37:26<11:32:16,  1.26s/it]                                                          {'loss': 2.0025, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15875/48845 [5:37:26<11:32:16,  1.26s/it] 33%|███▎      | 15876/48845 [5:37:27<11:32:04,  1.26s/it] 33%|███▎      | 15877/48845 [5:37:29<11:32:44,  1.26s/it] 33%|███▎      | 15878/48845 [5:37:30<11:32:23,  1.26s/it] 33%|███▎      | 15879/48845 [5:37:31<11:32:02,  1.26s/it] 33%|███▎      | 15880/48845 [5:37:32<11:31:56,  1.26s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15880/48845 [5:37:32<11:31:56,  1.26s/it] 33%|███▎      | 15881/48845 [5:37:34<11:32:41,  1.26s/it] 33%|███▎      | 15882/48845 [5:37:35<11:32:35,  1.26s/it] 33%|███▎      | 15883/48845 [5:37:36<11:32:27,  1.26s/it] 33%|███▎      | 15884/48845 [5:37:37<11:32:14,  1.26s/it] 33%|███▎      | 15885/48845 [5:37:39<11:32:26,  1.26s/it]                                                          {'loss': 2.104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15885/48845 [5:37:39<11:32:26,  1.26s/it] 33%|███▎      | 15886/48845 [5:37:40<11:32:41,  1.26s/it] 33%|███▎      | 15887/48845 [5:37:41<11:32:35,  1.26s/it] 33%|███▎      | 15888/48845 [5:37:42<11:32:37,  1.26s/it] 33%|███▎      | 15889/48845 [5:37:44<11:32:35,  1.26s/it] 33%|███▎      | 15890/48845 [5:37:45<11:32:39,  1.26s/it]                                                          {'loss': 2.2489, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15890/48845 [5:37:45<11:32:39,  1.26s/it] 33%|███▎      | 15891/48845 [5:37:46<11:32:40,  1.26s/it] 33%|███▎      | 15892/48845 [5:37:47<11:32:02,  1.26s/it] 33%|███▎      | 15893/48845 [5:37:49<11:32:42,  1.26s/it] 33%|███▎      | 15894/48845 [5:37:50<11:32:33,  1.26s/it] 33%|███▎      | 15895/48845 [5:37:51<11:32:22,  1.26s/it]                                                          {'loss': 1.9473, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15895/48845 [5:37:51<11:32:22,  1.26s/it] 33%|███▎      | 15896/48845 [5:37:52<11:31:47,  1.26s/it] 33%|███▎      | 15897/48845 [5:37:54<11:32:03,  1.26s/it] 33%|███▎      | 15898/48845 [5:37:55<11:31:13,  1.26s/it] 33%|███▎      | 15899/48845 [5:37:56<11:30:58,  1.26s/it] 33%|███▎      | 15900/48845 [5:37:58<11:31:19,  1.26s/it]                                                          {'loss': 2.0915, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15900/48845 [5:37:58<11:31:19,  1.26s/it] 33%|███▎      | 15901/48845 [5:37:59<11:31:39,  1.26s/it] 33%|███▎      | 15902/48845 [5:38:00<11:31:00,  1.26s/it] 33%|███▎      | 15903/48845 [5:38:01<11:31:12,  1.26s/it] 33%|███▎      | 15904/48845 [5:38:03<11:31:12,  1.26s/it] 33%|███▎      | 15905/48845 [5:38:04<11:31:18,  1.26s/it]                                                          {'loss': 2.08, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15905/48845 [5:38:04<11:31:18,  1.26s/it] 33%|███▎      | 15906/48845 [5:38:05<11:31:18,  1.26s/it] 33%|███▎      | 15907/48845 [5:38:06<11:31:53,  1.26s/it] 33%|███▎      | 15908/48845 [5:38:08<11:31:38,  1.26s/it] 33%|███▎      | 15909/48845 [5:38:09<11:31:39,  1.26s/it] 33%|███▎      | 15910/48845 [5:38:10<11:31:44,  1.26s/it]                                                          {'loss': 1.9545, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15910/48845 [5:38:10<11:31:44,  1.26s/it] 33%|███▎      | 15911/48845 [5:38:11<11:31:40,  1.26s/it] 33%|███▎      | 15912/48845 [5:38:13<11:31:47,  1.26s/it] 33%|███▎      | 15913/48845 [5:38:14<11:32:10,  1.26s/it] 33%|███▎      | 15914/48845 [5:38:15<11:32:16,  1.26s/it] 33%|███▎      | 15915/48845 [5:38:16<11:31:21,  1.26s/it]                                                          {'loss': 2.0415, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15915/48845 [5:38:16<11:31:21,  1.26s/it] 33%|███▎      | 15916/48845 [5:38:18<11:33:03,  1.26s/it] 33%|███▎      | 15917/48845 [5:38:19<11:32:25,  1.26s/it] 33%|███▎      | 15918/48845 [5:38:20<11:32:06,  1.26s/it] 33%|███▎      | 15919/48845 [5:38:21<11:32:03,  1.26s/it] 33%|███▎      | 15920/48845 [5:38:23<11:31:54,  1.26s/it]                                                          {'loss': 2.0974, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15920/48845 [5:38:23<11:31:54,  1.26s/it] 33%|███▎      | 15921/48845 [5:38:24<11:32:33,  1.26s/it] 33%|███▎      | 15922/48845 [5:38:25<11:32:06,  1.26s/it] 33%|███▎      | 15923/48845 [5:38:27<11:32:15,  1.26s/it] 33%|███▎      | 15924/48845 [5:38:28<11:31:13,  1.26s/it] 33%|███▎      | 15925/48845 [5:38:29<11:31:14,  1.26s/it]                                                          {'loss': 2.0458, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15925/48845 [5:38:29<11:31:14,  1.26s/it] 33%|███▎      | 15926/48845 [5:38:30<11:31:04,  1.26s/it] 33%|███▎      | 15927/48845 [5:38:32<11:31:14,  1.26s/it] 33%|███▎      | 15928/48845 [5:38:33<11:32:13,  1.26s/it] 33%|███▎      | 15929/48845 [5:38:34<11:31:30,  1.26s/it] 33%|███▎      | 15930/48845 [5:38:35<11:31:54,  1.26s/it]                                                          {'loss': 2.0741, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15930/48845 [5:38:35<11:31:54,  1.26s/it] 33%|███▎      | 15931/48845 [5:38:37<11:31:45,  1.26s/it] 33%|███▎      | 15932/48845 [5:38:38<11:31:03,  1.26s/it] 33%|███▎      | 15933/48845 [5:38:39<11:31:18,  1.26s/it] 33%|███▎      | 15934/48845 [5:38:40<11:31:07,  1.26s/it] 33%|███▎      | 15935/48845 [5:38:42<11:30:35,  1.26s/it]                                                          {'loss': 2.2569, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15935/48845 [5:38:42<11:30:35,  1.26s/it] 33%|███▎      | 15936/48845 [5:38:43<11:30:30,  1.26s/it] 33%|███▎      | 15937/48845 [5:38:44<11:30:34,  1.26s/it] 33%|███▎      | 15938/48845 [5:38:45<11:30:51,  1.26s/it] 33%|███▎      | 15939/48845 [5:38:47<11:30:21,  1.26s/it] 33%|███▎      | 15940/48845 [5:38:48<11:31:03,  1.26s/it]                                                          {'loss': 2.0678, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15940/48845 [5:38:48<11:31:03,  1.26s/it] 33%|███▎      | 15941/48845 [5:38:49<11:30:51,  1.26s/it] 33%|███▎      | 15942/48845 [5:38:50<11:30:35,  1.26s/it] 33%|███▎      | 15943/48845 [5:38:52<11:31:18,  1.26s/it] 33%|███▎      | 15944/48845 [5:38:53<11:30:56,  1.26s/it] 33%|███▎      | 15945/48845 [5:38:54<11:31:17,  1.26s/it]                                                          {'loss': 2.0566, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15945/48845 [5:38:54<11:31:17,  1.26s/it] 33%|███▎      | 15946/48845 [5:38:56<11:31:51,  1.26s/it] 33%|███▎      | 15947/48845 [5:38:57<11:31:26,  1.26s/it] 33%|███▎      | 15948/48845 [5:38:58<11:31:24,  1.26s/it] 33%|███▎      | 15949/48845 [5:38:59<11:30:56,  1.26s/it] 33%|███▎      | 15950/48845 [5:39:01<11:30:00,  1.26s/it]                                                          {'loss': 2.0175, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15950/48845 [5:39:01<11:30:00,  1.26s/it] 33%|███▎      | 15951/48845 [5:39:02<11:30:41,  1.26s/it] 33%|███▎      | 15952/48845 [5:39:03<11:31:17,  1.26s/it] 33%|███▎      | 15953/48845 [5:39:04<11:31:02,  1.26s/it] 33%|███▎      | 15954/48845 [5:39:06<11:30:55,  1.26s/it] 33%|���██▎      | 15955/48845 [5:39:07<11:30:42,  1.26s/it]                                                          {'loss': 2.062, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15955/48845 [5:39:07<11:30:42,  1.26s/it] 33%|███▎      | 15956/48845 [5:39:08<11:30:52,  1.26s/it] 33%|███▎      | 15957/48845 [5:39:09<11:31:00,  1.26s/it] 33%|███▎      | 15958/48845 [5:39:11<11:31:08,  1.26s/it] 33%|███▎      | 15959/48845 [5:39:12<11:30:10,  1.26s/it] 33%|███▎      | 15960/48845 [5:39:13<11:29:42,  1.26s/it]                                                          {'loss': 2.0361, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15960/48845 [5:39:13<11:29:42,  1.26s/it] 33%|███▎      | 15961/48845 [5:39:14<11:29:59,  1.26s/it] 33%|███▎      | 15962/48845 [5:39:16<11:29:54,  1.26s/it] 33%|███▎      | 15963/48845 [5:39:17<11:29:29,  1.26s/it] 33%|███▎      | 15964/48845 [5:39:18<11:29:48,  1.26s/it] 33%|███▎      | 15965/48845 [5:39:19<11:29:55,  1.26s/it]                                                          {'loss': 2.2374, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15965/48845 [5:39:19<11:29:55,  1.26s/it] 33%|███▎      | 15966/48845 [5:39:21<11:29:53,  1.26s/it] 33%|███▎      | 15967/48845 [5:39:22<11:29:30,  1.26s/it] 33%|███▎      | 15968/48845 [5:39:23<11:29:36,  1.26s/it] 33%|███▎      | 15969/48845 [5:39:24<11:29:28,  1.26s/it] 33%|███▎      | 15970/48845 [5:39:26<11:30:23,  1.26s/it]                                                          {'loss': 2.1876, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.63}
+ 33%|███▎      | 15970/48845 [5:39:26<11:30:23,  1.26s/it] 33%|███▎      | 15971/48845 [5:39:27<11:29:44,  1.26s/it] 33%|███▎      | 15972/48845 [5:39:28<11:29:34,  1.26s/it] 33%|███▎      | 15973/48845 [5:39:30<11:30:26,  1.26s/it] 33%|███▎      | 15974/48845 [5:39:31<11:29:55,  1.26s/it] 33%|███▎      | 15975/48845 [5:39:32<11:29:36,  1.26s/it]                                                          {'loss': 2.0221, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 15975/48845 [5:39:32<11:29:36,  1.26s/it] 33%|███▎      | 15976/48845 [5:39:33<11:31:38,  1.26s/it] 33%|███▎      | 15977/48845 [5:39:35<11:31:04,  1.26s/it] 33%|███▎      | 15978/48845 [5:39:36<11:30:25,  1.26s/it] 33%|███▎      | 15979/48845 [5:39:37<11:30:08,  1.26s/it] 33%|███▎      | 15980/48845 [5:39:38<11:30:28,  1.26s/it]                                                          {'loss': 2.0913, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 15980/48845 [5:39:38<11:30:28,  1.26s/it] 33%|███▎      | 15981/48845 [5:39:40<11:32:03,  1.26s/it] 33%|███▎      | 15982/48845 [5:39:41<11:31:20,  1.26s/it] 33%|███▎      | 15983/48845 [5:39:42<11:31:07,  1.26s/it] 33%|███▎      | 15984/48845 [5:39:43<11:33:34,  1.27s/it] 33%|███▎      | 15985/48845 [5:39:45<11:31:58,  1.26s/it]                                                          {'loss': 2.0694, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 15985/48845 [5:39:45<11:31:58,  1.26s/it] 33%|███▎      | 15986/48845 [5:39:46<11:31:50,  1.26s/it] 33%|███▎      | 15987/48845 [5:39:47<11:30:29,  1.26s/it] 33%|███▎      | 15988/48845 [5:39:48<11:34:16,  1.27s/it] 33%|███▎      | 15989/48845 [5:39:50<11:32:50,  1.27s/it] 33%|███▎      | 15990/48845 [5:39:51<11:32:17,  1.26s/it]                                                          {'loss': 2.1333, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 15990/48845 [5:39:51<11:32:17,  1.26s/it] 33%|███▎      | 15991/48845 [5:39:52<11:31:33,  1.26s/it] 33%|███▎      | 15992/48845 [5:39:54<11:31:07,  1.26s/it] 33%|███▎      | 15993/48845 [5:39:55<11:31:30,  1.26s/it] 33%|███▎      | 15994/48845 [5:39:56<11:30:31,  1.26s/it] 33%|███▎      | 15995/48845 [5:39:57<11:30:13,  1.26s/it]                                                          {'loss': 2.062, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 15995/48845 [5:39:57<11:30:13,  1.26s/it] 33%|███▎      | 15996/48845 [5:39:59<11:29:56,  1.26s/it] 33%|███▎      | 15997/48845 [5:40:00<11:29:31,  1.26s/it] 33%|███▎      | 15998/48845 [5:40:01<11:29:36,  1.26s/it] 33%|███▎      | 15999/48845 [5:40:02<11:30:05,  1.26s/it] 33%|███▎      | 16000/48845 [5:40:04<11:30:31,  1.26s/it]                                                          {'loss': 2.0709, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16000/48845 [5:40:04<11:30:31,  1.26s/it] 33%|███▎      | 16001/48845 [5:40:07<18:06:15,  1.98s/it] 33%|███▎      | 16002/48845 [5:40:09<16:07:21,  1.77s/it] 33%|███▎      | 16003/48845 [5:40:10<14:43:24,  1.61s/it] 33%|███▎      | 16004/48845 [5:40:11<13:44:08,  1.51s/it] 33%|███▎      | 16005/48845 [5:40:12<13:04:00,  1.43s/it]                                                          {'loss': 2.1334, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16005/48845 [5:40:12<13:04:00,  1.43s/it] 33%|███▎      | 16006/48845 [5:40:14<12:35:52,  1.38s/it] 33%|███▎      | 16007/48845 [5:40:15<12:15:59,  1.34s/it] 33%|███▎      | 16008/48845 [5:40:16<12:01:08,  1.32s/it] 33%|███▎      | 16009/48845 [5:40:17<11:51:23,  1.30s/it] 33%|███▎      | 16010/48845 [5:40:19<11:45:02,  1.29s/it]                                                          {'loss': 2.1301, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16010/48845 [5:40:19<11:45:02,  1.29s/it] 33%|███▎      | 16011/48845 [5:40:20<11:39:40,  1.28s/it] 33%|███▎      | 16012/48845 [5:40:21<11:36:36,  1.27s/it] 33%|███▎      | 16013/48845 [5:40:22<11:33:54,  1.27s/it] 33%|███▎      | 16014/48845 [5:40:24<11:32:04,  1.26s/it] 33%|███▎      | 16015/48845 [5:40:25<11:30:51,  1.26s/it]                                                          {'loss': 1.9228, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16015/48845 [5:40:25<11:30:51,  1.26s/it] 33%|███▎      | 16016/48845 [5:40:26<11:30:26,  1.26s/it] 33%|███▎      | 16017/48845 [5:40:27<11:29:43,  1.26s/it] 33%|███▎      | 16018/48845 [5:40:29<11:30:40,  1.26s/it] 33%|███▎      | 16019/48845 [5:40:30<11:29:53,  1.26s/it] 33%|███▎      | 16020/48845 [5:40:31<11:30:57,  1.26s/it]                                                          {'loss': 2.0937, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16020/48845 [5:40:31<11:30:57,  1.26s/it] 33%|███▎      | 16021/48845 [5:40:32<11:30:08,  1.26s/it] 33%|███▎      | 16022/48845 [5:40:34<11:30:22,  1.26s/it] 33%|███▎      | 16023/48845 [5:40:35<11:29:30,  1.26s/it] 33%|███▎      | 16024/48845 [5:40:36<11:28:59,  1.26s/it] 33%|███▎      | 16025/48845 [5:40:37<11:28:58,  1.26s/it]                                                          {'loss': 2.0529, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16025/48845 [5:40:37<11:28:58,  1.26s/it] 33%|███▎      | 16026/48845 [5:40:39<11:28:49,  1.26s/it] 33%|███▎      | 16027/48845 [5:40:40<11:28:58,  1.26s/it] 33%|███▎      | 16028/48845 [5:40:41<11:28:17,  1.26s/it] 33%|███▎      | 16029/48845 [5:40:43<11:28:37,  1.26s/it] 33%|███▎      | 16030/48845 [5:40:44<11:29:13,  1.26s/it]                                                          {'loss': 2.1081, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16030/48845 [5:40:44<11:29:13,  1.26s/it] 33%|███▎      | 16031/48845 [5:40:45<11:28:39,  1.26s/it] 33%|███▎      | 16032/48845 [5:40:46<11:28:03,  1.26s/it] 33%|███▎      | 16033/48845 [5:40:48<11:27:57,  1.26s/it] 33%|███▎      | 16034/48845 [5:40:49<11:27:48,  1.26s/it] 33%|███▎      | 16035/48845 [5:40:50<11:28:03,  1.26s/it]                                                          {'loss': 2.0993, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16035/48845 [5:40:50<11:28:03,  1.26s/it] 33%|███▎      | 16036/48845 [5:40:51<11:27:48,  1.26s/it] 33%|███▎      | 16037/48845 [5:40:53<11:27:58,  1.26s/it] 33%|███▎      | 16038/48845 [5:40:54<11:27:50,  1.26s/it] 33%|███▎      | 16039/48845 [5:40:55<11:28:21,  1.26s/it] 33%|███▎      | 16040/48845 [5:40:56<11:27:49,  1.26s/it]                                                          {'loss': 2.0576, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16040/48845 [5:40:56<11:27:49,  1.26s/it] 33%|███▎      | 16041/48845 [5:40:58<11:27:44,  1.26s/it] 33%|███▎      | 16042/48845 [5:40:59<11:28:09,  1.26s/it] 33%|███▎      | 16043/48845 [5:41:00<11:28:10,  1.26s/it] 33%|███▎      | 16044/48845 [5:41:01<11:28:10,  1.26s/it] 33%|███▎      | 16045/48845 [5:41:03<11:27:34,  1.26s/it]                                                          {'loss': 2.1898, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16045/48845 [5:41:03<11:27:34,  1.26s/it] 33%|███▎      | 16046/48845 [5:41:04<11:28:06,  1.26s/it] 33%|███▎      | 16047/48845 [5:41:05<11:28:53,  1.26s/it] 33%|███▎      | 16048/48845 [5:41:06<11:29:00,  1.26s/it] 33%|███▎      | 16049/48845 [5:41:08<11:28:41,  1.26s/it] 33%|███▎      | 16050/48845 [5:41:09<11:28:42,  1.26s/it]                                                          {'loss': 2.1546, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16050/48845 [5:41:09<11:28:42,  1.26s/it] 33%|███▎      | 16051/48845 [5:41:10<11:28:23,  1.26s/it] 33%|███▎      | 16052/48845 [5:41:11<11:28:52,  1.26s/it] 33%|███▎      | 16053/48845 [5:41:13<11:28:14,  1.26s/it] 33%|███▎      | 16054/48845 [5:41:14<11:28:05,  1.26s/it] 33%|███▎      | 16055/48845 [5:41:15<11:28:02,  1.26s/it]                                                          {'loss': 2.0518, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16055/48845 [5:41:15<11:28:02,  1.26s/it] 33%|███▎      | 16056/48845 [5:41:17<11:28:11,  1.26s/it] 33%|███▎      | 16057/48845 [5:41:18<11:28:21,  1.26s/it] 33%|███▎      | 16058/48845 [5:41:19<11:27:55,  1.26s/it] 33%|███▎      | 16059/48845 [5:41:20<11:28:04,  1.26s/it] 33%|███▎      | 16060/48845 [5:41:22<11:27:51,  1.26s/it]                                                          {'loss': 1.9717, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16060/48845 [5:41:22<11:27:51,  1.26s/it] 33%|███▎      | 16061/48845 [5:41:23<11:28:08,  1.26s/it] 33%|███▎      | 16062/48845 [5:41:24<11:27:22,  1.26s/it] 33%|███▎      | 16063/48845 [5:41:25<11:27:21,  1.26s/it] 33%|███▎      | 16064/48845 [5:41:27<11:27:39,  1.26s/it] 33%|███▎      | 16065/48845 [5:41:28<11:27:37,  1.26s/it]                                                          {'loss': 2.1549, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16065/48845 [5:41:28<11:27:37,  1.26s/it] 33%|███▎      | 16066/48845 [5:41:29<11:27:46,  1.26s/it] 33%|███▎      | 16067/48845 [5:41:30<11:27:54,  1.26s/it] 33%|███▎      | 16068/48845 [5:41:32<11:27:46,  1.26s/it] 33%|███▎      | 16069/48845 [5:41:33<11:27:58,  1.26s/it] 33%|███▎      | 16070/48845 [5:41:34<11:28:00,  1.26s/it]                                                          {'loss': 2.1316, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.64}
+ 33%|███▎      | 16070/48845 [5:41:34<11:28:00,  1.26s/it] 33%|███▎      | 16071/48845 [5:41:35<11:27:57,  1.26s/it] 33%|███▎      | 16072/48845 [5:41:37<11:27:36,  1.26s/it] 33%|███▎      | 16073/48845 [5:41:38<11:27:40,  1.26s/it] 33%|███▎      | 16074/48845 [5:41:39<11:27:36,  1.26s/it] 33%|███▎      | 16075/48845 [5:41:40<11:27:09,  1.26s/it]                                                          {'loss': 1.8877, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16075/48845 [5:41:40<11:27:09,  1.26s/it] 33%|███▎      | 16076/48845 [5:41:42<11:27:23,  1.26s/it] 33%|███▎      | 16077/48845 [5:41:43<11:28:00,  1.26s/it] 33%|███▎      | 16078/48845 [5:41:44<11:27:14,  1.26s/it] 33%|███▎      | 16079/48845 [5:41:45<11:28:05,  1.26s/it] 33%|███▎      | 16080/48845 [5:41:47<11:27:37,  1.26s/it]                                                          {'loss': 1.9339, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16080/48845 [5:41:47<11:27:37,  1.26s/it] 33%|███▎      | 16081/48845 [5:41:48<11:27:49,  1.26s/it] 33%|███▎      | 16082/48845 [5:41:49<11:27:18,  1.26s/it] 33%|███▎      | 16083/48845 [5:41:50<11:27:11,  1.26s/it] 33%|███▎      | 16084/48845 [5:41:52<11:27:28,  1.26s/it] 33%|███▎      | 16085/48845 [5:41:53<11:27:19,  1.26s/it]                                                          {'loss': 1.9069, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16085/48845 [5:41:53<11:27:19,  1.26s/it] 33%|███▎      | 16086/48845 [5:41:54<11:27:25,  1.26s/it] 33%|███▎      | 16087/48845 [5:41:56<11:27:02,  1.26s/it] 33%|███▎      | 16088/48845 [5:41:57<11:27:18,  1.26s/it] 33%|███▎      | 16089/48845 [5:41:58<11:27:57,  1.26s/it] 33%|███▎      | 16090/48845 [5:41:59<11:27:49,  1.26s/it]                                                          {'loss': 1.9569, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16090/48845 [5:41:59<11:27:49,  1.26s/it] 33%|███▎      | 16091/48845 [5:42:01<11:28:13,  1.26s/it] 33%|███▎      | 16092/48845 [5:42:02<11:27:19,  1.26s/it] 33%|███▎      | 16093/48845 [5:42:03<11:27:44,  1.26s/it] 33%|███▎      | 16094/48845 [5:42:04<11:27:55,  1.26s/it] 33%|███▎      | 16095/48845 [5:42:06<11:28:12,  1.26s/it]                                                          {'loss': 1.9177, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16095/48845 [5:42:06<11:28:12,  1.26s/it] 33%|███▎      | 16096/48845 [5:42:07<11:28:48,  1.26s/it] 33%|███▎      | 16097/48845 [5:42:08<11:28:20,  1.26s/it] 33%|███▎      | 16098/48845 [5:42:09<11:27:59,  1.26s/it] 33%|███▎      | 16099/48845 [5:42:11<11:28:09,  1.26s/it] 33%|███▎      | 16100/48845 [5:42:12<11:27:43,  1.26s/it]                                                          {'loss': 1.9583, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16100/48845 [5:42:12<11:27:43,  1.26s/it] 33%|███▎      | 16101/48845 [5:42:13<11:28:03,  1.26s/it] 33%|███▎      | 16102/48845 [5:42:14<11:27:37,  1.26s/it] 33%|███▎      | 16103/48845 [5:42:16<11:27:29,  1.26s/it] 33%|███▎      | 16104/48845 [5:42:17<11:28:05,  1.26s/it] 33%|███▎      | 16105/48845 [5:42:18<11:28:09,  1.26s/it]                                                          {'loss': 1.9975, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16105/48845 [5:42:18<11:28:09,  1.26s/it] 33%|███▎      | 16106/48845 [5:42:19<11:27:54,  1.26s/it] 33%|███▎      | 16107/48845 [5:42:21<11:28:02,  1.26s/it] 33%|███▎      | 16108/48845 [5:42:22<11:27:36,  1.26s/it] 33%|███▎      | 16109/48845 [5:42:23<11:27:36,  1.26s/it] 33%|███▎      | 16110/48845 [5:42:25<11:27:16,  1.26s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16110/48845 [5:42:25<11:27:16,  1.26s/it] 33%|███▎      | 16111/48845 [5:42:26<11:27:22,  1.26s/it] 33%|███▎      | 16112/48845 [5:42:27<11:27:34,  1.26s/it] 33%|███▎      | 16113/48845 [5:42:28<11:27:51,  1.26s/it] 33%|███▎      | 16114/48845 [5:42:30<11:27:57,  1.26s/it] 33%|███▎      | 16115/48845 [5:42:31<11:27:22,  1.26s/it]                                                          {'loss': 2.0503, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16115/48845 [5:42:31<11:27:22,  1.26s/it] 33%|███▎      | 16116/48845 [5:42:32<11:27:03,  1.26s/it] 33%|███▎      | 16117/48845 [5:42:34<11:52:14,  1.31s/it] 33%|███▎      | 16118/48845 [5:42:35<11:45:02,  1.29s/it] 33%|███▎      | 16119/48845 [5:42:36<11:40:22,  1.28s/it] 33%|███▎      | 16120/48845 [5:42:37<11:36:02,  1.28s/it]                                                          {'loss': 2.0752, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16120/48845 [5:42:37<11:36:02,  1.28s/it] 33%|███▎      | 16121/48845 [5:42:39<11:33:50,  1.27s/it] 33%|███▎      | 16122/48845 [5:42:40<11:31:44,  1.27s/it] 33%|███▎      | 16123/48845 [5:42:41<11:30:27,  1.27s/it] 33%|███▎      | 16124/48845 [5:42:42<11:28:52,  1.26s/it] 33%|███▎      | 16125/48845 [5:42:44<11:29:14,  1.26s/it]                                                          {'loss': 1.9776, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16125/48845 [5:42:44<11:29:14,  1.26s/it] 33%|███▎      | 16126/48845 [5:42:45<11:28:54,  1.26s/it] 33%|███▎      | 16127/48845 [5:42:46<11:27:51,  1.26s/it] 33%|███▎      | 16128/48845 [5:42:47<11:27:12,  1.26s/it] 33%|███▎      | 16129/48845 [5:42:49<11:27:28,  1.26s/it] 33%|███▎      | 16130/48845 [5:42:50<11:26:59,  1.26s/it]                                                          {'loss': 2.1334, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16130/48845 [5:42:50<11:26:59,  1.26s/it] 33%|███▎      | 16131/48845 [5:42:51<11:26:56,  1.26s/it] 33%|███▎      | 16132/48845 [5:42:52<11:26:11,  1.26s/it] 33%|███▎      | 16133/48845 [5:42:54<11:27:09,  1.26s/it] 33%|███▎      | 16134/48845 [5:42:55<11:27:25,  1.26s/it] 33%|███▎      | 16135/48845 [5:42:56<11:26:33,  1.26s/it]                                                          {'loss': 2.0735, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16135/48845 [5:42:56<11:26:33,  1.26s/it] 33%|███▎      | 16136/48845 [5:42:57<11:27:35,  1.26s/it] 33%|███▎      | 16137/48845 [5:42:59<11:27:22,  1.26s/it] 33%|███▎      | 16138/48845 [5:43:00<11:27:15,  1.26s/it] 33%|███▎      | 16139/48845 [5:43:01<11:26:27,  1.26s/it] 33%|███▎      | 16140/48845 [5:43:02<11:26:06,  1.26s/it]                                                          {'loss': 2.0123, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16140/48845 [5:43:02<11:26:06,  1.26s/it] 33%|███▎      | 16141/48845 [5:43:04<11:26:55,  1.26s/it] 33%|███▎      | 16142/48845 [5:43:05<11:27:43,  1.26s/it] 33%|███▎      | 16143/48845 [5:43:06<11:27:11,  1.26s/it] 33%|███▎      | 16144/48845 [5:43:08<11:27:27,  1.26s/it] 33%|███▎      | 16145/48845 [5:43:09<11:27:07,  1.26s/it]                                                          {'loss': 2.0805, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16145/48845 [5:43:09<11:27:07,  1.26s/it] 33%|███▎      | 16146/48845 [5:43:10<11:27:07,  1.26s/it] 33%|███▎      | 16147/48845 [5:43:11<11:26:36,  1.26s/it] 33%|███▎      | 16148/48845 [5:43:13<11:26:00,  1.26s/it] 33%|███▎      | 16149/48845 [5:43:14<11:26:47,  1.26s/it] 33%|███▎      | 16150/48845 [5:43:15<11:27:31,  1.26s/it]                                                          {'loss': 2.2169, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16150/48845 [5:43:15<11:27:31,  1.26s/it] 33%|███▎      | 16151/48845 [5:43:16<11:27:11,  1.26s/it] 33%|███▎      | 16152/48845 [5:43:18<11:26:22,  1.26s/it] 33%|███▎      | 16153/48845 [5:43:19<11:25:33,  1.26s/it] 33%|███▎      | 16154/48845 [5:43:20<11:25:57,  1.26s/it] 33%|███▎      | 16155/48845 [5:43:21<11:25:48,  1.26s/it]                                                          {'loss': 2.2108, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16155/48845 [5:43:21<11:25:48,  1.26s/it] 33%|███▎      | 16156/48845 [5:43:23<11:26:14,  1.26s/it] 33%|███▎      | 16157/48845 [5:43:24<11:26:09,  1.26s/it] 33%|███▎      | 16158/48845 [5:43:25<11:26:07,  1.26s/it] 33%|███▎      | 16159/48845 [5:43:26<11:26:22,  1.26s/it] 33%|███▎      | 16160/48845 [5:43:28<11:26:28,  1.26s/it]                                                          {'loss': 1.9723, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16160/48845 [5:43:28<11:26:28,  1.26s/it] 33%|███▎      | 16161/48845 [5:43:29<11:26:19,  1.26s/it] 33%|███▎      | 16162/48845 [5:43:30<11:26:00,  1.26s/it] 33%|███▎      | 16163/48845 [5:43:31<11:25:29,  1.26s/it] 33%|███▎      | 16164/48845 [5:43:33<11:26:11,  1.26s/it] 33%|███▎      | 16165/48845 [5:43:34<11:25:43,  1.26s/it]                                                          {'loss': 1.9385, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.65}
+ 33%|███▎      | 16165/48845 [5:43:34<11:25:43,  1.26s/it] 33%|███▎      | 16166/48845 [5:43:35<11:26:20,  1.26s/it] 33%|███▎      | 16167/48845 [5:43:37<11:25:39,  1.26s/it] 33%|███▎      | 16168/48845 [5:43:38<11:25:50,  1.26s/it] 33%|███▎      | 16169/48845 [5:43:39<11:27:16,  1.26s/it] 33%|███▎      | 16170/48845 [5:43:40<11:27:22,  1.26s/it]                                                          {'loss': 2.0592, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16170/48845 [5:43:40<11:27:22,  1.26s/it] 33%|███▎      | 16171/48845 [5:43:42<11:27:01,  1.26s/it] 33%|███▎      | 16172/48845 [5:43:43<11:27:15,  1.26s/it] 33%|███▎      | 16173/48845 [5:43:44<11:27:09,  1.26s/it] 33%|███▎      | 16174/48845 [5:43:45<11:27:16,  1.26s/it] 33%|███▎      | 16175/48845 [5:43:47<11:26:38,  1.26s/it]                                                          {'loss': 2.0275, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16175/48845 [5:43:47<11:26:38,  1.26s/it] 33%|███▎      | 16176/48845 [5:43:48<11:26:07,  1.26s/it] 33%|███▎      | 16177/48845 [5:43:49<11:27:08,  1.26s/it] 33%|███▎      | 16178/48845 [5:43:50<11:26:20,  1.26s/it] 33%|███▎      | 16179/48845 [5:43:52<11:26:22,  1.26s/it] 33%|███▎      | 16180/48845 [5:43:53<11:25:52,  1.26s/it]                                                          {'loss': 1.9758, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16180/48845 [5:43:53<11:25:52,  1.26s/it] 33%|███▎      | 16181/48845 [5:43:54<11:25:45,  1.26s/it] 33%|███▎      | 16182/48845 [5:43:55<11:25:58,  1.26s/it] 33%|███▎      | 16183/48845 [5:43:57<11:25:37,  1.26s/it] 33%|███▎      | 16184/48845 [5:43:58<11:25:38,  1.26s/it] 33%|███▎      | 16185/48845 [5:43:59<11:25:32,  1.26s/it]                                                          {'loss': 1.9953, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16185/48845 [5:43:59<11:25:32,  1.26s/it] 33%|███▎      | 16186/48845 [5:44:00<11:25:09,  1.26s/it] 33%|███▎      | 16187/48845 [5:44:02<11:25:35,  1.26s/it] 33%|███▎      | 16188/48845 [5:44:03<11:25:15,  1.26s/it] 33%|███▎      | 16189/48845 [5:44:04<11:25:18,  1.26s/it] 33%|███▎      | 16190/48845 [5:44:05<11:25:39,  1.26s/it]                                                          {'loss': 1.9755, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16190/48845 [5:44:05<11:25:39,  1.26s/it] 33%|███▎      | 16191/48845 [5:44:07<11:25:37,  1.26s/it] 33%|███▎      | 16192/48845 [5:44:08<11:25:50,  1.26s/it] 33%|███▎      | 16193/48845 [5:44:09<11:25:26,  1.26s/it] 33%|███▎      | 16194/48845 [5:44:11<11:25:52,  1.26s/it] 33%|███▎      | 16195/48845 [5:44:12<11:25:33,  1.26s/it]                                                          {'loss': 2.0698, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16195/48845 [5:44:12<11:25:33,  1.26s/it] 33%|███▎      | 16196/48845 [5:44:13<11:25:28,  1.26s/it] 33%|███▎      | 16197/48845 [5:44:14<11:26:22,  1.26s/it] 33%|███▎      | 16198/48845 [5:44:16<11:25:32,  1.26s/it] 33%|███▎      | 16199/48845 [5:44:17<11:24:46,  1.26s/it] 33%|███▎      | 16200/48845 [5:44:18<11:24:49,  1.26s/it]                                                          {'loss': 2.3158, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16200/48845 [5:44:18<11:24:49,  1.26s/it] 33%|███▎      | 16201/48845 [5:44:22<17:58:53,  1.98s/it] 33%|███▎      | 16202/48845 [5:44:23<16:01:08,  1.77s/it] 33%|███▎      | 16203/48845 [5:44:24<14:38:16,  1.61s/it] 33%|███▎      | 16204/48845 [5:44:26<13:39:58,  1.51s/it] 33%|███▎      | 16205/48845 [5:44:27<13:01:47,  1.44s/it]                                                          {'loss': 2.0707, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16205/48845 [5:44:27<13:01:47,  1.44s/it] 33%|███▎      | 16206/48845 [5:44:28<12:32:47,  1.38s/it] 33%|███▎      | 16207/48845 [5:44:29<12:12:32,  1.35s/it] 33%|███▎      | 16208/48845 [5:44:31<11:57:33,  1.32s/it] 33%|███▎      | 16209/48845 [5:44:32<11:47:06,  1.30s/it] 33%|███▎      | 16210/48845 [5:44:33<11:41:25,  1.29s/it]                                                          {'loss': 2.0518, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16210/48845 [5:44:33<11:41:25,  1.29s/it] 33%|███▎      | 16211/48845 [5:44:34<11:37:04,  1.28s/it] 33%|███▎      | 16212/48845 [5:44:36<11:34:17,  1.28s/it] 33%|███▎      | 16213/48845 [5:44:37<11:31:40,  1.27s/it] 33%|███▎      | 16214/48845 [5:44:38<11:28:59,  1.27s/it] 33%|███▎      | 16215/48845 [5:44:39<11:28:13,  1.27s/it]                                                          {'loss': 2.106, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16215/48845 [5:44:39<11:28:13,  1.27s/it] 33%|███▎      | 16216/48845 [5:44:41<11:26:44,  1.26s/it] 33%|███▎      | 16217/48845 [5:44:42<11:26:06,  1.26s/it] 33%|███▎      | 16218/48845 [5:44:43<11:25:38,  1.26s/it] 33%|███▎      | 16219/48845 [5:44:44<11:25:28,  1.26s/it] 33%|███▎      | 16220/48845 [5:44:46<11:26:03,  1.26s/it]                                                          {'loss': 2.1412, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16220/48845 [5:44:46<11:26:03,  1.26s/it] 33%|███▎      | 16221/48845 [5:44:47<11:25:51,  1.26s/it] 33%|███▎      | 16222/48845 [5:44:48<11:25:41,  1.26s/it] 33%|███▎      | 16223/48845 [5:44:50<11:26:02,  1.26s/it] 33%|███▎      | 16224/48845 [5:44:51<11:25:45,  1.26s/it] 33%|███▎      | 16225/48845 [5:44:52<11:25:26,  1.26s/it]                                                          {'loss': 1.9895, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16225/48845 [5:44:52<11:25:26,  1.26s/it] 33%|███▎      | 16226/48845 [5:44:53<11:25:00,  1.26s/it] 33%|███▎      | 16227/48845 [5:44:55<11:31:49,  1.27s/it] 33%|███▎      | 16228/48845 [5:44:56<11:29:34,  1.27s/it] 33%|███▎      | 16229/48845 [5:44:57<11:29:14,  1.27s/it] 33%|███▎      | 16230/48845 [5:44:58<11:28:31,  1.27s/it]                                                          {'loss': 2.0568, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16230/48845 [5:44:58<11:28:31,  1.27s/it] 33%|███▎      | 16231/48845 [5:45:00<11:27:26,  1.26s/it] 33%|███▎      | 16232/48845 [5:45:01<11:27:39,  1.27s/it] 33%|███▎      | 16233/48845 [5:45:02<11:27:18,  1.26s/it] 33%|███▎      | 16234/48845 [5:45:03<11:26:36,  1.26s/it] 33%|███▎      | 16235/48845 [5:45:05<11:25:54,  1.26s/it]                                                          {'loss': 2.0087, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16235/48845 [5:45:05<11:25:54,  1.26s/it] 33%|███▎      | 16236/48845 [5:45:06<11:25:26,  1.26s/it] 33%|███▎      | 16237/48845 [5:45:07<11:25:16,  1.26s/it] 33%|███▎      | 16238/48845 [5:45:08<11:25:16,  1.26s/it] 33%|███▎      | 16239/48845 [5:45:10<11:25:13,  1.26s/it] 33%|███▎      | 16240/48845 [5:45:11<11:24:37,  1.26s/it]                                                          {'loss': 2.0599, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16240/48845 [5:45:11<11:24:37,  1.26s/it] 33%|███▎      | 16241/48845 [5:45:12<11:23:48,  1.26s/it] 33%|███▎      | 16242/48845 [5:45:13<11:23:24,  1.26s/it] 33%|███▎      | 16243/48845 [5:45:15<11:23:55,  1.26s/it] 33%|███▎      | 16244/48845 [5:45:16<11:24:27,  1.26s/it] 33%|███▎      | 16245/48845 [5:45:17<11:24:40,  1.26s/it]                                                          {'loss': 2.2657, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16245/48845 [5:45:17<11:24:40,  1.26s/it] 33%|███▎      | 16246/48845 [5:45:19<11:24:42,  1.26s/it] 33%|███▎      | 16247/48845 [5:45:20<11:25:05,  1.26s/it] 33%|███▎      | 16248/48845 [5:45:21<11:25:21,  1.26s/it] 33%|███▎      | 16249/48845 [5:45:22<11:25:12,  1.26s/it] 33%|███▎      | 16250/48845 [5:45:24<11:25:06,  1.26s/it]                                                          {'loss': 2.1434, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16250/48845 [5:45:24<11:25:06,  1.26s/it] 33%|███▎      | 16251/48845 [5:45:25<11:25:12,  1.26s/it] 33%|███▎      | 16252/48845 [5:45:26<11:25:14,  1.26s/it] 33%|███▎      | 16253/48845 [5:45:27<11:25:29,  1.26s/it] 33%|███▎      | 16254/48845 [5:45:29<11:25:38,  1.26s/it] 33%|███▎      | 16255/48845 [5:45:30<11:25:28,  1.26s/it]                                                          {'loss': 2.0206, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16255/48845 [5:45:30<11:25:28,  1.26s/it] 33%|███▎      | 16256/48845 [5:45:31<11:25:08,  1.26s/it] 33%|███▎      | 16257/48845 [5:45:32<11:24:40,  1.26s/it] 33%|███▎      | 16258/48845 [5:45:34<11:24:27,  1.26s/it] 33%|███▎      | 16259/48845 [5:45:35<11:24:20,  1.26s/it] 33%|███▎      | 16260/48845 [5:45:36<11:24:34,  1.26s/it]                                                          {'loss': 1.9462, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16260/48845 [5:45:36<11:24:34,  1.26s/it] 33%|███▎      | 16261/48845 [5:45:37<11:24:34,  1.26s/it] 33%|███▎      | 16262/48845 [5:45:39<11:33:48,  1.28s/it] 33%|███▎      | 16263/48845 [5:45:40<11:30:34,  1.27s/it] 33%|███▎      | 16264/48845 [5:45:41<11:29:51,  1.27s/it] 33%|███▎      | 16265/48845 [5:45:43<11:27:39,  1.27s/it]                                                          {'loss': 2.0817, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.66}
+ 33%|███▎      | 16265/48845 [5:45:43<11:27:39,  1.27s/it] 33%|███▎      | 16266/48845 [5:45:44<11:27:20,  1.27s/it] 33%|███▎      | 16267/48845 [5:45:45<11:27:05,  1.27s/it] 33%|███▎      | 16268/48845 [5:45:46<11:26:44,  1.26s/it] 33%|███▎      | 16269/48845 [5:45:48<11:26:25,  1.26s/it] 33%|███▎      | 16270/48845 [5:45:49<11:25:05,  1.26s/it]                                                          {'loss': 1.9845, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16270/48845 [5:45:49<11:25:05,  1.26s/it] 33%|███▎      | 16271/48845 [5:45:50<11:25:08,  1.26s/it] 33%|███▎      | 16272/48845 [5:45:51<11:25:19,  1.26s/it] 33%|███▎      | 16273/48845 [5:45:53<11:24:37,  1.26s/it] 33%|███▎      | 16274/48845 [5:45:54<11:24:48,  1.26s/it] 33%|███▎      | 16275/48845 [5:45:55<11:27:18,  1.27s/it]                                                          {'loss': 2.0317, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16275/48845 [5:45:55<11:27:18,  1.27s/it] 33%|███▎      | 16276/48845 [5:45:56<11:26:17,  1.26s/it] 33%|███▎      | 16277/48845 [5:45:58<11:25:12,  1.26s/it] 33%|███▎      | 16278/48845 [5:45:59<11:24:40,  1.26s/it] 33%|███▎      | 16279/48845 [5:46:00<11:24:12,  1.26s/it] 33%|███▎      | 16280/48845 [5:46:01<11:25:22,  1.26s/it]                                                          {'loss': 2.0234, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16280/48845 [5:46:01<11:25:22,  1.26s/it] 33%|███▎      | 16281/48845 [5:46:03<11:25:37,  1.26s/it] 33%|███▎      | 16282/48845 [5:46:04<11:25:59,  1.26s/it] 33%|███▎      | 16283/48845 [5:46:05<11:25:47,  1.26s/it] 33%|███▎      | 16284/48845 [5:46:07<11:25:51,  1.26s/it] 33%|███▎      | 16285/48845 [5:46:08<11:25:12,  1.26s/it]                                                          {'loss': 2.0243, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16285/48845 [5:46:08<11:25:12,  1.26s/it] 33%|███▎      | 16286/48845 [5:46:09<11:23:57,  1.26s/it] 33%|███▎      | 16287/48845 [5:46:10<11:24:04,  1.26s/it] 33%|███▎      | 16288/48845 [5:46:12<11:24:50,  1.26s/it] 33%|███▎      | 16289/48845 [5:46:13<11:23:40,  1.26s/it] 33%|███▎      | 16290/48845 [5:46:14<11:23:41,  1.26s/it]                                                          {'loss': 2.1772, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16290/48845 [5:46:14<11:23:41,  1.26s/it] 33%|███▎      | 16291/48845 [5:46:15<11:24:25,  1.26s/it] 33%|███▎      | 16292/48845 [5:46:17<11:25:32,  1.26s/it] 33%|███▎      | 16293/48845 [5:46:18<11:25:33,  1.26s/it] 33%|███▎      | 16294/48845 [5:46:19<11:24:41,  1.26s/it] 33%|███▎      | 16295/48845 [5:46:20<11:24:14,  1.26s/it]                                                          {'loss': 2.0404, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16295/48845 [5:46:20<11:24:14,  1.26s/it] 33%|███▎      | 16296/48845 [5:46:22<11:25:44,  1.26s/it] 33%|███▎      | 16297/48845 [5:46:23<11:25:54,  1.26s/it] 33%|███▎      | 16298/48845 [5:46:24<11:24:59,  1.26s/it] 33%|███▎      | 16299/48845 [5:46:25<11:24:40,  1.26s/it] 33%|███▎      | 16300/48845 [5:46:27<11:24:51,  1.26s/it]                                                          {'loss': 2.1397, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16300/48845 [5:46:27<11:24:51,  1.26s/it] 33%|███▎      | 16301/48845 [5:46:28<11:24:19,  1.26s/it] 33%|███▎      | 16302/48845 [5:46:29<11:23:26,  1.26s/it] 33%|███▎      | 16303/48845 [5:46:31<11:23:07,  1.26s/it] 33%|███▎      | 16304/48845 [5:46:32<11:42:36,  1.30s/it] 33%|███▎      | 16305/48845 [5:46:33<11:36:46,  1.28s/it]                                                          {'loss': 2.1585, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16305/48845 [5:46:33<11:36:46,  1.28s/it] 33%|███▎      | 16306/48845 [5:46:34<11:33:04,  1.28s/it] 33%|███▎      | 16307/48845 [5:46:36<11:30:45,  1.27s/it] 33%|███▎      | 16308/48845 [5:46:37<11:28:26,  1.27s/it] 33%|███▎      | 16309/48845 [5:46:38<11:27:24,  1.27s/it] 33%|███▎      | 16310/48845 [5:46:39<11:26:43,  1.27s/it]                                                          {'loss': 1.9845, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16310/48845 [5:46:39<11:26:43,  1.27s/it] 33%|███▎      | 16311/48845 [5:46:41<11:25:42,  1.26s/it] 33%|███▎      | 16312/48845 [5:46:42<11:25:40,  1.26s/it] 33%|███▎      | 16313/48845 [5:46:43<11:24:35,  1.26s/it] 33%|███▎      | 16314/48845 [5:46:45<11:24:21,  1.26s/it] 33%|███▎      | 16315/48845 [5:46:46<11:24:39,  1.26s/it]                                                          {'loss': 1.8984, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16315/48845 [5:46:46<11:24:39,  1.26s/it] 33%|███▎      | 16316/48845 [5:46:47<11:23:43,  1.26s/it] 33%|███▎      | 16317/48845 [5:46:48<11:24:26,  1.26s/it] 33%|███▎      | 16318/48845 [5:46:50<11:24:45,  1.26s/it] 33%|███▎      | 16319/48845 [5:46:51<11:24:42,  1.26s/it] 33%|███▎      | 16320/48845 [5:46:52<11:24:34,  1.26s/it]                                                          {'loss': 2.0024, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16320/48845 [5:46:52<11:24:34,  1.26s/it] 33%|███▎      | 16321/48845 [5:46:53<11:23:32,  1.26s/it] 33%|███▎      | 16322/48845 [5:46:55<11:23:27,  1.26s/it] 33%|███▎      | 16323/48845 [5:46:56<11:23:33,  1.26s/it] 33%|███▎      | 16324/48845 [5:46:57<11:23:00,  1.26s/it] 33%|███▎      | 16325/48845 [5:46:58<11:22:46,  1.26s/it]                                                          {'loss': 2.1874, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16325/48845 [5:46:58<11:22:46,  1.26s/it] 33%|███▎      | 16326/48845 [5:47:00<11:22:48,  1.26s/it] 33%|███▎      | 16327/48845 [5:47:01<11:22:36,  1.26s/it] 33%|███▎      | 16328/48845 [5:47:02<11:23:04,  1.26s/it] 33%|███▎      | 16329/48845 [5:47:03<11:23:15,  1.26s/it] 33%|███▎      | 16330/48845 [5:47:05<11:24:11,  1.26s/it]                                                          {'loss': 1.9888, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16330/48845 [5:47:05<11:24:11,  1.26s/it] 33%|███▎      | 16331/48845 [5:47:06<11:24:08,  1.26s/it] 33%|███▎      | 16332/48845 [5:47:07<11:23:33,  1.26s/it] 33%|███▎      | 16333/48845 [5:47:08<11:23:34,  1.26s/it] 33%|███▎      | 16334/48845 [5:47:10<11:23:10,  1.26s/it] 33%|███▎      | 16335/48845 [5:47:11<11:22:49,  1.26s/it]                                                          {'loss': 2.2106, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16335/48845 [5:47:11<11:22:49,  1.26s/it] 33%|███▎      | 16336/48845 [5:47:12<11:24:05,  1.26s/it] 33%|███▎      | 16337/48845 [5:47:14<11:23:37,  1.26s/it] 33%|███▎      | 16338/48845 [5:47:15<11:23:23,  1.26s/it] 33%|███▎      | 16339/48845 [5:47:16<11:22:55,  1.26s/it] 33%|███▎      | 16340/48845 [5:47:17<11:23:30,  1.26s/it]                                                          {'loss': 2.0534, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16340/48845 [5:47:17<11:23:30,  1.26s/it] 33%|███▎      | 16341/48845 [5:47:19<11:23:47,  1.26s/it] 33%|███▎      | 16342/48845 [5:47:20<11:23:25,  1.26s/it] 33%|███▎      | 16343/48845 [5:47:21<11:23:07,  1.26s/it] 33%|███▎      | 16344/48845 [5:47:22<11:22:47,  1.26s/it] 33%|███▎      | 16345/48845 [5:47:24<11:22:27,  1.26s/it]                                                          {'loss': 2.0732, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16345/48845 [5:47:24<11:22:27,  1.26s/it] 33%|███▎      | 16346/48845 [5:47:25<11:22:56,  1.26s/it] 33%|███▎      | 16347/48845 [5:47:26<11:22:42,  1.26s/it] 33%|███▎      | 16348/48845 [5:47:27<11:22:26,  1.26s/it] 33%|███▎      | 16349/48845 [5:47:29<11:22:31,  1.26s/it] 33%|███▎      | 16350/48845 [5:47:30<11:22:13,  1.26s/it]                                                          {'loss': 2.0661, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16350/48845 [5:47:30<11:22:13,  1.26s/it] 33%|███▎      | 16351/48845 [5:47:31<11:23:19,  1.26s/it] 33%|███▎      | 16352/48845 [5:47:32<11:23:27,  1.26s/it] 33%|███▎      | 16353/48845 [5:47:34<11:23:02,  1.26s/it] 33%|███▎      | 16354/48845 [5:47:35<11:23:00,  1.26s/it] 33%|███▎      | 16355/48845 [5:47:36<11:22:14,  1.26s/it]                                                          {'loss': 1.9506, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16355/48845 [5:47:36<11:22:14,  1.26s/it] 33%|███▎      | 16356/48845 [5:47:37<11:22:26,  1.26s/it] 33%|███▎      | 16357/48845 [5:47:39<11:22:04,  1.26s/it] 33%|███▎      | 16358/48845 [5:47:40<11:21:30,  1.26s/it] 33%|███▎      | 16359/48845 [5:47:41<11:22:27,  1.26s/it] 33%|███▎      | 16360/48845 [5:47:43<11:22:03,  1.26s/it]                                                          {'loss': 2.0754, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.67}
+ 33%|███▎      | 16360/48845 [5:47:43<11:22:03,  1.26s/it] 33%|███▎      | 16361/48845 [5:47:44<11:22:10,  1.26s/it] 33%|███▎      | 16362/48845 [5:47:45<11:22:05,  1.26s/it] 33%|███▎      | 16363/48845 [5:47:46<11:21:48,  1.26s/it] 34%|███▎      | 16364/48845 [5:47:48<11:22:01,  1.26s/it] 34%|███▎      | 16365/48845 [5:47:49<11:22:14,  1.26s/it]                                                          {'loss': 2.2098, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16365/48845 [5:47:49<11:22:14,  1.26s/it] 34%|███▎      | 16366/48845 [5:47:50<11:22:26,  1.26s/it] 34%|███▎      | 16367/48845 [5:47:51<11:21:59,  1.26s/it] 34%|███▎      | 16368/48845 [5:47:53<11:21:38,  1.26s/it] 34%|███▎      | 16369/48845 [5:47:54<11:21:46,  1.26s/it] 34%|███▎      | 16370/48845 [5:47:55<11:22:15,  1.26s/it]                                                          {'loss': 2.1608, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16370/48845 [5:47:55<11:22:15,  1.26s/it] 34%|███▎      | 16371/48845 [5:47:56<11:22:56,  1.26s/it] 34%|███▎      | 16372/48845 [5:47:58<11:22:30,  1.26s/it] 34%|███▎      | 16373/48845 [5:47:59<11:22:09,  1.26s/it] 34%|███▎      | 16374/48845 [5:48:00<11:21:51,  1.26s/it] 34%|███▎      | 16375/48845 [5:48:01<11:22:19,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16375/48845 [5:48:01<11:22:19,  1.26s/it] 34%|███▎      | 16376/48845 [5:48:03<11:22:33,  1.26s/it] 34%|███▎      | 16377/48845 [5:48:04<11:22:29,  1.26s/it] 34%|███▎      | 16378/48845 [5:48:05<11:22:06,  1.26s/it] 34%|███▎      | 16379/48845 [5:48:06<11:22:20,  1.26s/it] 34%|███▎      | 16380/48845 [5:48:08<11:22:24,  1.26s/it]                                                          {'loss': 2.0222, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16380/48845 [5:48:08<11:22:24,  1.26s/it] 34%|███▎      | 16381/48845 [5:48:09<11:21:28,  1.26s/it] 34%|███▎      | 16382/48845 [5:48:10<11:22:01,  1.26s/it] 34%|███▎      | 16383/48845 [5:48:12<11:21:55,  1.26s/it] 34%|███▎      | 16384/48845 [5:48:13<11:22:27,  1.26s/it] 34%|███▎      | 16385/48845 [5:48:14<11:21:36,  1.26s/it]                                                          {'loss': 2.0836, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16385/48845 [5:48:14<11:21:36,  1.26s/it] 34%|███▎      | 16386/48845 [5:48:15<11:21:33,  1.26s/it] 34%|███▎      | 16387/48845 [5:48:17<11:22:24,  1.26s/it] 34%|███▎      | 16388/48845 [5:48:18<11:21:58,  1.26s/it] 34%|███▎      | 16389/48845 [5:48:19<11:22:27,  1.26s/it] 34%|███▎      | 16390/48845 [5:48:20<11:21:31,  1.26s/it]                                                          {'loss': 1.9821, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16390/48845 [5:48:20<11:21:31,  1.26s/it] 34%|███▎      | 16391/48845 [5:48:22<11:22:58,  1.26s/it] 34%|███▎      | 16392/48845 [5:48:23<11:22:51,  1.26s/it] 34%|███▎      | 16393/48845 [5:48:24<11:22:06,  1.26s/it] 34%|███▎      | 16394/48845 [5:48:25<11:22:10,  1.26s/it] 34%|███▎      | 16395/48845 [5:48:27<11:22:27,  1.26s/it]                                                          {'loss': 2.0729, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16395/48845 [5:48:27<11:22:27,  1.26s/it] 34%|███▎      | 16396/48845 [5:48:28<11:21:44,  1.26s/it] 34%|███▎      | 16397/48845 [5:48:29<11:22:59,  1.26s/it] 34%|███▎      | 16398/48845 [5:48:30<11:22:19,  1.26s/it] 34%|███▎      | 16399/48845 [5:48:32<11:21:27,  1.26s/it] 34%|███▎      | 16400/48845 [5:48:33<11:21:44,  1.26s/it]                                                          {'loss': 2.2402, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16400/48845 [5:48:33<11:21:44,  1.26s/it] 34%|███▎      | 16401/48845 [5:48:37<17:54:38,  1.99s/it] 34%|███▎      | 16402/48845 [5:48:38<15:56:02,  1.77s/it] 34%|███▎      | 16403/48845 [5:48:39<14:33:31,  1.62s/it] 34%|███▎      | 16404/48845 [5:48:40<13:35:50,  1.51s/it] 34%|███▎      | 16405/48845 [5:48:42<12:55:26,  1.43s/it]                                                          {'loss': 1.9731, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16405/48845 [5:48:42<12:55:26,  1.43s/it] 34%|███▎      | 16406/48845 [5:48:43<12:26:55,  1.38s/it] 34%|███▎      | 16407/48845 [5:48:44<12:06:45,  1.34s/it] 34%|███▎      | 16408/48845 [5:48:45<11:53:45,  1.32s/it] 34%|███▎      | 16409/48845 [5:48:47<11:49:37,  1.31s/it] 34%|███▎      | 16410/48845 [5:48:48<11:40:17,  1.30s/it]                                                          {'loss': 2.1386, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16410/48845 [5:48:48<11:40:17,  1.30s/it] 34%|███▎      | 16411/48845 [5:48:49<11:34:36,  1.28s/it] 34%|███▎      | 16412/48845 [5:48:51<11:30:05,  1.28s/it] 34%|███▎      | 16413/48845 [5:48:52<11:27:12,  1.27s/it] 34%|███▎      | 16414/48845 [5:48:53<11:25:20,  1.27s/it] 34%|███▎      | 16415/48845 [5:48:54<11:23:42,  1.26s/it]                                                          {'loss': 1.8678, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16415/48845 [5:48:54<11:23:42,  1.26s/it] 34%|███▎      | 16416/48845 [5:48:56<11:22:46,  1.26s/it] 34%|███▎      | 16417/48845 [5:48:57<11:26:13,  1.27s/it] 34%|███▎      | 16418/48845 [5:48:58<11:24:21,  1.27s/it] 34%|███▎      | 16419/48845 [5:48:59<11:22:49,  1.26s/it] 34%|███▎      | 16420/48845 [5:49:01<11:21:33,  1.26s/it]                                                          {'loss': 2.0668, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16420/48845 [5:49:01<11:21:33,  1.26s/it] 34%|███▎      | 16421/48845 [5:49:02<11:21:15,  1.26s/it] 34%|███▎      | 16422/48845 [5:49:03<11:21:20,  1.26s/it] 34%|███▎      | 16423/48845 [5:49:04<11:21:07,  1.26s/it] 34%|███▎      | 16424/48845 [5:49:06<11:20:10,  1.26s/it] 34%|███▎      | 16425/48845 [5:49:07<11:20:11,  1.26s/it]                                                          {'loss': 1.9579, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16425/48845 [5:49:07<11:20:11,  1.26s/it] 34%|███▎      | 16426/48845 [5:49:08<11:19:48,  1.26s/it] 34%|███▎      | 16427/48845 [5:49:09<11:20:28,  1.26s/it] 34%|███▎      | 16428/48845 [5:49:11<11:20:15,  1.26s/it] 34%|███▎      | 16429/48845 [5:49:12<11:20:05,  1.26s/it] 34%|███▎      | 16430/48845 [5:49:13<11:19:41,  1.26s/it]                                                          {'loss': 2.2207, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16430/48845 [5:49:13<11:19:41,  1.26s/it] 34%|███▎      | 16431/48845 [5:49:14<11:20:49,  1.26s/it] 34%|███▎      | 16432/48845 [5:49:16<11:21:47,  1.26s/it] 34%|███▎      | 16433/48845 [5:49:17<11:21:13,  1.26s/it] 34%|███▎      | 16434/48845 [5:49:18<11:21:02,  1.26s/it] 34%|███▎      | 16435/48845 [5:49:19<11:20:32,  1.26s/it]                                                          {'loss': 2.0965, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16435/48845 [5:49:19<11:20:32,  1.26s/it] 34%|███▎      | 16436/48845 [5:49:21<11:21:00,  1.26s/it] 34%|███▎      | 16437/48845 [5:49:22<11:21:12,  1.26s/it] 34%|███▎      | 16438/48845 [5:49:23<11:20:10,  1.26s/it] 34%|███▎      | 16439/48845 [5:49:25<11:20:41,  1.26s/it] 34%|███▎      | 16440/48845 [5:49:26<11:20:19,  1.26s/it]                                                          {'loss': 2.0377, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16440/48845 [5:49:26<11:20:19,  1.26s/it] 34%|███▎      | 16441/48845 [5:49:27<11:20:27,  1.26s/it] 34%|███▎      | 16442/48845 [5:49:28<11:20:33,  1.26s/it] 34%|███▎      | 16443/48845 [5:49:30<11:20:21,  1.26s/it] 34%|███▎      | 16444/48845 [5:49:31<11:20:22,  1.26s/it] 34%|███▎      | 16445/48845 [5:49:32<11:20:12,  1.26s/it]                                                          {'loss': 1.9991, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16445/48845 [5:49:32<11:20:12,  1.26s/it] 34%|███▎      | 16446/48845 [5:49:33<11:19:59,  1.26s/it] 34%|███▎      | 16447/48845 [5:49:35<11:20:11,  1.26s/it] 34%|███▎      | 16448/48845 [5:49:36<11:20:08,  1.26s/it] 34%|███▎      | 16449/48845 [5:49:37<11:20:13,  1.26s/it] 34%|███▎      | 16450/48845 [5:49:38<11:20:05,  1.26s/it]                                                          {'loss': 2.126, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16450/48845 [5:49:38<11:20:05,  1.26s/it] 34%|███▎      | 16451/48845 [5:49:40<11:20:53,  1.26s/it] 34%|███▎      | 16452/48845 [5:49:41<11:21:04,  1.26s/it] 34%|███▎      | 16453/48845 [5:49:42<11:20:43,  1.26s/it] 34%|███▎      | 16454/48845 [5:49:43<11:20:55,  1.26s/it] 34%|███▎      | 16455/48845 [5:49:45<11:20:03,  1.26s/it]                                                          {'loss': 1.9311, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16455/48845 [5:49:45<11:20:03,  1.26s/it] 34%|███▎      | 16456/48845 [5:49:46<11:20:02,  1.26s/it] 34%|███▎      | 16457/48845 [5:49:47<11:20:26,  1.26s/it] 34%|███▎      | 16458/48845 [5:49:48<11:20:48,  1.26s/it] 34%|███▎      | 16459/48845 [5:49:50<11:20:58,  1.26s/it] 34%|███▎      | 16460/48845 [5:49:51<11:21:23,  1.26s/it]                                                          {'loss': 2.0931, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.68}
+ 34%|███▎      | 16460/48845 [5:49:51<11:21:23,  1.26s/it] 34%|███▎      | 16461/48845 [5:49:52<11:20:46,  1.26s/it] 34%|███▎      | 16462/48845 [5:49:54<11:20:22,  1.26s/it] 34%|███▎      | 16463/48845 [5:49:55<11:20:24,  1.26s/it] 34%|███▎      | 16464/48845 [5:49:56<11:20:44,  1.26s/it] 34%|███▎      | 16465/48845 [5:49:57<11:21:04,  1.26s/it]                                                          {'loss': 2.1464, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▎      | 16465/48845 [5:49:57<11:21:04,  1.26s/it] 34%|███▎      | 16466/48845 [5:49:59<11:20:40,  1.26s/it] 34%|███▎      | 16467/48845 [5:50:00<11:20:03,  1.26s/it] 34%|███▎      | 16468/48845 [5:50:01<11:19:31,  1.26s/it] 34%|███▎      | 16469/48845 [5:50:02<11:19:08,  1.26s/it] 34%|███▎      | 16470/48845 [5:50:04<11:19:32,  1.26s/it]                                                          {'loss': 1.9431, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▎      | 16470/48845 [5:50:04<11:19:32,  1.26s/it] 34%|███▎      | 16471/48845 [5:50:05<11:19:17,  1.26s/it] 34%|███▎      | 16472/48845 [5:50:06<11:18:44,  1.26s/it] 34%|███▎      | 16473/48845 [5:50:07<11:18:50,  1.26s/it] 34%|███▎      | 16474/48845 [5:50:09<11:18:36,  1.26s/it] 34%|███▎      | 16475/48845 [5:50:10<11:18:05,  1.26s/it]                                                          {'loss': 1.9852, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▎      | 16475/48845 [5:50:10<11:18:05,  1.26s/it] 34%|███▎      | 16476/48845 [5:50:11<11:18:28,  1.26s/it] 34%|███▎      | 16477/48845 [5:50:12<11:18:16,  1.26s/it] 34%|███▎      | 16478/48845 [5:50:14<11:17:53,  1.26s/it] 34%|███▎      | 16479/48845 [5:50:15<11:18:12,  1.26s/it] 34%|███▎      | 16480/48845 [5:50:16<11:18:04,  1.26s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▎      | 16480/48845 [5:50:16<11:18:04,  1.26s/it] 34%|███▎      | 16481/48845 [5:50:17<11:18:20,  1.26s/it] 34%|███▎      | 16482/48845 [5:50:19<11:19:12,  1.26s/it] 34%|███▎      | 16483/48845 [5:50:20<11:19:20,  1.26s/it] 34%|███▎      | 16484/48845 [5:50:21<11:19:18,  1.26s/it] 34%|███▎      | 16485/48845 [5:50:22<11:19:15,  1.26s/it]                                                          {'loss': 1.8701, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▎      | 16485/48845 [5:50:22<11:19:15,  1.26s/it] 34%|███▍      | 16486/48845 [5:50:24<11:19:26,  1.26s/it] 34%|███▍      | 16487/48845 [5:50:25<11:20:00,  1.26s/it] 34%|███▍      | 16488/48845 [5:50:26<11:19:17,  1.26s/it] 34%|███▍      | 16489/48845 [5:50:28<11:19:06,  1.26s/it] 34%|███▍      | 16490/48845 [5:50:29<11:19:54,  1.26s/it]                                                          {'loss': 2.0296, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16490/48845 [5:50:29<11:19:54,  1.26s/it] 34%|███▍      | 16491/48845 [5:50:30<11:19:52,  1.26s/it] 34%|███▍      | 16492/48845 [5:50:31<11:19:31,  1.26s/it] 34%|███▍      | 16493/48845 [5:50:33<11:18:40,  1.26s/it] 34%|███▍      | 16494/48845 [5:50:34<11:18:32,  1.26s/it] 34%|███▍      | 16495/48845 [5:50:35<11:19:07,  1.26s/it]                                                          {'loss': 1.9541, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16495/48845 [5:50:35<11:19:07,  1.26s/it] 34%|███▍      | 16496/48845 [5:50:36<11:18:33,  1.26s/it] 34%|███▍      | 16497/48845 [5:50:38<11:19:00,  1.26s/it] 34%|███▍      | 16498/48845 [5:50:39<11:18:45,  1.26s/it] 34%|███▍      | 16499/48845 [5:50:40<11:18:50,  1.26s/it] 34%|███▍      | 16500/48845 [5:50:41<11:18:19,  1.26s/it]                                                          {'loss': 2.0118, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16500/48845 [5:50:41<11:18:19,  1.26s/it] 34%|███▍      | 16501/48845 [5:50:43<11:18:15,  1.26s/it] 34%|███▍      | 16502/48845 [5:50:44<11:19:29,  1.26s/it] 34%|███▍      | 16503/48845 [5:50:45<11:18:35,  1.26s/it] 34%|███▍      | 16504/48845 [5:50:46<11:18:37,  1.26s/it] 34%|███▍      | 16505/48845 [5:50:48<11:19:05,  1.26s/it]                                                          {'loss': 2.154, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16505/48845 [5:50:48<11:19:05,  1.26s/it] 34%|███▍      | 16506/48845 [5:50:49<11:19:50,  1.26s/it] 34%|███▍      | 16507/48845 [5:50:50<11:20:02,  1.26s/it] 34%|███▍      | 16508/48845 [5:50:51<11:19:23,  1.26s/it] 34%|███▍      | 16509/48845 [5:50:53<11:18:55,  1.26s/it] 34%|███▍      | 16510/48845 [5:50:54<11:19:03,  1.26s/it]                                                          {'loss': 2.1954, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16510/48845 [5:50:54<11:19:03,  1.26s/it] 34%|███▍      | 16511/48845 [5:50:55<11:18:40,  1.26s/it] 34%|███▍      | 16512/48845 [5:50:56<11:18:26,  1.26s/it] 34%|███▍      | 16513/48845 [5:50:58<11:18:10,  1.26s/it] 34%|███▍      | 16514/48845 [5:50:59<11:18:12,  1.26s/it] 34%|███▍      | 16515/48845 [5:51:00<11:18:17,  1.26s/it]                                                          {'loss': 1.9667, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16515/48845 [5:51:00<11:18:17,  1.26s/it] 34%|███▍      | 16516/48845 [5:51:02<11:18:35,  1.26s/it] 34%|███▍      | 16517/48845 [5:51:03<11:18:56,  1.26s/it] 34%|███▍      | 16518/48845 [5:51:04<11:18:45,  1.26s/it] 34%|███▍      | 16519/48845 [5:51:05<11:18:40,  1.26s/it] 34%|███▍      | 16520/48845 [5:51:07<11:18:31,  1.26s/it]                                                          {'loss': 1.9955, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16520/48845 [5:51:07<11:18:31,  1.26s/it] 34%|███▍      | 16521/48845 [5:51:08<11:18:33,  1.26s/it] 34%|███▍      | 16522/48845 [5:51:09<11:18:52,  1.26s/it] 34%|███▍      | 16523/48845 [5:51:10<11:18:23,  1.26s/it] 34%|███▍      | 16524/48845 [5:51:12<11:18:15,  1.26s/it] 34%|███▍      | 16525/48845 [5:51:13<11:18:49,  1.26s/it]                                                          {'loss': 2.0868, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16525/48845 [5:51:13<11:18:49,  1.26s/it] 34%|███▍      | 16526/48845 [5:51:14<11:19:11,  1.26s/it] 34%|███▍      | 16527/48845 [5:51:15<11:19:53,  1.26s/it] 34%|███▍      | 16528/48845 [5:51:17<11:19:30,  1.26s/it] 34%|███▍      | 16529/48845 [5:51:18<11:19:28,  1.26s/it] 34%|███▍      | 16530/48845 [5:51:19<11:18:58,  1.26s/it]                                                          {'loss': 1.912, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16530/48845 [5:51:19<11:18:58,  1.26s/it] 34%|███▍      | 16531/48845 [5:51:20<11:18:48,  1.26s/it] 34%|███▍      | 16532/48845 [5:51:22<11:19:02,  1.26s/it] 34%|███▍      | 16533/48845 [5:51:23<11:19:18,  1.26s/it] 34%|███▍      | 16534/48845 [5:51:24<11:19:27,  1.26s/it] 34%|███▍      | 16535/48845 [5:51:25<11:19:19,  1.26s/it]                                                          {'loss': 1.9129, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16535/48845 [5:51:25<11:19:19,  1.26s/it] 34%|███▍      | 16536/48845 [5:51:27<11:28:48,  1.28s/it] 34%|███▍      | 16537/48845 [5:51:28<11:25:50,  1.27s/it] 34%|███▍      | 16538/48845 [5:51:29<11:23:14,  1.27s/it] 34%|███▍      | 16539/48845 [5:51:31<11:22:16,  1.27s/it] 34%|███▍      | 16540/48845 [5:51:32<11:21:12,  1.27s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16540/48845 [5:51:32<11:21:12,  1.27s/it] 34%|███▍      | 16541/48845 [5:51:33<11:20:22,  1.26s/it] 34%|███▍      | 16542/48845 [5:51:34<11:19:44,  1.26s/it] 34%|███▍      | 16543/48845 [5:51:36<11:19:16,  1.26s/it] 34%|███▍      | 16544/48845 [5:51:37<11:34:18,  1.29s/it] 34%|███▍      | 16545/48845 [5:51:38<11:29:40,  1.28s/it]                                                          {'loss': 2.0766, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16545/48845 [5:51:38<11:29:40,  1.28s/it] 34%|███▍      | 16546/48845 [5:51:40<11:26:29,  1.28s/it] 34%|███▍      | 16547/48845 [5:51:41<11:23:26,  1.27s/it] 34%|███▍      | 16548/48845 [5:51:42<11:21:47,  1.27s/it] 34%|███▍      | 16549/48845 [5:51:43<11:20:41,  1.26s/it] 34%|███▍      | 16550/48845 [5:51:45<11:19:27,  1.26s/it]                                                          {'loss': 1.894, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16550/48845 [5:51:45<11:19:27,  1.26s/it] 34%|███▍      | 16551/48845 [5:51:46<11:18:45,  1.26s/it] 34%|███▍      | 16552/48845 [5:51:47<11:17:47,  1.26s/it] 34%|███▍      | 16553/48845 [5:51:48<11:18:11,  1.26s/it] 34%|███▍      | 16554/48845 [5:51:50<11:18:22,  1.26s/it] 34%|███▍      | 16555/48845 [5:51:51<11:18:18,  1.26s/it]                                                          {'loss': 1.961, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.69}
+ 34%|███▍      | 16555/48845 [5:51:51<11:18:18,  1.26s/it] 34%|███▍      | 16556/48845 [5:51:52<11:18:22,  1.26s/it] 34%|███▍      | 16557/48845 [5:51:53<11:18:06,  1.26s/it] 34%|███▍      | 16558/48845 [5:51:55<11:18:23,  1.26s/it] 34%|███▍      | 16559/48845 [5:51:56<11:19:18,  1.26s/it] 34%|███▍      | 16560/48845 [5:51:57<11:18:04,  1.26s/it]                                                          {'loss': 2.231, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16560/48845 [5:51:57<11:18:04,  1.26s/it] 34%|███▍      | 16561/48845 [5:51:58<11:18:01,  1.26s/it] 34%|███▍      | 16562/48845 [5:52:00<11:17:56,  1.26s/it] 34%|███▍      | 16563/48845 [5:52:01<11:17:06,  1.26s/it] 34%|███▍      | 16564/48845 [5:52:02<11:17:21,  1.26s/it] 34%|███▍      | 16565/48845 [5:52:03<11:17:17,  1.26s/it]                                                          {'loss': 1.9575, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16565/48845 [5:52:03<11:17:17,  1.26s/it] 34%|███▍      | 16566/48845 [5:52:05<11:17:52,  1.26s/it] 34%|███▍      | 16567/48845 [5:52:06<11:17:11,  1.26s/it] 34%|███▍      | 16568/48845 [5:52:07<11:17:09,  1.26s/it] 34%|███▍      | 16569/48845 [5:52:08<11:18:38,  1.26s/it] 34%|███▍      | 16570/48845 [5:52:10<11:18:14,  1.26s/it]                                                          {'loss': 2.2321, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16570/48845 [5:52:10<11:18:14,  1.26s/it] 34%|███▍      | 16571/48845 [5:52:11<11:18:14,  1.26s/it] 34%|███▍      | 16572/48845 [5:52:12<11:17:28,  1.26s/it] 34%|███▍      | 16573/48845 [5:52:14<11:17:54,  1.26s/it] 34%|███▍      | 16574/48845 [5:52:15<11:18:10,  1.26s/it] 34%|███▍      | 16575/48845 [5:52:16<11:17:47,  1.26s/it]                                                          {'loss': 2.0296, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16575/48845 [5:52:16<11:17:47,  1.26s/it] 34%|███▍      | 16576/48845 [5:52:17<11:17:37,  1.26s/it] 34%|███▍      | 16577/48845 [5:52:19<11:17:42,  1.26s/it] 34%|███▍      | 16578/48845 [5:52:20<11:17:38,  1.26s/it] 34%|███▍      | 16579/48845 [5:52:21<11:17:16,  1.26s/it] 34%|███▍      | 16580/48845 [5:52:22<11:16:46,  1.26s/it]                                                          {'loss': 2.0208, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16580/48845 [5:52:22<11:16:46,  1.26s/it] 34%|███▍      | 16581/48845 [5:52:24<11:17:19,  1.26s/it] 34%|███▍      | 16582/48845 [5:52:25<11:17:41,  1.26s/it] 34%|███▍      | 16583/48845 [5:52:26<11:17:28,  1.26s/it] 34%|███▍      | 16584/48845 [5:52:27<11:17:10,  1.26s/it] 34%|███▍      | 16585/48845 [5:52:29<11:17:19,  1.26s/it]                                                          {'loss': 1.9219, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16585/48845 [5:52:29<11:17:19,  1.26s/it] 34%|███▍      | 16586/48845 [5:52:30<11:18:28,  1.26s/it] 34%|███▍      | 16587/48845 [5:52:31<11:18:24,  1.26s/it] 34%|███▍      | 16588/48845 [5:52:32<11:18:04,  1.26s/it] 34%|███▍      | 16589/48845 [5:52:34<11:17:45,  1.26s/it] 34%|███▍      | 16590/48845 [5:52:35<11:17:10,  1.26s/it]                                                          {'loss': 2.1693, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16590/48845 [5:52:35<11:17:10,  1.26s/it] 34%|███▍      | 16591/48845 [5:52:36<11:17:23,  1.26s/it] 34%|███▍      | 16592/48845 [5:52:37<11:17:44,  1.26s/it] 34%|███▍      | 16593/48845 [5:52:39<11:17:27,  1.26s/it] 34%|███▍      | 16594/48845 [5:52:40<11:17:08,  1.26s/it] 34%|███▍      | 16595/48845 [5:52:41<11:17:15,  1.26s/it]                                                          {'loss': 2.011, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16595/48845 [5:52:41<11:17:15,  1.26s/it] 34%|███▍      | 16596/48845 [5:52:43<11:18:11,  1.26s/it] 34%|███▍      | 16597/48845 [5:52:44<11:18:16,  1.26s/it] 34%|███▍      | 16598/48845 [5:52:45<11:16:58,  1.26s/it] 34%|███▍      | 16599/48845 [5:52:46<11:17:27,  1.26s/it] 34%|███▍      | 16600/48845 [5:52:48<11:16:52,  1.26s/it]                                                          {'loss': 2.1268, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16600/48845 [5:52:48<11:16:52,  1.26s/it] 34%|███▍      | 16601/48845 [5:52:51<17:45:58,  1.98s/it] 34%|███▍      | 16602/48845 [5:52:52<15:48:28,  1.76s/it] 34%|███▍      | 16603/48845 [5:52:54<14:26:36,  1.61s/it] 34%|███▍      | 16604/48845 [5:52:55<13:28:33,  1.50s/it] 34%|███▍      | 16605/48845 [5:52:56<12:48:07,  1.43s/it]                                                          {'loss': 2.1956, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16605/48845 [5:52:56<12:48:07,  1.43s/it] 34%|███▍      | 16606/48845 [5:52:57<12:20:33,  1.38s/it] 34%|███▍      | 16607/48845 [5:52:59<12:27:13,  1.39s/it] 34%|███▍      | 16608/48845 [5:53:00<12:05:57,  1.35s/it] 34%|███▍      | 16609/48845 [5:53:01<11:50:56,  1.32s/it] 34%|███▍      | 16610/48845 [5:53:03<11:40:31,  1.30s/it]                                                          {'loss': 2.1612, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16610/48845 [5:53:03<11:40:31,  1.30s/it] 34%|███▍      | 16611/48845 [5:53:04<11:34:48,  1.29s/it] 34%|███▍      | 16612/48845 [5:53:05<11:29:25,  1.28s/it] 34%|███▍      | 16613/48845 [5:53:06<11:25:36,  1.28s/it] 34%|███▍      | 16614/48845 [5:53:08<11:22:13,  1.27s/it] 34%|███▍      | 16615/48845 [5:53:09<11:23:43,  1.27s/it]                                                          {'loss': 1.9395, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16615/48845 [5:53:09<11:23:43,  1.27s/it] 34%|███▍      | 16616/48845 [5:53:10<11:22:07,  1.27s/it] 34%|███▍      | 16617/48845 [5:53:12<11:19:47,  1.27s/it] 34%|███▍      | 16618/48845 [5:53:13<11:18:40,  1.26s/it] 34%|███▍      | 16619/48845 [5:53:14<11:18:15,  1.26s/it] 34%|███▍      | 16620/48845 [5:53:15<11:17:36,  1.26s/it]                                                          {'loss': 1.9528, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16620/48845 [5:53:15<11:17:36,  1.26s/it] 34%|███▍      | 16621/48845 [5:53:17<11:18:05,  1.26s/it] 34%|███▍      | 16622/48845 [5:53:18<11:17:35,  1.26s/it] 34%|███▍      | 16623/48845 [5:53:19<11:16:46,  1.26s/it] 34%|███▍      | 16624/48845 [5:53:20<11:17:57,  1.26s/it] 34%|███▍      | 16625/48845 [5:53:22<11:17:00,  1.26s/it]                                                          {'loss': 2.0734, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16625/48845 [5:53:22<11:17:00,  1.26s/it] 34%|███▍      | 16626/48845 [5:53:23<11:16:47,  1.26s/it] 34%|███▍      | 16627/48845 [5:53:24<11:16:14,  1.26s/it] 34%|███▍      | 16628/48845 [5:53:25<11:16:31,  1.26s/it] 34%|███▍      | 16629/48845 [5:53:27<11:16:55,  1.26s/it] 34%|███▍      | 16630/48845 [5:53:28<11:16:10,  1.26s/it]                                                          {'loss': 1.9611, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16630/48845 [5:53:28<11:16:10,  1.26s/it] 34%|███▍      | 16631/48845 [5:53:29<11:16:04,  1.26s/it] 34%|███▍      | 16632/48845 [5:53:30<11:15:17,  1.26s/it] 34%|███▍      | 16633/48845 [5:53:32<11:15:19,  1.26s/it] 34%|███▍      | 16634/48845 [5:53:33<11:15:45,  1.26s/it] 34%|███▍      | 16635/48845 [5:53:34<11:15:47,  1.26s/it]                                                          {'loss': 2.1293, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16635/48845 [5:53:34<11:15:47,  1.26s/it] 34%|███▍      | 16636/48845 [5:53:35<11:16:10,  1.26s/it] 34%|███▍      | 16637/48845 [5:53:37<11:15:47,  1.26s/it] 34%|███▍      | 16638/48845 [5:53:38<11:15:53,  1.26s/it] 34%|███▍      | 16639/48845 [5:53:39<11:16:08,  1.26s/it] 34%|███▍      | 16640/48845 [5:53:40<11:16:01,  1.26s/it]                                                          {'loss': 2.1126, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16640/48845 [5:53:40<11:16:01,  1.26s/it] 34%|███▍      | 16641/48845 [5:53:42<11:15:58,  1.26s/it] 34%|███▍      | 16642/48845 [5:53:43<11:18:29,  1.26s/it] 34%|███▍      | 16643/48845 [5:53:44<11:17:49,  1.26s/it] 34%|███▍      | 16644/48845 [5:53:46<11:17:35,  1.26s/it] 34%|███▍      | 16645/48845 [5:53:47<11:16:43,  1.26s/it]                                                          {'loss': 2.1706, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16645/48845 [5:53:47<11:16:43,  1.26s/it] 34%|███▍      | 16646/48845 [5:53:48<11:17:04,  1.26s/it] 34%|███▍      | 16647/48845 [5:53:49<11:16:40,  1.26s/it] 34%|███▍      | 16648/48845 [5:53:51<11:16:29,  1.26s/it] 34%|███▍      | 16649/48845 [5:53:52<11:16:19,  1.26s/it] 34%|███▍      | 16650/48845 [5:53:53<11:16:07,  1.26s/it]                                                          {'loss': 1.978, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16650/48845 [5:53:53<11:16:07,  1.26s/it] 34%|███▍      | 16651/48845 [5:53:54<11:16:03,  1.26s/it] 34%|███▍      | 16652/48845 [5:53:56<11:15:54,  1.26s/it] 34%|███▍      | 16653/48845 [5:53:57<11:15:33,  1.26s/it] 34%|███▍      | 16654/48845 [5:53:58<11:15:37,  1.26s/it] 34%|███▍      | 16655/48845 [5:53:59<11:15:34,  1.26s/it]                                                          {'loss': 1.9898, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.7}
+ 34%|███▍      | 16655/48845 [5:53:59<11:15:34,  1.26s/it] 34%|███▍      | 16656/48845 [5:54:01<11:15:33,  1.26s/it] 34%|███▍      | 16657/48845 [5:54:02<11:16:03,  1.26s/it] 34%|███▍      | 16658/48845 [5:54:03<11:15:42,  1.26s/it] 34%|███▍      | 16659/48845 [5:54:04<11:16:05,  1.26s/it] 34%|███▍      | 16660/48845 [5:54:06<11:15:12,  1.26s/it]                                                          {'loss': 2.0759, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16660/48845 [5:54:06<11:15:12,  1.26s/it] 34%|███▍      | 16661/48845 [5:54:07<11:15:44,  1.26s/it] 34%|███▍      | 16662/48845 [5:54:08<11:15:53,  1.26s/it] 34%|███▍      | 16663/48845 [5:54:09<11:15:53,  1.26s/it] 34%|███▍      | 16664/48845 [5:54:11<11:15:33,  1.26s/it] 34%|███▍      | 16665/48845 [5:54:12<11:15:06,  1.26s/it]                                                          {'loss': 1.9905, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16665/48845 [5:54:12<11:15:06,  1.26s/it] 34%|███▍      | 16666/48845 [5:54:13<11:15:25,  1.26s/it] 34%|███▍      | 16667/48845 [5:54:15<11:15:34,  1.26s/it] 34%|███▍      | 16668/48845 [5:54:16<11:15:16,  1.26s/it] 34%|███▍      | 16669/48845 [5:54:17<11:15:17,  1.26s/it] 34%|███▍      | 16670/48845 [5:54:18<11:15:27,  1.26s/it]                                                          {'loss': 2.0806, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16670/48845 [5:54:18<11:15:27,  1.26s/it] 34%|███▍      | 16671/48845 [5:54:20<11:15:30,  1.26s/it] 34%|███▍      | 16672/48845 [5:54:21<11:15:34,  1.26s/it] 34%|███▍      | 16673/48845 [5:54:22<11:15:08,  1.26s/it] 34%|███▍      | 16674/48845 [5:54:23<11:15:25,  1.26s/it] 34%|███▍      | 16675/48845 [5:54:25<11:15:38,  1.26s/it]                                                          {'loss': 2.0153, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16675/48845 [5:54:25<11:15:38,  1.26s/it] 34%|███▍      | 16676/48845 [5:54:26<11:15:23,  1.26s/it] 34%|███▍      | 16677/48845 [5:54:27<11:15:23,  1.26s/it] 34%|███▍      | 16678/48845 [5:54:28<11:15:27,  1.26s/it] 34%|███▍      | 16679/48845 [5:54:30<11:16:06,  1.26s/it] 34%|███▍      | 16680/48845 [5:54:31<11:15:56,  1.26s/it]                                                          {'loss': 2.1953, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16680/48845 [5:54:31<11:15:56,  1.26s/it] 34%|███▍      | 16681/48845 [5:54:32<11:15:33,  1.26s/it] 34%|███▍      | 16682/48845 [5:54:33<11:16:10,  1.26s/it] 34%|███▍      | 16683/48845 [5:54:35<11:15:54,  1.26s/it] 34%|███▍      | 16684/48845 [5:54:36<11:15:15,  1.26s/it] 34%|███▍      | 16685/48845 [5:54:37<11:16:57,  1.26s/it]                                                          {'loss': 1.9666, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16685/48845 [5:54:37<11:16:57,  1.26s/it] 34%|███▍      | 16686/48845 [5:54:38<11:17:10,  1.26s/it] 34%|███▍      | 16687/48845 [5:54:40<11:17:01,  1.26s/it] 34%|███▍      | 16688/48845 [5:54:41<11:15:40,  1.26s/it] 34%|███▍      | 16689/48845 [5:54:42<11:14:57,  1.26s/it] 34%|███▍      | 16690/48845 [5:54:44<11:15:31,  1.26s/it]                                                          {'loss': 1.9313, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16690/48845 [5:54:44<11:15:31,  1.26s/it] 34%|███▍      | 16691/48845 [5:54:45<11:15:04,  1.26s/it] 34%|███▍      | 16692/48845 [5:54:46<11:15:09,  1.26s/it] 34%|███▍      | 16693/48845 [5:54:47<11:15:04,  1.26s/it] 34%|███▍      | 16694/48845 [5:54:49<11:15:09,  1.26s/it] 34%|███▍      | 16695/48845 [5:54:50<11:15:16,  1.26s/it]                                                          {'loss': 1.998, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16695/48845 [5:54:50<11:15:16,  1.26s/it] 34%|███▍      | 16696/48845 [5:54:51<11:14:50,  1.26s/it] 34%|███▍      | 16697/48845 [5:54:52<11:14:57,  1.26s/it] 34%|███▍      | 16698/48845 [5:54:54<11:15:10,  1.26s/it] 34%|███▍      | 16699/48845 [5:54:55<11:14:53,  1.26s/it] 34%|███▍      | 16700/48845 [5:54:56<11:14:51,  1.26s/it]                                                          {'loss': 1.9111, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16700/48845 [5:54:56<11:14:51,  1.26s/it] 34%|███▍      | 16701/48845 [5:54:57<11:14:49,  1.26s/it] 34%|███▍      | 16702/48845 [5:54:59<11:14:54,  1.26s/it] 34%|███▍      | 16703/48845 [5:55:00<11:14:35,  1.26s/it] 34%|███▍      | 16704/48845 [5:55:01<11:14:16,  1.26s/it] 34%|███▍      | 16705/48845 [5:55:02<11:14:31,  1.26s/it]                                                          {'loss': 1.9252, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16705/48845 [5:55:02<11:14:31,  1.26s/it] 34%|███▍      | 16706/48845 [5:55:04<11:15:17,  1.26s/it] 34%|███▍      | 16707/48845 [5:55:05<11:15:12,  1.26s/it] 34%|███▍      | 16708/48845 [5:55:06<11:14:59,  1.26s/it] 34%|███▍      | 16709/48845 [5:55:07<11:14:45,  1.26s/it] 34%|███▍      | 16710/48845 [5:55:09<11:15:24,  1.26s/it]                                                          {'loss': 2.0128, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16710/48845 [5:55:09<11:15:24,  1.26s/it] 34%|███▍      | 16711/48845 [5:55:10<11:15:04,  1.26s/it] 34%|███▍      | 16712/48845 [5:55:11<11:14:46,  1.26s/it] 34%|███▍      | 16713/48845 [5:55:12<11:14:15,  1.26s/it] 34%|███▍      | 16714/48845 [5:55:14<11:14:18,  1.26s/it] 34%|███▍      | 16715/48845 [5:55:15<11:14:22,  1.26s/it]                                                          {'loss': 2.0314, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16715/48845 [5:55:15<11:14:22,  1.26s/it] 34%|███▍      | 16716/48845 [5:55:16<11:14:00,  1.26s/it] 34%|███▍      | 16717/48845 [5:55:18<11:13:57,  1.26s/it] 34%|███▍      | 16718/48845 [5:55:19<11:14:24,  1.26s/it] 34%|███▍      | 16719/48845 [5:55:20<11:14:20,  1.26s/it] 34%|███▍      | 16720/48845 [5:55:21<11:14:09,  1.26s/it]                                                          {'loss': 2.0256, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16720/48845 [5:55:21<11:14:09,  1.26s/it] 34%|███▍      | 16721/48845 [5:55:23<11:14:06,  1.26s/it] 34%|███▍      | 16722/48845 [5:55:24<11:14:10,  1.26s/it] 34%|███▍      | 16723/48845 [5:55:25<11:13:49,  1.26s/it] 34%|███▍      | 16724/48845 [5:55:26<11:13:18,  1.26s/it] 34%|███▍      | 16725/48845 [5:55:28<11:14:16,  1.26s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16725/48845 [5:55:28<11:14:16,  1.26s/it] 34%|███▍      | 16726/48845 [5:55:29<11:15:47,  1.26s/it] 34%|███▍      | 16727/48845 [5:55:30<11:14:56,  1.26s/it] 34%|███▍      | 16728/48845 [5:55:31<11:14:42,  1.26s/it] 34%|███▍      | 16729/48845 [5:55:33<11:14:29,  1.26s/it] 34%|███▍      | 16730/48845 [5:55:34<11:15:22,  1.26s/it]                                                          {'loss': 2.0323, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16730/48845 [5:55:34<11:15:22,  1.26s/it] 34%|███▍      | 16731/48845 [5:55:35<11:15:05,  1.26s/it] 34%|███▍      | 16732/48845 [5:55:36<11:14:50,  1.26s/it] 34%|███▍      | 16733/48845 [5:55:38<11:14:10,  1.26s/it] 34%|███▍      | 16734/48845 [5:55:39<11:14:48,  1.26s/it] 34%|███▍      | 16735/48845 [5:55:40<11:14:26,  1.26s/it]                                                          {'loss': 2.005, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16735/48845 [5:55:40<11:14:26,  1.26s/it] 34%|███▍      | 16736/48845 [5:55:41<11:15:15,  1.26s/it] 34%|███▍      | 16737/48845 [5:55:43<11:14:48,  1.26s/it] 34%|███▍      | 16738/48845 [5:55:44<11:15:12,  1.26s/it] 34%|███▍      | 16739/48845 [5:55:45<11:14:29,  1.26s/it] 34%|███▍      | 16740/48845 [5:55:47<11:14:22,  1.26s/it]                                                          {'loss': 1.9392, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16740/48845 [5:55:47<11:14:22,  1.26s/it] 34%|███▍      | 16741/48845 [5:55:48<11:14:55,  1.26s/it] 34%|███▍      | 16742/48845 [5:55:49<11:14:58,  1.26s/it] 34%|███▍      | 16743/48845 [5:55:50<11:15:12,  1.26s/it] 34%|███▍      | 16744/48845 [5:55:52<11:14:45,  1.26s/it] 34%|███▍      | 16745/48845 [5:55:53<11:14:55,  1.26s/it]                                                          {'loss': 2.1991, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16745/48845 [5:55:53<11:14:55,  1.26s/it] 34%|███▍      | 16746/48845 [5:55:54<11:14:33,  1.26s/it] 34%|███▍      | 16747/48845 [5:55:55<11:14:08,  1.26s/it] 34%|███▍      | 16748/48845 [5:55:57<11:14:23,  1.26s/it] 34%|███▍      | 16749/48845 [5:55:58<11:13:56,  1.26s/it] 34%|███▍      | 16750/48845 [5:55:59<11:14:10,  1.26s/it]                                                          {'loss': 2.0908, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.71}
+ 34%|███▍      | 16750/48845 [5:55:59<11:14:10,  1.26s/it] 34%|███▍      | 16751/48845 [5:56:00<11:13:53,  1.26s/it] 34%|███▍      | 16752/48845 [5:56:02<11:14:14,  1.26s/it] 34%|███▍      | 16753/48845 [5:56:03<11:14:24,  1.26s/it] 34%|███▍      | 16754/48845 [5:56:04<11:14:31,  1.26s/it] 34%|███▍      | 16755/48845 [5:56:05<11:14:12,  1.26s/it]                                                          {'loss': 1.9853, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16755/48845 [5:56:05<11:14:12,  1.26s/it] 34%|███▍      | 16756/48845 [5:56:07<11:16:03,  1.26s/it] 34%|███▍      | 16757/48845 [5:56:08<11:16:42,  1.27s/it] 34%|███▍      | 16758/48845 [5:56:09<11:15:52,  1.26s/it] 34%|███▍      | 16759/48845 [5:56:10<11:15:21,  1.26s/it] 34%|███▍      | 16760/48845 [5:56:12<11:14:28,  1.26s/it]                                                          {'loss': 2.1861, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16760/48845 [5:56:12<11:14:28,  1.26s/it] 34%|███▍      | 16761/48845 [5:56:13<11:14:21,  1.26s/it] 34%|███▍      | 16762/48845 [5:56:14<11:14:04,  1.26s/it] 34%|███▍      | 16763/48845 [5:56:16<11:13:50,  1.26s/it] 34%|███▍      | 16764/48845 [5:56:17<11:21:06,  1.27s/it] 34%|███▍      | 16765/48845 [5:56:18<11:19:18,  1.27s/it]                                                          {'loss': 2.0173, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16765/48845 [5:56:18<11:19:18,  1.27s/it] 34%|███▍      | 16766/48845 [5:56:19<11:17:46,  1.27s/it] 34%|███▍      | 16767/48845 [5:56:21<11:16:15,  1.26s/it] 34%|███▍      | 16768/48845 [5:56:22<11:14:32,  1.26s/it] 34%|███▍      | 16769/48845 [5:56:23<11:13:43,  1.26s/it] 34%|███▍      | 16770/48845 [5:56:24<11:13:58,  1.26s/it]                                                          {'loss': 2.167, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16770/48845 [5:56:24<11:13:58,  1.26s/it] 34%|███▍      | 16771/48845 [5:56:26<11:13:24,  1.26s/it] 34%|███▍      | 16772/48845 [5:56:27<11:13:19,  1.26s/it] 34%|███▍      | 16773/48845 [5:56:28<11:13:13,  1.26s/it] 34%|███▍      | 16774/48845 [5:56:29<11:12:31,  1.26s/it] 34%|███▍      | 16775/48845 [5:56:31<11:13:30,  1.26s/it]                                                          {'loss': 2.1912, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16775/48845 [5:56:31<11:13:30,  1.26s/it] 34%|███▍      | 16776/48845 [5:56:32<11:13:29,  1.26s/it] 34%|███▍      | 16777/48845 [5:56:33<11:13:21,  1.26s/it] 34%|███▍      | 16778/48845 [5:56:34<11:12:36,  1.26s/it] 34%|███▍      | 16779/48845 [5:56:36<11:13:24,  1.26s/it] 34%|███▍      | 16780/48845 [5:56:37<11:13:35,  1.26s/it]                                                          {'loss': 2.0527, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16780/48845 [5:56:37<11:13:35,  1.26s/it] 34%|███▍      | 16781/48845 [5:56:38<11:13:11,  1.26s/it] 34%|███▍      | 16782/48845 [5:56:40<11:13:51,  1.26s/it] 34%|███▍      | 16783/48845 [5:56:41<11:13:39,  1.26s/it] 34%|███▍      | 16784/48845 [5:56:42<11:12:54,  1.26s/it] 34%|███▍      | 16785/48845 [5:56:43<11:13:24,  1.26s/it]                                                          {'loss': 2.0684, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16785/48845 [5:56:43<11:13:24,  1.26s/it] 34%|███▍      | 16786/48845 [5:56:45<11:13:07,  1.26s/it] 34%|███▍      | 16787/48845 [5:56:46<11:14:08,  1.26s/it] 34%|███▍      | 16788/48845 [5:56:47<11:15:04,  1.26s/it] 34%|███▍      | 16789/48845 [5:56:48<11:14:43,  1.26s/it] 34%|███▍      | 16790/48845 [5:56:50<11:14:42,  1.26s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16790/48845 [5:56:50<11:14:42,  1.26s/it] 34%|███▍      | 16791/48845 [5:56:51<11:14:03,  1.26s/it] 34%|███▍      | 16792/48845 [5:56:52<11:13:41,  1.26s/it] 34%|███▍      | 16793/48845 [5:56:53<11:14:29,  1.26s/it] 34%|███▍      | 16794/48845 [5:56:55<11:14:11,  1.26s/it] 34%|███▍      | 16795/48845 [5:56:56<11:13:32,  1.26s/it]                                                          {'loss': 2.0862, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16795/48845 [5:56:56<11:13:32,  1.26s/it] 34%|███▍      | 16796/48845 [5:56:57<11:13:28,  1.26s/it] 34%|███▍      | 16797/48845 [5:56:58<11:12:55,  1.26s/it] 34%|███▍      | 16798/48845 [5:57:00<11:12:56,  1.26s/it] 34%|███▍      | 16799/48845 [5:57:01<11:12:41,  1.26s/it] 34%|███▍      | 16800/48845 [5:57:02<11:12:54,  1.26s/it]                                                          {'loss': 1.9353, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16800/48845 [5:57:02<11:12:54,  1.26s/it] 34%|███▍      | 16801/48845 [5:57:06<17:41:04,  1.99s/it] 34%|███▍      | 16802/48845 [5:57:07<15:44:45,  1.77s/it] 34%|███▍      | 16803/48845 [5:57:08<14:23:27,  1.62s/it] 34%|███▍      | 16804/48845 [5:57:10<13:27:05,  1.51s/it] 34%|███▍      | 16805/48845 [5:57:11<12:46:26,  1.44s/it]                                                          {'loss': 1.9092, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16805/48845 [5:57:11<12:46:26,  1.44s/it] 34%|███▍      | 16806/48845 [5:57:12<12:18:00,  1.38s/it] 34%|███▍      | 16807/48845 [5:57:13<11:58:53,  1.35s/it] 34%|███▍      | 16808/48845 [5:57:15<11:44:49,  1.32s/it] 34%|███▍      | 16809/48845 [5:57:16<11:35:06,  1.30s/it] 34%|███▍      | 16810/48845 [5:57:17<11:28:23,  1.29s/it]                                                          {'loss': 2.3777, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16810/48845 [5:57:17<11:28:23,  1.29s/it] 34%|███▍      | 16811/48845 [5:57:18<11:24:03,  1.28s/it] 34%|███▍      | 16812/48845 [5:57:20<11:20:06,  1.27s/it] 34%|███▍      | 16813/48845 [5:57:21<11:17:35,  1.27s/it] 34%|███▍      | 16814/48845 [5:57:22<11:16:20,  1.27s/it] 34%|███▍      | 16815/48845 [5:57:24<11:15:12,  1.26s/it]                                                          {'loss': 1.888, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16815/48845 [5:57:24<11:15:12,  1.26s/it] 34%|███▍      | 16816/48845 [5:57:25<11:14:31,  1.26s/it] 34%|███▍      | 16817/48845 [5:57:26<11:13:31,  1.26s/it] 34%|███▍      | 16818/48845 [5:57:27<11:13:03,  1.26s/it] 34%|███▍      | 16819/48845 [5:57:29<11:13:00,  1.26s/it] 34%|███▍      | 16820/48845 [5:57:30<11:13:13,  1.26s/it]                                                          {'loss': 1.927, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16820/48845 [5:57:30<11:13:13,  1.26s/it] 34%|███▍      | 16821/48845 [5:57:31<11:13:25,  1.26s/it] 34%|███▍      | 16822/48845 [5:57:32<11:13:00,  1.26s/it] 34%|███▍      | 16823/48845 [5:57:34<11:12:48,  1.26s/it] 34%|███▍      | 16824/48845 [5:57:35<11:12:28,  1.26s/it] 34%|███▍      | 16825/48845 [5:57:36<11:12:12,  1.26s/it]                                                          {'loss': 1.8365, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16825/48845 [5:57:36<11:12:12,  1.26s/it] 34%|███▍      | 16826/48845 [5:57:37<11:13:21,  1.26s/it] 34%|███▍      | 16827/48845 [5:57:39<11:14:05,  1.26s/it] 34%|███▍      | 16828/48845 [5:57:40<11:13:16,  1.26s/it] 34%|███▍      | 16829/48845 [5:57:41<11:13:01,  1.26s/it] 34%|███▍      | 16830/48845 [5:57:42<11:12:30,  1.26s/it]                                                          {'loss': 2.3177, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16830/48845 [5:57:42<11:12:30,  1.26s/it] 34%|███▍      | 16831/48845 [5:57:44<11:15:02,  1.27s/it] 34%|███▍      | 16832/48845 [5:57:45<11:14:25,  1.26s/it] 34%|███▍      | 16833/48845 [5:57:46<11:14:09,  1.26s/it] 34%|███▍      | 16834/48845 [5:57:47<11:13:46,  1.26s/it] 34%|███▍      | 16835/48845 [5:57:49<11:14:29,  1.26s/it]                                                          {'loss': 1.9479, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16835/48845 [5:57:49<11:14:29,  1.26s/it] 34%|███▍      | 16836/48845 [5:57:50<11:13:45,  1.26s/it] 34%|███▍      | 16837/48845 [5:57:51<11:14:03,  1.26s/it] 34%|███▍      | 16838/48845 [5:57:53<11:14:09,  1.26s/it] 34%|███▍      | 16839/48845 [5:57:54<11:14:07,  1.26s/it] 34%|███▍      | 16840/48845 [5:57:55<11:14:13,  1.26s/it]                                                          {'loss': 2.2214, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16840/48845 [5:57:55<11:14:13,  1.26s/it] 34%|███▍      | 16841/48845 [5:57:56<11:14:12,  1.26s/it] 34%|███▍      | 16842/48845 [5:57:58<11:13:33,  1.26s/it] 34%|███▍      | 16843/48845 [5:57:59<11:13:34,  1.26s/it] 34%|███▍      | 16844/48845 [5:58:00<11:12:59,  1.26s/it] 34%|███▍      | 16845/48845 [5:58:01<11:12:33,  1.26s/it]                                                          {'loss': 2.0859, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16845/48845 [5:58:01<11:12:33,  1.26s/it] 34%|███▍      | 16846/48845 [5:58:03<11:13:21,  1.26s/it] 34%|███▍      | 16847/48845 [5:58:04<11:13:47,  1.26s/it] 34%|███▍      | 16848/48845 [5:58:05<11:13:27,  1.26s/it] 34%|███▍      | 16849/48845 [5:58:06<11:13:29,  1.26s/it] 34%|███▍      | 16850/48845 [5:58:08<11:13:28,  1.26s/it]                                                          {'loss': 1.9592, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.72}
+ 34%|███▍      | 16850/48845 [5:58:08<11:13:28,  1.26s/it] 34%|███▍      | 16851/48845 [5:58:09<11:31:47,  1.30s/it] 35%|███▍      | 16852/48845 [5:58:10<11:26:18,  1.29s/it] 35%|███▍      | 16853/48845 [5:58:12<11:21:49,  1.28s/it] 35%|███▍      | 16854/48845 [5:58:13<11:18:54,  1.27s/it] 35%|███▍      | 16855/48845 [5:58:14<11:17:03,  1.27s/it]                                                          {'loss': 2.1409, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16855/48845 [5:58:14<11:17:03,  1.27s/it] 35%|███▍      | 16856/48845 [5:58:15<11:15:49,  1.27s/it] 35%|███▍      | 16857/48845 [5:58:17<11:14:56,  1.27s/it] 35%|███▍      | 16858/48845 [5:58:18<11:14:36,  1.27s/it] 35%|███▍      | 16859/48845 [5:58:19<11:13:28,  1.26s/it] 35%|███▍      | 16860/48845 [5:58:20<11:13:13,  1.26s/it]                                                          {'loss': 1.9537, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16860/48845 [5:58:20<11:13:13,  1.26s/it] 35%|███▍      | 16861/48845 [5:58:22<11:12:44,  1.26s/it] 35%|███▍      | 16862/48845 [5:58:23<11:12:46,  1.26s/it] 35%|███▍      | 16863/48845 [5:58:24<11:11:59,  1.26s/it] 35%|███▍      | 16864/48845 [5:58:25<11:11:49,  1.26s/it] 35%|███▍      | 16865/48845 [5:58:27<11:12:18,  1.26s/it]                                                          {'loss': 2.0788, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16865/48845 [5:58:27<11:12:18,  1.26s/it] 35%|███▍      | 16866/48845 [5:58:28<11:12:00,  1.26s/it] 35%|███▍      | 16867/48845 [5:58:29<11:12:06,  1.26s/it] 35%|███▍      | 16868/48845 [5:58:31<11:12:16,  1.26s/it] 35%|███▍      | 16869/48845 [5:58:32<11:12:19,  1.26s/it] 35%|███▍      | 16870/48845 [5:58:33<11:12:08,  1.26s/it]                                                          {'loss': 1.8389, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16870/48845 [5:58:33<11:12:08,  1.26s/it] 35%|███▍      | 16871/48845 [5:58:34<11:11:55,  1.26s/it] 35%|███▍      | 16872/48845 [5:58:36<11:11:45,  1.26s/it] 35%|███▍      | 16873/48845 [5:58:37<11:11:11,  1.26s/it] 35%|███▍      | 16874/48845 [5:58:38<11:10:30,  1.26s/it] 35%|███▍      | 16875/48845 [5:58:39<11:11:11,  1.26s/it]                                                          {'loss': 1.8272, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16875/48845 [5:58:39<11:11:11,  1.26s/it] 35%|███▍      | 16876/48845 [5:58:41<11:11:04,  1.26s/it] 35%|███▍      | 16877/48845 [5:58:42<11:12:07,  1.26s/it] 35%|███▍      | 16878/48845 [5:58:43<11:11:16,  1.26s/it] 35%|███▍      | 16879/48845 [5:58:44<11:10:58,  1.26s/it] 35%|███▍      | 16880/48845 [5:58:46<11:11:50,  1.26s/it]                                                          {'loss': 2.0578, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16880/48845 [5:58:46<11:11:50,  1.26s/it] 35%|███▍      | 16881/48845 [5:58:47<11:11:15,  1.26s/it] 35%|███▍      | 16882/48845 [5:58:48<11:11:36,  1.26s/it] 35%|███▍      | 16883/48845 [5:58:49<11:11:29,  1.26s/it] 35%|███▍      | 16884/48845 [5:58:51<11:11:15,  1.26s/it] 35%|███▍      | 16885/48845 [5:58:52<11:11:18,  1.26s/it]                                                          {'loss': 2.029, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16885/48845 [5:58:52<11:11:18,  1.26s/it] 35%|███▍      | 16886/48845 [5:58:53<11:11:47,  1.26s/it] 35%|███▍      | 16887/48845 [5:58:54<11:11:01,  1.26s/it] 35%|███▍      | 16888/48845 [5:58:56<11:11:17,  1.26s/it] 35%|███▍      | 16889/48845 [5:58:57<11:11:04,  1.26s/it] 35%|███▍      | 16890/48845 [5:58:58<11:11:23,  1.26s/it]                                                          {'loss': 2.0308, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16890/48845 [5:58:58<11:11:23,  1.26s/it] 35%|███▍      | 16891/48845 [5:59:00<11:11:06,  1.26s/it] 35%|███▍      | 16892/48845 [5:59:01<11:11:48,  1.26s/it] 35%|███▍      | 16893/48845 [5:59:02<11:11:55,  1.26s/it] 35%|███▍      | 16894/48845 [5:59:03<11:11:05,  1.26s/it] 35%|███▍      | 16895/48845 [5:59:05<11:10:44,  1.26s/it]                                                          {'loss': 2.0922, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16895/48845 [5:59:05<11:10:44,  1.26s/it] 35%|███▍      | 16896/48845 [5:59:06<11:11:05,  1.26s/it] 35%|███▍      | 16897/48845 [5:59:07<11:10:48,  1.26s/it] 35%|███▍      | 16898/48845 [5:59:08<11:11:07,  1.26s/it] 35%|███▍      | 16899/48845 [5:59:10<11:10:43,  1.26s/it] 35%|███▍      | 16900/48845 [5:59:11<11:10:48,  1.26s/it]                                                          {'loss': 2.069, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16900/48845 [5:59:11<11:10:48,  1.26s/it] 35%|███▍      | 16901/48845 [5:59:12<11:16:51,  1.27s/it] 35%|███▍      | 16902/48845 [5:59:13<11:14:50,  1.27s/it] 35%|███▍      | 16903/48845 [5:59:15<11:14:37,  1.27s/it] 35%|███▍      | 16904/48845 [5:59:16<11:13:53,  1.27s/it] 35%|███▍      | 16905/48845 [5:59:17<11:12:56,  1.26s/it]                                                          {'loss': 1.9185, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16905/48845 [5:59:17<11:12:56,  1.26s/it] 35%|███▍      | 16906/48845 [5:59:18<11:12:19,  1.26s/it] 35%|███▍      | 16907/48845 [5:59:20<11:12:08,  1.26s/it] 35%|███▍      | 16908/48845 [5:59:21<11:12:38,  1.26s/it] 35%|███▍      | 16909/48845 [5:59:22<11:11:51,  1.26s/it] 35%|███▍      | 16910/48845 [5:59:24<11:11:29,  1.26s/it]                                                          {'loss': 2.089, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16910/48845 [5:59:24<11:11:29,  1.26s/it] 35%|███▍      | 16911/48845 [5:59:25<11:11:28,  1.26s/it] 35%|███▍      | 16912/48845 [5:59:26<11:11:13,  1.26s/it] 35%|███▍      | 16913/48845 [5:59:27<11:10:31,  1.26s/it] 35%|███▍      | 16914/48845 [5:59:29<11:10:23,  1.26s/it] 35%|███▍      | 16915/48845 [5:59:30<11:10:01,  1.26s/it]                                                          {'loss': 2.0691, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16915/48845 [5:59:30<11:10:01,  1.26s/it] 35%|███▍      | 16916/48845 [5:59:31<11:10:36,  1.26s/it] 35%|███▍      | 16917/48845 [5:59:32<11:10:31,  1.26s/it] 35%|███▍      | 16918/48845 [5:59:34<11:10:28,  1.26s/it] 35%|███▍      | 16919/48845 [5:59:35<11:10:48,  1.26s/it] 35%|███▍      | 16920/48845 [5:59:36<11:11:02,  1.26s/it]                                                          {'loss': 1.9345, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16920/48845 [5:59:36<11:11:02,  1.26s/it] 35%|███▍      | 16921/48845 [5:59:37<11:11:01,  1.26s/it] 35%|███▍      | 16922/48845 [5:59:39<11:11:03,  1.26s/it] 35%|███▍      | 16923/48845 [5:59:40<11:12:03,  1.26s/it] 35%|███▍      | 16924/48845 [5:59:41<11:11:32,  1.26s/it] 35%|███▍      | 16925/48845 [5:59:42<11:11:59,  1.26s/it]                                                          {'loss': 2.3266, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16925/48845 [5:59:42<11:11:59,  1.26s/it] 35%|███▍      | 16926/48845 [5:59:44<11:11:48,  1.26s/it] 35%|███▍      | 16927/48845 [5:59:45<11:11:11,  1.26s/it] 35%|███▍      | 16928/48845 [5:59:46<11:10:49,  1.26s/it] 35%|███▍      | 16929/48845 [5:59:47<11:10:37,  1.26s/it] 35%|███▍      | 16930/48845 [5:59:49<11:11:10,  1.26s/it]                                                          {'loss': 2.0961, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16930/48845 [5:59:49<11:11:10,  1.26s/it] 35%|███▍      | 16931/48845 [5:59:50<11:10:39,  1.26s/it] 35%|███▍      | 16932/48845 [5:59:51<11:10:29,  1.26s/it] 35%|███▍      | 16933/48845 [5:59:53<11:10:37,  1.26s/it] 35%|███▍      | 16934/48845 [5:59:54<11:10:22,  1.26s/it] 35%|███▍      | 16935/48845 [5:59:55<11:09:59,  1.26s/it]                                                          {'loss': 2.1972, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16935/48845 [5:59:55<11:09:59,  1.26s/it] 35%|███▍      | 16936/48845 [5:59:56<11:09:50,  1.26s/it] 35%|███▍      | 16937/48845 [5:59:58<11:09:31,  1.26s/it] 35%|███▍      | 16938/48845 [5:59:59<11:09:59,  1.26s/it] 35%|███▍      | 16939/48845 [6:00:00<11:10:40,  1.26s/it] 35%|███▍      | 16940/48845 [6:00:01<11:10:51,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16940/48845 [6:00:01<11:10:51,  1.26s/it] 35%|███▍      | 16941/48845 [6:00:03<11:10:48,  1.26s/it] 35%|███▍      | 16942/48845 [6:00:04<11:10:40,  1.26s/it] 35%|███▍      | 16943/48845 [6:00:05<11:10:26,  1.26s/it] 35%|███▍      | 16944/48845 [6:00:06<11:09:55,  1.26s/it] 35%|███▍      | 16945/48845 [6:00:08<11:09:46,  1.26s/it]                                                          {'loss': 2.0606, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.73}
+ 35%|███▍      | 16945/48845 [6:00:08<11:09:46,  1.26s/it] 35%|███▍      | 16946/48845 [6:00:09<11:10:15,  1.26s/it] 35%|███▍      | 16947/48845 [6:00:10<11:09:52,  1.26s/it] 35%|███▍      | 16948/48845 [6:00:11<11:10:44,  1.26s/it] 35%|███▍      | 16949/48845 [6:00:13<11:10:05,  1.26s/it] 35%|███▍      | 16950/48845 [6:00:14<11:10:38,  1.26s/it]                                                          {'loss': 2.1227, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16950/48845 [6:00:14<11:10:38,  1.26s/it] 35%|███▍      | 16951/48845 [6:00:15<11:10:14,  1.26s/it] 35%|███▍      | 16952/48845 [6:00:16<11:09:57,  1.26s/it] 35%|███▍      | 16953/48845 [6:00:18<11:09:43,  1.26s/it] 35%|███▍      | 16954/48845 [6:00:19<11:09:04,  1.26s/it] 35%|███▍      | 16955/48845 [6:00:20<11:08:58,  1.26s/it]                                                          {'loss': 1.9638, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16955/48845 [6:00:20<11:08:58,  1.26s/it] 35%|███▍      | 16956/48845 [6:00:21<11:09:20,  1.26s/it] 35%|███▍      | 16957/48845 [6:00:23<11:09:01,  1.26s/it] 35%|███▍      | 16958/48845 [6:00:24<11:08:57,  1.26s/it] 35%|███▍      | 16959/48845 [6:00:25<11:08:37,  1.26s/it] 35%|███▍      | 16960/48845 [6:00:27<11:09:00,  1.26s/it]                                                          {'loss': 1.962, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16960/48845 [6:00:27<11:09:00,  1.26s/it] 35%|███▍      | 16961/48845 [6:00:28<11:09:08,  1.26s/it] 35%|███▍      | 16962/48845 [6:00:29<11:08:59,  1.26s/it] 35%|███▍      | 16963/48845 [6:00:30<11:09:20,  1.26s/it] 35%|███▍      | 16964/48845 [6:00:32<11:08:36,  1.26s/it] 35%|███▍      | 16965/48845 [6:00:33<11:09:09,  1.26s/it]                                                          {'loss': 2.1607, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16965/48845 [6:00:33<11:09:09,  1.26s/it] 35%|███▍      | 16966/48845 [6:00:34<11:09:25,  1.26s/it] 35%|███▍      | 16967/48845 [6:00:35<11:09:15,  1.26s/it] 35%|███▍      | 16968/48845 [6:00:37<11:09:48,  1.26s/it] 35%|███▍      | 16969/48845 [6:00:38<11:09:11,  1.26s/it] 35%|███▍      | 16970/48845 [6:00:39<11:09:05,  1.26s/it]                                                          {'loss': 2.0864, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16970/48845 [6:00:39<11:09:05,  1.26s/it] 35%|███▍      | 16971/48845 [6:00:40<11:08:56,  1.26s/it] 35%|███▍      | 16972/48845 [6:00:42<11:09:12,  1.26s/it] 35%|███▍      | 16973/48845 [6:00:43<11:11:54,  1.26s/it] 35%|███▍      | 16974/48845 [6:00:44<11:11:09,  1.26s/it] 35%|███▍      | 16975/48845 [6:00:45<11:10:29,  1.26s/it]                                                          {'loss': 2.0478, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16975/48845 [6:00:45<11:10:29,  1.26s/it] 35%|███▍      | 16976/48845 [6:00:47<11:10:28,  1.26s/it] 35%|███▍      | 16977/48845 [6:00:48<11:10:26,  1.26s/it] 35%|███▍      | 16978/48845 [6:00:49<11:10:31,  1.26s/it] 35%|███▍      | 16979/48845 [6:00:50<11:09:00,  1.26s/it] 35%|███▍      | 16980/48845 [6:00:52<11:08:46,  1.26s/it]                                                          {'loss': 2.082, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16980/48845 [6:00:52<11:08:46,  1.26s/it] 35%|███▍      | 16981/48845 [6:00:53<11:09:02,  1.26s/it] 35%|███▍      | 16982/48845 [6:00:54<11:09:32,  1.26s/it] 35%|███▍      | 16983/48845 [6:00:56<11:09:10,  1.26s/it] 35%|███▍      | 16984/48845 [6:00:57<11:09:21,  1.26s/it] 35%|███▍      | 16985/48845 [6:00:58<11:09:33,  1.26s/it]                                                          {'loss': 2.0869, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16985/48845 [6:00:58<11:09:33,  1.26s/it] 35%|███▍      | 16986/48845 [6:00:59<11:11:14,  1.26s/it] 35%|███▍      | 16987/48845 [6:01:01<11:10:50,  1.26s/it] 35%|███▍      | 16988/48845 [6:01:02<11:10:04,  1.26s/it] 35%|███▍      | 16989/48845 [6:01:03<11:10:17,  1.26s/it] 35%|███▍      | 16990/48845 [6:01:04<11:09:47,  1.26s/it]                                                          {'loss': 1.9226, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16990/48845 [6:01:04<11:09:47,  1.26s/it] 35%|███▍      | 16991/48845 [6:01:06<11:09:40,  1.26s/it] 35%|███▍      | 16992/48845 [6:01:07<11:09:12,  1.26s/it] 35%|███▍      | 16993/48845 [6:01:08<11:08:18,  1.26s/it] 35%|███▍      | 16994/48845 [6:01:09<11:09:29,  1.26s/it] 35%|███▍      | 16995/48845 [6:01:11<11:08:20,  1.26s/it]                                                          {'loss': 1.9258, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 16995/48845 [6:01:11<11:08:20,  1.26s/it] 35%|███▍      | 16996/48845 [6:01:12<11:09:00,  1.26s/it] 35%|███▍      | 16997/48845 [6:01:13<11:08:36,  1.26s/it] 35%|███▍      | 16998/48845 [6:01:14<11:10:04,  1.26s/it] 35%|███▍      | 16999/48845 [6:01:16<11:10:15,  1.26s/it] 35%|███▍      | 17000/48845 [6:01:17<11:09:32,  1.26s/it]                                                          {'loss': 2.1033, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17000/48845 [6:01:17<11:09:32,  1.26s/it] 35%|███▍      | 17001/48845 [6:01:21<17:31:43,  1.98s/it] 35%|███▍      | 17002/48845 [6:01:22<15:37:49,  1.77s/it] 35%|███▍      | 17003/48845 [6:01:23<14:17:23,  1.62s/it] 35%|███▍      | 17004/48845 [6:01:24<13:20:53,  1.51s/it] 35%|███▍      | 17005/48845 [6:01:26<12:40:25,  1.43s/it]                                                          {'loss': 1.9973, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17005/48845 [6:01:26<12:40:25,  1.43s/it] 35%|███▍      | 17006/48845 [6:01:27<12:11:55,  1.38s/it] 35%|███▍      | 17007/48845 [6:01:28<11:53:22,  1.34s/it] 35%|███▍      | 17008/48845 [6:01:29<11:39:19,  1.32s/it] 35%|███▍      | 17009/48845 [6:01:31<11:29:55,  1.30s/it] 35%|███▍      | 17010/48845 [6:01:32<11:22:52,  1.29s/it]                                                          {'loss': 2.0334, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17010/48845 [6:01:32<11:22:52,  1.29s/it] 35%|███▍      | 17011/48845 [6:01:33<11:18:36,  1.28s/it] 35%|███▍      | 17012/48845 [6:01:34<11:15:41,  1.27s/it] 35%|███▍      | 17013/48845 [6:01:36<11:12:59,  1.27s/it] 35%|███▍      | 17014/48845 [6:01:37<11:12:25,  1.27s/it] 35%|███▍      | 17015/48845 [6:01:38<11:11:01,  1.26s/it]                                                          {'loss': 1.9725, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17015/48845 [6:01:38<11:11:01,  1.26s/it] 35%|███▍      | 17016/48845 [6:01:40<11:10:31,  1.26s/it] 35%|███▍      | 17017/48845 [6:01:41<11:10:19,  1.26s/it] 35%|███▍      | 17018/48845 [6:01:42<11:09:42,  1.26s/it] 35%|███▍      | 17019/48845 [6:01:43<11:09:07,  1.26s/it] 35%|███▍      | 17020/48845 [6:01:45<11:08:23,  1.26s/it]                                                          {'loss': 2.2352, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17020/48845 [6:01:45<11:08:23,  1.26s/it] 35%|███▍      | 17021/48845 [6:01:46<11:07:26,  1.26s/it] 35%|███▍      | 17022/48845 [6:01:47<11:07:40,  1.26s/it] 35%|███▍      | 17023/48845 [6:01:48<11:07:55,  1.26s/it] 35%|███▍      | 17024/48845 [6:01:50<11:08:01,  1.26s/it] 35%|███▍      | 17025/48845 [6:01:51<11:08:41,  1.26s/it]                                                          {'loss': 2.2791, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17025/48845 [6:01:51<11:08:41,  1.26s/it] 35%|███▍      | 17026/48845 [6:01:52<11:09:18,  1.26s/it] 35%|███▍      | 17027/48845 [6:01:53<11:09:02,  1.26s/it] 35%|███▍      | 17028/48845 [6:01:55<11:08:51,  1.26s/it] 35%|███▍      | 17029/48845 [6:01:56<11:08:22,  1.26s/it] 35%|███▍      | 17030/48845 [6:01:57<11:08:12,  1.26s/it]                                                          {'loss': 2.0178, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17030/48845 [6:01:57<11:08:12,  1.26s/it] 35%|███▍      | 17031/48845 [6:01:58<11:07:55,  1.26s/it] 35%|███▍      | 17032/48845 [6:02:00<11:08:10,  1.26s/it] 35%|███▍      | 17033/48845 [6:02:01<11:07:40,  1.26s/it] 35%|███▍      | 17034/48845 [6:02:02<11:07:41,  1.26s/it] 35%|███▍      | 17035/48845 [6:02:03<11:07:38,  1.26s/it]                                                          {'loss': 1.9194, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17035/48845 [6:02:03<11:07:38,  1.26s/it] 35%|███▍      | 17036/48845 [6:02:05<11:10:49,  1.27s/it] 35%|███▍      | 17037/48845 [6:02:06<11:09:26,  1.26s/it] 35%|███▍      | 17038/48845 [6:02:07<11:08:48,  1.26s/it] 35%|███▍      | 17039/48845 [6:02:09<11:08:27,  1.26s/it] 35%|███▍      | 17040/48845 [6:02:10<11:12:13,  1.27s/it]                                                          {'loss': 2.1565, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17040/48845 [6:02:10<11:12:13,  1.27s/it] 35%|███▍      | 17041/48845 [6:02:11<11:09:44,  1.26s/it] 35%|███▍      | 17042/48845 [6:02:12<11:08:57,  1.26s/it] 35%|███▍      | 17043/48845 [6:02:14<11:09:16,  1.26s/it] 35%|███▍      | 17044/48845 [6:02:15<11:08:28,  1.26s/it] 35%|███▍      | 17045/48845 [6:02:16<11:08:10,  1.26s/it]                                                          {'loss': 2.0744, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.74}
+ 35%|███▍      | 17045/48845 [6:02:16<11:08:10,  1.26s/it] 35%|███▍      | 17046/48845 [6:02:17<11:08:04,  1.26s/it] 35%|███▍      | 17047/48845 [6:02:19<11:07:51,  1.26s/it] 35%|███▍      | 17048/48845 [6:02:20<11:08:17,  1.26s/it] 35%|███▍      | 17049/48845 [6:02:21<11:07:34,  1.26s/it] 35%|███▍      | 17050/48845 [6:02:22<11:07:33,  1.26s/it]                                                          {'loss': 2.0538, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17050/48845 [6:02:22<11:07:33,  1.26s/it] 35%|███▍      | 17051/48845 [6:02:24<11:07:50,  1.26s/it] 35%|███▍      | 17052/48845 [6:02:25<11:07:33,  1.26s/it] 35%|███▍      | 17053/48845 [6:02:26<11:07:32,  1.26s/it] 35%|███▍      | 17054/48845 [6:02:27<11:06:34,  1.26s/it] 35%|███▍      | 17055/48845 [6:02:29<11:06:51,  1.26s/it]                                                          {'loss': 2.0918, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17055/48845 [6:02:29<11:06:51,  1.26s/it] 35%|███▍      | 17056/48845 [6:02:30<11:06:45,  1.26s/it] 35%|███▍      | 17057/48845 [6:02:31<11:06:58,  1.26s/it] 35%|███▍      | 17058/48845 [6:02:32<11:07:18,  1.26s/it] 35%|███▍      | 17059/48845 [6:02:34<11:07:44,  1.26s/it] 35%|███▍      | 17060/48845 [6:02:35<11:07:52,  1.26s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17060/48845 [6:02:35<11:07:52,  1.26s/it] 35%|███▍      | 17061/48845 [6:02:36<11:07:38,  1.26s/it] 35%|███▍      | 17062/48845 [6:02:38<11:07:00,  1.26s/it] 35%|███▍      | 17063/48845 [6:02:39<11:07:40,  1.26s/it] 35%|███▍      | 17064/48845 [6:02:40<11:08:06,  1.26s/it] 35%|███▍      | 17065/48845 [6:02:41<11:07:29,  1.26s/it]                                                          {'loss': 2.0416, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17065/48845 [6:02:41<11:07:29,  1.26s/it] 35%|███▍      | 17066/48845 [6:02:43<11:06:38,  1.26s/it] 35%|███▍      | 17067/48845 [6:02:44<11:07:04,  1.26s/it] 35%|███▍      | 17068/48845 [6:02:45<11:07:51,  1.26s/it] 35%|███▍      | 17069/48845 [6:02:46<11:08:40,  1.26s/it] 35%|███▍      | 17070/48845 [6:02:48<11:08:07,  1.26s/it]                                                          {'loss': 2.1365, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17070/48845 [6:02:48<11:08:07,  1.26s/it] 35%|███▍      | 17071/48845 [6:02:49<11:08:08,  1.26s/it] 35%|███▍      | 17072/48845 [6:02:50<11:30:25,  1.30s/it] 35%|███▍      | 17073/48845 [6:02:52<11:23:32,  1.29s/it] 35%|███▍      | 17074/48845 [6:02:53<11:19:08,  1.28s/it] 35%|███▍      | 17075/48845 [6:02:54<11:16:02,  1.28s/it]                                                          {'loss': 2.0004, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17075/48845 [6:02:54<11:16:02,  1.28s/it] 35%|███▍      | 17076/48845 [6:02:55<11:12:53,  1.27s/it] 35%|███▍      | 17077/48845 [6:02:57<11:11:10,  1.27s/it] 35%|███▍      | 17078/48845 [6:02:58<11:09:24,  1.26s/it] 35%|███▍      | 17079/48845 [6:02:59<11:09:08,  1.26s/it] 35%|███▍      | 17080/48845 [6:03:00<11:08:22,  1.26s/it]                                                          {'loss': 1.9972, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17080/48845 [6:03:00<11:08:22,  1.26s/it] 35%|███▍      | 17081/48845 [6:03:02<11:07:35,  1.26s/it] 35%|███▍      | 17082/48845 [6:03:03<11:07:40,  1.26s/it] 35%|███▍      | 17083/48845 [6:03:04<11:06:53,  1.26s/it] 35%|███▍      | 17084/48845 [6:03:05<11:06:55,  1.26s/it] 35%|███▍      | 17085/48845 [6:03:07<11:07:49,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17085/48845 [6:03:07<11:07:49,  1.26s/it] 35%|███▍      | 17086/48845 [6:03:08<11:07:48,  1.26s/it] 35%|███▍      | 17087/48845 [6:03:09<11:07:01,  1.26s/it] 35%|███▍      | 17088/48845 [6:03:10<11:07:44,  1.26s/it] 35%|███▍      | 17089/48845 [6:03:12<11:07:21,  1.26s/it] 35%|███▍      | 17090/48845 [6:03:13<11:07:42,  1.26s/it]                                                          {'loss': 1.9261, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17090/48845 [6:03:13<11:07:42,  1.26s/it] 35%|███▍      | 17091/48845 [6:03:14<11:07:05,  1.26s/it] 35%|███▍      | 17092/48845 [6:03:15<11:07:19,  1.26s/it] 35%|███▍      | 17093/48845 [6:03:17<11:07:00,  1.26s/it] 35%|███▍      | 17094/48845 [6:03:18<11:06:25,  1.26s/it] 35%|███▍      | 17095/48845 [6:03:19<11:06:33,  1.26s/it]                                                          {'loss': 2.059, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▍      | 17095/48845 [6:03:19<11:06:33,  1.26s/it] 35%|███▌      | 17096/48845 [6:03:21<11:06:10,  1.26s/it] 35%|███▌      | 17097/48845 [6:03:22<11:06:26,  1.26s/it] 35%|███▌      | 17098/48845 [6:03:23<11:05:55,  1.26s/it] 35%|███▌      | 17099/48845 [6:03:24<11:05:34,  1.26s/it] 35%|███▌      | 17100/48845 [6:03:26<11:06:53,  1.26s/it]                                                          {'loss': 1.9467, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17100/48845 [6:03:26<11:06:53,  1.26s/it] 35%|███▌      | 17101/48845 [6:03:27<11:06:14,  1.26s/it] 35%|███▌      | 17102/48845 [6:03:28<11:06:44,  1.26s/it] 35%|██���▌      | 17103/48845 [6:03:29<11:06:21,  1.26s/it] 35%|███▌      | 17104/48845 [6:03:31<11:06:13,  1.26s/it] 35%|███▌      | 17105/48845 [6:03:32<11:07:01,  1.26s/it]                                                          {'loss': 2.1999, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17105/48845 [6:03:32<11:07:01,  1.26s/it] 35%|███▌      | 17106/48845 [6:03:33<11:06:58,  1.26s/it] 35%|███▌      | 17107/48845 [6:03:34<11:06:43,  1.26s/it] 35%|███▌      | 17108/48845 [6:03:36<11:06:28,  1.26s/it] 35%|███▌      | 17109/48845 [6:03:37<11:06:02,  1.26s/it] 35%|███▌      | 17110/48845 [6:03:38<11:06:36,  1.26s/it]                                                          {'loss': 1.9725, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17110/48845 [6:03:38<11:06:36,  1.26s/it] 35%|███▌      | 17111/48845 [6:03:39<11:06:53,  1.26s/it] 35%|███▌      | 17112/48845 [6:03:41<11:06:47,  1.26s/it] 35%|███▌      | 17113/48845 [6:03:42<11:06:10,  1.26s/it] 35%|███▌      | 17114/48845 [6:03:43<11:05:43,  1.26s/it] 35%|███▌      | 17115/48845 [6:03:44<11:06:53,  1.26s/it]                                                          {'loss': 1.8966, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17115/48845 [6:03:44<11:06:53,  1.26s/it] 35%|███▌      | 17116/48845 [6:03:46<11:06:07,  1.26s/it] 35%|███▌      | 17117/48845 [6:03:47<11:06:35,  1.26s/it] 35%|███▌      | 17118/48845 [6:03:48<11:05:54,  1.26s/it] 35%|███▌      | 17119/48845 [6:03:49<11:05:40,  1.26s/it] 35%|███▌      | 17120/48845 [6:03:51<11:06:52,  1.26s/it]                                                          {'loss': 2.0854, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17120/48845 [6:03:51<11:06:52,  1.26s/it] 35%|███▌      | 17121/48845 [6:03:52<11:06:41,  1.26s/it] 35%|███▌      | 17122/48845 [6:03:53<11:06:56,  1.26s/it] 35%|███▌      | 17123/48845 [6:03:55<11:07:15,  1.26s/it] 35%|███▌      | 17124/48845 [6:03:56<11:06:52,  1.26s/it] 35%|███▌      | 17125/48845 [6:03:57<11:06:06,  1.26s/it]                                                          {'loss': 2.1557, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17125/48845 [6:03:57<11:06:06,  1.26s/it] 35%|███▌      | 17126/48845 [6:03:58<11:06:18,  1.26s/it] 35%|███▌      | 17127/48845 [6:04:00<11:06:38,  1.26s/it] 35%|███▌      | 17128/48845 [6:04:01<11:07:19,  1.26s/it] 35%|███▌      | 17129/48845 [6:04:02<11:06:37,  1.26s/it] 35%|███▌      | 17130/48845 [6:04:03<11:06:18,  1.26s/it]                                                          {'loss': 1.9832, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17130/48845 [6:04:03<11:06:18,  1.26s/it] 35%|███▌      | 17131/48845 [6:04:05<11:06:10,  1.26s/it] 35%|███▌      | 17132/48845 [6:04:06<11:25:07,  1.30s/it] 35%|███▌      | 17133/48845 [6:04:07<11:19:50,  1.29s/it] 35%|███▌      | 17134/48845 [6:04:09<11:14:54,  1.28s/it] 35%|███▌      | 17135/48845 [6:04:10<11:11:51,  1.27s/it]                                                          {'loss': 2.1247, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17135/48845 [6:04:10<11:11:51,  1.27s/it] 35%|███▌      | 17136/48845 [6:04:11<11:20:21,  1.29s/it] 35%|███▌      | 17137/48845 [6:04:12<11:16:02,  1.28s/it] 35%|███▌      | 17138/48845 [6:04:14<11:13:20,  1.27s/it] 35%|███▌      | 17139/48845 [6:04:15<11:11:06,  1.27s/it] 35%|███▌      | 17140/48845 [6:04:16<11:10:27,  1.27s/it]                                                          {'loss': 2.0546, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.75}
+ 35%|███▌      | 17140/48845 [6:04:16<11:10:27,  1.27s/it] 35%|███▌      | 17141/48845 [6:04:17<11:09:19,  1.27s/it] 35%|███▌      | 17142/48845 [6:04:19<11:08:04,  1.26s/it] 35%|███▌      | 17143/48845 [6:04:20<11:07:24,  1.26s/it] 35%|███▌      | 17144/48845 [6:04:21<11:06:48,  1.26s/it] 35%|███▌      | 17145/48845 [6:04:22<11:06:53,  1.26s/it]                                                          {'loss': 1.9915, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17145/48845 [6:04:22<11:06:53,  1.26s/it] 35%|███▌      | 17146/48845 [6:04:24<11:06:34,  1.26s/it] 35%|███▌      | 17147/48845 [6:04:25<11:06:01,  1.26s/it] 35%|███▌      | 17148/48845 [6:04:26<11:07:02,  1.26s/it] 35%|███▌      | 17149/48845 [6:04:27<11:05:56,  1.26s/it] 35%|███▌      | 17150/48845 [6:04:29<11:05:51,  1.26s/it]                                                          {'loss': 2.1641, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17150/48845 [6:04:29<11:05:51,  1.26s/it] 35%|███▌      | 17151/48845 [6:04:30<11:04:52,  1.26s/it] 35%|███▌      | 17152/48845 [6:04:31<11:04:46,  1.26s/it] 35%|███▌      | 17153/48845 [6:04:33<11:04:54,  1.26s/it] 35%|███▌      | 17154/48845 [6:04:34<11:05:06,  1.26s/it] 35%|███▌      | 17155/48845 [6:04:35<11:05:19,  1.26s/it]                                                          {'loss': 2.0779, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17155/48845 [6:04:35<11:05:19,  1.26s/it] 35%|███▌      | 17156/48845 [6:04:36<11:05:16,  1.26s/it] 35%|███▌      | 17157/48845 [6:04:38<11:05:26,  1.26s/it] 35%|███▌      | 17158/48845 [6:04:39<11:06:43,  1.26s/it] 35%|███▌      | 17159/48845 [6:04:40<11:06:20,  1.26s/it] 35%|███▌      | 17160/48845 [6:04:41<11:06:09,  1.26s/it]                                                          {'loss': 1.9711, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17160/48845 [6:04:41<11:06:09,  1.26s/it] 35%|███▌      | 17161/48845 [6:04:43<11:06:13,  1.26s/it] 35%|███▌      | 17162/48845 [6:04:44<11:05:21,  1.26s/it] 35%|███▌      | 17163/48845 [6:04:45<11:06:03,  1.26s/it] 35%|███▌      | 17164/48845 [6:04:46<11:05:55,  1.26s/it] 35%|███▌      | 17165/48845 [6:04:48<11:06:03,  1.26s/it]                                                          {'loss': 2.0191, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17165/48845 [6:04:48<11:06:03,  1.26s/it] 35%|███▌      | 17166/48845 [6:04:49<11:06:11,  1.26s/it] 35%|███▌      | 17167/48845 [6:04:50<11:05:37,  1.26s/it] 35%|███▌      | 17168/48845 [6:04:51<11:05:06,  1.26s/it] 35%|███▌      | 17169/48845 [6:04:53<11:05:15,  1.26s/it] 35%|███▌      | 17170/48845 [6:04:54<11:06:57,  1.26s/it]                                                          {'loss': 2.1705, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17170/48845 [6:04:54<11:06:57,  1.26s/it] 35%|███▌      | 17171/48845 [6:04:55<11:06:56,  1.26s/it] 35%|███▌      | 17172/48845 [6:04:57<11:06:33,  1.26s/it] 35%|███▌      | 17173/48845 [6:04:58<11:06:17,  1.26s/it] 35%|███▌      | 17174/48845 [6:04:59<11:06:02,  1.26s/it] 35%|███▌      | 17175/48845 [6:05:00<11:06:32,  1.26s/it]                                                          {'loss': 2.2938, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17175/48845 [6:05:00<11:06:32,  1.26s/it] 35%|███▌      | 17176/48845 [6:05:02<11:06:17,  1.26s/it] 35%|███▌      | 17177/48845 [6:05:03<11:05:13,  1.26s/it] 35%|███▌      | 17178/48845 [6:05:04<11:05:23,  1.26s/it] 35%|███▌      | 17179/48845 [6:05:05<11:05:53,  1.26s/it] 35%|███▌      | 17180/48845 [6:05:07<11:05:43,  1.26s/it]                                                          {'loss': 2.0153, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17180/48845 [6:05:07<11:05:43,  1.26s/it] 35%|███▌      | 17181/48845 [6:05:08<11:06:20,  1.26s/it] 35%|███▌      | 17182/48845 [6:05:09<11:06:56,  1.26s/it] 35%|███▌      | 17183/48845 [6:05:10<11:05:55,  1.26s/it] 35%|███▌      | 17184/48845 [6:05:12<11:05:19,  1.26s/it] 35%|███▌      | 17185/48845 [6:05:13<11:05:15,  1.26s/it]                                                          {'loss': 2.1794, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17185/48845 [6:05:13<11:05:15,  1.26s/it] 35%|███▌      | 17186/48845 [6:05:14<11:05:01,  1.26s/it] 35%|███▌      | 17187/48845 [6:05:15<11:04:50,  1.26s/it] 35%|███▌      | 17188/48845 [6:05:17<11:04:14,  1.26s/it] 35%|███▌      | 17189/48845 [6:05:18<11:03:56,  1.26s/it] 35%|███▌      | 17190/48845 [6:05:19<11:04:05,  1.26s/it]                                                          {'loss': 2.0099, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17190/48845 [6:05:19<11:04:05,  1.26s/it] 35%|███▌      | 17191/48845 [6:05:20<11:03:33,  1.26s/it] 35%|███▌      | 17192/48845 [6:05:22<11:03:04,  1.26s/it] 35%|███▌      | 17193/48845 [6:05:23<11:03:03,  1.26s/it] 35%|███▌      | 17194/48845 [6:05:24<11:04:28,  1.26s/it] 35%|███▌      | 17195/48845 [6:05:25<11:04:16,  1.26s/it]                                                          {'loss': 2.2205, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17195/48845 [6:05:25<11:04:16,  1.26s/it] 35%|███▌      | 17196/48845 [6:05:27<11:04:34,  1.26s/it] 35%|███▌      | 17197/48845 [6:05:28<11:04:49,  1.26s/it] 35%|███▌      | 17198/48845 [6:05:29<11:04:40,  1.26s/it] 35%|███▌      | 17199/48845 [6:05:31<11:05:01,  1.26s/it] 35%|███▌      | 17200/48845 [6:05:32<11:04:51,  1.26s/it]                                                          {'loss': 1.9294, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17200/48845 [6:05:32<11:04:51,  1.26s/it] 35%|███▌      | 17201/48845 [6:05:35<17:26:44,  1.98s/it] 35%|███▌      | 17202/48845 [6:05:37<15:31:45,  1.77s/it] 35%|███▌      | 17203/48845 [6:05:38<14:10:22,  1.61s/it] 35%|███▌      | 17204/48845 [6:05:39<13:15:18,  1.51s/it] 35%|███▌      | 17205/48845 [6:05:40<12:36:14,  1.43s/it]                                                          {'loss': 1.9511, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17205/48845 [6:05:41<12:36:14,  1.43s/it] 35%|███▌      | 17206/48845 [6:05:42<12:08:37,  1.38s/it] 35%|███▌      | 17207/48845 [6:05:43<11:49:00,  1.34s/it] 35%|███▌      | 17208/48845 [6:05:44<11:35:50,  1.32s/it] 35%|███▌      | 17209/48845 [6:05:46<11:26:55,  1.30s/it] 35%|███▌      | 17210/48845 [6:05:47<11:19:23,  1.29s/it]                                                          {'loss': 2.1612, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17210/48845 [6:05:47<11:19:23,  1.29s/it] 35%|███▌      | 17211/48845 [6:05:48<11:14:49,  1.28s/it] 35%|███▌      | 17212/48845 [6:05:49<11:11:56,  1.27s/it] 35%|███▌      | 17213/48845 [6:05:51<11:09:17,  1.27s/it] 35%|███▌      | 17214/48845 [6:05:52<11:07:39,  1.27s/it] 35%|███▌      | 17215/48845 [6:05:53<11:06:25,  1.26s/it]                                                          {'loss': 2.0828, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17215/48845 [6:05:53<11:06:25,  1.26s/it] 35%|███▌      | 17216/48845 [6:05:54<11:05:11,  1.26s/it] 35%|███▌      | 17217/48845 [6:05:56<11:05:10,  1.26s/it] 35%|███▌      | 17218/48845 [6:05:57<11:05:04,  1.26s/it] 35%|███▌      | 17219/48845 [6:05:58<11:04:26,  1.26s/it] 35%|███▌      | 17220/48845 [6:05:59<11:03:55,  1.26s/it]                                                          {'loss': 2.0904, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17220/48845 [6:05:59<11:03:55,  1.26s/it] 35%|███▌      | 17221/48845 [6:06:01<11:04:15,  1.26s/it] 35%|███▌      | 17222/48845 [6:06:02<11:04:24,  1.26s/it] 35%|███▌      | 17223/48845 [6:06:03<11:03:48,  1.26s/it] 35%|███▌      | 17224/48845 [6:06:04<11:03:45,  1.26s/it] 35%|███▌      | 17225/48845 [6:06:06<11:04:17,  1.26s/it]                                                          {'loss': 1.9781, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17225/48845 [6:06:06<11:04:17,  1.26s/it] 35%|███▌      | 17226/48845 [6:06:07<11:04:13,  1.26s/it] 35%|███▌      | 17227/48845 [6:06:08<11:04:05,  1.26s/it] 35%|███▌      | 17228/48845 [6:06:09<11:03:23,  1.26s/it] 35%|███▌      | 17229/48845 [6:06:11<11:03:33,  1.26s/it] 35%|███▌      | 17230/48845 [6:06:12<11:03:14,  1.26s/it]                                                          {'loss': 2.1344, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17230/48845 [6:06:12<11:03:14,  1.26s/it] 35%|███▌      | 17231/48845 [6:06:13<11:02:44,  1.26s/it] 35%|███▌      | 17232/48845 [6:06:15<11:02:57,  1.26s/it] 35%|███▌      | 17233/48845 [6:06:16<11:07:19,  1.27s/it] 35%|███▌      | 17234/48845 [6:06:17<11:06:45,  1.27s/it] 35%|███▌      | 17235/48845 [6:06:18<11:05:52,  1.26s/it]                                                          {'loss': 1.9835, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17235/48845 [6:06:18<11:05:52,  1.26s/it] 35%|███▌      | 17236/48845 [6:06:20<11:05:19,  1.26s/it] 35%|███▌      | 17237/48845 [6:06:21<11:05:29,  1.26s/it] 35%|███▌      | 17238/48845 [6:06:22<11:05:39,  1.26s/it] 35%|███▌      | 17239/48845 [6:06:23<11:05:47,  1.26s/it] 35%|███▌      | 17240/48845 [6:06:25<11:05:43,  1.26s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.76}
+ 35%|███▌      | 17240/48845 [6:06:25<11:05:43,  1.26s/it] 35%|███▌      | 17241/48845 [6:06:26<11:06:46,  1.27s/it] 35%|███▌      | 17242/48845 [6:06:27<11:05:35,  1.26s/it] 35%|███▌      | 17243/48845 [6:06:28<11:05:23,  1.26s/it] 35%|███▌      | 17244/48845 [6:06:30<11:04:44,  1.26s/it] 35%|███▌      | 17245/48845 [6:06:31<11:03:56,  1.26s/it]                                                          {'loss': 2.0955, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17245/48845 [6:06:31<11:03:56,  1.26s/it] 35%|███▌      | 17246/48845 [6:06:32<11:04:24,  1.26s/it] 35%|███▌      | 17247/48845 [6:06:33<11:04:39,  1.26s/it] 35%|███▌      | 17248/48845 [6:06:35<11:04:07,  1.26s/it] 35%|███▌      | 17249/48845 [6:06:36<11:04:23,  1.26s/it] 35%|███▌      | 17250/48845 [6:06:37<11:03:43,  1.26s/it]                                                          {'loss': 2.1153, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17250/48845 [6:06:37<11:03:43,  1.26s/it] 35%|███▌      | 17251/48845 [6:06:39<11:03:44,  1.26s/it] 35%|███▌      | 17252/48845 [6:06:40<11:04:38,  1.26s/it] 35%|███▌      | 17253/48845 [6:06:41<11:04:12,  1.26s/it] 35%|███▌      | 17254/48845 [6:06:42<11:04:21,  1.26s/it] 35%|███▌      | 17255/48845 [6:06:44<11:03:51,  1.26s/it]                                                          {'loss': 2.0354, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17255/48845 [6:06:44<11:03:51,  1.26s/it] 35%|███▌      | 17256/48845 [6:06:45<11:05:07,  1.26s/it] 35%|███▌      | 17257/48845 [6:06:46<11:04:00,  1.26s/it] 35%|███▌      | 17258/48845 [6:06:47<11:03:44,  1.26s/it] 35%|███▌      | 17259/48845 [6:06:49<11:03:52,  1.26s/it] 35%|███▌      | 17260/48845 [6:06:50<11:03:08,  1.26s/it]                                                          {'loss': 2.0859, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17260/48845 [6:06:50<11:03:08,  1.26s/it] 35%|███▌      | 17261/48845 [6:06:51<11:03:20,  1.26s/it] 35%|███▌      | 17262/48845 [6:06:52<11:02:21,  1.26s/it] 35%|███▌      | 17263/48845 [6:06:54<11:03:01,  1.26s/it] 35%|███▌      | 17264/48845 [6:06:55<11:03:28,  1.26s/it] 35%|███▌      | 17265/48845 [6:06:56<11:03:15,  1.26s/it]                                                          {'loss': 1.9329, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17265/48845 [6:06:56<11:03:15,  1.26s/it] 35%|███▌      | 17266/48845 [6:06:57<11:03:19,  1.26s/it] 35%|███▌      | 17267/48845 [6:06:59<11:03:00,  1.26s/it] 35%|███▌      | 17268/48845 [6:07:00<11:02:24,  1.26s/it] 35%|███▌      | 17269/48845 [6:07:01<11:02:57,  1.26s/it] 35%|███▌      | 17270/48845 [6:07:02<11:02:44,  1.26s/it]                                                          {'loss': 1.9829, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17270/48845 [6:07:02<11:02:44,  1.26s/it] 35%|███▌      | 17271/48845 [6:07:04<11:03:25,  1.26s/it] 35%|███▌      | 17272/48845 [6:07:05<11:02:52,  1.26s/it] 35%|███▌      | 17273/48845 [6:07:06<11:02:39,  1.26s/it] 35%|███▌      | 17274/48845 [6:07:07<11:03:18,  1.26s/it] 35%|███▌      | 17275/48845 [6:07:09<11:03:09,  1.26s/it]                                                          {'loss': 2.0097, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17275/48845 [6:07:09<11:03:09,  1.26s/it] 35%|███▌      | 17276/48845 [6:07:10<11:03:14,  1.26s/it] 35%|███▌      | 17277/48845 [6:07:11<11:02:00,  1.26s/it] 35%|███▌      | 17278/48845 [6:07:13<11:02:02,  1.26s/it] 35%|███▌      | 17279/48845 [6:07:14<11:03:31,  1.26s/it] 35%|███▌      | 17280/48845 [6:07:15<11:02:57,  1.26s/it]                                                          {'loss': 2.0602, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17280/48845 [6:07:15<11:02:57,  1.26s/it] 35%|███▌      | 17281/48845 [6:07:16<11:02:30,  1.26s/it] 35%|███▌      | 17282/48845 [6:07:18<11:02:47,  1.26s/it] 35%|███▌      | 17283/48845 [6:07:19<11:03:59,  1.26s/it] 35%|███▌      | 17284/48845 [6:07:20<11:03:53,  1.26s/it] 35%|███▌      | 17285/48845 [6:07:21<11:02:57,  1.26s/it]                                                          {'loss': 2.1556, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17285/48845 [6:07:21<11:02:57,  1.26s/it] 35%|███▌      | 17286/48845 [6:07:23<11:03:09,  1.26s/it] 35%|███▌      | 17287/48845 [6:07:24<11:03:33,  1.26s/it] 35%|███▌      | 17288/48845 [6:07:25<11:03:16,  1.26s/it] 35%|███▌      | 17289/48845 [6:07:26<11:02:56,  1.26s/it] 35%|███▌      | 17290/48845 [6:07:28<11:02:44,  1.26s/it]                                                          {'loss': 2.092, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17290/48845 [6:07:28<11:02:44,  1.26s/it] 35%|███▌      | 17291/48845 [6:07:29<11:03:10,  1.26s/it] 35%|███▌      | 17292/48845 [6:07:30<11:02:44,  1.26s/it] 35%|███▌      | 17293/48845 [6:07:31<11:01:50,  1.26s/it] 35%|███▌      | 17294/48845 [6:07:33<11:02:01,  1.26s/it] 35%|███▌      | 17295/48845 [6:07:34<11:02:08,  1.26s/it]                                                          {'loss': 2.0637, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17295/48845 [6:07:34<11:02:08,  1.26s/it] 35%|███▌      | 17296/48845 [6:07:35<11:02:02,  1.26s/it] 35%|███▌      | 17297/48845 [6:07:36<11:02:05,  1.26s/it] 35%|███▌      | 17298/48845 [6:07:38<11:03:16,  1.26s/it] 35%|███▌      | 17299/48845 [6:07:39<11:03:53,  1.26s/it] 35%|███▌      | 17300/48845 [6:07:40<11:03:09,  1.26s/it]                                                          {'loss': 2.1332, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17300/48845 [6:07:40<11:03:09,  1.26s/it] 35%|███▌      | 17301/48845 [6:07:42<11:02:24,  1.26s/it] 35%|███▌      | 17302/48845 [6:07:43<11:03:34,  1.26s/it] 35%|███▌      | 17303/48845 [6:07:44<11:03:11,  1.26s/it] 35%|███▌      | 17304/48845 [6:07:45<11:03:15,  1.26s/it] 35%|███▌      | 17305/48845 [6:07:47<11:03:23,  1.26s/it]                                                          {'loss': 2.0592, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17305/48845 [6:07:47<11:03:23,  1.26s/it] 35%|███▌      | 17306/48845 [6:07:48<11:03:12,  1.26s/it] 35%|███▌      | 17307/48845 [6:07:49<11:03:30,  1.26s/it] 35%|███▌      | 17308/48845 [6:07:50<11:02:10,  1.26s/it] 35%|███▌      | 17309/48845 [6:07:52<11:01:29,  1.26s/it] 35%|███▌      | 17310/48845 [6:07:53<11:02:29,  1.26s/it]                                                          {'loss': 2.1024, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17310/48845 [6:07:53<11:02:29,  1.26s/it] 35%|███▌      | 17311/48845 [6:07:54<11:01:58,  1.26s/it] 35%|███▌      | 17312/48845 [6:07:55<11:02:04,  1.26s/it] 35%|███▌      | 17313/48845 [6:07:57<11:01:26,  1.26s/it] 35%|███▌      | 17314/48845 [6:07:58<11:01:49,  1.26s/it] 35%|███▌      | 17315/48845 [6:07:59<11:02:02,  1.26s/it]                                                          {'loss': 2.0985, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17315/48845 [6:07:59<11:02:02,  1.26s/it] 35%|███▌      | 17316/48845 [6:08:00<11:01:55,  1.26s/it] 35%|███▌      | 17317/48845 [6:08:02<11:01:33,  1.26s/it] 35%|███▌      | 17318/48845 [6:08:03<11:01:13,  1.26s/it] 35%|███▌      | 17319/48845 [6:08:04<11:01:29,  1.26s/it] 35%|███▌      | 17320/48845 [6:08:05<11:02:15,  1.26s/it]                                                          {'loss': 2.0239, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17320/48845 [6:08:05<11:02:15,  1.26s/it] 35%|███▌      | 17321/48845 [6:08:07<11:02:12,  1.26s/it] 35%|███▌      | 17322/48845 [6:08:08<11:01:59,  1.26s/it] 35%|███▌      | 17323/48845 [6:08:09<11:01:36,  1.26s/it] 35%|███▌      | 17324/48845 [6:08:11<11:01:34,  1.26s/it] 35%|███▌      | 17325/48845 [6:08:12<11:01:50,  1.26s/it]                                                          {'loss': 2.1012, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17325/48845 [6:08:12<11:01:50,  1.26s/it] 35%|███▌      | 17326/48845 [6:08:13<11:01:52,  1.26s/it] 35%|███▌      | 17327/48845 [6:08:14<11:01:39,  1.26s/it] 35%|███▌      | 17328/48845 [6:08:16<11:01:31,  1.26s/it] 35%|███▌      | 17329/48845 [6:08:17<11:01:20,  1.26s/it] 35%|███▌      | 17330/48845 [6:08:18<11:01:55,  1.26s/it]                                                          {'loss': 2.0231, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17330/48845 [6:08:18<11:01:55,  1.26s/it] 35%|███▌      | 17331/48845 [6:08:19<11:01:40,  1.26s/it] 35%|███▌      | 17332/48845 [6:08:21<11:02:55,  1.26s/it] 35%|███▌      | 17333/48845 [6:08:22<11:02:13,  1.26s/it] 35%|███▌      | 17334/48845 [6:08:23<11:01:19,  1.26s/it] 35%|███▌      | 17335/48845 [6:08:24<11:01:16,  1.26s/it]                                                          {'loss': 1.9868, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.77}
+ 35%|███▌      | 17335/48845 [6:08:24<11:01:16,  1.26s/it] 35%|███▌      | 17336/48845 [6:08:26<11:02:17,  1.26s/it] 35%|███▌      | 17337/48845 [6:08:27<11:02:02,  1.26s/it] 35%|███▌      | 17338/48845 [6:08:28<11:01:01,  1.26s/it] 35%|███▌      | 17339/48845 [6:08:29<11:01:11,  1.26s/it] 36%|███▌      | 17340/48845 [6:08:31<11:01:55,  1.26s/it]                                                          {'loss': 1.9803, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17340/48845 [6:08:31<11:01:55,  1.26s/it] 36%|███▌      | 17341/48845 [6:08:32<11:01:36,  1.26s/it] 36%|███▌      | 17342/48845 [6:08:33<11:02:09,  1.26s/it] 36%|███▌      | 17343/48845 [6:08:34<11:02:00,  1.26s/it] 36%|███▌      | 17344/48845 [6:08:36<11:02:00,  1.26s/it] 36%|███▌      | 17345/48845 [6:08:37<11:01:53,  1.26s/it]                                                          {'loss': 1.9421, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17345/48845 [6:08:37<11:01:53,  1.26s/it] 36%|███▌      | 17346/48845 [6:08:38<11:02:26,  1.26s/it] 36%|███▌      | 17347/48845 [6:08:39<11:02:22,  1.26s/it] 36%|███▌      | 17348/48845 [6:08:41<11:02:11,  1.26s/it] 36%|███▌      | 17349/48845 [6:08:42<11:01:39,  1.26s/it] 36%|███▌      | 17350/48845 [6:08:43<11:01:40,  1.26s/it]                                                          {'loss': 2.0772, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17350/48845 [6:08:43<11:01:40,  1.26s/it] 36%|███▌      | 17351/48845 [6:08:45<11:01:41,  1.26s/it] 36%|███▌      | 17352/48845 [6:08:46<11:01:03,  1.26s/it] 36%|███▌      | 17353/48845 [6:08:47<11:01:17,  1.26s/it] 36%|███▌      | 17354/48845 [6:08:48<11:01:04,  1.26s/it] 36%|███▌      | 17355/48845 [6:08:50<11:01:52,  1.26s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17355/48845 [6:08:50<11:01:52,  1.26s/it] 36%|███▌      | 17356/48845 [6:08:51<11:01:42,  1.26s/it] 36%|███▌      | 17357/48845 [6:08:52<11:01:28,  1.26s/it] 36%|███▌      | 17358/48845 [6:08:53<11:01:39,  1.26s/it] 36%|███▌      | 17359/48845 [6:08:55<11:02:31,  1.26s/it] 36%|███▌      | 17360/48845 [6:08:56<11:02:22,  1.26s/it]                                                          {'loss': 2.0276, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17360/48845 [6:08:56<11:02:22,  1.26s/it] 36%|███▌      | 17361/48845 [6:08:57<11:02:42,  1.26s/it] 36%|███▌      | 17362/48845 [6:08:58<11:02:10,  1.26s/it] 36%|███▌      | 17363/48845 [6:09:00<11:02:20,  1.26s/it] 36%|███▌      | 17364/48845 [6:09:01<11:01:53,  1.26s/it] 36%|███▌      | 17365/48845 [6:09:02<11:01:01,  1.26s/it]                                                          {'loss': 1.99, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17365/48845 [6:09:02<11:01:01,  1.26s/it] 36%|███▌      | 17366/48845 [6:09:03<11:01:57,  1.26s/it] 36%|███▌      | 17367/48845 [6:09:05<11:01:11,  1.26s/it] 36%|███▌      | 17368/48845 [6:09:06<11:00:55,  1.26s/it] 36%|███▌      | 17369/48845 [6:09:07<11:00:43,  1.26s/it] 36%|███▌      | 17370/48845 [6:09:08<11:00:41,  1.26s/it]                                                          {'loss': 2.1134, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17370/48845 [6:09:08<11:00:41,  1.26s/it] 36%|███▌      | 17371/48845 [6:09:10<11:01:20,  1.26s/it] 36%|███▌      | 17372/48845 [6:09:11<11:00:49,  1.26s/it] 36%|███▌      | 17373/48845 [6:09:12<11:00:32,  1.26s/it] 36%|███▌      | 17374/48845 [6:09:14<11:00:26,  1.26s/it] 36%|███▌      | 17375/48845 [6:09:15<11:00:13,  1.26s/it]                                                          {'loss': 2.0795, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17375/48845 [6:09:15<11:00:13,  1.26s/it] 36%|███▌      | 17376/48845 [6:09:16<11:00:55,  1.26s/it] 36%|███▌      | 17377/48845 [6:09:17<11:00:08,  1.26s/it] 36%|███▌      | 17378/48845 [6:09:19<11:01:38,  1.26s/it] 36%|███▌      | 17379/48845 [6:09:20<11:01:32,  1.26s/it] 36%|███▌      | 17380/48845 [6:09:21<11:00:55,  1.26s/it]                                                          {'loss': 1.8768, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17380/48845 [6:09:21<11:00:55,  1.26s/it] 36%|███▌      | 17381/48845 [6:09:22<11:02:05,  1.26s/it] 36%|███▌      | 17382/48845 [6:09:24<11:01:37,  1.26s/it] 36%|███▌      | 17383/48845 [6:09:25<11:01:40,  1.26s/it] 36%|███▌      | 17384/48845 [6:09:26<11:01:16,  1.26s/it] 36%|███▌      | 17385/48845 [6:09:27<11:00:56,  1.26s/it]                                                          {'loss': 2.0398, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17385/48845 [6:09:27<11:00:56,  1.26s/it] 36%|███▌      | 17386/48845 [6:09:29<11:01:35,  1.26s/it] 36%|███▌      | 17387/48845 [6:09:30<11:01:18,  1.26s/it] 36%|███▌      | 17388/48845 [6:09:31<11:00:59,  1.26s/it] 36%|███▌      | 17389/48845 [6:09:32<11:00:55,  1.26s/it] 36%|███▌      | 17390/48845 [6:09:34<11:00:42,  1.26s/it]                                                          {'loss': 2.0841, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17390/48845 [6:09:34<11:00:42,  1.26s/it] 36%|███▌      | 17391/48845 [6:09:35<11:01:16,  1.26s/it] 36%|███▌      | 17392/48845 [6:09:36<11:00:50,  1.26s/it] 36%|███▌      | 17393/48845 [6:09:37<11:01:26,  1.26s/it] 36%|███▌      | 17394/48845 [6:09:39<11:01:34,  1.26s/it] 36%|███▌      | 17395/48845 [6:09:40<11:01:00,  1.26s/it]                                                          {'loss': 2.037, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17395/48845 [6:09:40<11:01:00,  1.26s/it] 36%|███▌      | 17396/48845 [6:09:41<11:00:34,  1.26s/it] 36%|███▌      | 17397/48845 [6:09:43<11:01:11,  1.26s/it] 36%|███▌      | 17398/48845 [6:09:44<11:00:38,  1.26s/it] 36%|███▌      | 17399/48845 [6:09:45<11:00:55,  1.26s/it] 36%|███▌      | 17400/48845 [6:09:46<11:00:55,  1.26s/it]                                                          {'loss': 2.0137, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17400/48845 [6:09:46<11:00:55,  1.26s/it] 36%|███▌      | 17401/48845 [6:09:50<17:17:17,  1.98s/it] 36%|███▌      | 17402/48845 [6:09:51<15:24:34,  1.76s/it] 36%|███▌      | 17403/48845 [6:09:52<14:05:09,  1.61s/it] 36%|███▌      | 17404/48845 [6:09:54<13:10:30,  1.51s/it] 36%|███▌      | 17405/48845 [6:09:55<12:30:26,  1.43s/it]                                                          {'loss': 1.9592, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17405/48845 [6:09:55<12:30:26,  1.43s/it] 36%|███▌      | 17406/48845 [6:09:56<12:02:59,  1.38s/it] 36%|███▌      | 17407/48845 [6:09:58<11:44:01,  1.34s/it] 36%|███▌      | 17408/48845 [6:09:59<11:30:29,  1.32s/it] 36%|███▌      | 17409/48845 [6:10:00<11:21:19,  1.30s/it] 36%|███▌      | 17410/48845 [6:10:01<11:14:17,  1.29s/it]                                                          {'loss': 2.159, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17410/48845 [6:10:01<11:14:17,  1.29s/it] 36%|███▌      | 17411/48845 [6:10:03<11:09:51,  1.28s/it] 36%|███▌      | 17412/48845 [6:10:04<11:06:34,  1.27s/it] 36%|███▌      | 17413/48845 [6:10:05<11:04:43,  1.27s/it] 36%|███▌      | 17414/48845 [6:10:06<11:03:52,  1.27s/it] 36%|███▌      | 17415/48845 [6:10:08<11:02:48,  1.27s/it]                                                          {'loss': 1.9866, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17415/48845 [6:10:08<11:02:48,  1.27s/it] 36%|███▌      | 17416/48845 [6:10:09<11:02:13,  1.26s/it] 36%|███▌      | 17417/48845 [6:10:10<11:01:27,  1.26s/it] 36%|███▌      | 17418/48845 [6:10:11<11:00:30,  1.26s/it] 36%|███▌      | 17419/48845 [6:10:13<11:00:35,  1.26s/it] 36%|███▌      | 17420/48845 [6:10:14<11:00:04,  1.26s/it]                                                          {'loss': 1.934, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17420/48845 [6:10:14<11:00:04,  1.26s/it] 36%|███▌      | 17421/48845 [6:10:15<10:59:35,  1.26s/it] 36%|███▌      | 17422/48845 [6:10:16<10:59:40,  1.26s/it] 36%|███▌      | 17423/48845 [6:10:18<10:59:37,  1.26s/it] 36%|███▌      | 17424/48845 [6:10:19<10:59:35,  1.26s/it] 36%|███▌      | 17425/48845 [6:10:20<10:59:25,  1.26s/it]                                                          {'loss': 1.9317, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17425/48845 [6:10:20<10:59:25,  1.26s/it] 36%|███▌      | 17426/48845 [6:10:21<10:59:50,  1.26s/it] 36%|███▌      | 17427/48845 [6:10:23<11:00:02,  1.26s/it] 36%|███▌      | 17428/48845 [6:10:24<10:59:50,  1.26s/it] 36%|███▌      | 17429/48845 [6:10:25<10:59:49,  1.26s/it] 36%|███▌      | 17430/48845 [6:10:26<10:59:29,  1.26s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17430/48845 [6:10:26<10:59:29,  1.26s/it] 36%|███▌      | 17431/48845 [6:10:28<10:59:26,  1.26s/it] 36%|███▌      | 17432/48845 [6:10:29<10:59:40,  1.26s/it] 36%|███▌      | 17433/48845 [6:10:30<10:59:41,  1.26s/it] 36%|███▌      | 17434/48845 [6:10:32<10:59:25,  1.26s/it] 36%|███▌      | 17435/48845 [6:10:33<10:59:25,  1.26s/it]                                                          {'loss': 1.961, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.78}
+ 36%|███▌      | 17435/48845 [6:10:33<10:59:25,  1.26s/it] 36%|███▌      | 17436/48845 [6:10:34<10:59:19,  1.26s/it] 36%|███▌      | 17437/48845 [6:10:35<10:59:01,  1.26s/it] 36%|███▌      | 17438/48845 [6:10:37<10:59:08,  1.26s/it] 36%|███▌      | 17439/48845 [6:10:38<10:59:34,  1.26s/it] 36%|███▌      | 17440/48845 [6:10:39<10:59:25,  1.26s/it]                                                          {'loss': 2.1675, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17440/48845 [6:10:39<10:59:25,  1.26s/it] 36%|███▌      | 17441/48845 [6:10:40<10:59:07,  1.26s/it] 36%|███▌      | 17442/48845 [6:10:42<11:00:19,  1.26s/it] 36%|███▌      | 17443/48845 [6:10:43<10:59:15,  1.26s/it] 36%|███▌      | 17444/48845 [6:10:44<10:58:50,  1.26s/it] 36%|███▌      | 17445/48845 [6:10:45<10:58:52,  1.26s/it]                                                          {'loss': 2.1235, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17445/48845 [6:10:45<10:58:52,  1.26s/it] 36%|███▌      | 17446/48845 [6:10:47<10:58:52,  1.26s/it] 36%|███▌      | 17447/48845 [6:10:48<10:59:16,  1.26s/it] 36%|███▌      | 17448/48845 [6:10:49<10:59:17,  1.26s/it] 36%|███▌      | 17449/48845 [6:10:50<10:59:14,  1.26s/it] 36%|███▌      | 17450/48845 [6:10:52<10:59:02,  1.26s/it]                                                          {'loss': 2.0554, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17450/48845 [6:10:52<10:59:02,  1.26s/it] 36%|███▌      | 17451/48845 [6:10:53<10:58:38,  1.26s/it] 36%|███▌      | 17452/48845 [6:10:54<10:59:39,  1.26s/it] 36%|███▌      | 17453/48845 [6:10:55<10:59:05,  1.26s/it] 36%|███▌      | 17454/48845 [6:10:57<10:58:41,  1.26s/it] 36%|███▌      | 17455/48845 [6:10:58<10:58:27,  1.26s/it]                                                          {'loss': 1.9223, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17455/48845 [6:10:58<10:58:27,  1.26s/it] 36%|███▌      | 17456/48845 [6:10:59<10:58:41,  1.26s/it] 36%|███▌      | 17457/48845 [6:11:01<10:59:13,  1.26s/it] 36%|███▌      | 17458/48845 [6:11:02<10:59:10,  1.26s/it] 36%|███▌      | 17459/48845 [6:11:03<10:58:57,  1.26s/it] 36%|███▌      | 17460/48845 [6:11:04<10:59:05,  1.26s/it]                                                          {'loss': 1.8182, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17460/48845 [6:11:04<10:59:05,  1.26s/it] 36%|███▌      | 17461/48845 [6:11:06<10:58:59,  1.26s/it] 36%|███▌      | 17462/48845 [6:11:07<10:59:13,  1.26s/it] 36%|███▌      | 17463/48845 [6:11:08<10:58:53,  1.26s/it] 36%|███▌      | 17464/48845 [6:11:09<10:58:39,  1.26s/it] 36%|███▌      | 17465/48845 [6:11:11<10:59:36,  1.26s/it]                                                          {'loss': 2.1784, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17465/48845 [6:11:11<10:59:36,  1.26s/it] 36%|███▌      | 17466/48845 [6:11:12<10:58:47,  1.26s/it] 36%|███▌      | 17467/48845 [6:11:13<10:59:23,  1.26s/it] 36%|███▌      | 17468/48845 [6:11:14<10:59:02,  1.26s/it] 36%|███▌      | 17469/48845 [6:11:16<10:59:04,  1.26s/it] 36%|███▌      | 17470/48845 [6:11:17<10:58:25,  1.26s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17470/48845 [6:11:17<10:58:25,  1.26s/it] 36%|███▌      | 17471/48845 [6:11:18<10:59:05,  1.26s/it] 36%|███▌      | 17472/48845 [6:11:19<10:59:15,  1.26s/it] 36%|███▌      | 17473/48845 [6:11:21<10:58:23,  1.26s/it] 36%|███▌      | 17474/48845 [6:11:22<10:58:50,  1.26s/it] 36%|███▌      | 17475/48845 [6:11:23<10:58:15,  1.26s/it]                                                          {'loss': 2.0291, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17475/48845 [6:11:23<10:58:15,  1.26s/it] 36%|███▌      | 17476/48845 [6:11:24<10:58:21,  1.26s/it] 36%|███▌      | 17477/48845 [6:11:26<10:58:23,  1.26s/it] 36%|███▌      | 17478/48845 [6:11:27<10:58:14,  1.26s/it] 36%|███▌      | 17479/48845 [6:11:28<10:58:50,  1.26s/it] 36%|███▌      | 17480/48845 [6:11:29<10:58:04,  1.26s/it]                                                          {'loss': 2.0926, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17480/48845 [6:11:29<10:58:04,  1.26s/it] 36%|███▌      | 17481/48845 [6:11:31<10:58:42,  1.26s/it] 36%|███▌      | 17482/48845 [6:11:32<10:58:59,  1.26s/it] 36%|███▌      | 17483/48845 [6:11:33<10:58:24,  1.26s/it] 36%|███▌      | 17484/48845 [6:11:35<10:58:49,  1.26s/it] 36%|███▌      | 17485/48845 [6:11:36<10:57:59,  1.26s/it]                                                          {'loss': 1.8741, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17485/48845 [6:11:36<10:57:59,  1.26s/it] 36%|███▌      | 17486/48845 [6:11:37<10:58:21,  1.26s/it] 36%|███▌      | 17487/48845 [6:11:38<10:58:28,  1.26s/it] 36%|███▌      | 17488/48845 [6:11:40<10:58:11,  1.26s/it] 36%|███▌      | 17489/48845 [6:11:41<10:58:32,  1.26s/it] 36%|███▌      | 17490/48845 [6:11:42<10:58:37,  1.26s/it]                                                          {'loss': 2.0343, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17490/48845 [6:11:42<10:58:37,  1.26s/it] 36%|███▌      | 17491/48845 [6:11:43<10:58:20,  1.26s/it] 36%|███▌      | 17492/48845 [6:11:45<10:58:12,  1.26s/it] 36%|███▌      | 17493/48845 [6:11:46<10:58:03,  1.26s/it] 36%|███▌      | 17494/48845 [6:11:47<10:58:01,  1.26s/it] 36%|███▌      | 17495/48845 [6:11:48<10:57:48,  1.26s/it]                                                          {'loss': 2.0297, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17495/48845 [6:11:48<10:57:48,  1.26s/it] 36%|███▌      | 17496/48845 [6:11:50<10:57:32,  1.26s/it] 36%|███▌      | 17497/48845 [6:11:51<10:57:25,  1.26s/it] 36%|███▌      | 17498/48845 [6:11:52<10:57:23,  1.26s/it] 36%|███▌      | 17499/48845 [6:11:53<10:57:48,  1.26s/it] 36%|███▌      | 17500/48845 [6:11:55<10:57:53,  1.26s/it]                                                          {'loss': 2.1001, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17500/48845 [6:11:55<10:57:53,  1.26s/it] 36%|███▌      | 17501/48845 [6:11:56<10:58:16,  1.26s/it] 36%|███▌      | 17502/48845 [6:11:57<10:58:36,  1.26s/it] 36%|███▌      | 17503/48845 [6:11:58<10:58:40,  1.26s/it] 36%|███▌      | 17504/48845 [6:12:00<10:58:43,  1.26s/it] 36%|███▌      | 17505/48845 [6:12:01<10:59:07,  1.26s/it]                                                          {'loss': 2.0542, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17505/48845 [6:12:01<10:59:07,  1.26s/it] 36%|███▌      | 17506/48845 [6:12:02<10:59:23,  1.26s/it] 36%|███▌      | 17507/48845 [6:12:04<10:59:12,  1.26s/it] 36%|███▌      | 17508/48845 [6:12:05<10:58:26,  1.26s/it] 36%|███▌      | 17509/48845 [6:12:06<10:57:54,  1.26s/it] 36%|███▌      | 17510/48845 [6:12:07<10:59:08,  1.26s/it]                                                          {'loss': 2.0867, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17510/48845 [6:12:07<10:59:08,  1.26s/it] 36%|███▌      | 17511/48845 [6:12:09<10:59:07,  1.26s/it] 36%|███▌      | 17512/48845 [6:12:10<10:58:56,  1.26s/it] 36%|███▌      | 17513/48845 [6:12:11<10:57:53,  1.26s/it] 36%|███▌      | 17514/48845 [6:12:12<10:57:37,  1.26s/it] 36%|███▌      | 17515/48845 [6:12:14<10:57:45,  1.26s/it]                                                          {'loss': 2.1588, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17515/48845 [6:12:14<10:57:45,  1.26s/it] 36%|███▌      | 17516/48845 [6:12:15<10:57:47,  1.26s/it] 36%|███▌      | 17517/48845 [6:12:16<10:58:24,  1.26s/it] 36%|███▌      | 17518/48845 [6:12:17<10:58:36,  1.26s/it] 36%|███▌      | 17519/48845 [6:12:19<10:58:59,  1.26s/it] 36%|███▌      | 17520/48845 [6:12:20<10:59:27,  1.26s/it]                                                          {'loss': 1.9154, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17520/48845 [6:12:20<10:59:27,  1.26s/it] 36%|███▌      | 17521/48845 [6:12:21<10:58:34,  1.26s/it] 36%|███▌      | 17522/48845 [6:12:22<10:58:44,  1.26s/it] 36%|███▌      | 17523/48845 [6:12:24<11:11:53,  1.29s/it] 36%|███▌      | 17524/48845 [6:12:25<11:07:33,  1.28s/it] 36%|███▌      | 17525/48845 [6:12:26<11:05:01,  1.27s/it]                                                          {'loss': 2.1407, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17525/48845 [6:12:26<11:05:01,  1.27s/it] 36%|███▌      | 17526/48845 [6:12:28<11:04:09,  1.27s/it] 36%|███▌      | 17527/48845 [6:12:29<11:02:08,  1.27s/it] 36%|███▌      | 17528/48845 [6:12:30<11:01:29,  1.27s/it] 36%|███▌      | 17529/48845 [6:12:31<10:59:29,  1.26s/it] 36%|███▌      | 17530/48845 [6:12:33<10:59:32,  1.26s/it]                                                          {'loss': 2.1206, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17530/48845 [6:12:33<10:59:32,  1.26s/it] 36%|███▌      | 17531/48845 [6:12:34<10:58:52,  1.26s/it] 36%|███▌      | 17532/48845 [6:12:35<10:58:04,  1.26s/it] 36%|███▌      | 17533/48845 [6:12:36<10:58:09,  1.26s/it] 36%|███▌      | 17534/48845 [6:12:38<10:58:17,  1.26s/it] 36%|███▌      | 17535/48845 [6:12:39<10:58:09,  1.26s/it]                                                          {'loss': 2.2475, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.79}
+ 36%|███▌      | 17535/48845 [6:12:39<10:58:09,  1.26s/it] 36%|███▌      | 17536/48845 [6:12:40<10:58:02,  1.26s/it] 36%|███▌      | 17537/48845 [6:12:41<10:57:24,  1.26s/it] 36%|███▌      | 17538/48845 [6:12:43<10:57:34,  1.26s/it] 36%|███▌      | 17539/48845 [6:12:44<10:56:56,  1.26s/it] 36%|███▌      | 17540/48845 [6:12:45<10:57:29,  1.26s/it]                                                          {'loss': 2.0256, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17540/48845 [6:12:45<10:57:29,  1.26s/it] 36%|███▌      | 17541/48845 [6:12:46<10:57:51,  1.26s/it] 36%|███▌      | 17542/48845 [6:12:48<10:58:06,  1.26s/it] 36%|███▌      | 17543/48845 [6:12:49<10:58:33,  1.26s/it] 36%|███▌      | 17544/48845 [6:12:50<10:58:16,  1.26s/it] 36%|███▌      | 17545/48845 [6:12:52<10:57:37,  1.26s/it]                                                          {'loss': 2.0357, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17545/48845 [6:12:52<10:57:37,  1.26s/it] 36%|███▌      | 17546/48845 [6:12:53<10:59:07,  1.26s/it] 36%|███▌      | 17547/48845 [6:12:54<10:57:54,  1.26s/it] 36%|███▌      | 17548/48845 [6:12:55<10:57:51,  1.26s/it] 36%|███▌      | 17549/48845 [6:12:57<10:57:45,  1.26s/it] 36%|███▌      | 17550/48845 [6:12:58<10:57:46,  1.26s/it]                                                          {'loss': 2.2442, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17550/48845 [6:12:58<10:57:46,  1.26s/it] 36%|███▌      | 17551/48845 [6:12:59<10:59:13,  1.26s/it] 36%|███▌      | 17552/48845 [6:13:00<10:58:26,  1.26s/it] 36%|███▌      | 17553/48845 [6:13:02<10:58:07,  1.26s/it] 36%|███▌      | 17554/48845 [6:13:03<10:58:24,  1.26s/it] 36%|███▌      | 17555/48845 [6:13:04<10:57:30,  1.26s/it]                                                          {'loss': 2.1692, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17555/48845 [6:13:04<10:57:30,  1.26s/it] 36%|███▌      | 17556/48845 [6:13:05<10:57:29,  1.26s/it] 36%|███▌      | 17557/48845 [6:13:07<10:57:07,  1.26s/it] 36%|███▌      | 17558/48845 [6:13:08<10:57:17,  1.26s/it] 36%|███▌      | 17559/48845 [6:13:09<10:56:53,  1.26s/it] 36%|███▌      | 17560/48845 [6:13:10<10:56:37,  1.26s/it]                                                          {'loss': 2.1442, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17560/48845 [6:13:10<10:56:37,  1.26s/it] 36%|███▌      | 17561/48845 [6:13:12<10:56:13,  1.26s/it] 36%|███▌      | 17562/48845 [6:13:13<10:55:57,  1.26s/it] 36%|███▌      | 17563/48845 [6:13:14<10:56:22,  1.26s/it] 36%|███▌      | 17564/48845 [6:13:15<10:57:07,  1.26s/it] 36%|███▌      | 17565/48845 [6:13:17<10:56:33,  1.26s/it]                                                          {'loss': 2.0891, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17565/48845 [6:13:17<10:56:33,  1.26s/it] 36%|███▌      | 17566/48845 [6:13:18<10:56:21,  1.26s/it] 36%|███▌      | 17567/48845 [6:13:19<10:56:04,  1.26s/it] 36%|███▌      | 17568/48845 [6:13:21<10:56:48,  1.26s/it] 36%|███▌      | 17569/48845 [6:13:22<10:56:54,  1.26s/it] 36%|███▌      | 17570/48845 [6:13:23<10:57:58,  1.26s/it]                                                          {'loss': 2.0703, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17570/48845 [6:13:23<10:57:58,  1.26s/it] 36%|███▌      | 17571/48845 [6:13:24<10:57:43,  1.26s/it] 36%|███▌      | 17572/48845 [6:13:26<10:56:31,  1.26s/it] 36%|███▌      | 17573/48845 [6:13:27<10:56:11,  1.26s/it] 36%|███▌      | 17574/48845 [6:13:28<11:16:58,  1.30s/it] 36%|███▌      | 17575/48845 [6:13:29<11:11:09,  1.29s/it]                                                          {'loss': 1.9441, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17575/48845 [6:13:29<11:11:09,  1.29s/it] 36%|███▌      | 17576/48845 [6:13:31<11:07:05,  1.28s/it] 36%|███▌      | 17577/48845 [6:13:32<11:03:40,  1.27s/it] 36%|███▌      | 17578/48845 [6:13:33<11:01:29,  1.27s/it] 36%|███▌      | 17579/48845 [6:13:34<10:59:52,  1.27s/it] 36%|███▌      | 17580/48845 [6:13:36<10:58:48,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17580/48845 [6:13:36<10:58:48,  1.26s/it] 36%|███▌      | 17581/48845 [6:13:37<10:58:23,  1.26s/it] 36%|███▌      | 17582/48845 [6:13:38<10:58:51,  1.26s/it] 36%|███▌      | 17583/48845 [6:13:40<10:57:41,  1.26s/it] 36%|███▌      | 17584/48845 [6:13:41<10:57:26,  1.26s/it] 36%|███▌      | 17585/48845 [6:13:42<10:57:35,  1.26s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17585/48845 [6:13:42<10:57:35,  1.26s/it] 36%|███▌      | 17586/48845 [6:13:43<10:57:14,  1.26s/it] 36%|███▌      | 17587/48845 [6:13:45<10:56:39,  1.26s/it] 36%|███▌      | 17588/48845 [6:13:46<10:56:42,  1.26s/it] 36%|███▌      | 17589/48845 [6:13:47<10:56:34,  1.26s/it] 36%|███▌      | 17590/48845 [6:13:48<10:56:23,  1.26s/it]                                                          {'loss': 2.05, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17590/48845 [6:13:48<10:56:23,  1.26s/it] 36%|███▌      | 17591/48845 [6:13:50<10:56:34,  1.26s/it] 36%|███▌      | 17592/48845 [6:13:51<10:56:30,  1.26s/it] 36%|███▌      | 17593/48845 [6:13:52<10:56:02,  1.26s/it] 36%|███▌      | 17594/48845 [6:13:53<10:55:30,  1.26s/it] 36%|███▌      | 17595/48845 [6:13:55<10:56:22,  1.26s/it]                                                          {'loss': 2.1551, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17595/48845 [6:13:55<10:56:22,  1.26s/it] 36%|███▌      | 17596/48845 [6:13:56<10:56:16,  1.26s/it] 36%|███▌      | 17597/48845 [6:13:57<10:56:14,  1.26s/it] 36%|███▌      | 17598/48845 [6:13:58<10:56:11,  1.26s/it] 36%|███▌      | 17599/48845 [6:14:00<10:57:00,  1.26s/it] 36%|███▌      | 17600/48845 [6:14:01<10:57:06,  1.26s/it]                                                          {'loss': 2.0319, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17600/48845 [6:14:01<10:57:06,  1.26s/it] 36%|███▌      | 17601/48845 [6:14:05<17:17:45,  1.99s/it] 36%|███▌      | 17602/48845 [6:14:06<15:23:27,  1.77s/it] 36%|███▌      | 17603/48845 [6:14:07<14:03:07,  1.62s/it] 36%|███▌      | 17604/48845 [6:14:08<13:07:46,  1.51s/it] 36%|███▌      | 17605/48845 [6:14:10<12:27:16,  1.44s/it]                                                          {'loss': 2.1204, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17605/48845 [6:14:10<12:27:16,  1.44s/it] 36%|███▌      | 17606/48845 [6:14:11<12:00:15,  1.38s/it] 36%|███▌      | 17607/48845 [6:14:12<11:40:25,  1.35s/it] 36%|███▌      | 17608/48845 [6:14:13<11:26:54,  1.32s/it] 36%|███▌      | 17609/48845 [6:14:15<11:18:14,  1.30s/it] 36%|███▌      | 17610/48845 [6:14:16<11:11:07,  1.29s/it]                                                          {'loss': 2.0037, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17610/48845 [6:14:16<11:11:07,  1.29s/it] 36%|███▌      | 17611/48845 [6:14:17<11:07:14,  1.28s/it] 36%|███▌      | 17612/48845 [6:14:19<11:03:37,  1.27s/it] 36%|███▌      | 17613/48845 [6:14:20<11:01:26,  1.27s/it] 36%|███▌      | 17614/48845 [6:14:21<10:59:57,  1.27s/it] 36%|███▌      | 17615/48845 [6:14:22<10:58:39,  1.27s/it]                                                          {'loss': 2.0145, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17615/48845 [6:14:22<10:58:39,  1.27s/it] 36%|███▌      | 17616/48845 [6:14:24<10:58:05,  1.26s/it] 36%|███▌      | 17617/48845 [6:14:25<10:57:04,  1.26s/it] 36%|███▌      | 17618/48845 [6:14:26<10:56:24,  1.26s/it] 36%|███▌      | 17619/48845 [6:14:27<10:56:20,  1.26s/it] 36%|███▌      | 17620/48845 [6:14:29<10:56:28,  1.26s/it]                                                          {'loss': 2.2146, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17620/48845 [6:14:29<10:56:28,  1.26s/it] 36%|███▌      | 17621/48845 [6:14:30<10:56:15,  1.26s/it] 36%|███▌      | 17622/48845 [6:14:31<10:57:00,  1.26s/it] 36%|███▌      | 17623/48845 [6:14:32<10:56:13,  1.26s/it] 36%|███▌      | 17624/48845 [6:14:34<10:55:57,  1.26s/it] 36%|███▌      | 17625/48845 [6:14:35<10:56:06,  1.26s/it]                                                          {'loss': 2.0644, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17625/48845 [6:14:35<10:56:06,  1.26s/it] 36%|███▌      | 17626/48845 [6:14:36<10:55:51,  1.26s/it] 36%|███▌      | 17627/48845 [6:14:37<10:56:45,  1.26s/it] 36%|███▌      | 17628/48845 [6:14:39<10:55:46,  1.26s/it] 36%|███▌      | 17629/48845 [6:14:40<10:55:27,  1.26s/it] 36%|███▌      | 17630/48845 [6:14:41<10:54:58,  1.26s/it]                                                          {'loss': 1.8897, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.8}
+ 36%|███▌      | 17630/48845 [6:14:41<10:54:58,  1.26s/it] 36%|███▌      | 17631/48845 [6:14:42<10:54:55,  1.26s/it] 36%|███▌      | 17632/48845 [6:14:44<10:55:03,  1.26s/it] 36%|███▌      | 17633/48845 [6:14:45<10:54:45,  1.26s/it] 36%|███▌      | 17634/48845 [6:14:46<10:54:36,  1.26s/it] 36%|███▌      | 17635/48845 [6:14:48<10:54:47,  1.26s/it]                                                          {'loss': 2.1844, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17635/48845 [6:14:48<10:54:47,  1.26s/it] 36%|███▌      | 17636/48845 [6:14:49<10:55:17,  1.26s/it] 36%|███▌      | 17637/48845 [6:14:50<10:55:13,  1.26s/it] 36%|███▌      | 17638/48845 [6:14:51<10:55:31,  1.26s/it] 36%|███▌      | 17639/48845 [6:14:53<10:55:28,  1.26s/it] 36%|███▌      | 17640/48845 [6:14:54<10:55:19,  1.26s/it]                                                          {'loss': 2.027, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17640/48845 [6:14:54<10:55:19,  1.26s/it] 36%|███▌      | 17641/48845 [6:14:55<10:55:21,  1.26s/it] 36%|███▌      | 17642/48845 [6:14:56<10:55:41,  1.26s/it] 36%|███▌      | 17643/48845 [6:14:58<10:55:39,  1.26s/it] 36%|███▌      | 17644/48845 [6:14:59<10:56:25,  1.26s/it] 36%|███▌      | 17645/48845 [6:15:00<10:56:16,  1.26s/it]                                                          {'loss': 2.0696, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17645/48845 [6:15:00<10:56:16,  1.26s/it] 36%|███▌      | 17646/48845 [6:15:01<10:55:40,  1.26s/it] 36%|███▌      | 17647/48845 [6:15:03<10:55:48,  1.26s/it] 36%|███▌      | 17648/48845 [6:15:04<10:56:01,  1.26s/it] 36%|███▌      | 17649/48845 [6:15:05<10:55:34,  1.26s/it] 36%|███▌      | 17650/48845 [6:15:06<10:56:08,  1.26s/it]                                                          {'loss': 2.0161, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17650/48845 [6:15:06<10:56:08,  1.26s/it] 36%|███▌      | 17651/48845 [6:15:08<10:55:23,  1.26s/it] 36%|███▌      | 17652/48845 [6:15:09<10:56:01,  1.26s/it] 36%|███▌      | 17653/48845 [6:15:10<10:55:42,  1.26s/it] 36%|███▌      | 17654/48845 [6:15:11<10:55:20,  1.26s/it] 36%|███▌      | 17655/48845 [6:15:13<10:55:33,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17655/48845 [6:15:13<10:55:33,  1.26s/it] 36%|███▌      | 17656/48845 [6:15:14<11:19:03,  1.31s/it] 36%|███▌      | 17657/48845 [6:15:15<11:12:02,  1.29s/it] 36%|███▌      | 17658/48845 [6:15:17<11:06:31,  1.28s/it] 36%|███▌      | 17659/48845 [6:15:18<11:03:14,  1.28s/it] 36%|███▌      | 17660/48845 [6:15:19<11:01:18,  1.27s/it]                                                          {'loss': 1.9129, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17660/48845 [6:15:19<11:01:18,  1.27s/it] 36%|███▌      | 17661/48845 [6:15:20<10:59:39,  1.27s/it] 36%|███▌      | 17662/48845 [6:15:22<10:57:20,  1.26s/it] 36%|███▌      | 17663/48845 [6:15:23<10:56:09,  1.26s/it] 36%|███▌      | 17664/48845 [6:15:24<11:07:55,  1.29s/it] 36%|███▌      | 17665/48845 [6:15:26<11:03:26,  1.28s/it]                                                          {'loss': 2.0159, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17665/48845 [6:15:26<11:03:26,  1.28s/it] 36%|███▌      | 17666/48845 [6:15:27<11:01:34,  1.27s/it] 36%|███▌      | 17667/48845 [6:15:28<10:59:13,  1.27s/it] 36%|███▌      | 17668/48845 [6:15:29<10:59:13,  1.27s/it] 36%|███▌      | 17669/48845 [6:15:31<10:57:07,  1.26s/it] 36%|███▌      | 17670/48845 [6:15:32<10:55:38,  1.26s/it]                                                          {'loss': 1.9624, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17670/48845 [6:15:32<10:55:38,  1.26s/it] 36%|███▌      | 17671/48845 [6:15:33<10:55:15,  1.26s/it] 36%|███▌      | 17672/48845 [6:15:34<10:55:07,  1.26s/it] 36%|███▌      | 17673/48845 [6:15:36<10:54:40,  1.26s/it] 36%|███▌      | 17674/48845 [6:15:37<10:54:26,  1.26s/it] 36%|███▌      | 17675/48845 [6:15:38<10:54:24,  1.26s/it]                                                          {'loss': 2.1001, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17675/48845 [6:15:38<10:54:24,  1.26s/it] 36%|███▌      | 17676/48845 [6:15:39<10:54:32,  1.26s/it] 36%|███▌      | 17677/48845 [6:15:41<10:54:27,  1.26s/it] 36%|███▌      | 17678/48845 [6:15:42<10:54:11,  1.26s/it] 36%|███▌      | 17679/48845 [6:15:43<10:53:34,  1.26s/it] 36%|███▌      | 17680/48845 [6:15:44<10:53:59,  1.26s/it]                                                          {'loss': 2.0603, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17680/48845 [6:15:44<10:53:59,  1.26s/it] 36%|███▌      | 17681/48845 [6:15:46<10:54:35,  1.26s/it] 36%|███▌      | 17682/48845 [6:15:47<10:54:23,  1.26s/it] 36%|███▌      | 17683/48845 [6:15:48<10:54:03,  1.26s/it] 36%|███▌      | 17684/48845 [6:15:49<10:54:11,  1.26s/it] 36%|███▌      | 17685/48845 [6:15:51<10:54:27,  1.26s/it]                                                          {'loss': 1.9772, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17685/48845 [6:15:51<10:54:27,  1.26s/it] 36%|███▌      | 17686/48845 [6:15:52<10:55:08,  1.26s/it] 36%|███▌      | 17687/48845 [6:15:53<10:54:05,  1.26s/it] 36%|███▌      | 17688/48845 [6:15:55<10:54:00,  1.26s/it] 36%|███▌      | 17689/48845 [6:15:56<10:53:33,  1.26s/it] 36%|███▌      | 17690/48845 [6:15:57<10:53:31,  1.26s/it]                                                          {'loss': 2.0814, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17690/48845 [6:15:57<10:53:31,  1.26s/it] 36%|███▌      | 17691/48845 [6:15:58<10:54:34,  1.26s/it] 36%|███▌      | 17692/48845 [6:16:00<10:54:56,  1.26s/it] 36%|███▌      | 17693/48845 [6:16:01<10:55:07,  1.26s/it] 36%|███▌      | 17694/48845 [6:16:02<10:54:07,  1.26s/it] 36%|███▌      | 17695/48845 [6:16:03<10:53:33,  1.26s/it]                                                          {'loss': 2.1647, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17695/48845 [6:16:03<10:53:33,  1.26s/it] 36%|███▌      | 17696/48845 [6:16:05<10:54:31,  1.26s/it] 36%|███▌      | 17697/48845 [6:16:06<10:54:19,  1.26s/it] 36%|███▌      | 17698/48845 [6:16:07<10:54:19,  1.26s/it] 36%|███▌      | 17699/48845 [6:16:08<10:54:06,  1.26s/it] 36%|███▌      | 17700/48845 [6:16:10<10:54:25,  1.26s/it]                                                          {'loss': 2.0795, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17700/48845 [6:16:10<10:54:25,  1.26s/it] 36%|███▌      | 17701/48845 [6:16:11<10:54:47,  1.26s/it] 36%|███▌      | 17702/48845 [6:16:12<10:54:19,  1.26s/it] 36%|███▌      | 17703/48845 [6:16:13<10:54:38,  1.26s/it] 36%|███▌      | 17704/48845 [6:16:15<10:55:09,  1.26s/it] 36%|███▌      | 17705/48845 [6:16:16<10:54:48,  1.26s/it]                                                          {'loss': 2.0398, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▌      | 17705/48845 [6:16:16<10:54:48,  1.26s/it] 36%|███▌      | 17706/48845 [6:16:17<10:55:48,  1.26s/it] 36%|███▋      | 17707/48845 [6:16:19<10:55:26,  1.26s/it] 36%|███▋      | 17708/48845 [6:16:20<10:54:42,  1.26s/it] 36%|███▋      | 17709/48845 [6:16:21<10:53:58,  1.26s/it] 36%|███▋      | 17710/48845 [6:16:22<10:53:19,  1.26s/it]                                                          {'loss': 2.2785, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▋      | 17710/48845 [6:16:22<10:53:19,  1.26s/it] 36%|███▋      | 17711/48845 [6:16:24<10:54:06,  1.26s/it] 36%|███▋      | 17712/48845 [6:16:25<10:54:07,  1.26s/it] 36%|███▋      | 17713/48845 [6:16:26<10:53:24,  1.26s/it] 36%|███▋      | 17714/48845 [6:16:27<10:53:10,  1.26s/it] 36%|███▋      | 17715/48845 [6:16:29<10:53:38,  1.26s/it]                                                          {'loss': 2.043, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▋      | 17715/48845 [6:16:29<10:53:38,  1.26s/it] 36%|███▋      | 17716/48845 [6:16:30<10:54:07,  1.26s/it] 36%|███▋      | 17717/48845 [6:16:31<10:53:41,  1.26s/it] 36%|███▋      | 17718/48845 [6:16:32<10:53:05,  1.26s/it] 36%|███▋      | 17719/48845 [6:16:34<10:53:42,  1.26s/it] 36%|███▋      | 17720/48845 [6:16:35<10:53:44,  1.26s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▋      | 17720/48845 [6:16:35<10:53:44,  1.26s/it] 36%|███▋      | 17721/48845 [6:16:36<10:54:28,  1.26s/it] 36%|███▋      | 17722/48845 [6:16:37<10:54:36,  1.26s/it] 36%|███▋      | 17723/48845 [6:16:39<10:54:45,  1.26s/it] 36%|███▋      | 17724/48845 [6:16:40<10:53:49,  1.26s/it] 36%|███▋      | 17725/48845 [6:16:41<10:53:38,  1.26s/it]                                                          {'loss': 2.0699, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▋      | 17725/48845 [6:16:41<10:53:38,  1.26s/it] 36%|███▋      | 17726/48845 [6:16:42<10:53:02,  1.26s/it] 36%|███▋      | 17727/48845 [6:16:44<10:53:54,  1.26s/it] 36%|███▋      | 17728/48845 [6:16:45<10:53:48,  1.26s/it] 36%|███▋      | 17729/48845 [6:16:46<10:54:26,  1.26s/it] 36%|███▋      | 17730/48845 [6:16:47<10:53:57,  1.26s/it]                                                          {'loss': 2.0681, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.81}
+ 36%|███▋      | 17730/48845 [6:16:47<10:53:57,  1.26s/it] 36%|███▋      | 17731/48845 [6:16:49<10:54:03,  1.26s/it] 36%|███▋      | 17732/48845 [6:16:50<10:53:56,  1.26s/it] 36%|███▋      | 17733/48845 [6:16:51<10:54:03,  1.26s/it] 36%|███▋      | 17734/48845 [6:16:53<10:54:13,  1.26s/it] 36%|███▋      | 17735/48845 [6:16:54<10:54:39,  1.26s/it]                                                          {'loss': 1.9251, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17735/48845 [6:16:54<10:54:39,  1.26s/it] 36%|███▋      | 17736/48845 [6:16:55<10:53:56,  1.26s/it] 36%|███▋      | 17737/48845 [6:16:56<10:53:36,  1.26s/it] 36%|███▋      | 17738/48845 [6:16:58<10:53:21,  1.26s/it] 36%|███▋      | 17739/48845 [6:16:59<10:53:00,  1.26s/it] 36%|███▋      | 17740/48845 [6:17:00<10:53:25,  1.26s/it]                                                          {'loss': 2.1966, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17740/48845 [6:17:00<10:53:25,  1.26s/it] 36%|███▋      | 17741/48845 [6:17:01<10:53:04,  1.26s/it] 36%|███▋      | 17742/48845 [6:17:03<10:52:56,  1.26s/it] 36%|███▋      | 17743/48845 [6:17:04<10:52:32,  1.26s/it] 36%|███▋      | 17744/48845 [6:17:05<10:52:47,  1.26s/it] 36%|███▋      | 17745/48845 [6:17:06<10:53:42,  1.26s/it]                                                          {'loss': 2.2672, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17745/48845 [6:17:06<10:53:42,  1.26s/it] 36%|███▋      | 17746/48845 [6:17:08<10:54:10,  1.26s/it] 36%|███▋      | 17747/48845 [6:17:09<11:09:50,  1.29s/it] 36%|███▋      | 17748/48845 [6:17:10<11:03:53,  1.28s/it] 36%|███▋      | 17749/48845 [6:17:12<11:00:54,  1.28s/it] 36%|███▋      | 17750/48845 [6:17:13<10:58:35,  1.27s/it]                                                          {'loss': 1.9984, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17750/48845 [6:17:13<10:58:35,  1.27s/it] 36%|███▋      | 17751/48845 [6:17:14<10:56:57,  1.27s/it] 36%|███▋      | 17752/48845 [6:17:15<10:55:33,  1.27s/it] 36%|███▋      | 17753/48845 [6:17:17<10:53:51,  1.26s/it] 36%|███▋      | 17754/48845 [6:17:18<10:53:23,  1.26s/it] 36%|███▋      | 17755/48845 [6:17:19<10:53:20,  1.26s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17755/48845 [6:17:19<10:53:20,  1.26s/it] 36%|███▋      | 17756/48845 [6:17:20<10:52:44,  1.26s/it] 36%|███▋      | 17757/48845 [6:17:22<10:52:23,  1.26s/it] 36%|███▋      | 17758/48845 [6:17:23<10:51:54,  1.26s/it] 36%|███▋      | 17759/48845 [6:17:24<10:52:16,  1.26s/it] 36%|███▋      | 17760/48845 [6:17:25<10:52:56,  1.26s/it]                                                          {'loss': 2.0376, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17760/48845 [6:17:25<10:52:56,  1.26s/it] 36%|███▋      | 17761/48845 [6:17:27<10:52:53,  1.26s/it] 36%|███▋      | 17762/48845 [6:17:28<10:54:13,  1.26s/it] 36%|███▋      | 17763/48845 [6:17:29<10:53:32,  1.26s/it] 36%|███▋      | 17764/48845 [6:17:30<10:53:00,  1.26s/it] 36%|███▋      | 17765/48845 [6:17:32<10:53:11,  1.26s/it]                                                          {'loss': 2.0746, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17765/48845 [6:17:32<10:53:11,  1.26s/it] 36%|███▋      | 17766/48845 [6:17:33<10:52:26,  1.26s/it] 36%|███▋      | 17767/48845 [6:17:34<10:52:31,  1.26s/it] 36%|███▋      | 17768/48845 [6:17:35<10:52:23,  1.26s/it] 36%|███▋      | 17769/48845 [6:17:37<10:52:10,  1.26s/it] 36%|███▋      | 17770/48845 [6:17:38<10:52:39,  1.26s/it]                                                          {'loss': 1.8562, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17770/48845 [6:17:38<10:52:39,  1.26s/it] 36%|███▋      | 17771/48845 [6:17:39<10:53:15,  1.26s/it] 36%|███▋      | 17772/48845 [6:17:41<10:53:18,  1.26s/it] 36%|███▋      | 17773/48845 [6:17:42<10:53:04,  1.26s/it] 36%|███▋      | 17774/48845 [6:17:43<10:52:37,  1.26s/it] 36%|███▋      | 17775/48845 [6:17:44<10:52:09,  1.26s/it]                                                          {'loss': 2.2077, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17775/48845 [6:17:44<10:52:09,  1.26s/it] 36%|███▋      | 17776/48845 [6:17:46<10:53:05,  1.26s/it] 36%|███▋      | 17777/48845 [6:17:47<10:52:33,  1.26s/it] 36%|███▋      | 17778/48845 [6:17:48<10:52:56,  1.26s/it] 36%|███▋      | 17779/48845 [6:17:49<10:52:46,  1.26s/it] 36%|███▋      | 17780/48845 [6:17:51<10:53:19,  1.26s/it]                                                          {'loss': 2.1654, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17780/48845 [6:17:51<10:53:19,  1.26s/it] 36%|███▋      | 17781/48845 [6:17:52<10:52:53,  1.26s/it] 36%|███▋      | 17782/48845 [6:17:53<10:52:44,  1.26s/it] 36%|███▋      | 17783/48845 [6:17:54<10:53:05,  1.26s/it] 36%|███▋      | 17784/48845 [6:17:56<10:52:35,  1.26s/it] 36%|███▋      | 17785/48845 [6:17:57<10:53:06,  1.26s/it]                                                          {'loss': 2.0534, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17785/48845 [6:17:57<10:53:06,  1.26s/it] 36%|███▋      | 17786/48845 [6:17:58<10:53:30,  1.26s/it] 36%|███▋      | 17787/48845 [6:17:59<10:53:02,  1.26s/it] 36%|███▋      | 17788/48845 [6:18:01<10:52:57,  1.26s/it] 36%|███▋      | 17789/48845 [6:18:02<10:52:48,  1.26s/it] 36%|███▋      | 17790/48845 [6:18:03<10:52:32,  1.26s/it]                                                          {'loss': 1.925, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17790/48845 [6:18:03<10:52:32,  1.26s/it] 36%|███▋      | 17791/48845 [6:18:04<10:52:23,  1.26s/it] 36%|███▋      | 17792/48845 [6:18:06<10:52:17,  1.26s/it] 36%|███▋      | 17793/48845 [6:18:07<10:52:44,  1.26s/it] 36%|███▋      | 17794/48845 [6:18:08<10:51:58,  1.26s/it] 36%|███▋      | 17795/48845 [6:18:10<10:52:07,  1.26s/it]                                                          {'loss': 2.0566, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17795/48845 [6:18:10<10:52:07,  1.26s/it] 36%|███▋      | 17796/48845 [6:18:11<10:52:25,  1.26s/it] 36%|███▋      | 17797/48845 [6:18:12<10:51:47,  1.26s/it] 36%|███▋      | 17798/48845 [6:18:13<10:52:26,  1.26s/it] 36%|███▋      | 17799/48845 [6:18:15<10:51:51,  1.26s/it] 36%|███▋      | 17800/48845 [6:18:16<10:52:16,  1.26s/it]                                                          {'loss': 2.0937, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17800/48845 [6:18:16<10:52:16,  1.26s/it] 36%|███▋      | 17801/48845 [6:18:20<17:08:23,  1.99s/it] 36%|███▋      | 17802/48845 [6:18:21<15:16:13,  1.77s/it] 36%|███▋      | 17803/48845 [6:18:22<13:56:45,  1.62s/it] 36%|███▋      | 17804/48845 [6:18:23<13:00:53,  1.51s/it] 36%|███▋      | 17805/48845 [6:18:25<12:22:07,  1.43s/it]                                                          {'loss': 2.0629, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17805/48845 [6:18:25<12:22:07,  1.43s/it] 36%|███▋      | 17806/48845 [6:18:26<11:54:40,  1.38s/it] 36%|███▋      | 17807/48845 [6:18:27<11:36:35,  1.35s/it] 36%|███▋      | 17808/48845 [6:18:28<11:22:38,  1.32s/it] 36%|███▋      | 17809/48845 [6:18:30<11:13:07,  1.30s/it] 36%|███▋      | 17810/48845 [6:18:31<11:06:47,  1.29s/it]                                                          {'loss': 2.2009, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17810/48845 [6:18:31<11:06:47,  1.29s/it] 36%|███▋      | 17811/48845 [6:18:32<11:02:02,  1.28s/it] 36%|███▋      | 17812/48845 [6:18:33<10:59:02,  1.27s/it] 36%|███▋      | 17813/48845 [6:18:35<10:57:19,  1.27s/it] 36%|███▋      | 17814/48845 [6:18:36<10:55:33,  1.27s/it] 36%|███▋      | 17815/48845 [6:18:37<10:54:12,  1.26s/it]                                                          {'loss': 2.1205, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17815/48845 [6:18:37<10:54:12,  1.26s/it] 36%|███▋      | 17816/48845 [6:18:38<10:53:45,  1.26s/it] 36%|███▋      | 17817/48845 [6:18:40<10:58:29,  1.27s/it] 36%|███▋      | 17818/48845 [6:18:41<10:56:49,  1.27s/it] 36%|███▋      | 17819/48845 [6:18:42<10:54:47,  1.27s/it] 36%|███▋      | 17820/48845 [6:18:43<10:53:55,  1.26s/it]                                                          {'loss': 1.98, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|���██▋      | 17820/48845 [6:18:43<10:53:55,  1.26s/it] 36%|███▋      | 17821/48845 [6:18:45<10:53:22,  1.26s/it] 36%|███▋      | 17822/48845 [6:18:46<10:52:36,  1.26s/it] 36%|███▋      | 17823/48845 [6:18:47<10:52:49,  1.26s/it] 36%|███▋      | 17824/48845 [6:18:49<10:52:15,  1.26s/it] 36%|███▋      | 17825/48845 [6:18:50<10:52:55,  1.26s/it]                                                          {'loss': 2.1494, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.82}
+ 36%|███▋      | 17825/48845 [6:18:50<10:52:55,  1.26s/it] 36%|███▋      | 17826/48845 [6:18:51<10:52:00,  1.26s/it] 36%|███▋      | 17827/48845 [6:18:52<10:51:32,  1.26s/it] 36%|███▋      | 17828/48845 [6:18:54<10:51:47,  1.26s/it] 37%|███▋      | 17829/48845 [6:18:55<10:51:58,  1.26s/it] 37%|███▋      | 17830/48845 [6:18:56<10:51:51,  1.26s/it]                                                          {'loss': 2.1455, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17830/48845 [6:18:56<10:51:51,  1.26s/it] 37%|███▋      | 17831/48845 [6:18:57<10:52:38,  1.26s/it] 37%|███▋      | 17832/48845 [6:18:59<10:51:53,  1.26s/it] 37%|███▋      | 17833/48845 [6:19:00<10:51:58,  1.26s/it] 37%|███▋      | 17834/48845 [6:19:01<10:51:26,  1.26s/it] 37%|███▋      | 17835/48845 [6:19:02<10:50:55,  1.26s/it]                                                          {'loss': 2.1224, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17835/48845 [6:19:02<10:50:55,  1.26s/it] 37%|███▋      | 17836/48845 [6:19:04<10:51:33,  1.26s/it] 37%|███▋      | 17837/48845 [6:19:05<10:51:22,  1.26s/it] 37%|███▋      | 17838/48845 [6:19:06<10:51:24,  1.26s/it] 37%|███▋      | 17839/48845 [6:19:07<10:51:38,  1.26s/it] 37%|███▋      | 17840/48845 [6:19:09<10:51:15,  1.26s/it]                                                          {'loss': 1.9405, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17840/48845 [6:19:09<10:51:15,  1.26s/it] 37%|███▋      | 17841/48845 [6:19:10<10:51:21,  1.26s/it] 37%|███▋      | 17842/48845 [6:19:11<10:50:22,  1.26s/it] 37%|███▋      | 17843/48845 [6:19:12<10:50:13,  1.26s/it] 37%|███▋      | 17844/48845 [6:19:14<10:50:42,  1.26s/it] 37%|███▋      | 17845/48845 [6:19:15<10:50:41,  1.26s/it]                                                          {'loss': 1.9253, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17845/48845 [6:19:15<10:50:41,  1.26s/it] 37%|███▋      | 17846/48845 [6:19:16<10:50:48,  1.26s/it] 37%|███▋      | 17847/48845 [6:19:18<10:51:04,  1.26s/it] 37%|███▋      | 17848/48845 [6:19:19<10:51:10,  1.26s/it] 37%|███▋      | 17849/48845 [6:19:20<10:50:25,  1.26s/it] 37%|███▋      | 17850/48845 [6:19:21<10:50:13,  1.26s/it]                                                          {'loss': 2.1813, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17850/48845 [6:19:21<10:50:13,  1.26s/it] 37%|███▋      | 17851/48845 [6:19:23<10:52:12,  1.26s/it] 37%|███▋      | 17852/48845 [6:19:24<10:51:19,  1.26s/it] 37%|███▋      | 17853/48845 [6:19:25<10:51:09,  1.26s/it] 37%|███▋      | 17854/48845 [6:19:26<10:51:15,  1.26s/it] 37%|███▋      | 17855/48845 [6:19:28<10:50:20,  1.26s/it]                                                          {'loss': 2.042, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17855/48845 [6:19:28<10:50:20,  1.26s/it] 37%|███▋      | 17856/48845 [6:19:29<10:50:46,  1.26s/it] 37%|███▋      | 17857/48845 [6:19:30<10:50:20,  1.26s/it] 37%|███▋      | 17858/48845 [6:19:31<10:50:24,  1.26s/it] 37%|███▋      | 17859/48845 [6:19:33<10:49:54,  1.26s/it] 37%|███▋      | 17860/48845 [6:19:34<10:49:45,  1.26s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17860/48845 [6:19:34<10:49:45,  1.26s/it] 37%|███▋      | 17861/48845 [6:19:35<10:50:31,  1.26s/it] 37%|███▋      | 17862/48845 [6:19:36<10:50:06,  1.26s/it] 37%|███▋      | 17863/48845 [6:19:38<10:49:57,  1.26s/it] 37%|███▋      | 17864/48845 [6:19:39<10:49:42,  1.26s/it] 37%|███▋      | 17865/48845 [6:19:40<10:50:12,  1.26s/it]                                                          {'loss': 2.0503, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17865/48845 [6:19:40<10:50:12,  1.26s/it] 37%|███▋      | 17866/48845 [6:19:41<10:51:27,  1.26s/it] 37%|███▋      | 17867/48845 [6:19:43<10:50:17,  1.26s/it] 37%|███▋      | 17868/48845 [6:19:44<10:50:23,  1.26s/it] 37%|███▋      | 17869/48845 [6:19:45<10:50:43,  1.26s/it] 37%|███▋      | 17870/48845 [6:19:46<10:50:28,  1.26s/it]                                                          {'loss': 1.9289, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17870/48845 [6:19:46<10:50:28,  1.26s/it] 37%|███▋      | 17871/48845 [6:19:48<10:51:07,  1.26s/it] 37%|███▋      | 17872/48845 [6:19:49<10:50:59,  1.26s/it] 37%|███▋      | 17873/48845 [6:19:50<10:50:13,  1.26s/it] 37%|███▋      | 17874/48845 [6:19:52<10:50:50,  1.26s/it] 37%|███▋      | 17875/48845 [6:19:53<10:50:08,  1.26s/it]                                                          {'loss': 1.9574, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17875/48845 [6:19:53<10:50:08,  1.26s/it] 37%|███▋      | 17876/48845 [6:19:54<10:51:36,  1.26s/it] 37%|███▋      | 17877/48845 [6:19:55<10:50:59,  1.26s/it] 37%|███▋      | 17878/48845 [6:19:57<10:50:36,  1.26s/it] 37%|███▋      | 17879/48845 [6:19:58<10:51:35,  1.26s/it] 37%|███▋      | 17880/48845 [6:19:59<10:51:06,  1.26s/it]                                                          {'loss': 1.9747, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17880/48845 [6:19:59<10:51:06,  1.26s/it] 37%|███▋      | 17881/48845 [6:20:00<10:50:41,  1.26s/it] 37%|███▋      | 17882/48845 [6:20:02<10:49:50,  1.26s/it] 37%|███▋      | 17883/48845 [6:20:03<10:49:51,  1.26s/it] 37%|███▋      | 17884/48845 [6:20:04<10:51:43,  1.26s/it] 37%|███▋      | 17885/48845 [6:20:05<10:50:46,  1.26s/it]                                                          {'loss': 2.0644, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17885/48845 [6:20:05<10:50:46,  1.26s/it] 37%|███▋      | 17886/48845 [6:20:07<10:50:56,  1.26s/it] 37%|███▋      | 17887/48845 [6:20:08<10:50:43,  1.26s/it] 37%|███▋      | 17888/48845 [6:20:09<10:51:07,  1.26s/it] 37%|███▋      | 17889/48845 [6:20:10<10:51:06,  1.26s/it] 37%|███▋      | 17890/48845 [6:20:12<10:50:47,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17890/48845 [6:20:12<10:50:47,  1.26s/it] 37%|███▋      | 17891/48845 [6:20:13<10:50:15,  1.26s/it] 37%|███▋      | 17892/48845 [6:20:14<10:50:50,  1.26s/it] 37%|███▋      | 17893/48845 [6:20:15<10:50:39,  1.26s/it] 37%|███▋      | 17894/48845 [6:20:17<10:49:52,  1.26s/it] 37%|███▋      | 17895/48845 [6:20:18<10:49:49,  1.26s/it]                                                          {'loss': 1.912, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17895/48845 [6:20:18<10:49:49,  1.26s/it] 37%|███▋      | 17896/48845 [6:20:19<10:49:49,  1.26s/it] 37%|███▋      | 17897/48845 [6:20:21<10:51:09,  1.26s/it] 37%|███▋      | 17898/48845 [6:20:22<10:50:17,  1.26s/it] 37%|███▋      | 17899/48845 [6:20:23<10:50:25,  1.26s/it] 37%|███▋      | 17900/48845 [6:20:24<11:04:49,  1.29s/it]                                                          {'loss': 2.1476, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17900/48845 [6:20:24<11:04:49,  1.29s/it] 37%|███▋      | 17901/48845 [6:20:26<10:59:56,  1.28s/it] 37%|███▋      | 17902/48845 [6:20:27<10:56:58,  1.27s/it] 37%|███▋      | 17903/48845 [6:20:28<10:54:43,  1.27s/it] 37%|███▋      | 17904/48845 [6:20:29<10:53:24,  1.27s/it] 37%|███▋      | 17905/48845 [6:20:31<10:52:04,  1.26s/it]                                                          {'loss': 2.1105, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17905/48845 [6:20:31<10:52:04,  1.26s/it] 37%|███▋      | 17906/48845 [6:20:32<10:51:18,  1.26s/it] 37%|███▋      | 17907/48845 [6:20:33<10:50:58,  1.26s/it] 37%|███▋      | 17908/48845 [6:20:34<10:50:52,  1.26s/it] 37%|███▋      | 17909/48845 [6:20:36<10:50:32,  1.26s/it] 37%|███▋      | 17910/48845 [6:20:37<10:50:03,  1.26s/it]                                                          {'loss': 2.1902, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17910/48845 [6:20:37<10:50:03,  1.26s/it] 37%|███▋      | 17911/48845 [6:20:38<10:49:54,  1.26s/it] 37%|███▋      | 17912/48845 [6:20:40<10:49:59,  1.26s/it] 37%|███▋      | 17913/48845 [6:20:41<10:49:20,  1.26s/it] 37%|███▋      | 17914/48845 [6:20:42<10:49:25,  1.26s/it] 37%|███▋      | 17915/48845 [6:20:43<10:48:55,  1.26s/it]                                                          {'loss': 2.0497, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17915/48845 [6:20:43<10:48:55,  1.26s/it] 37%|███��      | 17916/48845 [6:20:45<10:49:55,  1.26s/it] 37%|███▋      | 17917/48845 [6:20:46<10:50:10,  1.26s/it] 37%|███▋      | 17918/48845 [6:20:47<10:50:34,  1.26s/it] 37%|███▋      | 17919/48845 [6:20:48<10:50:16,  1.26s/it] 37%|███▋      | 17920/48845 [6:20:50<10:50:51,  1.26s/it]                                                          {'loss': 2.1307, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17920/48845 [6:20:50<10:50:51,  1.26s/it] 37%|███▋      | 17921/48845 [6:20:51<10:50:50,  1.26s/it] 37%|███▋      | 17922/48845 [6:20:52<10:50:17,  1.26s/it] 37%|███▋      | 17923/48845 [6:20:53<10:49:50,  1.26s/it] 37%|███▋      | 17924/48845 [6:20:55<10:49:34,  1.26s/it] 37%|███▋      | 17925/48845 [6:20:56<10:49:29,  1.26s/it]                                                          {'loss': 2.0398, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.83}
+ 37%|███▋      | 17925/48845 [6:20:56<10:49:29,  1.26s/it] 37%|███▋      | 17926/48845 [6:20:57<10:49:09,  1.26s/it] 37%|███▋      | 17927/48845 [6:20:58<10:49:59,  1.26s/it] 37%|███▋      | 17928/48845 [6:21:00<10:50:07,  1.26s/it] 37%|███▋      | 17929/48845 [6:21:01<10:49:30,  1.26s/it] 37%|███▋      | 17930/48845 [6:21:02<10:49:02,  1.26s/it]                                                          {'loss': 2.1399, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17930/48845 [6:21:02<10:49:02,  1.26s/it] 37%|███▋      | 17931/48845 [6:21:03<10:49:30,  1.26s/it] 37%|███▋      | 17932/48845 [6:21:05<10:50:22,  1.26s/it] 37%|███▋      | 17933/48845 [6:21:06<10:50:12,  1.26s/it] 37%|███▋      | 17934/48845 [6:21:07<10:49:34,  1.26s/it] 37%|███▋      | 17935/48845 [6:21:09<10:49:46,  1.26s/it]                                                          {'loss': 2.1479, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17935/48845 [6:21:09<10:49:46,  1.26s/it] 37%|███▋      | 17936/48845 [6:21:10<10:49:47,  1.26s/it] 37%|███▋      | 17937/48845 [6:21:11<10:48:45,  1.26s/it] 37%|███▋      | 17938/48845 [6:21:12<10:49:21,  1.26s/it] 37%|███▋      | 17939/48845 [6:21:14<10:49:44,  1.26s/it] 37%|███▋      | 17940/48845 [6:21:15<10:49:34,  1.26s/it]                                                          {'loss': 2.0482, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17940/48845 [6:21:15<10:49:34,  1.26s/it] 37%|███▋      | 17941/48845 [6:21:16<10:49:12,  1.26s/it] 37%|███▋      | 17942/48845 [6:21:17<10:48:58,  1.26s/it] 37%|███▋      | 17943/48845 [6:21:19<10:48:51,  1.26s/it] 37%|███▋      | 17944/48845 [6:21:20<10:48:23,  1.26s/it] 37%|███▋      | 17945/48845 [6:21:21<10:48:47,  1.26s/it]                                                          {'loss': 2.0061, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17945/48845 [6:21:21<10:48:47,  1.26s/it] 37%|███▋      | 17946/48845 [6:21:22<10:48:43,  1.26s/it] 37%|███▋      | 17947/48845 [6:21:24<10:49:03,  1.26s/it] 37%|███▋      | 17948/48845 [6:21:25<10:50:16,  1.26s/it] 37%|███▋      | 17949/48845 [6:21:26<10:50:03,  1.26s/it] 37%|███▋      | 17950/48845 [6:21:27<10:49:36,  1.26s/it]                                                          {'loss': 1.9796, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17950/48845 [6:21:27<10:49:36,  1.26s/it] 37%|███▋      | 17951/48845 [6:21:29<10:50:34,  1.26s/it] 37%|███▋      | 17952/48845 [6:21:30<10:49:51,  1.26s/it] 37%|███▋      | 17953/48845 [6:21:31<10:50:10,  1.26s/it] 37%|███▋      | 17954/48845 [6:21:33<10:49:36,  1.26s/it] 37%|███▋      | 17955/48845 [6:21:34<10:50:09,  1.26s/it]                                                          {'loss': 1.8612, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17955/48845 [6:21:34<10:50:09,  1.26s/it] 37%|███▋      | 17956/48845 [6:21:35<10:50:16,  1.26s/it] 37%|███▋      | 17957/48845 [6:21:36<10:49:35,  1.26s/it] 37%|███▋      | 17958/48845 [6:21:38<10:49:15,  1.26s/it] 37%|███▋      | 17959/48845 [6:21:39<10:49:10,  1.26s/it] 37%|███▋      | 17960/48845 [6:21:40<10:48:59,  1.26s/it]                                                          {'loss': 1.9905, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17960/48845 [6:21:40<10:48:59,  1.26s/it] 37%|███▋      | 17961/48845 [6:21:41<10:49:06,  1.26s/it] 37%|███▋      | 17962/48845 [6:21:43<10:48:38,  1.26s/it] 37%|███▋      | 17963/48845 [6:21:44<10:48:25,  1.26s/it] 37%|███▋      | 17964/48845 [6:21:45<10:48:48,  1.26s/it] 37%|███▋      | 17965/48845 [6:21:46<10:48:58,  1.26s/it]                                                          {'loss': 2.2322, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17965/48845 [6:21:46<10:48:58,  1.26s/it] 37%|███▋      | 17966/48845 [6:21:48<10:49:15,  1.26s/it] 37%|███▋      | 17967/48845 [6:21:49<10:48:46,  1.26s/it] 37%|███▋      | 17968/48845 [6:21:50<10:48:30,  1.26s/it] 37%|███▋      | 17969/48845 [6:21:51<10:48:31,  1.26s/it] 37%|███▋      | 17970/48845 [6:21:53<10:48:44,  1.26s/it]                                                          {'loss': 2.1188, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17970/48845 [6:21:53<10:48:44,  1.26s/it] 37%|███▋      | 17971/48845 [6:21:54<10:49:32,  1.26s/it] 37%|███▋      | 17972/48845 [6:21:55<10:49:31,  1.26s/it] 37%|███▋      | 17973/48845 [6:21:56<10:48:54,  1.26s/it] 37%|███▋      | 17974/48845 [6:21:58<10:48:45,  1.26s/it] 37%|███▋      | 17975/48845 [6:21:59<10:48:20,  1.26s/it]                                                          {'loss': 2.0235, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17975/48845 [6:21:59<10:48:20,  1.26s/it] 37%|███▋      | 17976/48845 [6:22:00<10:48:11,  1.26s/it] 37%|███▋      | 17977/48845 [6:22:02<10:48:46,  1.26s/it] 37%|███▋      | 17978/48845 [6:22:03<10:48:11,  1.26s/it] 37%|███▋      | 17979/48845 [6:22:04<10:48:22,  1.26s/it] 37%|███▋      | 17980/48845 [6:22:05<10:48:29,  1.26s/it]                                                          {'loss': 2.1795, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17980/48845 [6:22:05<10:48:29,  1.26s/it] 37%|███▋      | 17981/48845 [6:22:07<10:48:04,  1.26s/it] 37%|███▋      | 17982/48845 [6:22:08<10:49:01,  1.26s/it] 37%|███▋      | 17983/48845 [6:22:09<10:48:16,  1.26s/it] 37%|███▋      | 17984/48845 [6:22:10<10:48:40,  1.26s/it] 37%|███▋      | 17985/48845 [6:22:12<10:48:44,  1.26s/it]                                                          {'loss': 2.1498, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17985/48845 [6:22:12<10:48:44,  1.26s/it] 37%|███▋      | 17986/48845 [6:22:13<10:49:04,  1.26s/it] 37%|███▋      | 17987/48845 [6:22:14<10:49:03,  1.26s/it] 37%|███▋      | 17988/48845 [6:22:15<10:48:45,  1.26s/it] 37%|███▋      | 17989/48845 [6:22:17<10:48:37,  1.26s/it] 37%|███▋      | 17990/48845 [6:22:18<10:48:50,  1.26s/it]                                                          {'loss': 2.195, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17990/48845 [6:22:18<10:48:50,  1.26s/it] 37%|███▋      | 17991/48845 [6:22:19<10:48:19,  1.26s/it] 37%|███▋      | 17992/48845 [6:22:20<10:48:18,  1.26s/it] 37%|███▋      | 17993/48845 [6:22:22<10:48:18,  1.26s/it] 37%|███▋      | 17994/48845 [6:22:23<10:47:27,  1.26s/it] 37%|███▋      | 17995/48845 [6:22:24<10:48:29,  1.26s/it]                                                          {'loss': 2.1188, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 17995/48845 [6:22:24<10:48:29,  1.26s/it] 37%|███▋      | 17996/48845 [6:22:25<10:48:25,  1.26s/it] 37%|███▋      | 17997/48845 [6:22:27<10:48:27,  1.26s/it] 37%|███▋      | 17998/48845 [6:22:28<10:48:04,  1.26s/it] 37%|███▋      | 17999/48845 [6:22:29<10:47:43,  1.26s/it] 37%|███▋      | 18000/48845 [6:22:31<10:47:52,  1.26s/it]                                                          {'loss': 2.0903, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 18000/48845 [6:22:31<10:47:52,  1.26s/it] 37%|███▋      | 18001/48845 [6:22:34<17:02:18,  1.99s/it] 37%|███▋      | 18002/48845 [6:22:35<15:10:34,  1.77s/it] 37%|███▋      | 18003/48845 [6:22:37<13:52:01,  1.62s/it] 37%|███▋      | 18004/48845 [6:22:38<12:57:10,  1.51s/it] 37%|███▋      | 18005/48845 [6:22:39<12:17:50,  1.44s/it]                                                          {'loss': 2.1631, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 18005/48845 [6:22:39<12:17:50,  1.44s/it] 37%|███▋      | 18006/48845 [6:22:40<11:51:02,  1.38s/it] 37%|███▋      | 18007/48845 [6:22:42<11:32:35,  1.35s/it] 37%|███▋      | 18008/48845 [6:22:43<11:18:42,  1.32s/it] 37%|███▋      | 18009/48845 [6:22:44<11:08:41,  1.30s/it] 37%|███▋      | 18010/48845 [6:22:46<11:02:02,  1.29s/it]                                                          {'loss': 1.904, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 18010/48845 [6:22:46<11:02:02,  1.29s/it] 37%|███▋      | 18011/48845 [6:22:47<10:58:55,  1.28s/it] 37%|███▋      | 18012/48845 [6:22:48<10:55:35,  1.28s/it] 37%|███▋      | 18013/48845 [6:22:49<10:52:45,  1.27s/it] 37%|███▋      | 18014/48845 [6:22:51<10:51:41,  1.27s/it] 37%|███▋      | 18015/48845 [6:22:52<10:50:40,  1.27s/it]                                                          {'loss': 1.9413, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 18015/48845 [6:22:52<10:50:40,  1.27s/it] 37%|███▋      | 18016/48845 [6:22:53<10:51:03,  1.27s/it] 37%|███▋      | 18017/48845 [6:22:54<10:49:47,  1.26s/it] 37%|███▋      | 18018/48845 [6:22:56<10:48:37,  1.26s/it] 37%|███▋      | 18019/48845 [6:22:57<10:48:23,  1.26s/it] 37%|███▋      | 18020/48845 [6:22:58<10:47:17,  1.26s/it]                                                          {'loss': 2.1897, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.84}
+ 37%|███▋      | 18020/48845 [6:22:58<10:47:17,  1.26s/it] 37%|███▋      | 18021/48845 [6:22:59<10:47:44,  1.26s/it] 37%|███▋      | 18022/48845 [6:23:01<10:47:51,  1.26s/it] 37%|███▋      | 18023/48845 [6:23:02<10:47:44,  1.26s/it] 37%|███▋      | 18024/48845 [6:23:03<10:46:48,  1.26s/it] 37%|███▋      | 18025/48845 [6:23:04<10:46:23,  1.26s/it]                                                          {'loss': 1.991, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18025/48845 [6:23:04<10:46:23,  1.26s/it] 37%|███▋      | 18026/48845 [6:23:06<10:46:50,  1.26s/it] 37%|███▋      | 18027/48845 [6:23:07<10:46:49,  1.26s/it] 37%|███▋      | 18028/48845 [6:23:08<10:46:24,  1.26s/it] 37%|███▋      | 18029/48845 [6:23:09<10:46:46,  1.26s/it] 37%|███▋      | 18030/48845 [6:23:11<10:46:40,  1.26s/it]                                                          {'loss': 1.9839, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18030/48845 [6:23:11<10:46:40,  1.26s/it] 37%|███▋      | 18031/48845 [6:23:12<10:47:05,  1.26s/it] 37%|███▋      | 18032/48845 [6:23:13<10:46:44,  1.26s/it] 37%|███▋      | 18033/48845 [6:23:15<10:46:45,  1.26s/it] 37%|███▋      | 18034/48845 [6:23:16<10:47:14,  1.26s/it] 37%|███▋      | 18035/48845 [6:23:17<10:46:18,  1.26s/it]                                                          {'loss': 1.9864, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18035/48845 [6:23:17<10:46:18,  1.26s/it] 37%|███▋      | 18036/48845 [6:23:18<10:46:18,  1.26s/it] 37%|███▋      | 18037/48845 [6:23:20<10:46:28,  1.26s/it] 37%|███▋      | 18038/48845 [6:23:21<10:46:11,  1.26s/it] 37%|███▋      | 18039/48845 [6:23:22<10:47:34,  1.26s/it] 37%|███▋      | 18040/48845 [6:23:23<10:47:10,  1.26s/it]                                                          {'loss': 2.1687, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18040/48845 [6:23:23<10:47:10,  1.26s/it] 37%|███▋      | 18041/48845 [6:23:25<10:47:07,  1.26s/it] 37%|███▋      | 18042/48845 [6:23:26<10:46:20,  1.26s/it] 37%|███▋      | 18043/48845 [6:23:27<10:46:04,  1.26s/it] 37%|███▋      | 18044/48845 [6:23:28<10:46:10,  1.26s/it] 37%|███▋      | 18045/48845 [6:23:30<10:46:33,  1.26s/it]                                                          {'loss': 1.9661, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18045/48845 [6:23:30<10:46:33,  1.26s/it] 37%|███▋      | 18046/48845 [6:23:31<10:46:06,  1.26s/it] 37%|███▋      | 18047/48845 [6:23:32<10:45:57,  1.26s/it] 37%|███▋      | 18048/48845 [6:23:33<10:46:09,  1.26s/it] 37%|███▋      | 18049/48845 [6:23:35<10:46:48,  1.26s/it] 37%|███▋      | 18050/48845 [6:23:36<10:46:35,  1.26s/it]                                                          {'loss': 2.1087, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18050/48845 [6:23:36<10:46:35,  1.26s/it] 37%|███▋      | 18051/48845 [6:23:37<10:46:31,  1.26s/it] 37%|███▋      | 18052/48845 [6:23:38<10:46:27,  1.26s/it] 37%|███▋      | 18053/48845 [6:23:40<10:46:20,  1.26s/it] 37%|███▋      | 18054/48845 [6:23:41<10:46:56,  1.26s/it] 37%|███▋      | 18055/48845 [6:23:42<10:47:01,  1.26s/it]                                                          {'loss': 2.0825, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18055/48845 [6:23:42<10:47:01,  1.26s/it] 37%|███▋      | 18056/48845 [6:23:43<10:47:47,  1.26s/it] 37%|███▋      | 18057/48845 [6:23:45<10:47:14,  1.26s/it] 37%|███▋      | 18058/48845 [6:23:46<10:46:33,  1.26s/it] 37%|███▋      | 18059/48845 [6:23:47<10:46:57,  1.26s/it] 37%|███▋      | 18060/48845 [6:23:49<10:46:31,  1.26s/it]                                                          {'loss': 1.9736, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18060/48845 [6:23:49<10:46:31,  1.26s/it] 37%|███▋      | 18061/48845 [6:23:50<10:46:57,  1.26s/it] 37%|███▋      | 18062/48845 [6:23:51<10:47:07,  1.26s/it] 37%|███▋      | 18063/48845 [6:23:52<10:47:27,  1.26s/it] 37%|███▋      | 18064/48845 [6:23:54<10:47:12,  1.26s/it] 37%|███▋      | 18065/48845 [6:23:55<10:47:18,  1.26s/it]                                                          {'loss': 1.9873, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18065/48845 [6:23:55<10:47:18,  1.26s/it] 37%|███▋      | 18066/48845 [6:23:56<10:46:33,  1.26s/it] 37%|███▋      | 18067/48845 [6:23:57<10:46:20,  1.26s/it] 37%|███▋      | 18068/48845 [6:23:59<10:46:23,  1.26s/it] 37%|███▋      | 18069/48845 [6:24:00<10:46:54,  1.26s/it] 37%|███▋      | 18070/48845 [6:24:01<10:46:52,  1.26s/it]                                                          {'loss': 1.958, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18070/48845 [6:24:01<10:46:52,  1.26s/it] 37%|███▋      | 18071/48845 [6:24:02<10:46:37,  1.26s/it] 37%|███▋      | 18072/48845 [6:24:04<10:46:24,  1.26s/it] 37%|███▋      | 18073/48845 [6:24:05<10:46:03,  1.26s/it] 37%|███▋      | 18074/48845 [6:24:06<10:46:18,  1.26s/it] 37%|███▋      | 18075/48845 [6:24:07<10:45:59,  1.26s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18075/48845 [6:24:07<10:45:59,  1.26s/it] 37%|███▋      | 18076/48845 [6:24:09<10:46:06,  1.26s/it] 37%|███▋      | 18077/48845 [6:24:10<10:46:35,  1.26s/it] 37%|███▋      | 18078/48845 [6:24:11<10:47:02,  1.26s/it] 37%|███▋      | 18079/48845 [6:24:12<10:47:09,  1.26s/it] 37%|███▋      | 18080/48845 [6:24:14<10:48:45,  1.27s/it]                                                          {'loss': 2.0357, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18080/48845 [6:24:14<10:48:45,  1.27s/it] 37%|███▋      | 18081/48845 [6:24:15<10:48:20,  1.26s/it] 37%|███▋      | 18082/48845 [6:24:16<10:47:13,  1.26s/it] 37%|███▋      | 18083/48845 [6:24:18<10:48:00,  1.26s/it] 37%|███▋      | 18084/48845 [6:24:19<10:47:27,  1.26s/it] 37%|███▋      | 18085/48845 [6:24:20<10:48:10,  1.26s/it]                                                          {'loss': 1.911, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18085/48845 [6:24:20<10:48:10,  1.26s/it] 37%|███▋      | 18086/48845 [6:24:21<10:48:57,  1.27s/it] 37%|███▋      | 18087/48845 [6:24:23<10:47:49,  1.26s/it] 37%|███▋      | 18088/48845 [6:24:24<10:47:35,  1.26s/it] 37%|███▋      | 18089/48845 [6:24:25<10:46:44,  1.26s/it] 37%|███▋      | 18090/48845 [6:24:26<10:46:01,  1.26s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18090/48845 [6:24:26<10:46:01,  1.26s/it] 37%|███▋      | 18091/48845 [6:24:28<10:46:26,  1.26s/it] 37%|███▋      | 18092/48845 [6:24:29<10:46:05,  1.26s/it] 37%|███▋      | 18093/48845 [6:24:30<10:45:59,  1.26s/it] 37%|███▋      | 18094/48845 [6:24:31<10:45:32,  1.26s/it] 37%|███▋      | 18095/48845 [6:24:33<10:45:11,  1.26s/it]                                                          {'loss': 1.9948, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18095/48845 [6:24:33<10:45:11,  1.26s/it] 37%|███▋      | 18096/48845 [6:24:34<10:45:51,  1.26s/it] 37%|███▋      | 18097/48845 [6:24:35<10:45:08,  1.26s/it] 37%|███▋      | 18098/48845 [6:24:36<10:45:12,  1.26s/it] 37%|███▋      | 18099/48845 [6:24:38<10:44:42,  1.26s/it] 37%|███▋      | 18100/48845 [6:24:39<10:44:45,  1.26s/it]                                                          {'loss': 2.1413, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18100/48845 [6:24:39<10:44:45,  1.26s/it] 37%|███▋      | 18101/48845 [6:24:40<10:45:26,  1.26s/it] 37%|███▋      | 18102/48845 [6:24:42<10:45:16,  1.26s/it] 37%|███▋      | 18103/48845 [6:24:43<10:45:28,  1.26s/it] 37%|███▋      | 18104/48845 [6:24:44<10:45:34,  1.26s/it] 37%|███▋      | 18105/48845 [6:24:45<10:45:51,  1.26s/it]                                                          {'loss': 2.0154, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18105/48845 [6:24:45<10:45:51,  1.26s/it] 37%|███▋      | 18106/48845 [6:24:47<10:46:05,  1.26s/it] 37%|███▋      | 18107/48845 [6:24:48<10:45:37,  1.26s/it] 37%|███▋      | 18108/48845 [6:24:49<10:45:40,  1.26s/it] 37%|███▋      | 18109/48845 [6:24:50<10:45:19,  1.26s/it] 37%|███▋      | 18110/48845 [6:24:52<10:45:12,  1.26s/it]                                                          {'loss': 2.1329, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18110/48845 [6:24:52<10:45:12,  1.26s/it] 37%|███▋      | 18111/48845 [6:24:53<10:45:41,  1.26s/it] 37%|███▋      | 18112/48845 [6:24:54<10:45:14,  1.26s/it] 37%|███▋      | 18113/48845 [6:24:55<10:45:10,  1.26s/it] 37%|███▋      | 18114/48845 [6:24:57<10:45:18,  1.26s/it] 37%|███▋      | 18115/48845 [6:24:58<10:45:00,  1.26s/it]                                                          {'loss': 2.1267, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18115/48845 [6:24:58<10:45:00,  1.26s/it] 37%|███▋      | 18116/48845 [6:24:59<10:45:12,  1.26s/it] 37%|███▋      | 18117/48845 [6:25:00<10:45:02,  1.26s/it] 37%|███▋      | 18118/48845 [6:25:02<10:44:49,  1.26s/it] 37%|███▋      | 18119/48845 [6:25:03<10:44:58,  1.26s/it] 37%|███▋      | 18120/48845 [6:25:04<10:44:49,  1.26s/it]                                                          {'loss': 2.0129, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.85}
+ 37%|███▋      | 18120/48845 [6:25:04<10:44:49,  1.26s/it] 37%|███▋      | 18121/48845 [6:25:05<10:45:18,  1.26s/it] 37%|███▋      | 18122/48845 [6:25:07<10:45:39,  1.26s/it] 37%|███▋      | 18123/48845 [6:25:08<10:45:36,  1.26s/it] 37%|███▋      | 18124/48845 [6:25:09<10:45:11,  1.26s/it] 37%|███▋      | 18125/48845 [6:25:10<10:44:46,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18125/48845 [6:25:10<10:44:46,  1.26s/it] 37%|███▋      | 18126/48845 [6:25:12<10:46:03,  1.26s/it] 37%|███▋      | 18127/48845 [6:25:13<10:45:49,  1.26s/it] 37%|███▋      | 18128/48845 [6:25:14<10:45:21,  1.26s/it] 37%|███▋      | 18129/48845 [6:25:16<10:44:36,  1.26s/it] 37%|███▋      | 18130/48845 [6:25:17<10:43:53,  1.26s/it]                                                          {'loss': 2.0779, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18130/48845 [6:25:17<10:43:53,  1.26s/it] 37%|███▋      | 18131/48845 [6:25:18<10:45:30,  1.26s/it] 37%|███▋      | 18132/48845 [6:25:19<10:45:43,  1.26s/it] 37%|███▋      | 18133/48845 [6:25:21<10:44:45,  1.26s/it] 37%|███▋      | 18134/48845 [6:25:22<10:45:59,  1.26s/it] 37%|███▋      | 18135/48845 [6:25:23<10:45:05,  1.26s/it]                                                          {'loss': 2.1191, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18135/48845 [6:25:23<10:45:05,  1.26s/it] 37%|███▋      | 18136/48845 [6:25:24<10:45:55,  1.26s/it] 37%|███▋      | 18137/48845 [6:25:26<10:45:30,  1.26s/it] 37%|███▋      | 18138/48845 [6:25:27<10:45:11,  1.26s/it] 37%|███▋      | 18139/48845 [6:25:28<10:45:06,  1.26s/it] 37%|███▋      | 18140/48845 [6:25:29<10:44:50,  1.26s/it]                                                          {'loss': 2.0615, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18140/48845 [6:25:29<10:44:50,  1.26s/it] 37%|███▋      | 18141/48845 [6:25:31<10:45:19,  1.26s/it] 37%|███▋      | 18142/48845 [6:25:32<10:44:29,  1.26s/it] 37%|███▋      | 18143/48845 [6:25:33<10:44:04,  1.26s/it] 37%|███▋      | 18144/48845 [6:25:34<10:44:47,  1.26s/it] 37%|███▋      | 18145/48845 [6:25:36<10:44:16,  1.26s/it]                                                          {'loss': 2.1507, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18145/48845 [6:25:36<10:44:16,  1.26s/it] 37%|███▋      | 18146/48845 [6:25:37<10:44:30,  1.26s/it] 37%|███▋      | 18147/48845 [6:25:38<10:44:00,  1.26s/it] 37%|███▋      | 18148/48845 [6:25:39<10:44:23,  1.26s/it] 37%|███▋      | 18149/48845 [6:25:41<10:44:31,  1.26s/it] 37%|███▋      | 18150/48845 [6:25:42<10:44:08,  1.26s/it]                                                          {'loss': 2.0259, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18150/48845 [6:25:42<10:44:08,  1.26s/it] 37%|███▋      | 18151/48845 [6:25:43<10:44:28,  1.26s/it] 37%|███▋      | 18152/48845 [6:25:45<10:44:06,  1.26s/it] 37%|███▋      | 18153/48845 [6:25:46<10:44:07,  1.26s/it] 37%|███▋      | 18154/48845 [6:25:47<10:44:30,  1.26s/it] 37%|███▋      | 18155/48845 [6:25:48<10:44:16,  1.26s/it]                                                          {'loss': 2.0794, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18155/48845 [6:25:48<10:44:16,  1.26s/it] 37%|███▋      | 18156/48845 [6:25:50<10:49:28,  1.27s/it] 37%|███▋      | 18157/48845 [6:25:51<10:48:29,  1.27s/it] 37%|███▋      | 18158/48845 [6:25:52<10:46:58,  1.26s/it] 37%|███▋      | 18159/48845 [6:25:53<10:45:47,  1.26s/it] 37%|███▋      | 18160/48845 [6:25:55<10:45:54,  1.26s/it]                                                          {'loss': 2.0308, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18160/48845 [6:25:55<10:45:54,  1.26s/it] 37%|███▋      | 18161/48845 [6:25:56<10:45:18,  1.26s/it] 37%|███▋      | 18162/48845 [6:25:57<10:44:47,  1.26s/it] 37%|███▋      | 18163/48845 [6:25:58<10:44:52,  1.26s/it] 37%|███▋      | 18164/48845 [6:26:00<10:44:37,  1.26s/it] 37%|███▋      | 18165/48845 [6:26:01<10:44:50,  1.26s/it]                                                          {'loss': 2.0029, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18165/48845 [6:26:01<10:44:50,  1.26s/it] 37%|███▋      | 18166/48845 [6:26:02<10:44:46,  1.26s/it] 37%|███▋      | 18167/48845 [6:26:03<10:44:36,  1.26s/it] 37%|███▋      | 18168/48845 [6:26:05<10:44:32,  1.26s/it] 37%|███▋      | 18169/48845 [6:26:06<10:44:16,  1.26s/it] 37%|███▋      | 18170/48845 [6:26:07<10:44:15,  1.26s/it]                                                          {'loss': 2.0867, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18170/48845 [6:26:07<10:44:15,  1.26s/it] 37%|███▋      | 18171/48845 [6:26:08<10:44:10,  1.26s/it] 37%|███▋      | 18172/48845 [6:26:10<10:44:52,  1.26s/it] 37%|███▋      | 18173/48845 [6:26:11<10:44:20,  1.26s/it] 37%|███▋      | 18174/48845 [6:26:12<10:43:44,  1.26s/it] 37%|███▋      | 18175/48845 [6:26:14<10:44:17,  1.26s/it]                                                          {'loss': 2.1782, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18175/48845 [6:26:14<10:44:17,  1.26s/it] 37%|███▋      | 18176/48845 [6:26:15<10:43:34,  1.26s/it] 37%|███▋      | 18177/48845 [6:26:16<10:43:21,  1.26s/it] 37%|███▋      | 18178/48845 [6:26:17<10:43:13,  1.26s/it] 37%|███▋      | 18179/48845 [6:26:19<10:44:06,  1.26s/it] 37%|███▋      | 18180/48845 [6:26:20<10:44:30,  1.26s/it]                                                          {'loss': 2.078, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18180/48845 [6:26:20<10:44:30,  1.26s/it] 37%|███▋      | 18181/48845 [6:26:21<10:44:01,  1.26s/it] 37%|███▋      | 18182/48845 [6:26:22<10:43:57,  1.26s/it] 37%|███▋      | 18183/48845 [6:26:24<10:44:48,  1.26s/it] 37%|███▋      | 18184/48845 [6:26:25<10:44:26,  1.26s/it] 37%|███▋      | 18185/48845 [6:26:26<10:44:00,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18185/48845 [6:26:26<10:44:00,  1.26s/it] 37%|███▋      | 18186/48845 [6:26:27<10:43:27,  1.26s/it] 37%|███▋      | 18187/48845 [6:26:29<10:43:41,  1.26s/it] 37%|███▋      | 18188/48845 [6:26:30<10:44:30,  1.26s/it] 37%|███▋      | 18189/48845 [6:26:31<10:44:32,  1.26s/it] 37%|███▋      | 18190/48845 [6:26:32<10:44:25,  1.26s/it]                                                          {'loss': 2.1147, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18190/48845 [6:26:32<10:44:25,  1.26s/it] 37%|███▋      | 18191/48845 [6:26:34<10:44:11,  1.26s/it] 37%|███▋      | 18192/48845 [6:26:35<10:43:20,  1.26s/it] 37%|███▋      | 18193/48845 [6:26:36<10:43:54,  1.26s/it] 37%|███▋      | 18194/48845 [6:26:37<10:44:05,  1.26s/it] 37%|███▋      | 18195/48845 [6:26:39<10:44:14,  1.26s/it]                                                          {'loss': 2.0397, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18195/48845 [6:26:39<10:44:14,  1.26s/it] 37%|███▋      | 18196/48845 [6:26:40<10:43:53,  1.26s/it] 37%|███▋      | 18197/48845 [6:26:41<10:43:58,  1.26s/it] 37%|███▋      | 18198/48845 [6:26:43<10:43:27,  1.26s/it] 37%|███▋      | 18199/48845 [6:26:44<10:43:46,  1.26s/it] 37%|███▋      | 18200/48845 [6:26:45<10:44:07,  1.26s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18200/48845 [6:26:45<10:44:07,  1.26s/it] 37%|███▋      | 18201/48845 [6:26:49<16:51:49,  1.98s/it] 37%|███▋      | 18202/48845 [6:26:50<15:00:14,  1.76s/it] 37%|███▋      | 18203/48845 [6:26:51<13:42:43,  1.61s/it] 37%|███▋      | 18204/48845 [6:26:52<12:49:12,  1.51s/it] 37%|███▋      | 18205/48845 [6:26:54<12:11:07,  1.43s/it]                                                          {'loss': 2.052, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18205/48845 [6:26:54<12:11:07,  1.43s/it] 37%|███▋      | 18206/48845 [6:26:55<11:44:04,  1.38s/it] 37%|███▋      | 18207/48845 [6:26:56<11:25:45,  1.34s/it] 37%|███▋      | 18208/48845 [6:26:58<11:13:59,  1.32s/it] 37%|███▋      | 18209/48845 [6:26:59<11:04:37,  1.30s/it] 37%|███▋      | 18210/48845 [6:27:00<10:58:03,  1.29s/it]                                                          {'loss': 2.2185, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18210/48845 [6:27:00<10:58:03,  1.29s/it] 37%|███▋      | 18211/48845 [6:27:01<10:53:13,  1.28s/it] 37%|███▋      | 18212/48845 [6:27:03<10:49:36,  1.27s/it] 37%|███▋      | 18213/48845 [6:27:04<10:47:11,  1.27s/it] 37%|███▋      | 18214/48845 [6:27:05<10:45:28,  1.26s/it] 37%|███▋      | 18215/48845 [6:27:06<10:44:39,  1.26s/it]                                                          {'loss': 2.1131, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.86}
+ 37%|███▋      | 18215/48845 [6:27:06<10:44:39,  1.26s/it] 37%|███▋      | 18216/48845 [6:27:08<10:43:54,  1.26s/it] 37%|███▋      | 18217/48845 [6:27:09<10:43:39,  1.26s/it] 37%|███▋      | 18218/48845 [6:27:10<10:43:14,  1.26s/it] 37%|███▋      | 18219/48845 [6:27:11<10:42:31,  1.26s/it] 37%|███▋      | 18220/48845 [6:27:13<10:42:48,  1.26s/it]                                                          {'loss': 1.9184, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18220/48845 [6:27:13<10:42:48,  1.26s/it] 37%|███▋      | 18221/48845 [6:27:14<10:42:52,  1.26s/it] 37%|███▋      | 18222/48845 [6:27:15<10:43:40,  1.26s/it] 37%|███▋      | 18223/48845 [6:27:16<10:42:44,  1.26s/it] 37%|███▋      | 18224/48845 [6:27:18<10:42:18,  1.26s/it] 37%|███▋      | 18225/48845 [6:27:19<10:42:50,  1.26s/it]                                                          {'loss': 1.9909, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18225/48845 [6:27:19<10:42:50,  1.26s/it] 37%|███▋      | 18226/48845 [6:27:20<10:42:27,  1.26s/it] 37%|███▋      | 18227/48845 [6:27:21<10:42:53,  1.26s/it] 37%|███▋      | 18228/48845 [6:27:23<10:42:23,  1.26s/it] 37%|███▋      | 18229/48845 [6:27:24<10:42:09,  1.26s/it] 37%|███▋      | 18230/48845 [6:27:25<10:42:11,  1.26s/it]                                                          {'loss': 2.016, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18230/48845 [6:27:25<10:42:11,  1.26s/it] 37%|███▋      | 18231/48845 [6:27:26<10:42:05,  1.26s/it] 37%|███▋      | 18232/48845 [6:27:28<10:42:25,  1.26s/it] 37%|███▋      | 18233/48845 [6:27:29<10:42:08,  1.26s/it] 37%|███▋      | 18234/48845 [6:27:30<10:41:46,  1.26s/it] 37%|███▋      | 18235/48845 [6:27:31<10:42:41,  1.26s/it]                                                          {'loss': 2.0381, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18235/48845 [6:27:31<10:42:41,  1.26s/it] 37%|███▋      | 18236/48845 [6:27:33<10:42:44,  1.26s/it] 37%|███▋      | 18237/48845 [6:27:34<10:42:59,  1.26s/it] 37%|███▋      | 18238/48845 [6:27:35<10:42:22,  1.26s/it] 37%|███▋      | 18239/48845 [6:27:37<10:41:56,  1.26s/it] 37%|███▋      | 18240/48845 [6:27:38<10:41:55,  1.26s/it]                                                          {'loss': 2.0985, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18240/48845 [6:27:38<10:41:55,  1.26s/it] 37%|███▋      | 18241/48845 [6:27:39<10:42:23,  1.26s/it] 37%|███▋      | 18242/48845 [6:27:40<10:42:21,  1.26s/it] 37%|███▋      | 18243/48845 [6:27:42<10:42:35,  1.26s/it] 37%|███▋      | 18244/48845 [6:27:43<10:42:22,  1.26s/it] 37%|███▋      | 18245/48845 [6:27:44<10:42:56,  1.26s/it]                                                          {'loss': 2.0681, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18245/48845 [6:27:44<10:42:56,  1.26s/it] 37%|███▋      | 18246/48845 [6:27:45<10:43:07,  1.26s/it] 37%|███▋      | 18247/48845 [6:27:47<10:42:37,  1.26s/it] 37%|███▋      | 18248/48845 [6:27:48<10:42:19,  1.26s/it] 37%|███▋      | 18249/48845 [6:27:49<10:41:55,  1.26s/it] 37%|███▋      | 18250/48845 [6:27:50<10:42:42,  1.26s/it]                                                          {'loss': 1.9586, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18250/48845 [6:27:50<10:42:42,  1.26s/it] 37%|███▋      | 18251/48845 [6:27:52<10:43:20,  1.26s/it] 37%|███▋      | 18252/48845 [6:27:53<10:42:48,  1.26s/it] 37%|███▋      | 18253/48845 [6:27:54<10:42:21,  1.26s/it] 37%|███▋      | 18254/48845 [6:27:55<10:42:14,  1.26s/it] 37%|███▋      | 18255/48845 [6:27:57<10:42:47,  1.26s/it]                                                          {'loss': 2.0777, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18255/48845 [6:27:57<10:42:47,  1.26s/it] 37%|███▋      | 18256/48845 [6:27:58<10:41:54,  1.26s/it] 37%|███▋      | 18257/48845 [6:27:59<10:41:41,  1.26s/it] 37%|███▋      | 18258/48845 [6:28:00<10:41:29,  1.26s/it] 37%|███▋      | 18259/48845 [6:28:02<10:41:21,  1.26s/it] 37%|███▋      | 18260/48845 [6:28:03<10:41:42,  1.26s/it]                                                          {'loss': 2.0562, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18260/48845 [6:28:03<10:41:42,  1.26s/it] 37%|███▋      | 18261/48845 [6:28:04<10:41:57,  1.26s/it] 37%|███▋      | 18262/48845 [6:28:06<10:42:18,  1.26s/it] 37%|███▋      | 18263/48845 [6:28:07<10:41:58,  1.26s/it] 37%|███▋      | 18264/48845 [6:28:08<10:42:05,  1.26s/it] 37%|███▋      | 18265/48845 [6:28:09<10:42:06,  1.26s/it]                                                          {'loss': 1.9965, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18265/48845 [6:28:09<10:42:06,  1.26s/it] 37%|███▋      | 18266/48845 [6:28:11<10:42:28,  1.26s/it] 37%|███▋      | 18267/48845 [6:28:12<10:42:39,  1.26s/it] 37%|███▋      | 18268/48845 [6:28:13<10:42:17,  1.26s/it] 37%|███▋      | 18269/48845 [6:28:14<10:42:15,  1.26s/it] 37%|███▋      | 18270/48845 [6:28:16<10:42:33,  1.26s/it]                                                          {'loss': 1.8935, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18270/48845 [6:28:16<10:42:33,  1.26s/it] 37%|███▋      | 18271/48845 [6:28:17<10:42:24,  1.26s/it] 37%|███▋      | 18272/48845 [6:28:18<10:42:05,  1.26s/it] 37%|███▋      | 18273/48845 [6:28:19<10:42:29,  1.26s/it] 37%|███▋      | 18274/48845 [6:28:21<10:41:46,  1.26s/it] 37%|███▋      | 18275/48845 [6:28:22<10:41:26,  1.26s/it]                                                          {'loss': 2.0054, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18275/48845 [6:28:22<10:41:26,  1.26s/it] 37%|███▋      | 18276/48845 [6:28:23<10:41:13,  1.26s/it] 37%|███▋      | 18277/48845 [6:28:24<10:41:27,  1.26s/it] 37%|███▋      | 18278/48845 [6:28:26<10:41:46,  1.26s/it] 37%|███▋      | 18279/48845 [6:28:27<10:41:54,  1.26s/it] 37%|███▋      | 18280/48845 [6:28:28<10:42:07,  1.26s/it]                                                          {'loss': 2.1638, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18280/48845 [6:28:28<10:42:07,  1.26s/it] 37%|███▋      | 18281/48845 [6:28:29<10:41:50,  1.26s/it] 37%|███▋      | 18282/48845 [6:28:31<10:41:36,  1.26s/it] 37%|███▋      | 18283/48845 [6:28:32<10:41:28,  1.26s/it] 37%|███▋      | 18284/48845 [6:28:33<10:40:48,  1.26s/it] 37%|███▋      | 18285/48845 [6:28:34<10:41:22,  1.26s/it]                                                          {'loss': 2.0727, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18285/48845 [6:28:34<10:41:22,  1.26s/it] 37%|███▋      | 18286/48845 [6:28:36<10:41:35,  1.26s/it] 37%|███▋      | 18287/48845 [6:28:37<10:42:17,  1.26s/it] 37%|███▋      | 18288/48845 [6:28:38<10:42:01,  1.26s/it] 37%|███▋      | 18289/48845 [6:28:40<10:42:06,  1.26s/it] 37%|███▋      | 18290/48845 [6:28:41<10:42:43,  1.26s/it]                                                          {'loss': 2.027, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18290/48845 [6:28:41<10:42:43,  1.26s/it] 37%|███▋      | 18291/48845 [6:28:42<10:42:10,  1.26s/it] 37%|███▋      | 18292/48845 [6:28:43<10:42:08,  1.26s/it] 37%|███▋      | 18293/48845 [6:28:45<10:42:25,  1.26s/it] 37%|███▋      | 18294/48845 [6:28:46<10:41:28,  1.26s/it] 37%|███▋      | 18295/48845 [6:28:47<10:41:52,  1.26s/it]                                                          {'loss': 2.1808, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18295/48845 [6:28:47<10:41:52,  1.26s/it] 37%|███▋      | 18296/48845 [6:28:48<10:41:30,  1.26s/it] 37%|███▋      | 18297/48845 [6:28:50<10:41:21,  1.26s/it] 37%|███▋      | 18298/48845 [6:28:51<10:41:29,  1.26s/it] 37%|███▋      | 18299/48845 [6:28:52<10:41:29,  1.26s/it] 37%|███▋      | 18300/48845 [6:28:53<10:41:26,  1.26s/it]                                                          {'loss': 2.166, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18300/48845 [6:28:53<10:41:26,  1.26s/it] 37%|███▋      | 18301/48845 [6:28:55<10:42:11,  1.26s/it] 37%|███▋      | 18302/48845 [6:28:56<10:41:58,  1.26s/it] 37%|███▋      | 18303/48845 [6:28:57<10:41:51,  1.26s/it] 37%|███▋      | 18304/48845 [6:28:58<10:41:42,  1.26s/it] 37%|███▋      | 18305/48845 [6:29:00<10:42:08,  1.26s/it]                                                          {'loss': 1.936, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18305/48845 [6:29:00<10:42:08,  1.26s/it] 37%|███▋      | 18306/48845 [6:29:01<10:42:47,  1.26s/it] 37%|███▋      | 18307/48845 [6:29:02<10:42:18,  1.26s/it] 37%|███▋      | 18308/48845 [6:29:03<10:43:15,  1.26s/it] 37%|███▋      | 18309/48845 [6:29:05<10:42:04,  1.26s/it] 37%|███▋      | 18310/48845 [6:29:06<10:41:42,  1.26s/it]                                                          {'loss': 2.176, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18310/48845 [6:29:06<10:41:42,  1.26s/it] 37%|███▋      | 18311/48845 [6:29:07<10:41:54,  1.26s/it] 37%|███▋      | 18312/48845 [6:29:09<10:40:50,  1.26s/it] 37%|███▋      | 18313/48845 [6:29:10<10:41:48,  1.26s/it] 37%|███▋      | 18314/48845 [6:29:11<10:41:00,  1.26s/it] 37%|███▋      | 18315/48845 [6:29:12<10:40:59,  1.26s/it]                                                          {'loss': 2.0482, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.87}
+ 37%|███▋      | 18315/48845 [6:29:12<10:40:59,  1.26s/it] 37%|███▋      | 18316/48845 [6:29:14<10:41:11,  1.26s/it] 38%|███▊      | 18317/48845 [6:29:15<10:40:39,  1.26s/it] 38%|███▊      | 18318/48845 [6:29:16<10:40:53,  1.26s/it] 38%|███▊      | 18319/48845 [6:29:17<10:40:38,  1.26s/it] 38%|███▊      | 18320/48845 [6:29:19<10:40:39,  1.26s/it]                                                          {'loss': 1.9905, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18320/48845 [6:29:19<10:40:39,  1.26s/it] 38%|███▊      | 18321/48845 [6:29:20<10:40:47,  1.26s/it] 38%|███▊      | 18322/48845 [6:29:21<10:40:47,  1.26s/it] 38%|███▊      | 18323/48845 [6:29:22<10:40:58,  1.26s/it] 38%|███▊      | 18324/48845 [6:29:24<10:40:40,  1.26s/it] 38%|███▊      | 18325/48845 [6:29:25<10:41:05,  1.26s/it]                                                          {'loss': 1.972, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18325/48845 [6:29:25<10:41:05,  1.26s/it] 38%|███▊      | 18326/48845 [6:29:26<10:41:31,  1.26s/it] 38%|███▊      | 18327/48845 [6:29:27<10:40:31,  1.26s/it] 38%|███▊      | 18328/48845 [6:29:29<10:40:32,  1.26s/it] 38%|███▊      | 18329/48845 [6:29:30<10:40:48,  1.26s/it] 38%|███▊      | 18330/48845 [6:29:31<10:39:52,  1.26s/it]                                                          {'loss': 2.0311, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18330/48845 [6:29:31<10:39:52,  1.26s/it] 38%|███▊      | 18331/48845 [6:29:32<10:40:41,  1.26s/it] 38%|███▊      | 18332/48845 [6:29:34<10:40:41,  1.26s/it] 38%|███▊      | 18333/48845 [6:29:35<10:42:08,  1.26s/it] 38%|███▊      | 18334/48845 [6:29:36<10:41:53,  1.26s/it] 38%|███▊      | 18335/48845 [6:29:38<10:41:20,  1.26s/it]                                                          {'loss': 1.8926, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18335/48845 [6:29:38<10:41:20,  1.26s/it] 38%|███▊      | 18336/48845 [6:29:39<10:41:20,  1.26s/it] 38%|███▊      | 18337/48845 [6:29:40<10:41:05,  1.26s/it] 38%|███▊      | 18338/48845 [6:29:41<10:40:59,  1.26s/it] 38%|███▊      | 18339/48845 [6:29:43<10:41:23,  1.26s/it] 38%|███▊      | 18340/48845 [6:29:44<10:40:22,  1.26s/it]                                                          {'loss': 2.0743, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18340/48845 [6:29:44<10:40:22,  1.26s/it] 38%|███▊      | 18341/48845 [6:29:45<10:40:35,  1.26s/it] 38%|███▊      | 18342/48845 [6:29:46<10:40:07,  1.26s/it] 38%|███▊      | 18343/48845 [6:29:48<10:40:07,  1.26s/it] 38%|███▊      | 18344/48845 [6:29:49<10:40:34,  1.26s/it] 38%|███▊      | 18345/48845 [6:29:50<10:41:09,  1.26s/it]                                                          {'loss': 2.052, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18345/48845 [6:29:50<10:41:09,  1.26s/it] 38%|███▊      | 18346/48845 [6:29:51<10:41:41,  1.26s/it] 38%|███▊      | 18347/48845 [6:29:53<10:41:32,  1.26s/it] 38%|███▊      | 18348/48845 [6:29:54<10:40:47,  1.26s/it] 38%|███▊      | 18349/48845 [6:29:55<10:40:30,  1.26s/it] 38%|███▊      | 18350/48845 [6:29:56<10:39:56,  1.26s/it]                                                          {'loss': 1.9899, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18350/48845 [6:29:56<10:39:56,  1.26s/it] 38%|███▊      | 18351/48845 [6:29:58<10:40:11,  1.26s/it] 38%|███▊      | 18352/48845 [6:29:59<10:39:34,  1.26s/it] 38%|███▊      | 18353/48845 [6:30:00<10:39:36,  1.26s/it] 38%|███▊      | 18354/48845 [6:30:01<10:39:44,  1.26s/it] 38%|███▊      | 18355/48845 [6:30:03<10:39:27,  1.26s/it]                                                          {'loss': 2.0535, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18355/48845 [6:30:03<10:39:27,  1.26s/it] 38%|███▊      | 18356/48845 [6:30:04<10:40:19,  1.26s/it] 38%|███▊      | 18357/48845 [6:30:05<10:42:28,  1.26s/it] 38%|███▊      | 18358/48845 [6:30:07<10:41:29,  1.26s/it] 38%|███▊      | 18359/48845 [6:30:08<10:40:57,  1.26s/it] 38%|███▊      | 18360/48845 [6:30:09<10:41:02,  1.26s/it]                                                          {'loss': 2.3366, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18360/48845 [6:30:09<10:41:02,  1.26s/it] 38%|███▊      | 18361/48845 [6:30:10<10:40:40,  1.26s/it] 38%|███▊      | 18362/48845 [6:30:12<10:40:33,  1.26s/it] 38%|███▊      | 18363/48845 [6:30:13<10:40:04,  1.26s/it] 38%|███▊      | 18364/48845 [6:30:14<10:40:21,  1.26s/it] 38%|███▊      | 18365/48845 [6:30:15<10:40:06,  1.26s/it]                                                          {'loss': 2.1636, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18365/48845 [6:30:15<10:40:06,  1.26s/it] 38%|███▊      | 18366/48845 [6:30:17<10:40:10,  1.26s/it] 38%|███▊      | 18367/48845 [6:30:18<10:40:06,  1.26s/it] 38%|███▊      | 18368/48845 [6:30:19<10:39:56,  1.26s/it] 38%|███▊      | 18369/48845 [6:30:20<10:40:10,  1.26s/it] 38%|███▊      | 18370/48845 [6:30:22<10:40:06,  1.26s/it]                                                          {'loss': 2.0084, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18370/48845 [6:30:22<10:40:06,  1.26s/it] 38%|███▊      | 18371/48845 [6:30:23<10:40:08,  1.26s/it] 38%|███▊      | 18372/48845 [6:30:24<10:40:31,  1.26s/it] 38%|███▊      | 18373/48845 [6:30:25<10:40:27,  1.26s/it] 38%|███▊      | 18374/48845 [6:30:27<10:40:33,  1.26s/it] 38%|███▊      | 18375/48845 [6:30:28<10:39:53,  1.26s/it]                                                          {'loss': 2.1329, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18375/48845 [6:30:28<10:39:53,  1.26s/it] 38%|███▊      | 18376/48845 [6:30:29<10:44:16,  1.27s/it] 38%|███▊      | 18377/48845 [6:30:30<10:43:14,  1.27s/it] 38%|███▊      | 18378/48845 [6:30:32<10:42:58,  1.27s/it] 38%|███▊      | 18379/48845 [6:30:33<10:41:36,  1.26s/it] 38%|███▊      | 18380/48845 [6:30:34<10:40:32,  1.26s/it]                                                          {'loss': 1.9796, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18380/48845 [6:30:34<10:40:32,  1.26s/it] 38%|███▊      | 18381/48845 [6:30:36<10:40:25,  1.26s/it] 38%|███▊      | 18382/48845 [6:30:37<10:40:25,  1.26s/it] 38%|███▊      | 18383/48845 [6:30:38<10:40:08,  1.26s/it] 38%|███▊      | 18384/48845 [6:30:39<10:39:39,  1.26s/it] 38%|███▊      | 18385/48845 [6:30:41<10:39:43,  1.26s/it]                                                          {'loss': 1.988, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18385/48845 [6:30:41<10:39:43,  1.26s/it] 38%|███▊      | 18386/48845 [6:30:42<10:40:06,  1.26s/it] 38%|███▊      | 18387/48845 [6:30:43<10:39:29,  1.26s/it] 38%|███▊      | 18388/48845 [6:30:44<10:39:36,  1.26s/it] 38%|███▊      | 18389/48845 [6:30:46<10:39:09,  1.26s/it] 38%|███▊      | 18390/48845 [6:30:47<10:42:32,  1.27s/it]                                                          {'loss': 2.1212, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18390/48845 [6:30:47<10:42:32,  1.27s/it] 38%|███▊      | 18391/48845 [6:30:48<10:41:58,  1.26s/it] 38%|███▊      | 18392/48845 [6:30:49<10:40:47,  1.26s/it] 38%|███▊      | 18393/48845 [6:30:51<10:39:52,  1.26s/it] 38%|███▊      | 18394/48845 [6:30:52<10:39:12,  1.26s/it] 38%|███▊      | 18395/48845 [6:30:53<10:39:27,  1.26s/it]                                                          {'loss': 2.1194, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18395/48845 [6:30:53<10:39:27,  1.26s/it] 38%|███▊      | 18396/48845 [6:30:54<10:40:03,  1.26s/it] 38%|███▊      | 18397/48845 [6:30:56<10:39:17,  1.26s/it] 38%|███▊      | 18398/48845 [6:30:57<10:40:21,  1.26s/it] 38%|███▊      | 18399/48845 [6:30:58<10:39:22,  1.26s/it] 38%|███▊      | 18400/48845 [6:30:59<10:38:51,  1.26s/it]                                                          {'loss': 1.9983, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18400/48845 [6:30:59<10:38:51,  1.26s/it] 38%|███▊      | 18401/48845 [6:31:03<16:44:47,  1.98s/it] 38%|███▊      | 18402/48845 [6:31:04<14:54:07,  1.76s/it] 38%|███▊      | 18403/48845 [6:31:06<13:37:40,  1.61s/it] 38%|███▊      | 18404/48845 [6:31:07<12:43:28,  1.50s/it] 38%|███▊      | 18405/48845 [6:31:08<12:06:43,  1.43s/it]                                                          {'loss': 2.0352, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18405/48845 [6:31:08<12:06:43,  1.43s/it] 38%|███▊      | 18406/48845 [6:31:09<11:40:37,  1.38s/it] 38%|███▊      | 18407/48845 [6:31:11<11:21:45,  1.34s/it] 38%|███▊      | 18408/48845 [6:31:12<11:08:47,  1.32s/it] 38%|███▊      | 18409/48845 [6:31:13<10:59:15,  1.30s/it] 38%|███▊      | 18410/48845 [6:31:14<10:52:59,  1.29s/it]                                                          {'loss': 2.0063, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.88}
+ 38%|███▊      | 18410/48845 [6:31:14<10:52:59,  1.29s/it] 38%|███▊      | 18411/48845 [6:31:16<10:49:29,  1.28s/it] 38%|███▊      | 18412/48845 [6:31:17<10:46:03,  1.27s/it] 38%|███▊      | 18413/48845 [6:31:18<10:43:57,  1.27s/it] 38%|███▊      | 18414/48845 [6:31:20<10:42:10,  1.27s/it] 38%|███▊      | 18415/48845 [6:31:21<10:41:01,  1.26s/it]                                                          {'loss': 2.2754, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18415/48845 [6:31:21<10:41:01,  1.26s/it] 38%|███▊      | 18416/48845 [6:31:22<10:40:56,  1.26s/it] 38%|███▊      | 18417/48845 [6:31:23<10:39:39,  1.26s/it] 38%|███▊      | 18418/48845 [6:31:25<10:39:37,  1.26s/it] 38%|███▊      | 18419/48845 [6:31:26<10:39:29,  1.26s/it] 38%|███▊      | 18420/48845 [6:31:27<10:39:04,  1.26s/it]                                                          {'loss': 2.0432, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18420/48845 [6:31:27<10:39:04,  1.26s/it] 38%|███▊      | 18421/48845 [6:31:28<10:39:14,  1.26s/it] 38%|███▊      | 18422/48845 [6:31:30<10:38:54,  1.26s/it] 38%|███▊      | 18423/48845 [6:31:31<10:39:08,  1.26s/it] 38%|███▊      | 18424/48845 [6:31:32<10:38:24,  1.26s/it] 38%|███▊      | 18425/48845 [6:31:33<10:38:28,  1.26s/it]                                                          {'loss': 2.1789, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18425/48845 [6:31:33<10:38:28,  1.26s/it] 38%|███▊      | 18426/48845 [6:31:35<10:39:19,  1.26s/it] 38%|███▊      | 18427/48845 [6:31:36<10:38:52,  1.26s/it] 38%|███▊      | 18428/48845 [6:31:37<10:38:38,  1.26s/it] 38%|███▊      | 18429/48845 [6:31:38<10:38:39,  1.26s/it] 38%|███▊      | 18430/48845 [6:31:40<10:38:42,  1.26s/it]                                                          {'loss': 1.957, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18430/48845 [6:31:40<10:38:42,  1.26s/it] 38%|███▊      | 18431/48845 [6:31:41<10:38:38,  1.26s/it] 38%|███▊      | 18432/48845 [6:31:42<10:38:17,  1.26s/it] 38%|███▊      | 18433/48845 [6:31:43<10:38:04,  1.26s/it] 38%|███▊      | 18434/48845 [6:31:45<10:38:01,  1.26s/it] 38%|███▊      | 18435/48845 [6:31:46<10:38:14,  1.26s/it]                                                          {'loss': 2.2627, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18435/48845 [6:31:46<10:38:14,  1.26s/it] 38%|███▊      | 18436/48845 [6:31:47<10:39:14,  1.26s/it] 38%|███▊      | 18437/48845 [6:31:48<10:39:07,  1.26s/it] 38%|███▊      | 18438/48845 [6:31:50<10:38:36,  1.26s/it] 38%|███▊      | 18439/48845 [6:31:51<10:38:13,  1.26s/it] 38%|███▊      | 18440/48845 [6:31:52<10:37:57,  1.26s/it]                                                          {'loss': 2.0442, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18440/48845 [6:31:52<10:37:57,  1.26s/it] 38%|███▊      | 18441/48845 [6:31:54<10:38:21,  1.26s/it] 38%|███▊      | 18442/48845 [6:31:55<10:38:14,  1.26s/it] 38%|███▊      | 18443/48845 [6:31:56<10:38:00,  1.26s/it] 38%|███▊      | 18444/48845 [6:31:57<10:38:13,  1.26s/it] 38%|███▊      | 18445/48845 [6:31:59<10:38:18,  1.26s/it]                                                          {'loss': 2.0895, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18445/48845 [6:31:59<10:38:18,  1.26s/it] 38%|███▊      | 18446/48845 [6:32:00<10:38:24,  1.26s/it] 38%|███▊      | 18447/48845 [6:32:01<10:38:24,  1.26s/it] 38%|███▊      | 18448/48845 [6:32:02<10:38:31,  1.26s/it] 38%|███▊      | 18449/48845 [6:32:04<10:38:14,  1.26s/it] 38%|███▊      | 18450/48845 [6:32:05<10:38:24,  1.26s/it]                                                          {'loss': 1.9794, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18450/48845 [6:32:05<10:38:24,  1.26s/it] 38%|███▊      | 18451/48845 [6:32:06<10:39:09,  1.26s/it] 38%|███▊      | 18452/48845 [6:32:07<10:38:24,  1.26s/it] 38%|███▊      | 18453/48845 [6:32:09<10:38:56,  1.26s/it] 38%|███▊      | 18454/48845 [6:32:10<10:39:11,  1.26s/it] 38%|███▊      | 18455/48845 [6:32:11<10:38:52,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18455/48845 [6:32:11<10:38:52,  1.26s/it] 38%|███▊      | 18456/48845 [6:32:12<10:39:09,  1.26s/it] 38%|███▊      | 18457/48845 [6:32:14<10:38:43,  1.26s/it] 38%|███▊      | 18458/48845 [6:32:15<10:38:31,  1.26s/it] 38%|███▊      | 18459/48845 [6:32:16<10:39:02,  1.26s/it] 38%|███▊      | 18460/48845 [6:32:17<10:38:45,  1.26s/it]                                                          {'loss': 1.8805, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18460/48845 [6:32:17<10:38:45,  1.26s/it] 38%|███▊      | 18461/48845 [6:32:19<10:39:37,  1.26s/it] 38%|███▊      | 18462/48845 [6:32:20<10:38:46,  1.26s/it] 38%|███▊      | 18463/48845 [6:32:21<10:38:46,  1.26s/it] 38%|███▊      | 18464/48845 [6:32:23<10:38:14,  1.26s/it] 38%|███▊      | 18465/48845 [6:32:24<10:38:29,  1.26s/it]                                                          {'loss': 2.0394, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18465/48845 [6:32:24<10:38:29,  1.26s/it] 38%|███▊      | 18466/48845 [6:32:25<10:38:44,  1.26s/it] 38%|███▊      | 18467/48845 [6:32:26<10:38:48,  1.26s/it] 38%|███▊      | 18468/48845 [6:32:28<10:38:26,  1.26s/it] 38%|███▊      | 18469/48845 [6:32:29<10:38:20,  1.26s/it] 38%|███▊      | 18470/48845 [6:32:30<10:37:28,  1.26s/it]                                                          {'loss': 1.9168, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18470/48845 [6:32:30<10:37:28,  1.26s/it] 38%|███▊      | 18471/48845 [6:32:31<10:37:43,  1.26s/it] 38%|███▊      | 18472/48845 [6:32:33<10:37:56,  1.26s/it] 38%|███▊      | 18473/48845 [6:32:34<10:37:41,  1.26s/it] 38%|███▊      | 18474/48845 [6:32:35<10:38:13,  1.26s/it] 38%|███▊      | 18475/48845 [6:32:36<10:38:06,  1.26s/it]                                                          {'loss': 1.9216, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18475/48845 [6:32:36<10:38:06,  1.26s/it] 38%|███▊      | 18476/48845 [6:32:38<10:38:40,  1.26s/it] 38%|███▊      | 18477/48845 [6:32:39<10:38:38,  1.26s/it] 38%|███▊      | 18478/48845 [6:32:40<10:38:04,  1.26s/it] 38%|███▊      | 18479/48845 [6:32:41<10:37:47,  1.26s/it] 38%|███▊      | 18480/48845 [6:32:43<10:38:04,  1.26s/it]                                                          {'loss': 2.1238, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18480/48845 [6:32:43<10:38:04,  1.26s/it] 38%|███▊      | 18481/48845 [6:32:44<10:38:17,  1.26s/it] 38%|███▊      | 18482/48845 [6:32:45<10:37:19,  1.26s/it] 38%|███▊      | 18483/48845 [6:32:46<10:37:27,  1.26s/it] 38%|███▊      | 18484/48845 [6:32:48<10:37:05,  1.26s/it] 38%|███▊      | 18485/48845 [6:32:49<10:36:36,  1.26s/it]                                                          {'loss': 2.0002, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18485/48845 [6:32:49<10:36:36,  1.26s/it] 38%|███▊      | 18486/48845 [6:32:50<10:36:30,  1.26s/it] 38%|███▊      | 18487/48845 [6:32:51<10:36:43,  1.26s/it] 38%|███▊      | 18488/48845 [6:32:53<10:36:41,  1.26s/it] 38%|███▊      | 18489/48845 [6:32:54<10:36:46,  1.26s/it] 38%|███▊      | 18490/48845 [6:32:55<10:36:58,  1.26s/it]                                                          {'loss': 2.0417, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18490/48845 [6:32:55<10:36:58,  1.26s/it] 38%|███▊      | 18491/48845 [6:32:57<10:36:40,  1.26s/it] 38%|███▊      | 18492/48845 [6:32:58<10:37:02,  1.26s/it] 38%|███▊      | 18493/48845 [6:32:59<10:36:39,  1.26s/it] 38%|███▊      | 18494/48845 [6:33:00<10:36:39,  1.26s/it] 38%|███▊      | 18495/48845 [6:33:02<10:36:21,  1.26s/it]                                                          {'loss': 1.9859, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18495/48845 [6:33:02<10:36:21,  1.26s/it] 38%|███▊      | 18496/48845 [6:33:03<10:36:44,  1.26s/it] 38%|███▊      | 18497/48845 [6:33:04<10:37:45,  1.26s/it] 38%|███▊      | 18498/48845 [6:33:05<10:37:07,  1.26s/it] 38%|███▊      | 18499/48845 [6:33:07<10:37:17,  1.26s/it] 38%|███▊      | 18500/48845 [6:33:08<10:36:54,  1.26s/it]                                                          {'loss': 2.2286, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18500/48845 [6:33:08<10:36:54,  1.26s/it] 38%|███▊      | 18501/48845 [6:33:09<10:37:01,  1.26s/it] 38%|███▊      | 18502/48845 [6:33:10<10:37:04,  1.26s/it] 38%|███▊      | 18503/48845 [6:33:12<10:36:38,  1.26s/it] 38%|███▊      | 18504/48845 [6:33:13<10:36:56,  1.26s/it] 38%|███▊      | 18505/48845 [6:33:14<10:37:06,  1.26s/it]                                                          {'loss': 2.1426, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18505/48845 [6:33:14<10:37:06,  1.26s/it] 38%|███▊      | 18506/48845 [6:33:15<10:37:19,  1.26s/it] 38%|███▊      | 18507/48845 [6:33:17<10:37:25,  1.26s/it] 38%|███▊      | 18508/48845 [6:33:18<10:37:00,  1.26s/it] 38%|███▊      | 18509/48845 [6:33:19<10:37:01,  1.26s/it] 38%|███▊      | 18510/48845 [6:33:20<10:36:36,  1.26s/it]                                                          {'loss': 1.9586, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.89}
+ 38%|███▊      | 18510/48845 [6:33:20<10:36:36,  1.26s/it] 38%|███▊      | 18511/48845 [6:33:22<10:36:53,  1.26s/it] 38%|███▊      | 18512/48845 [6:33:23<10:36:58,  1.26s/it] 38%|███▊      | 18513/48845 [6:33:24<10:36:35,  1.26s/it] 38%|███▊      | 18514/48845 [6:33:26<10:36:59,  1.26s/it] 38%|███▊      | 18515/48845 [6:33:27<10:36:21,  1.26s/it]                                                          {'loss': 1.8963, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18515/48845 [6:33:27<10:36:21,  1.26s/it] 38%|███▊      | 18516/48845 [6:33:28<10:36:52,  1.26s/it] 38%|███▊      | 18517/48845 [6:33:29<10:37:30,  1.26s/it] 38%|███▊      | 18518/48845 [6:33:31<10:36:37,  1.26s/it] 38%|███▊      | 18519/48845 [6:33:32<10:36:21,  1.26s/it] 38%|███▊      | 18520/48845 [6:33:33<10:36:21,  1.26s/it]                                                          {'loss': 2.0889, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18520/48845 [6:33:33<10:36:21,  1.26s/it] 38%|███▊      | 18521/48845 [6:33:34<10:36:11,  1.26s/it] 38%|███▊      | 18522/48845 [6:33:36<10:37:11,  1.26s/it] 38%|███▊      | 18523/48845 [6:33:37<10:37:06,  1.26s/it] 38%|███▊      | 18524/48845 [6:33:38<10:37:10,  1.26s/it] 38%|███▊      | 18525/48845 [6:33:39<10:36:26,  1.26s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18525/48845 [6:33:39<10:36:26,  1.26s/it] 38%|███▊      | 18526/48845 [6:33:41<10:36:05,  1.26s/it] 38%|███▊      | 18527/48845 [6:33:42<10:36:15,  1.26s/it] 38%|███▊      | 18528/48845 [6:33:43<10:36:08,  1.26s/it] 38%|███▊      | 18529/48845 [6:33:44<10:36:14,  1.26s/it] 38%|███▊      | 18530/48845 [6:33:46<10:35:55,  1.26s/it]                                                          {'loss': 2.1893, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18530/48845 [6:33:46<10:35:55,  1.26s/it] 38%|███▊      | 18531/48845 [6:33:47<10:36:36,  1.26s/it] 38%|███▊      | 18532/48845 [6:33:48<10:37:29,  1.26s/it] 38%|███▊      | 18533/48845 [6:33:49<10:36:48,  1.26s/it] 38%|███▊      | 18534/48845 [6:33:51<10:37:18,  1.26s/it] 38%|███▊      | 18535/48845 [6:33:52<10:36:23,  1.26s/it]                                                          {'loss': 2.1108, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18535/48845 [6:33:52<10:36:23,  1.26s/it] 38%|███▊      | 18536/48845 [6:33:53<10:36:09,  1.26s/it] 38%|███▊      | 18537/48845 [6:33:54<10:36:56,  1.26s/it] 38%|███▊      | 18538/48845 [6:33:56<10:36:18,  1.26s/it] 38%|███▊      | 18539/48845 [6:33:57<10:37:05,  1.26s/it] 38%|███▊      | 18540/48845 [6:33:58<10:36:42,  1.26s/it]                                                          {'loss': 1.9916, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18540/48845 [6:33:58<10:36:42,  1.26s/it] 38%|███▊      | 18541/48845 [6:34:00<10:36:31,  1.26s/it] 38%|███▊      | 18542/48845 [6:34:01<10:36:24,  1.26s/it] 38%|███▊      | 18543/48845 [6:34:02<10:36:47,  1.26s/it] 38%|███▊      | 18544/48845 [6:34:03<10:37:02,  1.26s/it] 38%|███▊      | 18545/48845 [6:34:05<10:37:16,  1.26s/it]                                                          {'loss': 2.023, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18545/48845 [6:34:05<10:37:16,  1.26s/it] 38%|███▊      | 18546/48845 [6:34:06<10:37:17,  1.26s/it] 38%|███▊      | 18547/48845 [6:34:07<10:36:34,  1.26s/it] 38%|███▊      | 18548/48845 [6:34:08<10:36:16,  1.26s/it] 38%|███▊      | 18549/48845 [6:34:10<10:35:55,  1.26s/it] 38%|███▊      | 18550/48845 [6:34:11<10:36:48,  1.26s/it]                                                          {'loss': 2.0722, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18550/48845 [6:34:11<10:36:48,  1.26s/it] 38%|███▊      | 18551/48845 [6:34:12<10:37:17,  1.26s/it] 38%|███▊      | 18552/48845 [6:34:13<10:37:05,  1.26s/it] 38%|███▊      | 18553/48845 [6:34:15<10:37:30,  1.26s/it] 38%|███▊      | 18554/48845 [6:34:16<10:37:05,  1.26s/it] 38%|███▊      | 18555/48845 [6:34:17<10:36:50,  1.26s/it]                                                          {'loss': 2.0829, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18555/48845 [6:34:17<10:36:50,  1.26s/it] 38%|███▊      | 18556/48845 [6:34:18<10:36:00,  1.26s/it] 38%|███▊      | 18557/48845 [6:34:20<10:36:19,  1.26s/it] 38%|███▊      | 18558/48845 [6:34:21<10:36:41,  1.26s/it] 38%|███▊      | 18559/48845 [6:34:22<10:35:29,  1.26s/it] 38%|███▊      | 18560/48845 [6:34:23<10:35:40,  1.26s/it]                                                          {'loss': 2.0097, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18560/48845 [6:34:23<10:35:40,  1.26s/it] 38%|███▊      | 18561/48845 [6:34:25<10:35:36,  1.26s/it] 38%|███▊      | 18562/48845 [6:34:26<10:35:47,  1.26s/it] 38%|███▊      | 18563/48845 [6:34:27<10:36:16,  1.26s/it] 38%|███▊      | 18564/48845 [6:34:29<10:36:09,  1.26s/it] 38%|███▊      | 18565/48845 [6:34:30<10:36:20,  1.26s/it]                                                          {'loss': 2.1546, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18565/48845 [6:34:30<10:36:20,  1.26s/it] 38%|███▊      | 18566/48845 [6:34:31<10:36:24,  1.26s/it] 38%|███▊      | 18567/48845 [6:34:32<10:36:39,  1.26s/it] 38%|███▊      | 18568/48845 [6:34:34<10:36:33,  1.26s/it] 38%|███▊      | 18569/48845 [6:34:35<10:36:01,  1.26s/it] 38%|███▊      | 18570/48845 [6:34:36<10:36:03,  1.26s/it]                                                          {'loss': 1.9565, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18570/48845 [6:34:36<10:36:03,  1.26s/it] 38%|███▊      | 18571/48845 [6:34:37<10:36:13,  1.26s/it] 38%|███▊      | 18572/48845 [6:34:39<10:35:59,  1.26s/it] 38%|███▊      | 18573/48845 [6:34:40<10:36:02,  1.26s/it] 38%|███▊      | 18574/48845 [6:34:41<10:35:30,  1.26s/it] 38%|███▊      | 18575/48845 [6:34:42<10:35:41,  1.26s/it]                                                          {'loss': 2.101, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18575/48845 [6:34:42<10:35:41,  1.26s/it] 38%|███▊      | 18576/48845 [6:34:44<10:35:44,  1.26s/it] 38%|███▊      | 18577/48845 [6:34:45<10:35:25,  1.26s/it] 38%|███▊      | 18578/48845 [6:34:46<10:35:24,  1.26s/it] 38%|███▊      | 18579/48845 [6:34:47<10:34:25,  1.26s/it] 38%|███▊      | 18580/48845 [6:34:49<10:35:18,  1.26s/it]                                                          {'loss': 2.1549, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18580/48845 [6:34:49<10:35:18,  1.26s/it] 38%|███▊      | 18581/48845 [6:34:50<10:36:33,  1.26s/it] 38%|███▊      | 18582/48845 [6:34:51<10:36:14,  1.26s/it] 38%|███▊      | 18583/48845 [6:34:52<10:36:17,  1.26s/it] 38%|███▊      | 18584/48845 [6:34:54<10:36:26,  1.26s/it] 38%|███▊      | 18585/48845 [6:34:55<10:35:59,  1.26s/it]                                                          {'loss': 1.9065, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18585/48845 [6:34:55<10:35:59,  1.26s/it] 38%|███▊      | 18586/48845 [6:34:56<10:36:19,  1.26s/it] 38%|███▊      | 18587/48845 [6:34:58<10:35:26,  1.26s/it] 38%|███▊      | 18588/48845 [6:34:59<10:35:36,  1.26s/it] 38%|███▊      | 18589/48845 [6:35:00<10:35:17,  1.26s/it] 38%|███▊      | 18590/48845 [6:35:01<10:34:53,  1.26s/it]                                                          {'loss': 2.0638, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18590/48845 [6:35:01<10:34:53,  1.26s/it] 38%|███▊      | 18591/48845 [6:35:03<10:35:11,  1.26s/it] 38%|███▊      | 18592/48845 [6:35:04<10:35:03,  1.26s/it] 38%|███▊      | 18593/48845 [6:35:05<10:35:39,  1.26s/it] 38%|███▊      | 18594/48845 [6:35:06<10:35:12,  1.26s/it] 38%|███▊      | 18595/48845 [6:35:08<10:34:41,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18595/48845 [6:35:08<10:34:41,  1.26s/it] 38%|███▊      | 18596/48845 [6:35:09<10:35:23,  1.26s/it] 38%|███▊      | 18597/48845 [6:35:10<10:34:56,  1.26s/it] 38%|███▊      | 18598/48845 [6:35:11<10:34:45,  1.26s/it] 38%|███▊      | 18599/48845 [6:35:13<10:34:28,  1.26s/it] 38%|███▊      | 18600/48845 [6:35:14<10:34:55,  1.26s/it]                                                          {'loss': 2.1012, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18600/48845 [6:35:14<10:34:55,  1.26s/it] 38%|███▊      | 18601/48845 [6:35:18<16:41:51,  1.99s/it] 38%|███▊      | 18602/48845 [6:35:19<14:51:05,  1.77s/it] 38%|███▊      | 18603/48845 [6:35:20<13:33:26,  1.61s/it] 38%|███▊      | 18604/48845 [6:35:21<12:40:03,  1.51s/it] 38%|███▊      | 18605/48845 [6:35:23<12:02:27,  1.43s/it]                                                          {'loss': 2.1989, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.9}
+ 38%|███▊      | 18605/48845 [6:35:23<12:02:27,  1.43s/it] 38%|███▊      | 18606/48845 [6:35:24<11:36:25,  1.38s/it] 38%|███▊      | 18607/48845 [6:35:25<11:17:53,  1.35s/it] 38%|███▊      | 18608/48845 [6:35:26<11:04:47,  1.32s/it] 38%|███▊      | 18609/48845 [6:35:28<10:55:42,  1.30s/it] 38%|███▊      | 18610/48845 [6:35:29<10:48:57,  1.29s/it]                                                          {'loss': 2.1169, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18610/48845 [6:35:29<10:48:57,  1.29s/it] 38%|███▊      | 18611/48845 [6:35:30<10:44:55,  1.28s/it] 38%|███▊      | 18612/48845 [6:35:31<10:41:57,  1.27s/it] 38%|███▊      | 18613/48845 [6:35:33<10:39:36,  1.27s/it] 38%|███▊      | 18614/48845 [6:35:34<10:38:34,  1.27s/it] 38%|███▊      | 18615/48845 [6:35:35<10:36:54,  1.26s/it]                                                          {'loss': 2.0765, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18615/48845 [6:35:35<10:36:54,  1.26s/it] 38%|███▊      | 18616/48845 [6:35:36<10:36:07,  1.26s/it] 38%|███▊      | 18617/48845 [6:35:38<10:35:45,  1.26s/it] 38%|███▊      | 18618/48845 [6:35:39<10:35:09,  1.26s/it] 38%|███▊      | 18619/48845 [6:35:40<10:35:18,  1.26s/it] 38%|███▊      | 18620/48845 [6:35:42<10:34:59,  1.26s/it]                                                          {'loss': 1.8463, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18620/48845 [6:35:42<10:34:59,  1.26s/it] 38%|███▊      | 18621/48845 [6:35:43<10:34:49,  1.26s/it] 38%|███▊      | 18622/48845 [6:35:44<10:34:45,  1.26s/it] 38%|███▊      | 18623/48845 [6:35:45<10:34:14,  1.26s/it] 38%|███▊      | 18624/48845 [6:35:47<10:34:48,  1.26s/it] 38%|███▊      | 18625/48845 [6:35:48<10:34:23,  1.26s/it]                                                          {'loss': 2.0244, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18625/48845 [6:35:48<10:34:23,  1.26s/it] 38%|███▊      | 18626/48845 [6:35:49<10:34:41,  1.26s/it] 38%|███▊      | 18627/48845 [6:35:50<10:34:25,  1.26s/it] 38%|███▊      | 18628/48845 [6:35:52<10:34:34,  1.26s/it] 38%|███▊      | 18629/48845 [6:35:53<10:34:36,  1.26s/it] 38%|███▊      | 18630/48845 [6:35:54<10:34:21,  1.26s/it]                                                          {'loss': 2.0163, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18630/48845 [6:35:54<10:34:21,  1.26s/it] 38%|███▊      | 18631/48845 [6:35:55<10:34:12,  1.26s/it] 38%|███▊      | 18632/48845 [6:35:57<10:34:02,  1.26s/it] 38%|███▊      | 18633/48845 [6:35:58<10:33:15,  1.26s/it] 38%|███▊      | 18634/48845 [6:35:59<10:34:52,  1.26s/it] 38%|███▊      | 18635/48845 [6:36:00<10:34:58,  1.26s/it]                                                          {'loss': 2.0452, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18635/48845 [6:36:00<10:34:58,  1.26s/it] 38%|███▊      | 18636/48845 [6:36:02<10:34:56,  1.26s/it] 38%|███▊      | 18637/48845 [6:36:03<10:34:21,  1.26s/it] 38%|███▊      | 18638/48845 [6:36:04<10:34:10,  1.26s/it] 38%|███▊      | 18639/48845 [6:36:05<10:34:08,  1.26s/it] 38%|███▊      | 18640/48845 [6:36:07<10:33:30,  1.26s/it]                                                          {'loss': 2.0443, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18640/48845 [6:36:07<10:33:30,  1.26s/it] 38%|███▊      | 18641/48845 [6:36:08<10:33:47,  1.26s/it] 38%|███▊      | 18642/48845 [6:36:09<10:33:42,  1.26s/it] 38%|███▊      | 18643/48845 [6:36:10<10:33:25,  1.26s/it] 38%|███▊      | 18644/48845 [6:36:12<10:33:52,  1.26s/it] 38%|███▊      | 18645/48845 [6:36:13<10:33:34,  1.26s/it]                                                          {'loss': 2.1889, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18645/48845 [6:36:13<10:33:34,  1.26s/it] 38%|███▊      | 18646/48845 [6:36:14<10:33:37,  1.26s/it] 38%|███▊      | 18647/48845 [6:36:16<10:33:05,  1.26s/it] 38%|███▊      | 18648/48845 [6:36:17<10:33:32,  1.26s/it] 38%|███▊      | 18649/48845 [6:36:18<10:33:22,  1.26s/it] 38%|███▊      | 18650/48845 [6:36:19<10:32:59,  1.26s/it]                                                          {'loss': 2.0384, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18650/48845 [6:36:19<10:32:59,  1.26s/it] 38%|███▊      | 18651/48845 [6:36:21<10:33:24,  1.26s/it] 38%|███▊      | 18652/48845 [6:36:22<10:32:39,  1.26s/it] 38%|███▊      | 18653/48845 [6:36:23<10:32:36,  1.26s/it] 38%|███▊      | 18654/48845 [6:36:24<10:32:57,  1.26s/it] 38%|███▊      | 18655/48845 [6:36:26<10:32:48,  1.26s/it]                                                          {'loss': 2.0522, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18655/48845 [6:36:26<10:32:48,  1.26s/it] 38%|███▊      | 18656/48845 [6:36:27<10:33:46,  1.26s/it] 38%|███▊      | 18657/48845 [6:36:28<10:33:38,  1.26s/it] 38%|███▊      | 18658/48845 [6:36:29<10:33:29,  1.26s/it] 38%|███▊      | 18659/48845 [6:36:31<10:32:53,  1.26s/it] 38%|███▊      | 18660/48845 [6:36:32<10:33:01,  1.26s/it]                                                          {'loss': 2.0089, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18660/48845 [6:36:32<10:33:01,  1.26s/it] 38%|███▊      | 18661/48845 [6:36:33<10:33:55,  1.26s/it] 38%|███▊      | 18662/48845 [6:36:34<10:33:29,  1.26s/it] 38%|███▊      | 18663/48845 [6:36:36<10:33:50,  1.26s/it] 38%|███▊      | 18664/48845 [6:36:37<10:33:48,  1.26s/it] 38%|███▊      | 18665/48845 [6:36:38<10:33:27,  1.26s/it]                                                          {'loss': 2.1525, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18665/48845 [6:36:38<10:33:27,  1.26s/it] 38%|███▊      | 18666/48845 [6:36:39<10:34:46,  1.26s/it] 38%|███▊      | 18667/48845 [6:36:41<10:34:28,  1.26s/it] 38%|███▊      | 18668/48845 [6:36:42<10:34:09,  1.26s/it] 38%|███▊      | 18669/48845 [6:36:43<10:33:35,  1.26s/it] 38%|███▊      | 18670/48845 [6:36:44<10:33:29,  1.26s/it]                                                          {'loss': 2.1884, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18670/48845 [6:36:44<10:33:29,  1.26s/it] 38%|███▊      | 18671/48845 [6:36:46<10:34:15,  1.26s/it] 38%|███▊      | 18672/48845 [6:36:47<10:33:36,  1.26s/it] 38%|███▊      | 18673/48845 [6:36:48<10:33:12,  1.26s/it] 38%|███▊      | 18674/48845 [6:36:50<10:35:24,  1.26s/it] 38%|███▊      | 18675/48845 [6:36:51<10:34:08,  1.26s/it]                                                          {'loss': 1.9741, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18675/48845 [6:36:51<10:34:08,  1.26s/it] 38%|███▊      | 18676/48845 [6:36:52<10:33:57,  1.26s/it] 38%|███▊      | 18677/48845 [6:36:53<10:33:26,  1.26s/it] 38%|███▊      | 18678/48845 [6:36:55<10:33:30,  1.26s/it] 38%|███▊      | 18679/48845 [6:36:56<10:33:49,  1.26s/it] 38%|███▊      | 18680/48845 [6:36:57<10:33:48,  1.26s/it]                                                          {'loss': 1.9281, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18680/48845 [6:36:57<10:33:48,  1.26s/it] 38%|███▊      | 18681/48845 [6:36:58<10:33:49,  1.26s/it] 38%|███▊      | 18682/48845 [6:37:00<10:33:49,  1.26s/it] 38%|███▊      | 18683/48845 [6:37:01<10:33:26,  1.26s/it] 38%|███▊      | 18684/48845 [6:37:02<10:34:23,  1.26s/it] 38%|███▊      | 18685/48845 [6:37:03<10:34:34,  1.26s/it]                                                          {'loss': 1.9234, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18685/48845 [6:37:03<10:34:34,  1.26s/it] 38%|███▊      | 18686/48845 [6:37:05<10:34:58,  1.26s/it] 38%|███▊      | 18687/48845 [6:37:06<10:35:07,  1.26s/it] 38%|███▊      | 18688/48845 [6:37:07<10:34:21,  1.26s/it] 38%|███▊      | 18689/48845 [6:37:08<10:34:10,  1.26s/it] 38%|███▊      | 18690/48845 [6:37:10<10:34:27,  1.26s/it]                                                          {'loss': 2.0025, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18690/48845 [6:37:10<10:34:27,  1.26s/it] 38%|███▊      | 18691/48845 [6:37:11<10:34:21,  1.26s/it] 38%|███▊      | 18692/48845 [6:37:12<10:34:18,  1.26s/it] 38%|███▊      | 18693/48845 [6:37:13<10:33:49,  1.26s/it] 38%|███▊      | 18694/48845 [6:37:15<10:33:35,  1.26s/it] 38%|███▊      | 18695/48845 [6:37:16<10:32:59,  1.26s/it]                                                          {'loss': 1.9522, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18695/48845 [6:37:16<10:32:59,  1.26s/it] 38%|███▊      | 18696/48845 [6:37:17<10:33:23,  1.26s/it] 38%|███▊      | 18697/48845 [6:37:19<10:33:33,  1.26s/it] 38%|███▊      | 18698/48845 [6:37:20<10:34:10,  1.26s/it] 38%|███▊      | 18699/48845 [6:37:21<10:35:42,  1.27s/it] 38%|███▊      | 18700/48845 [6:37:22<10:34:46,  1.26s/it]                                                          {'loss': 1.9866, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18700/48845 [6:37:22<10:34:46,  1.26s/it] 38%|███▊      | 18701/48845 [6:37:24<10:35:06,  1.26s/it] 38%|███▊      | 18702/48845 [6:37:25<10:34:31,  1.26s/it] 38%|███▊      | 18703/48845 [6:37:26<10:34:33,  1.26s/it] 38%|███▊      | 18704/48845 [6:37:27<10:33:48,  1.26s/it] 38%|███▊      | 18705/48845 [6:37:29<10:33:31,  1.26s/it]                                                          {'loss': 2.0513, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.91}
+ 38%|███▊      | 18705/48845 [6:37:29<10:33:31,  1.26s/it] 38%|███▊      | 18706/48845 [6:37:30<10:34:55,  1.26s/it] 38%|███▊      | 18707/48845 [6:37:31<10:33:47,  1.26s/it] 38%|███▊      | 18708/48845 [6:37:32<10:33:54,  1.26s/it] 38%|███▊      | 18709/48845 [6:37:34<10:34:02,  1.26s/it] 38%|███▊      | 18710/48845 [6:37:35<10:34:11,  1.26s/it]                                                          {'loss': 2.0129, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18710/48845 [6:37:35<10:34:11,  1.26s/it] 38%|███▊      | 18711/48845 [6:37:36<10:34:14,  1.26s/it] 38%|███▊      | 18712/48845 [6:37:37<10:33:57,  1.26s/it] 38%|███▊      | 18713/48845 [6:37:39<10:33:37,  1.26s/it] 38%|███▊      | 18714/48845 [6:37:40<10:33:15,  1.26s/it] 38%|███▊      | 18715/48845 [6:37:41<10:32:48,  1.26s/it]                                                          {'loss': 1.9721, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18715/48845 [6:37:41<10:32:48,  1.26s/it] 38%|███▊      | 18716/48845 [6:37:43<10:33:23,  1.26s/it] 38%|███▊      | 18717/48845 [6:37:44<10:34:15,  1.26s/it] 38%|███▊      | 18718/48845 [6:37:45<10:34:00,  1.26s/it] 38%|███▊      | 18719/48845 [6:37:46<10:33:47,  1.26s/it] 38%|███▊      | 18720/48845 [6:37:48<10:33:32,  1.26s/it]                                                          {'loss': 2.1596, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18720/48845 [6:37:48<10:33:32,  1.26s/it] 38%|███▊      | 18721/48845 [6:37:49<10:33:26,  1.26s/it] 38%|███▊      | 18722/48845 [6:37:50<10:33:45,  1.26s/it] 38%|███▊      | 18723/48845 [6:37:51<10:33:16,  1.26s/it] 38%|███▊      | 18724/48845 [6:37:53<10:33:36,  1.26s/it] 38%|███▊      | 18725/48845 [6:37:54<10:33:13,  1.26s/it]                                                          {'loss': 1.9929, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18725/48845 [6:37:54<10:33:13,  1.26s/it] 38%|███▊      | 18726/48845 [6:37:55<10:33:20,  1.26s/it] 38%|███▊      | 18727/48845 [6:37:56<10:33:04,  1.26s/it] 38%|███▊      | 18728/48845 [6:37:58<10:33:03,  1.26s/it] 38%|███▊      | 18729/48845 [6:37:59<10:33:29,  1.26s/it] 38%|███▊      | 18730/48845 [6:38:00<10:33:05,  1.26s/it]                                                          {'loss': 1.9896, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18730/48845 [6:38:00<10:33:05,  1.26s/it] 38%|███▊      | 18731/48845 [6:38:01<10:32:54,  1.26s/it] 38%|███▊      | 18732/48845 [6:38:03<10:32:57,  1.26s/it] 38%|███▊      | 18733/48845 [6:38:04<10:32:37,  1.26s/it] 38%|███▊      | 18734/48845 [6:38:05<10:33:15,  1.26s/it] 38%|███▊      | 18735/48845 [6:38:06<10:32:38,  1.26s/it]                                                          {'loss': 2.1431, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18735/48845 [6:38:06<10:32:38,  1.26s/it] 38%|███▊      | 18736/48845 [6:38:08<10:34:17,  1.26s/it] 38%|███▊      | 18737/48845 [6:38:09<10:33:57,  1.26s/it] 38%|███▊      | 18738/48845 [6:38:10<10:33:29,  1.26s/it] 38%|███▊      | 18739/48845 [6:38:12<10:35:12,  1.27s/it] 38%|███▊      | 18740/48845 [6:38:13<10:35:13,  1.27s/it]                                                          {'loss': 2.164, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18740/48845 [6:38:13<10:35:13,  1.27s/it] 38%|███▊      | 18741/48845 [6:38:14<10:34:09,  1.26s/it] 38%|███▊      | 18742/48845 [6:38:15<10:33:10,  1.26s/it] 38%|███▊      | 18743/48845 [6:38:17<10:33:37,  1.26s/it] 38%|███▊      | 18744/48845 [6:38:18<10:33:25,  1.26s/it] 38%|███▊      | 18745/48845 [6:38:19<10:33:00,  1.26s/it]                                                          {'loss': 1.9957, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18745/48845 [6:38:19<10:33:00,  1.26s/it] 38%|███▊      | 18746/48845 [6:38:20<10:33:06,  1.26s/it] 38%|███▊      | 18747/48845 [6:38:22<10:32:38,  1.26s/it] 38%|███▊      | 18748/48845 [6:38:23<10:32:34,  1.26s/it] 38%|███▊      | 18749/48845 [6:38:24<10:32:14,  1.26s/it] 38%|███▊      | 18750/48845 [6:38:25<10:33:23,  1.26s/it]                                                          {'loss': 1.9907, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18750/48845 [6:38:25<10:33:23,  1.26s/it] 38%|███▊      | 18751/48845 [6:38:27<10:33:56,  1.26s/it] 38%|███▊      | 18752/48845 [6:38:28<10:33:05,  1.26s/it] 38%|███▊      | 18753/48845 [6:38:29<10:32:56,  1.26s/it] 38%|███▊      | 18754/48845 [6:38:30<10:32:35,  1.26s/it] 38%|███▊      | 18755/48845 [6:38:32<10:31:48,  1.26s/it]                                                          {'loss': 2.0716, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18755/48845 [6:38:32<10:31:48,  1.26s/it] 38%|███▊      | 18756/48845 [6:38:33<10:32:23,  1.26s/it] 38%|███▊      | 18757/48845 [6:38:34<10:32:07,  1.26s/it] 38%|███▊      | 18758/48845 [6:38:36<10:31:49,  1.26s/it] 38%|███▊      | 18759/48845 [6:38:37<10:31:51,  1.26s/it] 38%|███▊      | 18760/48845 [6:38:38<10:32:14,  1.26s/it]                                                          {'loss': 2.059, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18760/48845 [6:38:38<10:32:14,  1.26s/it] 38%|███▊      | 18761/48845 [6:38:39<10:32:35,  1.26s/it] 38%|███▊      | 18762/48845 [6:38:41<10:32:21,  1.26s/it] 38%|███▊      | 18763/48845 [6:38:42<10:32:27,  1.26s/it] 38%|███▊      | 18764/48845 [6:38:43<10:32:42,  1.26s/it] 38%|███▊      | 18765/48845 [6:38:44<10:32:18,  1.26s/it]                                                          {'loss': 2.0087, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18765/48845 [6:38:44<10:32:18,  1.26s/it] 38%|███▊      | 18766/48845 [6:38:46<10:33:16,  1.26s/it] 38%|███▊      | 18767/48845 [6:38:47<10:32:29,  1.26s/it] 38%|███▊      | 18768/48845 [6:38:48<10:32:17,  1.26s/it] 38%|███▊      | 18769/48845 [6:38:49<10:35:35,  1.27s/it] 38%|███▊      | 18770/48845 [6:38:51<10:36:50,  1.27s/it]                                                          {'loss': 2.2463, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18770/48845 [6:38:51<10:36:50,  1.27s/it] 38%|███▊      | 18771/48845 [6:38:52<10:35:49,  1.27s/it] 38%|███▊      | 18772/48845 [6:38:53<10:34:28,  1.27s/it] 38%|███▊      | 18773/48845 [6:38:54<10:34:26,  1.27s/it] 38%|███▊      | 18774/48845 [6:38:56<10:33:15,  1.26s/it] 38%|███▊      | 18775/48845 [6:38:57<10:32:58,  1.26s/it]                                                          {'loss': 2.0782, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18775/48845 [6:38:57<10:32:58,  1.26s/it] 38%|███▊      | 18776/48845 [6:38:58<10:32:28,  1.26s/it] 38%|███▊      | 18777/48845 [6:39:00<10:32:42,  1.26s/it] 38%|███▊      | 18778/48845 [6:39:01<10:32:23,  1.26s/it] 38%|███▊      | 18779/48845 [6:39:02<10:31:39,  1.26s/it] 38%|███▊      | 18780/48845 [6:39:03<10:31:44,  1.26s/it]                                                          {'loss': 1.9511, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18780/48845 [6:39:03<10:31:44,  1.26s/it] 38%|███▊      | 18781/48845 [6:39:05<10:34:42,  1.27s/it] 38%|███▊      | 18782/48845 [6:39:06<10:33:36,  1.26s/it] 38%|███▊      | 18783/48845 [6:39:07<10:32:48,  1.26s/it] 38%|███▊      | 18784/48845 [6:39:08<10:32:07,  1.26s/it] 38%|███▊      | 18785/48845 [6:39:10<10:32:25,  1.26s/it]                                                          {'loss': 2.137, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18785/48845 [6:39:10<10:32:25,  1.26s/it] 38%|███▊      | 18786/48845 [6:39:11<10:33:08,  1.26s/it] 38%|███▊      | 18787/48845 [6:39:12<10:32:16,  1.26s/it] 38%|███▊      | 18788/48845 [6:39:13<10:32:01,  1.26s/it] 38%|███▊      | 18789/48845 [6:39:15<10:32:38,  1.26s/it] 38%|███▊      | 18790/48845 [6:39:16<10:31:42,  1.26s/it]                                                          {'loss': 1.9908, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18790/48845 [6:39:16<10:31:42,  1.26s/it] 38%|███▊      | 18791/48845 [6:39:17<10:32:56,  1.26s/it] 38%|███▊      | 18792/48845 [6:39:18<10:32:40,  1.26s/it] 38%|███▊      | 18793/48845 [6:39:20<10:32:12,  1.26s/it] 38%|███▊      | 18794/48845 [6:39:21<10:32:22,  1.26s/it] 38%|███▊      | 18795/48845 [6:39:22<10:32:17,  1.26s/it]                                                          {'loss': 2.2492, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18795/48845 [6:39:22<10:32:17,  1.26s/it] 38%|███▊      | 18796/48845 [6:39:24<10:32:07,  1.26s/it] 38%|███▊      | 18797/48845 [6:39:25<10:32:17,  1.26s/it] 38%|███▊      | 18798/48845 [6:39:26<10:31:46,  1.26s/it] 38%|███▊      | 18799/48845 [6:39:27<10:31:48,  1.26s/it] 38%|███▊      | 18800/48845 [6:39:29<10:31:36,  1.26s/it]                                                          {'loss': 1.9337, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18800/48845 [6:39:29<10:31:36,  1.26s/it] 38%|███▊      | 18801/48845 [6:39:32<16:36:20,  1.99s/it] 38%|███▊      | 18802/48845 [6:39:34<14:46:09,  1.77s/it] 38%|███▊      | 18803/48845 [6:39:35<13:29:55,  1.62s/it] 38%|███▊      | 18804/48845 [6:39:36<12:36:31,  1.51s/it] 38%|███▊      | 18805/48845 [6:39:37<11:58:26,  1.43s/it]                                                          {'loss': 2.0767, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.92}
+ 38%|███▊      | 18805/48845 [6:39:37<11:58:26,  1.43s/it] 39%|███▊      | 18806/48845 [6:39:39<11:32:19,  1.38s/it] 39%|███▊      | 18807/48845 [6:39:40<11:13:29,  1.35s/it] 39%|███▊      | 18808/48845 [6:39:41<11:00:51,  1.32s/it] 39%|███▊      | 18809/48845 [6:39:42<10:51:52,  1.30s/it] 39%|███▊      | 18810/48845 [6:39:44<10:45:41,  1.29s/it]                                                          {'loss': 1.9934, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18810/48845 [6:39:44<10:45:41,  1.29s/it] 39%|███▊      | 18811/48845 [6:39:45<10:40:55,  1.28s/it] 39%|███▊      | 18812/48845 [6:39:46<10:37:49,  1.27s/it] 39%|███▊      | 18813/48845 [6:39:47<10:35:29,  1.27s/it] 39%|███▊      | 18814/48845 [6:39:49<10:34:07,  1.27s/it] 39%|███▊      | 18815/48845 [6:39:50<10:32:55,  1.26s/it]                                                          {'loss': 1.9699, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18815/48845 [6:39:50<10:32:55,  1.26s/it] 39%|███▊      | 18816/48845 [6:39:51<10:32:10,  1.26s/it] 39%|███▊      | 18817/48845 [6:39:52<10:31:24,  1.26s/it] 39%|███▊      | 18818/48845 [6:39:54<10:31:26,  1.26s/it] 39%|███▊      | 18819/48845 [6:39:55<10:31:01,  1.26s/it] 39%|███▊      | 18820/48845 [6:39:56<10:30:37,  1.26s/it]                                                          {'loss': 2.0069, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18820/48845 [6:39:56<10:30:37,  1.26s/it] 39%|███▊      | 18821/48845 [6:39:57<10:30:13,  1.26s/it] 39%|███▊      | 18822/48845 [6:39:59<10:30:24,  1.26s/it] 39%|███▊      | 18823/48845 [6:40:00<10:30:44,  1.26s/it] 39%|███▊      | 18824/48845 [6:40:01<10:30:08,  1.26s/it] 39%|███▊      | 18825/48845 [6:40:02<10:31:05,  1.26s/it]                                                          {'loss': 1.9622, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18825/48845 [6:40:02<10:31:05,  1.26s/it] 39%|███▊      | 18826/48845 [6:40:04<10:30:31,  1.26s/it] 39%|███▊      | 18827/48845 [6:40:05<10:30:21,  1.26s/it] 39%|███▊      | 18828/48845 [6:40:06<10:30:37,  1.26s/it] 39%|███▊      | 18829/48845 [6:40:08<10:30:03,  1.26s/it] 39%|███▊      | 18830/48845 [6:40:09<10:30:16,  1.26s/it]                                                          {'loss': 1.9583, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18830/48845 [6:40:09<10:30:16,  1.26s/it] 39%|███▊      | 18831/48845 [6:40:10<10:30:42,  1.26s/it] 39%|███▊      | 18832/48845 [6:40:11<10:30:20,  1.26s/it] 39%|███▊      | 18833/48845 [6:40:13<10:30:13,  1.26s/it] 39%|███▊      | 18834/48845 [6:40:14<10:30:29,  1.26s/it] 39%|███▊      | 18835/48845 [6:40:16<12:04:26,  1.45s/it]                                                          {'loss': 1.8757, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18835/48845 [6:40:16<12:04:26,  1.45s/it] 39%|███▊      | 18836/48845 [6:40:17<11:36:37,  1.39s/it] 39%|███▊      | 18837/48845 [6:40:18<11:16:07,  1.35s/it] 39%|███▊      | 18838/48845 [6:40:19<11:02:18,  1.32s/it] 39%|███▊      | 18839/48845 [6:40:21<10:52:40,  1.31s/it] 39%|███▊      | 18840/48845 [6:40:22<10:46:10,  1.29s/it]                                                          {'loss': 2.0258, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18840/48845 [6:40:22<10:46:10,  1.29s/it] 39%|███▊      | 18841/48845 [6:40:23<10:41:05,  1.28s/it] 39%|███▊      | 18842/48845 [6:40:25<10:37:18,  1.27s/it] 39%|███▊      | 18843/48845 [6:40:26<10:34:35,  1.27s/it] 39%|███▊      | 18844/48845 [6:40:27<10:32:45,  1.27s/it] 39%|███▊      | 18845/48845 [6:40:28<10:31:34,  1.26s/it]                                                          {'loss': 2.0532, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18845/48845 [6:40:28<10:31:34,  1.26s/it] 39%|███▊      | 18846/48845 [6:40:30<10:31:12,  1.26s/it] 39%|███▊      | 18847/48845 [6:40:31<10:30:02,  1.26s/it] 39%|███▊      | 18848/48845 [6:40:32<10:29:56,  1.26s/it] 39%|███▊      | 18849/48845 [6:40:33<10:29:21,  1.26s/it] 39%|███▊      | 18850/48845 [6:40:35<10:29:11,  1.26s/it]                                                          {'loss': 2.0755, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18850/48845 [6:40:35<10:29:11,  1.26s/it] 39%|███▊      | 18851/48845 [6:40:36<10:29:25,  1.26s/it] 39%|███▊      | 18852/48845 [6:40:37<10:29:36,  1.26s/it] 39%|███▊      | 18853/48845 [6:40:38<10:30:07,  1.26s/it] 39%|███▊      | 18854/48845 [6:40:40<10:29:44,  1.26s/it] 39%|███▊      | 18855/48845 [6:40:41<10:29:31,  1.26s/it]                                                          {'loss': 2.0844, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18855/48845 [6:40:41<10:29:31,  1.26s/it] 39%|███▊      | 18856/48845 [6:40:42<10:30:07,  1.26s/it] 39%|███▊      | 18857/48845 [6:40:43<10:29:44,  1.26s/it] 39%|███▊      | 18858/48845 [6:40:45<10:30:20,  1.26s/it] 39%|███▊      | 18859/48845 [6:40:46<10:29:35,  1.26s/it] 39%|███▊      | 18860/48845 [6:40:47<10:29:38,  1.26s/it]                                                          {'loss': 2.0972, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18860/48845 [6:40:47<10:29:38,  1.26s/it] 39%|███▊      | 18861/48845 [6:40:48<10:29:41,  1.26s/it] 39%|███▊      | 18862/48845 [6:40:50<10:30:25,  1.26s/it] 39%|███▊      | 18863/48845 [6:40:51<10:30:24,  1.26s/it] 39%|███▊      | 18864/48845 [6:40:52<10:31:01,  1.26s/it] 39%|███▊      | 18865/48845 [6:40:54<10:31:17,  1.26s/it]                                                          {'loss': 2.0113, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18865/48845 [6:40:54<10:31:17,  1.26s/it] 39%|███▊      | 18866/48845 [6:40:55<10:31:01,  1.26s/it] 39%|███▊      | 18867/48845 [6:40:56<10:30:44,  1.26s/it] 39%|███▊      | 18868/48845 [6:40:57<10:29:40,  1.26s/it] 39%|███▊      | 18869/48845 [6:40:59<10:29:36,  1.26s/it] 39%|███▊      | 18870/48845 [6:41:00<10:29:29,  1.26s/it]                                                          {'loss': 2.2524, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18870/48845 [6:41:00<10:29:29,  1.26s/it] 39%|███▊      | 18871/48845 [6:41:01<10:29:32,  1.26s/it] 39%|███▊      | 18872/48845 [6:41:02<10:29:00,  1.26s/it] 39%|███▊      | 18873/48845 [6:41:04<10:29:32,  1.26s/it] 39%|███▊      | 18874/48845 [6:41:05<10:29:10,  1.26s/it] 39%|███▊      | 18875/48845 [6:41:06<10:29:08,  1.26s/it]                                                          {'loss': 1.9997, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18875/48845 [6:41:06<10:29:08,  1.26s/it] 39%|███▊      | 18876/48845 [6:41:07<10:29:28,  1.26s/it] 39%|███▊      | 18877/48845 [6:41:09<10:29:08,  1.26s/it] 39%|███▊      | 18878/48845 [6:41:10<10:28:47,  1.26s/it] 39%|███▊      | 18879/48845 [6:41:11<10:28:33,  1.26s/it] 39%|███▊      | 18880/48845 [6:41:12<10:29:28,  1.26s/it]                                                          {'loss': 1.9824, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18880/48845 [6:41:12<10:29:28,  1.26s/it] 39%|███▊      | 18881/48845 [6:41:14<10:29:46,  1.26s/it] 39%|███▊      | 18882/48845 [6:41:15<10:30:44,  1.26s/it] 39%|███▊      | 18883/48845 [6:41:16<10:29:59,  1.26s/it] 39%|███▊      | 18884/48845 [6:41:17<10:29:23,  1.26s/it] 39%|███▊      | 18885/48845 [6:41:19<10:29:10,  1.26s/it]                                                          {'loss': 2.1583, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18885/48845 [6:41:19<10:29:10,  1.26s/it] 39%|███▊      | 18886/48845 [6:41:20<10:30:39,  1.26s/it] 39%|███▊      | 18887/48845 [6:41:21<10:30:22,  1.26s/it] 39%|███▊      | 18888/48845 [6:41:23<10:29:45,  1.26s/it] 39%|███▊      | 18889/48845 [6:41:24<10:29:50,  1.26s/it] 39%|███▊      | 18890/48845 [6:41:25<10:29:57,  1.26s/it]                                                          {'loss': 2.105, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18890/48845 [6:41:25<10:29:57,  1.26s/it] 39%|███▊      | 18891/48845 [6:41:26<10:30:54,  1.26s/it] 39%|███▊      | 18892/48845 [6:41:28<10:31:36,  1.27s/it] 39%|███▊      | 18893/48845 [6:41:29<10:30:19,  1.26s/it] 39%|███▊      | 18894/48845 [6:41:30<10:29:04,  1.26s/it] 39%|███▊      | 18895/48845 [6:41:31<10:28:54,  1.26s/it]                                                          {'loss': 2.0836, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18895/48845 [6:41:31<10:28:54,  1.26s/it] 39%|███▊      | 18896/48845 [6:41:33<10:28:44,  1.26s/it] 39%|███▊      | 18897/48845 [6:41:34<10:28:56,  1.26s/it] 39%|███▊      | 18898/48845 [6:41:35<10:28:57,  1.26s/it] 39%|███▊      | 18899/48845 [6:41:36<10:28:41,  1.26s/it] 39%|███▊      | 18900/48845 [6:41:38<10:29:35,  1.26s/it]                                                          {'loss': 2.0462, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.93}
+ 39%|███▊      | 18900/48845 [6:41:38<10:29:35,  1.26s/it] 39%|███▊      | 18901/48845 [6:41:39<10:29:14,  1.26s/it] 39%|███▊      | 18902/48845 [6:41:40<10:29:15,  1.26s/it] 39%|███▊      | 18903/48845 [6:41:41<10:29:04,  1.26s/it] 39%|███▊      | 18904/48845 [6:41:43<10:28:53,  1.26s/it] 39%|███▊      | 18905/48845 [6:41:44<10:28:44,  1.26s/it]                                                          {'loss': 2.0807, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▊      | 18905/48845 [6:41:44<10:28:44,  1.26s/it] 39%|███▊      | 18906/48845 [6:41:45<10:54:42,  1.31s/it] 39%|███▊      | 18907/48845 [6:41:47<10:47:31,  1.30s/it] 39%|███▊      | 18908/48845 [6:41:48<10:41:31,  1.29s/it] 39%|███▊      | 18909/48845 [6:41:49<10:38:07,  1.28s/it] 39%|███▊      | 18910/48845 [6:41:50<10:36:35,  1.28s/it]                                                          {'loss': 2.2052, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▊      | 18910/48845 [6:41:50<10:36:35,  1.28s/it] 39%|███▊      | 18911/48845 [6:41:52<10:33:58,  1.27s/it] 39%|███▊      | 18912/48845 [6:41:53<10:32:30,  1.27s/it] 39%|███▊      | 18913/48845 [6:41:54<10:31:22,  1.27s/it] 39%|███▊      | 18914/48845 [6:41:56<10:54:31,  1.31s/it] 39%|███▊      | 18915/48845 [6:41:57<10:46:31,  1.30s/it]                                                          {'loss': 2.2492, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▊      | 18915/48845 [6:41:57<10:46:31,  1.30s/it] 39%|███▊      | 18916/48845 [6:41:58<10:41:22,  1.29s/it] 39%|███▊      | 18917/48845 [6:41:59<10:37:59,  1.28s/it] 39%|███▊      | 18918/48845 [6:42:01<10:34:28,  1.27s/it] 39%|███▊      | 18919/48845 [6:42:02<10:32:46,  1.27s/it] 39%|███▊      | 18920/48845 [6:42:03<10:31:21,  1.27s/it]                                                          {'loss': 2.0447, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▊      | 18920/48845 [6:42:03<10:31:21,  1.27s/it] 39%|███▊      | 18921/48845 [6:42:04<10:30:30,  1.26s/it] 39%|███▊      | 18922/48845 [6:42:06<10:30:05,  1.26s/it] 39%|███▊      | 18923/48845 [6:42:07<10:29:29,  1.26s/it] 39%|███▊      | 18924/48845 [6:42:08<10:29:33,  1.26s/it] 39%|███▊      | 18925/48845 [6:42:09<10:29:38,  1.26s/it]                                                          {'loss': 2.065, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▊      | 18925/48845 [6:42:09<10:29:38,  1.26s/it] 39%|███▊      | 18926/48845 [6:42:11<10:29:15,  1.26s/it] 39%|███▊      | 18927/48845 [6:42:12<10:28:46,  1.26s/it] 39%|███▉      | 18928/48845 [6:42:13<10:29:02,  1.26s/it] 39%|███▉      | 18929/48845 [6:42:15<10:29:22,  1.26s/it] 39%|███▉      | 18930/48845 [6:42:16<10:28:26,  1.26s/it]                                                          {'loss': 2.1249, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18930/48845 [6:42:16<10:28:26,  1.26s/it] 39%|███▉      | 18931/48845 [6:42:17<10:28:17,  1.26s/it] 39%|███▉      | 18932/48845 [6:42:18<10:28:41,  1.26s/it] 39%|███▉      | 18933/48845 [6:42:20<10:28:04,  1.26s/it] 39%|███▉      | 18934/48845 [6:42:21<10:28:09,  1.26s/it] 39%|███▉      | 18935/48845 [6:42:22<10:27:53,  1.26s/it]                                                          {'loss': 2.0189, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18935/48845 [6:42:22<10:27:53,  1.26s/it] 39%|███▉      | 18936/48845 [6:42:23<10:28:09,  1.26s/it] 39%|███▉      | 18937/48845 [6:42:25<10:28:37,  1.26s/it] 39%|███▉      | 18938/48845 [6:42:26<10:28:55,  1.26s/it] 39%|███▉      | 18939/48845 [6:42:27<10:29:17,  1.26s/it] 39%|███▉      | 18940/48845 [6:42:28<10:28:46,  1.26s/it]                                                          {'loss': 2.1425, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18940/48845 [6:42:28<10:28:46,  1.26s/it] 39%|███▉      | 18941/48845 [6:42:30<10:29:41,  1.26s/it] 39%|███▉      | 18942/48845 [6:42:31<10:29:16,  1.26s/it] 39%|███▉      | 18943/48845 [6:42:32<10:28:21,  1.26s/it] 39%|███▉      | 18944/48845 [6:42:33<10:28:25,  1.26s/it] 39%|███▉      | 18945/48845 [6:42:35<10:28:42,  1.26s/it]                                                          {'loss': 2.1486, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18945/48845 [6:42:35<10:28:42,  1.26s/it] 39%|███▉      | 18946/48845 [6:42:36<10:28:12,  1.26s/it] 39%|███▉      | 18947/48845 [6:42:37<10:28:13,  1.26s/it] 39%|███▉      | 18948/48845 [6:42:38<10:27:45,  1.26s/it] 39%|███▉      | 18949/48845 [6:42:40<10:27:43,  1.26s/it] 39%|███▉      | 18950/48845 [6:42:41<10:27:58,  1.26s/it]                                                          {'loss': 2.1617, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18950/48845 [6:42:41<10:27:58,  1.26s/it] 39%|███▉      | 18951/48845 [6:42:42<10:27:46,  1.26s/it] 39%|███▉      | 18952/48845 [6:42:44<10:28:18,  1.26s/it] 39%|███▉      | 18953/48845 [6:42:45<10:28:01,  1.26s/it] 39%|███▉      | 18954/48845 [6:42:46<10:27:22,  1.26s/it] 39%|███▉      | 18955/48845 [6:42:47<10:27:50,  1.26s/it]                                                          {'loss': 2.0732, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18955/48845 [6:42:47<10:27:50,  1.26s/it] 39%|███▉      | 18956/48845 [6:42:49<10:28:26,  1.26s/it] 39%|███▉      | 18957/48845 [6:42:50<10:27:56,  1.26s/it] 39%|███▉      | 18958/48845 [6:42:51<10:27:37,  1.26s/it] 39%|███▉      | 18959/48845 [6:42:52<10:27:20,  1.26s/it] 39%|███▉      | 18960/48845 [6:42:54<10:27:29,  1.26s/it]                                                          {'loss': 2.1041, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18960/48845 [6:42:54<10:27:29,  1.26s/it] 39%|███▉      | 18961/48845 [6:42:55<10:27:57,  1.26s/it] 39%|███▉      | 18962/48845 [6:42:56<10:27:18,  1.26s/it] 39%|███▉      | 18963/48845 [6:42:57<10:26:45,  1.26s/it] 39%|███▉      | 18964/48845 [6:42:59<10:26:52,  1.26s/it] 39%|███▉      | 18965/48845 [6:43:00<10:26:58,  1.26s/it]                                                          {'loss': 1.9139, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18965/48845 [6:43:00<10:26:58,  1.26s/it] 39%|███▉      | 18966/48845 [6:43:01<10:27:04,  1.26s/it] 39%|███▉      | 18967/48845 [6:43:02<10:27:03,  1.26s/it] 39%|███▉      | 18968/48845 [6:43:04<10:26:56,  1.26s/it] 39%|███▉      | 18969/48845 [6:43:05<10:27:32,  1.26s/it] 39%|███▉      | 18970/48845 [6:43:06<10:27:41,  1.26s/it]                                                          {'loss': 2.103, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18970/48845 [6:43:06<10:27:41,  1.26s/it] 39%|███▉      | 18971/48845 [6:43:07<10:27:38,  1.26s/it] 39%|███▉      | 18972/48845 [6:43:09<10:28:31,  1.26s/it] 39%|███▉      | 18973/48845 [6:43:10<10:28:41,  1.26s/it] 39%|███▉      | 18974/48845 [6:43:11<10:27:27,  1.26s/it] 39%|███▉      | 18975/48845 [6:43:13<10:27:51,  1.26s/it]                                                          {'loss': 1.9069, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18975/48845 [6:43:13<10:27:51,  1.26s/it] 39%|███▉      | 18976/48845 [6:43:14<10:27:48,  1.26s/it] 39%|███▉      | 18977/48845 [6:43:15<10:27:38,  1.26s/it] 39%|███▉      | 18978/48845 [6:43:16<10:27:41,  1.26s/it] 39%|███▉      | 18979/48845 [6:43:18<10:27:20,  1.26s/it] 39%|███▉      | 18980/48845 [6:43:19<10:27:33,  1.26s/it]                                                          {'loss': 2.1185, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18980/48845 [6:43:19<10:27:33,  1.26s/it] 39%|███▉      | 18981/48845 [6:43:20<10:26:53,  1.26s/it] 39%|███▉      | 18982/48845 [6:43:21<10:26:38,  1.26s/it] 39%|███▉      | 18983/48845 [6:43:23<10:26:43,  1.26s/it] 39%|███▉      | 18984/48845 [6:43:24<10:27:01,  1.26s/it] 39%|███▉      | 18985/48845 [6:43:25<10:26:33,  1.26s/it]                                                          {'loss': 2.0827, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18985/48845 [6:43:25<10:26:33,  1.26s/it] 39%|███▉      | 18986/48845 [6:43:26<10:27:02,  1.26s/it] 39%|███▉      | 18987/48845 [6:43:28<10:26:47,  1.26s/it] 39%|███▉      | 18988/48845 [6:43:29<10:26:29,  1.26s/it] 39%|███▉      | 18989/48845 [6:43:30<10:26:23,  1.26s/it] 39%|███▉      | 18990/48845 [6:43:31<10:26:38,  1.26s/it]                                                          {'loss': 2.0792, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18990/48845 [6:43:31<10:26:38,  1.26s/it] 39%|███▉      | 18991/48845 [6:43:33<10:26:49,  1.26s/it] 39%|███▉      | 18992/48845 [6:43:34<10:26:32,  1.26s/it] 39%|███▉      | 18993/48845 [6:43:35<10:26:43,  1.26s/it] 39%|███▉      | 18994/48845 [6:43:36<10:26:26,  1.26s/it] 39%|███▉      | 18995/48845 [6:43:38<10:26:53,  1.26s/it]                                                          {'loss': 2.071, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 18995/48845 [6:43:38<10:26:53,  1.26s/it] 39%|███▉      | 18996/48845 [6:43:39<10:26:47,  1.26s/it] 39%|███▉      | 18997/48845 [6:43:40<10:26:27,  1.26s/it] 39%|███▉      | 18998/48845 [6:43:41<10:26:57,  1.26s/it] 39%|███▉      | 18999/48845 [6:43:43<10:26:13,  1.26s/it] 39%|███▉      | 19000/48845 [6:43:44<10:26:29,  1.26s/it]                                                          {'loss': 2.0827, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.94}
+ 39%|███▉      | 19000/48845 [6:43:44<10:26:29,  1.26s/it] 39%|███▉      | 19001/48845 [6:43:48<16:26:48,  1.98s/it] 39%|███▉      | 19002/48845 [6:43:49<14:39:00,  1.77s/it] 39%|███▉      | 19003/48845 [6:43:50<13:23:35,  1.62s/it] 39%|███▉      | 19004/48845 [6:43:51<12:29:46,  1.51s/it] 39%|███▉      | 19005/48845 [6:43:53<11:52:07,  1.43s/it]                                                          {'loss': 2.1123, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19005/48845 [6:43:53<11:52:07,  1.43s/it] 39%|███▉      | 19006/48845 [6:43:54<11:26:49,  1.38s/it] 39%|███▉      | 19007/48845 [6:43:55<11:08:15,  1.34s/it] 39%|███▉      | 19008/48845 [6:43:56<10:55:27,  1.32s/it] 39%|███▉      | 19009/48845 [6:43:58<10:46:55,  1.30s/it] 39%|███▉      | 19010/48845 [6:43:59<10:40:54,  1.29s/it]                                                          {'loss': 2.1046, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19010/48845 [6:43:59<10:40:54,  1.29s/it] 39%|███▉      | 19011/48845 [6:44:00<10:36:20,  1.28s/it] 39%|███▉      | 19012/48845 [6:44:02<10:32:32,  1.27s/it] 39%|███▉      | 19013/48845 [6:44:03<10:30:29,  1.27s/it] 39%|███▉      | 19014/48845 [6:44:04<10:28:26,  1.26s/it] 39%|███▉      | 19015/48845 [6:44:05<10:27:43,  1.26s/it]                                                          {'loss': 1.9967, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19015/48845 [6:44:05<10:27:43,  1.26s/it] 39%|███▉      | 19016/48845 [6:44:07<10:26:50,  1.26s/it] 39%|███▉      | 19017/48845 [6:44:08<10:26:23,  1.26s/it] 39%|███▉      | 19018/48845 [6:44:09<10:26:49,  1.26s/it] 39%|███▉      | 19019/48845 [6:44:10<10:26:52,  1.26s/it] 39%|███▉      | 19020/48845 [6:44:12<10:26:29,  1.26s/it]                                                          {'loss': 1.8566, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19020/48845 [6:44:12<10:26:29,  1.26s/it] 39%|███▉      | 19021/48845 [6:44:13<10:26:25,  1.26s/it] 39%|███▉      | 19022/48845 [6:44:14<10:26:31,  1.26s/it] 39%|███▉      | 19023/48845 [6:44:15<10:26:27,  1.26s/it] 39%|███▉      | 19024/48845 [6:44:17<10:25:59,  1.26s/it] 39%|███▉      | 19025/48845 [6:44:18<10:26:07,  1.26s/it]                                                          {'loss': 2.1088, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19025/48845 [6:44:18<10:26:07,  1.26s/it] 39%|███▉      | 19026/48845 [6:44:19<10:26:10,  1.26s/it] 39%|███▉      | 19027/48845 [6:44:20<10:34:51,  1.28s/it] 39%|███▉      | 19028/48845 [6:44:22<10:32:00,  1.27s/it] 39%|███▉      | 19029/48845 [6:44:23<10:29:55,  1.27s/it] 39%|███▉      | 19030/48845 [6:44:24<10:28:57,  1.27s/it]                                                          {'loss': 1.9114, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19030/48845 [6:44:24<10:28:57,  1.27s/it] 39%|███▉      | 19031/48845 [6:44:26<10:27:58,  1.26s/it] 39%|███▉      | 19032/48845 [6:44:27<10:28:01,  1.26s/it] 39%|███▉      | 19033/48845 [6:44:28<10:27:45,  1.26s/it] 39%|███▉      | 19034/48845 [6:44:29<10:27:03,  1.26s/it] 39%|███▉      | 19035/48845 [6:44:31<10:26:30,  1.26s/it]                                                          {'loss': 2.1983, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19035/48845 [6:44:31<10:26:30,  1.26s/it] 39%|███▉      | 19036/48845 [6:44:32<10:26:02,  1.26s/it] 39%|███▉      | 19037/48845 [6:44:33<10:26:14,  1.26s/it] 39%|███▉      | 19038/48845 [6:44:34<10:25:44,  1.26s/it] 39%|███▉      | 19039/48845 [6:44:36<10:25:24,  1.26s/it] 39%|███▉      | 19040/48845 [6:44:37<10:25:43,  1.26s/it]                                                          {'loss': 2.1213, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19040/48845 [6:44:37<10:25:43,  1.26s/it] 39%|███▉      | 19041/48845 [6:44:38<10:25:26,  1.26s/it] 39%|███▉      | 19042/48845 [6:44:39<10:26:57,  1.26s/it] 39%|███▉      | 19043/48845 [6:44:41<10:26:38,  1.26s/it] 39%|███▉      | 19044/48845 [6:44:42<10:26:14,  1.26s/it] 39%|███▉      | 19045/48845 [6:44:43<10:26:15,  1.26s/it]                                                          {'loss': 2.2202, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19045/48845 [6:44:43<10:26:15,  1.26s/it] 39%|███▉      | 19046/48845 [6:44:44<10:26:21,  1.26s/it] 39%|███▉      | 19047/48845 [6:44:46<10:26:13,  1.26s/it] 39%|███▉      | 19048/48845 [6:44:47<10:26:34,  1.26s/it] 39%|███▉      | 19049/48845 [6:44:48<10:25:47,  1.26s/it] 39%|███▉      | 19050/48845 [6:44:49<10:26:30,  1.26s/it]                                                          {'loss': 1.9479, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19050/48845 [6:44:49<10:26:30,  1.26s/it] 39%|███▉      | 19051/48845 [6:44:51<10:26:04,  1.26s/it] 39%|███▉      | 19052/48845 [6:44:52<10:25:50,  1.26s/it] 39%|███▉      | 19053/48845 [6:44:53<10:25:56,  1.26s/it] 39%|███▉      | 19054/48845 [6:44:55<10:26:07,  1.26s/it] 39%|███▉      | 19055/48845 [6:44:56<10:26:19,  1.26s/it]                                                          {'loss': 2.1562, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19055/48845 [6:44:56<10:26:19,  1.26s/it] 39%|███▉      | 19056/48845 [6:44:57<10:26:04,  1.26s/it] 39%|███▉      | 19057/48845 [6:44:58<10:25:48,  1.26s/it] 39%|███▉      | 19058/48845 [6:45:00<10:25:05,  1.26s/it] 39%|███▉      | 19059/48845 [6:45:01<10:24:54,  1.26s/it] 39%|███▉      | 19060/48845 [6:45:02<10:25:08,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19060/48845 [6:45:02<10:25:08,  1.26s/it] 39%|███▉      | 19061/48845 [6:45:03<10:26:27,  1.26s/it] 39%|███▉      | 19062/48845 [6:45:05<10:25:55,  1.26s/it] 39%|███▉      | 19063/48845 [6:45:06<10:26:20,  1.26s/it] 39%|███▉      | 19064/48845 [6:45:07<10:25:54,  1.26s/it] 39%|███▉      | 19065/48845 [6:45:08<10:26:07,  1.26s/it]                                                          {'loss': 1.9315, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19065/48845 [6:45:08<10:26:07,  1.26s/it] 39%|███▉      | 19066/48845 [6:45:10<10:28:16,  1.27s/it] 39%|███▉      | 19067/48845 [6:45:11<10:27:45,  1.26s/it] 39%|███▉      | 19068/48845 [6:45:12<10:27:09,  1.26s/it] 39%|███▉      | 19069/48845 [6:45:13<10:26:42,  1.26s/it] 39%|███▉      | 19070/48845 [6:45:15<10:26:08,  1.26s/it]                                                          {'loss': 2.3126, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19070/48845 [6:45:15<10:26:08,  1.26s/it] 39%|███▉      | 19071/48845 [6:45:16<10:26:16,  1.26s/it] 39%|███▉      | 19072/48845 [6:45:17<10:26:13,  1.26s/it] 39%|███▉      | 19073/48845 [6:45:18<10:26:48,  1.26s/it] 39%|███▉      | 19074/48845 [6:45:20<10:26:33,  1.26s/it] 39%|███▉      | 19075/48845 [6:45:21<10:26:36,  1.26s/it]                                                          {'loss': 2.0884, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19075/48845 [6:45:21<10:26:36,  1.26s/it] 39%|███▉      | 19076/48845 [6:45:22<10:26:34,  1.26s/it] 39%|███▉      | 19077/48845 [6:45:24<10:26:29,  1.26s/it] 39%|███▉      | 19078/48845 [6:45:25<10:28:12,  1.27s/it] 39%|███▉      | 19079/48845 [6:45:26<10:27:58,  1.27s/it] 39%|███▉      | 19080/48845 [6:45:27<10:26:50,  1.26s/it]                                                          {'loss': 2.0553, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19080/48845 [6:45:27<10:26:50,  1.26s/it] 39%|███▉      | 19081/48845 [6:45:29<10:28:24,  1.27s/it] 39%|███▉      | 19082/48845 [6:45:30<10:28:06,  1.27s/it] 39%|███▉      | 19083/48845 [6:45:31<10:29:26,  1.27s/it] 39%|███▉      | 19084/48845 [6:45:32<10:27:38,  1.27s/it] 39%|███▉      | 19085/48845 [6:45:34<10:26:56,  1.26s/it]                                                          {'loss': 1.984, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19085/48845 [6:45:34<10:26:56,  1.26s/it] 39%|███▉      | 19086/48845 [6:45:35<10:26:27,  1.26s/it] 39%|███▉      | 19087/48845 [6:45:36<10:51:44,  1.31s/it] 39%|███▉      | 19088/48845 [6:45:38<10:44:03,  1.30s/it] 39%|███▉      | 19089/48845 [6:45:39<10:38:53,  1.29s/it] 39%|███▉      | 19090/48845 [6:45:40<10:35:11,  1.28s/it]                                                          {'loss': 2.0718, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19090/48845 [6:45:40<10:35:11,  1.28s/it] 39%|███▉      | 19091/48845 [6:45:41<10:33:50,  1.28s/it] 39%|███▉      | 19092/48845 [6:45:43<10:31:09,  1.27s/it] 39%|███▉      | 19093/48845 [6:45:44<10:28:23,  1.27s/it] 39%|███▉      | 19094/48845 [6:45:45<10:27:33,  1.27s/it] 39%|███▉      | 19095/48845 [6:45:46<10:26:26,  1.26s/it]                                                          {'loss': 2.163, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.95}
+ 39%|███▉      | 19095/48845 [6:45:46<10:26:26,  1.26s/it] 39%|███▉      | 19096/48845 [6:45:48<10:26:39,  1.26s/it] 39%|███▉      | 19097/48845 [6:45:49<10:26:14,  1.26s/it] 39%|███▉      | 19098/48845 [6:45:50<10:26:02,  1.26s/it] 39%|███▉      | 19099/48845 [6:45:52<10:27:14,  1.27s/it] 39%|███▉      | 19100/48845 [6:45:53<10:26:13,  1.26s/it]                                                          {'loss': 2.09, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19100/48845 [6:45:53<10:26:13,  1.26s/it] 39%|███▉      | 19101/48845 [6:45:54<10:27:05,  1.26s/it] 39%|███▉      | 19102/48845 [6:45:55<10:25:59,  1.26s/it] 39%|███▉      | 19103/48845 [6:45:57<10:52:09,  1.32s/it] 39%|███▉      | 19104/48845 [6:45:58<10:44:30,  1.30s/it] 39%|███▉      | 19105/48845 [6:45:59<10:38:56,  1.29s/it]                                                          {'loss': 2.0552, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19105/48845 [6:45:59<10:38:56,  1.29s/it] 39%|███▉      | 19106/48845 [6:46:01<10:34:12,  1.28s/it] 39%|███▉      | 19107/48845 [6:46:02<10:31:01,  1.27s/it] 39%|███▉      | 19108/48845 [6:46:03<10:29:31,  1.27s/it] 39%|███▉      | 19109/48845 [6:46:04<10:27:33,  1.27s/it] 39%|███▉      | 19110/48845 [6:46:06<10:26:16,  1.26s/it]                                                          {'loss': 2.0549, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19110/48845 [6:46:06<10:26:16,  1.26s/it] 39%|███▉      | 19111/48845 [6:46:07<10:26:10,  1.26s/it] 39%|███▉      | 19112/48845 [6:46:08<10:25:09,  1.26s/it] 39%|███▉      | 19113/48845 [6:46:09<10:26:19,  1.26s/it] 39%|███▉      | 19114/48845 [6:46:11<10:26:31,  1.26s/it] 39%|███▉      | 19115/48845 [6:46:12<10:25:59,  1.26s/it]                                                          {'loss': 1.9221, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19115/48845 [6:46:12<10:25:59,  1.26s/it] 39%|███▉      | 19116/48845 [6:46:13<10:25:53,  1.26s/it] 39%|███▉      | 19117/48845 [6:46:14<10:25:16,  1.26s/it] 39%|███▉      | 19118/48845 [6:46:16<10:25:34,  1.26s/it] 39%|███▉      | 19119/48845 [6:46:17<10:24:43,  1.26s/it] 39%|███▉      | 19120/48845 [6:46:18<10:24:00,  1.26s/it]                                                          {'loss': 2.068, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19120/48845 [6:46:18<10:24:00,  1.26s/it] 39%|███▉      | 19121/48845 [6:46:19<10:24:23,  1.26s/it] 39%|███▉      | 19122/48845 [6:46:21<10:24:04,  1.26s/it] 39%|███▉      | 19123/48845 [6:46:22<10:23:45,  1.26s/it] 39%|███▉      | 19124/48845 [6:46:23<10:23:29,  1.26s/it] 39%|███▉      | 19125/48845 [6:46:24<10:24:13,  1.26s/it]                                                          {'loss': 1.9736, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19125/48845 [6:46:24<10:24:13,  1.26s/it] 39%|███▉      | 19126/48845 [6:46:26<10:24:15,  1.26s/it] 39%|███▉      | 19127/48845 [6:46:27<10:23:57,  1.26s/it] 39%|███▉      | 19128/48845 [6:46:28<10:23:49,  1.26s/it] 39%|███▉      | 19129/48845 [6:46:30<10:23:35,  1.26s/it] 39%|███▉      | 19130/48845 [6:46:31<10:23:38,  1.26s/it]                                                          {'loss': 2.2147, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19130/48845 [6:46:31<10:23:38,  1.26s/it] 39%|███▉      | 19131/48845 [6:46:32<10:25:26,  1.26s/it] 39%|███▉      | 19132/48845 [6:46:33<10:24:35,  1.26s/it] 39%|███▉      | 19133/48845 [6:46:35<10:24:04,  1.26s/it] 39%|███▉      | 19134/48845 [6:46:36<10:23:40,  1.26s/it] 39%|███▉      | 19135/48845 [6:46:37<10:23:53,  1.26s/it]                                                          {'loss': 2.1164, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19135/48845 [6:46:37<10:23:53,  1.26s/it] 39%|███▉      | 19136/48845 [6:46:38<10:24:15,  1.26s/it] 39%|███▉      | 19137/48845 [6:46:40<10:24:09,  1.26s/it] 39%|███▉      | 19138/48845 [6:46:41<10:24:08,  1.26s/it] 39%|███▉      | 19139/48845 [6:46:42<10:23:20,  1.26s/it] 39%|███▉      | 19140/48845 [6:46:43<10:22:58,  1.26s/it]                                                          {'loss': 2.1289, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19140/48845 [6:46:43<10:22:58,  1.26s/it] 39%|███▉      | 19141/48845 [6:46:45<10:23:34,  1.26s/it] 39%|███▉      | 19142/48845 [6:46:46<10:24:00,  1.26s/it] 39%|███▉      | 19143/48845 [6:46:47<10:24:00,  1.26s/it] 39%|███▉      | 19144/48845 [6:46:48<10:23:45,  1.26s/it] 39%|███▉      | 19145/48845 [6:46:50<10:23:44,  1.26s/it]                                                          {'loss': 2.1065, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19145/48845 [6:46:50<10:23:44,  1.26s/it] 39%|███▉      | 19146/48845 [6:46:51<10:23:40,  1.26s/it] 39%|███▉      | 19147/48845 [6:46:52<10:24:10,  1.26s/it] 39%|███▉      | 19148/48845 [6:46:53<10:24:11,  1.26s/it] 39%|███▉      | 19149/48845 [6:46:55<10:24:32,  1.26s/it] 39%|███▉      | 19150/48845 [6:46:56<10:24:05,  1.26s/it]                                                          {'loss': 1.9749, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19150/48845 [6:46:56<10:24:05,  1.26s/it] 39%|███▉      | 19151/48845 [6:46:57<10:23:53,  1.26s/it] 39%|███▉      | 19152/48845 [6:46:59<10:23:52,  1.26s/it] 39%|███▉      | 19153/48845 [6:47:00<10:23:39,  1.26s/it] 39%|███▉      | 19154/48845 [6:47:01<10:24:30,  1.26s/it] 39%|███▉      | 19155/48845 [6:47:02<10:23:29,  1.26s/it]                                                          {'loss': 2.0799, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19155/48845 [6:47:02<10:23:29,  1.26s/it] 39%|███▉      | 19156/48845 [6:47:04<10:24:30,  1.26s/it] 39%|███▉      | 19157/48845 [6:47:05<10:24:13,  1.26s/it] 39%|███▉      | 19158/48845 [6:47:06<10:23:47,  1.26s/it] 39%|███▉      | 19159/48845 [6:47:07<10:24:13,  1.26s/it] 39%|███▉      | 19160/48845 [6:47:09<10:23:39,  1.26s/it]                                                          {'loss': 2.0453, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19160/48845 [6:47:09<10:23:39,  1.26s/it] 39%|███▉      | 19161/48845 [6:47:10<10:23:58,  1.26s/it] 39%|███▉      | 19162/48845 [6:47:11<10:24:07,  1.26s/it] 39%|███▉      | 19163/48845 [6:47:12<10:23:52,  1.26s/it] 39%|███▉      | 19164/48845 [6:47:14<10:23:41,  1.26s/it] 39%|███▉      | 19165/48845 [6:47:15<10:24:06,  1.26s/it]                                                          {'loss': 2.0738, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19165/48845 [6:47:15<10:24:06,  1.26s/it] 39%|███▉      | 19166/48845 [6:47:16<10:23:51,  1.26s/it] 39%|███▉      | 19167/48845 [6:47:17<10:23:59,  1.26s/it] 39%|███▉      | 19168/48845 [6:47:19<10:23:55,  1.26s/it] 39%|███▉      | 19169/48845 [6:47:20<10:23:45,  1.26s/it] 39%|███▉      | 19170/48845 [6:47:21<10:23:46,  1.26s/it]                                                          {'loss': 2.0015, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19170/48845 [6:47:21<10:23:46,  1.26s/it] 39%|███▉      | 19171/48845 [6:47:22<10:23:54,  1.26s/it] 39%|███▉      | 19172/48845 [6:47:24<10:24:06,  1.26s/it] 39%|███▉      | 19173/48845 [6:47:25<10:23:38,  1.26s/it] 39%|███▉      | 19174/48845 [6:47:26<10:23:24,  1.26s/it] 39%|███▉      | 19175/48845 [6:47:28<10:23:44,  1.26s/it]                                                          {'loss': 2.022, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19175/48845 [6:47:28<10:23:44,  1.26s/it] 39%|███▉      | 19176/48845 [6:47:29<10:23:34,  1.26s/it] 39%|███▉      | 19177/48845 [6:47:30<10:23:21,  1.26s/it] 39%|███▉      | 19178/48845 [6:47:31<10:22:27,  1.26s/it] 39%|███▉      | 19179/48845 [6:47:33<10:22:29,  1.26s/it] 39%|███▉      | 19180/48845 [6:47:34<10:22:40,  1.26s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19180/48845 [6:47:34<10:22:40,  1.26s/it] 39%|███▉      | 19181/48845 [6:47:35<10:22:46,  1.26s/it] 39%|███▉      | 19182/48845 [6:47:36<10:23:06,  1.26s/it] 39%|███▉      | 19183/48845 [6:47:38<10:22:56,  1.26s/it] 39%|███▉      | 19184/48845 [6:47:39<10:23:45,  1.26s/it] 39%|███▉      | 19185/48845 [6:47:40<10:23:17,  1.26s/it]                                                          {'loss': 2.0515, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19185/48845 [6:47:40<10:23:17,  1.26s/it] 39%|███▉      | 19186/48845 [6:47:41<10:23:47,  1.26s/it] 39%|███▉      | 19187/48845 [6:47:43<10:23:21,  1.26s/it] 39%|███▉      | 19188/48845 [6:47:44<10:23:29,  1.26s/it] 39%|███▉      | 19189/48845 [6:47:45<10:24:11,  1.26s/it] 39%|███▉      | 19190/48845 [6:47:46<10:25:02,  1.26s/it]                                                          {'loss': 1.976, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19190/48845 [6:47:46<10:25:02,  1.26s/it] 39%|███▉      | 19191/48845 [6:47:48<10:24:48,  1.26s/it] 39%|███▉      | 19192/48845 [6:47:49<10:24:26,  1.26s/it] 39%|███▉      | 19193/48845 [6:47:50<10:23:43,  1.26s/it] 39%|███▉      | 19194/48845 [6:47:51<10:23:07,  1.26s/it] 39%|███▉      | 19195/48845 [6:47:53<10:22:55,  1.26s/it]                                                          {'loss': 2.2058, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.96}
+ 39%|███▉      | 19195/48845 [6:47:53<10:22:55,  1.26s/it] 39%|███▉      | 19196/48845 [6:47:54<10:24:06,  1.26s/it] 39%|███▉      | 19197/48845 [6:47:55<10:23:41,  1.26s/it] 39%|███▉      | 19198/48845 [6:47:57<10:23:10,  1.26s/it] 39%|███▉      | 19199/48845 [6:47:58<10:23:16,  1.26s/it] 39%|███▉      | 19200/48845 [6:47:59<10:22:42,  1.26s/it]                                                          {'loss': 2.1509, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19200/48845 [6:47:59<10:22:42,  1.26s/it] 39%|███▉      | 19201/48845 [6:48:03<16:21:57,  1.99s/it] 39%|███▉      | 19202/48845 [6:48:04<14:34:51,  1.77s/it] 39%|███▉      | 19203/48845 [6:48:05<13:19:27,  1.62s/it] 39%|███▉      | 19204/48845 [6:48:07<12:27:18,  1.51s/it] 39%|███▉      | 19205/48845 [6:48:08<11:49:15,  1.44s/it]                                                          {'loss': 2.1802, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19205/48845 [6:48:08<11:49:15,  1.44s/it] 39%|███▉      | 19206/48845 [6:48:09<11:23:08,  1.38s/it] 39%|███▉      | 19207/48845 [6:48:10<11:04:57,  1.35s/it] 39%|███▉      | 19208/48845 [6:48:12<10:51:52,  1.32s/it] 39%|███▉      | 19209/48845 [6:48:13<10:42:50,  1.30s/it] 39%|█���█▉      | 19210/48845 [6:48:14<10:36:58,  1.29s/it]                                                          {'loss': 2.1383, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19210/48845 [6:48:14<10:36:58,  1.29s/it] 39%|███▉      | 19211/48845 [6:48:15<10:32:41,  1.28s/it] 39%|███▉      | 19212/48845 [6:48:17<10:29:47,  1.28s/it] 39%|███▉      | 19213/48845 [6:48:18<10:28:11,  1.27s/it] 39%|███▉      | 19214/48845 [6:48:19<10:26:53,  1.27s/it] 39%|███▉      | 19215/48845 [6:48:20<10:25:43,  1.27s/it]                                                          {'loss': 1.9308, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19215/48845 [6:48:20<10:25:43,  1.27s/it] 39%|███▉      | 19216/48845 [6:48:22<10:24:33,  1.26s/it] 39%|███▉      | 19217/48845 [6:48:23<10:24:08,  1.26s/it] 39%|███▉      | 19218/48845 [6:48:24<10:23:46,  1.26s/it] 39%|███▉      | 19219/48845 [6:48:25<10:22:53,  1.26s/it] 39%|███▉      | 19220/48845 [6:48:27<10:23:17,  1.26s/it]                                                          {'loss': 2.2828, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19220/48845 [6:48:27<10:23:17,  1.26s/it] 39%|███▉      | 19221/48845 [6:48:28<10:22:41,  1.26s/it] 39%|███▉      | 19222/48845 [6:48:29<10:22:14,  1.26s/it] 39%|███▉      | 19223/48845 [6:48:30<10:22:17,  1.26s/it] 39%|███▉      | 19224/48845 [6:48:32<10:22:29,  1.26s/it] 39%|███▉      | 19225/48845 [6:48:33<10:22:50,  1.26s/it]                                                          {'loss': 2.1374, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19225/48845 [6:48:33<10:22:50,  1.26s/it] 39%|███▉      | 19226/48845 [6:48:34<10:22:20,  1.26s/it] 39%|███▉      | 19227/48845 [6:48:36<10:22:13,  1.26s/it] 39%|███▉      | 19228/48845 [6:48:37<10:21:29,  1.26s/it] 39%|███▉      | 19229/48845 [6:48:38<10:21:40,  1.26s/it] 39%|███▉      | 19230/48845 [6:48:39<10:21:50,  1.26s/it]                                                          {'loss': 1.7814, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19230/48845 [6:48:39<10:21:50,  1.26s/it] 39%|███▉      | 19231/48845 [6:48:41<10:22:21,  1.26s/it] 39%|███▉      | 19232/48845 [6:48:42<10:22:44,  1.26s/it] 39%|███▉      | 19233/48845 [6:48:43<10:22:39,  1.26s/it] 39%|███▉      | 19234/48845 [6:48:44<10:22:09,  1.26s/it] 39%|███▉      | 19235/48845 [6:48:46<10:37:08,  1.29s/it]                                                          {'loss': 2.0018, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19235/48845 [6:48:46<10:37:08,  1.29s/it] 39%|███▉      | 19236/48845 [6:48:47<10:33:23,  1.28s/it] 39%|███▉      | 19237/48845 [6:48:48<10:29:47,  1.28s/it] 39%|███▉      | 19238/48845 [6:48:49<10:28:20,  1.27s/it] 39%|███▉      | 19239/48845 [6:48:51<10:25:43,  1.27s/it] 39%|███▉      | 19240/48845 [6:48:52<10:24:12,  1.27s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19240/48845 [6:48:52<10:24:12,  1.27s/it] 39%|███▉      | 19241/48845 [6:48:53<10:23:14,  1.26s/it] 39%|███▉      | 19242/48845 [6:48:55<10:22:28,  1.26s/it] 39%|███▉      | 19243/48845 [6:48:56<10:22:46,  1.26s/it] 39%|███▉      | 19244/48845 [6:48:57<10:22:39,  1.26s/it] 39%|███▉      | 19245/48845 [6:48:58<10:22:58,  1.26s/it]                                                          {'loss': 1.9923, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19245/48845 [6:48:58<10:22:58,  1.26s/it] 39%|███▉      | 19246/48845 [6:49:00<10:24:02,  1.27s/it] 39%|███▉      | 19247/48845 [6:49:01<10:24:06,  1.27s/it] 39%|███▉      | 19248/48845 [6:49:02<10:23:15,  1.26s/it] 39%|███▉      | 19249/48845 [6:49:03<10:22:28,  1.26s/it] 39%|███▉      | 19250/48845 [6:49:05<10:21:56,  1.26s/it]                                                          {'loss': 2.0374, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19250/48845 [6:49:05<10:21:56,  1.26s/it] 39%|███▉      | 19251/48845 [6:49:06<10:22:02,  1.26s/it] 39%|███▉      | 19252/48845 [6:49:07<10:21:05,  1.26s/it] 39%|███▉      | 19253/48845 [6:49:08<10:21:13,  1.26s/it] 39%|███▉      | 19254/48845 [6:49:10<10:21:01,  1.26s/it] 39%|███▉      | 19255/48845 [6:49:11<10:20:49,  1.26s/it]                                                          {'loss': 2.1811, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19255/48845 [6:49:11<10:20:49,  1.26s/it] 39%|███▉      | 19256/48845 [6:49:12<10:21:17,  1.26s/it] 39%|███▉      | 19257/48845 [6:49:13<10:21:14,  1.26s/it] 39%|███▉      | 19258/48845 [6:49:15<10:21:55,  1.26s/it] 39%|███▉      | 19259/48845 [6:49:16<10:21:15,  1.26s/it] 39%|███▉      | 19260/48845 [6:49:17<10:21:14,  1.26s/it]                                                          {'loss': 1.9602, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19260/48845 [6:49:17<10:21:14,  1.26s/it] 39%|███▉      | 19261/48845 [6:49:18<10:21:11,  1.26s/it] 39%|███▉      | 19262/48845 [6:49:20<10:21:54,  1.26s/it] 39%|███▉      | 19263/48845 [6:49:21<10:21:52,  1.26s/it] 39%|███▉      | 19264/48845 [6:49:22<10:22:51,  1.26s/it] 39%|███▉      | 19265/48845 [6:49:24<10:22:14,  1.26s/it]                                                          {'loss': 2.1236, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19265/48845 [6:49:24<10:22:14,  1.26s/it] 39%|███▉      | 19266/48845 [6:49:25<10:22:19,  1.26s/it] 39%|███▉      | 19267/48845 [6:49:26<10:22:02,  1.26s/it] 39%|███▉      | 19268/48845 [6:49:27<10:22:18,  1.26s/it] 39%|███▉      | 19269/48845 [6:49:29<10:22:16,  1.26s/it] 39%|███▉      | 19270/48845 [6:49:30<10:21:55,  1.26s/it]                                                          {'loss': 2.0784, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19270/48845 [6:49:30<10:21:55,  1.26s/it] 39%|███▉      | 19271/48845 [6:49:31<10:22:10,  1.26s/it] 39%|███▉      | 19272/48845 [6:49:32<10:34:01,  1.29s/it] 39%|███▉      | 19273/48845 [6:49:34<10:29:29,  1.28s/it] 39%|███▉      | 19274/48845 [6:49:35<10:26:56,  1.27s/it] 39%|███▉      | 19275/48845 [6:49:36<10:25:52,  1.27s/it]                                                          {'loss': 1.9871, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19275/48845 [6:49:36<10:25:52,  1.27s/it] 39%|███▉      | 19276/48845 [6:49:38<10:26:07,  1.27s/it] 39%|███▉      | 19277/48845 [6:49:39<10:25:15,  1.27s/it] 39%|███▉      | 19278/48845 [6:49:40<10:24:07,  1.27s/it] 39%|███▉      | 19279/48845 [6:49:41<10:23:31,  1.27s/it] 39%|███▉      | 19280/48845 [6:49:43<10:22:55,  1.26s/it]                                                          {'loss': 2.1437, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19280/48845 [6:49:43<10:22:55,  1.26s/it] 39%|███▉      | 19281/48845 [6:49:44<10:22:32,  1.26s/it] 39%|███▉      | 19282/48845 [6:49:45<10:22:35,  1.26s/it] 39%|███▉      | 19283/48845 [6:49:46<10:21:54,  1.26s/it] 39%|███▉      | 19284/48845 [6:49:48<10:21:37,  1.26s/it] 39%|███▉      | 19285/48845 [6:49:49<10:21:11,  1.26s/it]                                                          {'loss': 2.0504, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19285/48845 [6:49:49<10:21:11,  1.26s/it] 39%|███▉      | 19286/48845 [6:49:50<10:20:58,  1.26s/it] 39%|███▉      | 19287/48845 [6:49:51<10:21:05,  1.26s/it] 39%|███▉      | 19288/48845 [6:49:53<10:21:19,  1.26s/it] 39%|███▉      | 19289/48845 [6:49:54<10:21:05,  1.26s/it] 39%|███▉      | 19290/48845 [6:49:55<10:21:26,  1.26s/it]                                                          {'loss': 2.0465, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.97}
+ 39%|███▉      | 19290/48845 [6:49:55<10:21:26,  1.26s/it] 39%|███▉      | 19291/48845 [6:49:56<10:21:43,  1.26s/it] 39%|███▉      | 19292/48845 [6:49:58<10:22:21,  1.26s/it] 39%|███▉      | 19293/48845 [6:49:59<10:22:05,  1.26s/it] 40%|███▉      | 19294/48845 [6:50:00<10:21:49,  1.26s/it] 40%|███▉      | 19295/48845 [6:50:01<10:21:59,  1.26s/it]                                                          {'loss': 1.9365, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19295/48845 [6:50:01<10:21:59,  1.26s/it] 40%|███▉      | 19296/48845 [6:50:03<10:22:03,  1.26s/it] 40%|███▉      | 19297/48845 [6:50:04<10:21:32,  1.26s/it] 40%|███▉      | 19298/48845 [6:50:05<10:22:03,  1.26s/it] 40%|███▉      | 19299/48845 [6:50:07<10:21:33,  1.26s/it] 40%|███▉      | 19300/48845 [6:50:08<10:21:31,  1.26s/it]                                                          {'loss': 2.1203, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19300/48845 [6:50:08<10:21:31,  1.26s/it] 40%|███▉      | 19301/48845 [6:50:09<10:21:55,  1.26s/it] 40%|███▉      | 19302/48845 [6:50:10<10:21:25,  1.26s/it] 40%|███▉      | 19303/48845 [6:50:12<10:21:18,  1.26s/it] 40%|███▉      | 19304/48845 [6:50:13<10:47:27,  1.32s/it] 40%|███▉      | 19305/48845 [6:50:14<10:39:49,  1.30s/it]                                                          {'loss': 2.0467, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19305/48845 [6:50:14<10:39:49,  1.30s/it] 40%|███▉      | 19306/48845 [6:50:16<10:33:48,  1.29s/it] 40%|███▉      | 19307/48845 [6:50:17<10:29:39,  1.28s/it] 40%|███▉      | 19308/48845 [6:50:18<10:26:55,  1.27s/it] 40%|███▉      | 19309/48845 [6:50:19<10:24:40,  1.27s/it] 40%|███▉      | 19310/48845 [6:50:21<10:23:15,  1.27s/it]                                                          {'loss': 2.121, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19310/48845 [6:50:21<10:23:15,  1.27s/it] 40%|███▉      | 19311/48845 [6:50:22<10:22:31,  1.26s/it] 40%|███▉      | 19312/48845 [6:50:23<10:22:34,  1.26s/it] 40%|███▉      | 19313/48845 [6:50:24<10:22:06,  1.26s/it] 40%|███▉      | 19314/48845 [6:50:26<10:21:34,  1.26s/it] 40%|███▉      | 19315/48845 [6:50:27<10:22:32,  1.26s/it]                                                          {'loss': 2.1133, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19315/48845 [6:50:27<10:22:32,  1.26s/it] 40%|███▉      | 19316/48845 [6:50:28<10:22:41,  1.27s/it] 40%|███▉      | 19317/48845 [6:50:29<10:22:01,  1.26s/it] 40%|███▉      | 19318/48845 [6:50:31<10:21:17,  1.26s/it] 40%|███▉      | 19319/48845 [6:50:32<10:20:11,  1.26s/it] 40%|███▉      | 19320/48845 [6:50:33<10:21:27,  1.26s/it]                                                          {'loss': 2.1178, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19320/48845 [6:50:33<10:21:27,  1.26s/it] 40%|███▉      | 19321/48845 [6:50:34<10:22:04,  1.26s/it] 40%|███▉      | 19322/48845 [6:50:36<10:21:29,  1.26s/it] 40%|███▉      | 19323/48845 [6:50:37<10:21:02,  1.26s/it] 40%|███▉      | 19324/48845 [6:50:38<10:44:22,  1.31s/it] 40%|███▉      | 19325/48845 [6:50:40<10:36:34,  1.29s/it]                                                          {'loss': 2.174, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19325/48845 [6:50:40<10:36:34,  1.29s/it] 40%|███▉      | 19326/48845 [6:50:41<10:31:56,  1.28s/it] 40%|███▉      | 19327/48845 [6:50:42<10:28:06,  1.28s/it] 40%|███▉      | 19328/48845 [6:50:44<10:33:46,  1.29s/it] 40%|███▉      | 19329/48845 [6:50:45<10:30:03,  1.28s/it] 40%|███▉      | 19330/48845 [6:50:46<10:27:08,  1.27s/it]                                                          {'loss': 2.0202, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19330/48845 [6:50:46<10:27:08,  1.27s/it] 40%|███▉      | 19331/48845 [6:50:47<10:25:15,  1.27s/it] 40%|███▉      | 19332/48845 [6:50:49<10:25:11,  1.27s/it] 40%|███▉      | 19333/48845 [6:50:50<10:23:34,  1.27s/it] 40%|███▉      | 19334/48845 [6:50:51<10:22:45,  1.27s/it] 40%|███▉      | 19335/48845 [6:50:52<10:21:58,  1.26s/it]                                                          {'loss': 2.0448, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19335/48845 [6:50:52<10:21:58,  1.26s/it] 40%|███▉      | 19336/48845 [6:50:54<10:22:56,  1.27s/it] 40%|███▉      | 19337/48845 [6:50:55<10:21:51,  1.26s/it] 40%|███▉      | 19338/48845 [6:50:56<10:21:15,  1.26s/it] 40%|███▉      | 19339/48845 [6:50:57<10:20:23,  1.26s/it] 40%|███▉      | 19340/48845 [6:50:59<10:21:01,  1.26s/it]                                                          {'loss': 2.0806, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19340/48845 [6:50:59<10:21:01,  1.26s/it] 40%|███▉      | 19341/48845 [6:51:00<10:20:45,  1.26s/it] 40%|███▉      | 19342/48845 [6:51:01<10:20:12,  1.26s/it] 40%|███▉      | 19343/48845 [6:51:02<10:20:17,  1.26s/it] 40%|███▉      | 19344/48845 [6:51:04<10:19:47,  1.26s/it] 40%|███▉      | 19345/48845 [6:51:05<10:20:57,  1.26s/it]                                                          {'loss': 1.9409, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19345/48845 [6:51:05<10:20:57,  1.26s/it] 40%|███▉      | 19346/48845 [6:51:06<10:20:36,  1.26s/it] 40%|███▉      | 19347/48845 [6:51:07<10:19:57,  1.26s/it] 40%|███▉      | 19348/48845 [6:51:09<10:20:17,  1.26s/it] 40%|███▉      | 19349/48845 [6:51:10<10:19:58,  1.26s/it] 40%|███▉      | 19350/48845 [6:51:11<10:20:06,  1.26s/it]                                                          {'loss': 2.2572, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19350/48845 [6:51:11<10:20:06,  1.26s/it] 40%|███▉      | 19351/48845 [6:51:13<10:20:32,  1.26s/it] 40%|███▉      | 19352/48845 [6:51:14<10:41:58,  1.31s/it] 40%|███▉      | 19353/48845 [6:51:15<10:35:18,  1.29s/it] 40%|███▉      | 19354/48845 [6:51:16<10:30:16,  1.28s/it] 40%|███▉      | 19355/48845 [6:51:18<10:26:35,  1.27s/it]                                                          {'loss': 1.9946, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19355/48845 [6:51:18<10:26:35,  1.27s/it] 40%|███▉      | 19356/48845 [6:51:19<10:24:17,  1.27s/it] 40%|███▉      | 19357/48845 [6:51:20<10:22:38,  1.27s/it] 40%|███▉      | 19358/48845 [6:51:22<10:21:30,  1.26s/it] 40%|███▉      | 19359/48845 [6:51:23<10:21:06,  1.26s/it] 40%|███▉      | 19360/48845 [6:51:24<10:20:45,  1.26s/it]                                                          {'loss': 1.9619, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19360/48845 [6:51:24<10:20:45,  1.26s/it] 40%|███▉      | 19361/48845 [6:51:25<10:21:05,  1.26s/it] 40%|███▉      | 19362/48845 [6:51:27<10:21:01,  1.26s/it] 40%|███▉      | 19363/48845 [6:51:28<10:20:34,  1.26s/it] 40%|███▉      | 19364/48845 [6:51:29<10:19:56,  1.26s/it] 40%|███▉      | 19365/48845 [6:51:30<10:19:41,  1.26s/it]                                                          {'loss': 1.9454, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19365/48845 [6:51:30<10:19:41,  1.26s/it] 40%|███▉      | 19366/48845 [6:51:32<10:19:37,  1.26s/it] 40%|███▉      | 19367/48845 [6:51:33<10:19:36,  1.26s/it] 40%|███▉      | 19368/48845 [6:51:34<10:19:17,  1.26s/it] 40%|███▉      | 19369/48845 [6:51:35<10:18:57,  1.26s/it] 40%|███▉      | 19370/48845 [6:51:37<10:19:01,  1.26s/it]                                                          {'loss': 2.0419, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19370/48845 [6:51:37<10:19:01,  1.26s/it] 40%|███▉      | 19371/48845 [6:51:38<10:18:55,  1.26s/it] 40%|███▉      | 19372/48845 [6:51:39<10:19:12,  1.26s/it] 40%|███▉      | 19373/48845 [6:51:40<10:19:56,  1.26s/it] 40%|███▉      | 19374/48845 [6:51:42<10:19:28,  1.26s/it] 40%|███▉      | 19375/48845 [6:51:43<10:20:39,  1.26s/it]                                                          {'loss': 2.1612, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19375/48845 [6:51:43<10:20:39,  1.26s/it] 40%|███▉      | 19376/48845 [6:51:44<10:20:53,  1.26s/it] 40%|███▉      | 19377/48845 [6:51:45<10:19:59,  1.26s/it] 40%|███▉      | 19378/48845 [6:51:47<10:19:37,  1.26s/it] 40%|███▉      | 19379/48845 [6:51:48<10:19:20,  1.26s/it] 40%|███▉      | 19380/48845 [6:51:49<10:18:59,  1.26s/it]                                                          {'loss': 2.1403, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19380/48845 [6:51:49<10:18:59,  1.26s/it] 40%|███▉      | 19381/48845 [6:51:51<10:18:53,  1.26s/it] 40%|███▉      | 19382/48845 [6:51:52<10:19:01,  1.26s/it] 40%|███▉      | 19383/48845 [6:51:53<10:19:07,  1.26s/it] 40%|███▉      | 19384/48845 [6:51:54<10:18:43,  1.26s/it] 40%|███▉      | 19385/48845 [6:51:56<10:18:41,  1.26s/it]                                                          {'loss': 1.8554, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19385/48845 [6:51:56<10:18:41,  1.26s/it] 40%|███▉      | 19386/48845 [6:51:57<10:18:39,  1.26s/it] 40%|███▉      | 19387/48845 [6:51:58<10:18:37,  1.26s/it] 40%|███▉      | 19388/48845 [6:51:59<10:19:05,  1.26s/it] 40%|███▉      | 19389/48845 [6:52:01<10:19:01,  1.26s/it] 40%|███▉      | 19390/48845 [6:52:02<10:19:16,  1.26s/it]                                                          {'loss': 2.0903, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.98}
+ 40%|███▉      | 19390/48845 [6:52:02<10:19:16,  1.26s/it] 40%|███▉      | 19391/48845 [6:52:03<10:20:20,  1.26s/it] 40%|███▉      | 19392/48845 [6:52:04<10:19:17,  1.26s/it] 40%|███▉      | 19393/48845 [6:52:06<10:19:19,  1.26s/it] 40%|███▉      | 19394/48845 [6:52:07<10:18:46,  1.26s/it] 40%|███▉      | 19395/48845 [6:52:08<10:19:44,  1.26s/it]                                                          {'loss': 1.9692, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19395/48845 [6:52:08<10:19:44,  1.26s/it] 40%|███▉      | 19396/48845 [6:52:09<10:20:02,  1.26s/it] 40%|███▉      | 19397/48845 [6:52:11<10:19:41,  1.26s/it] 40%|███▉      | 19398/48845 [6:52:12<10:19:41,  1.26s/it] 40%|███▉      | 19399/48845 [6:52:13<10:19:38,  1.26s/it] 40%|███▉      | 19400/48845 [6:52:14<10:19:06,  1.26s/it]                                                          {'loss': 2.0925, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19400/48845 [6:52:14<10:19:06,  1.26s/it] 40%|███▉      | 19401/48845 [6:52:18<16:16:47,  1.99s/it] 40%|███▉      | 19402/48845 [6:52:19<14:29:13,  1.77s/it] 40%|███▉      | 19403/48845 [6:52:21<13:13:33,  1.62s/it] 40%|███▉      | 19404/48845 [6:52:22<12:21:04,  1.51s/it] 40%|███▉      | 19405/48845 [6:52:23<11:45:06,  1.44s/it]                                                          {'loss': 1.9572, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19405/48845 [6:52:23<11:45:06,  1.44s/it] 40%|███▉      | 19406/48845 [6:52:25<11:21:01,  1.39s/it] 40%|███▉      | 19407/48845 [6:52:26<11:01:34,  1.35s/it] 40%|███▉      | 19408/48845 [6:52:27<10:48:55,  1.32s/it] 40%|███▉      | 19409/48845 [6:52:28<10:39:47,  1.30s/it] 40%|███▉      | 19410/48845 [6:52:30<10:33:10,  1.29s/it]                                                          {'loss': 1.9953, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19410/48845 [6:52:30<10:33:10,  1.29s/it] 40%|███▉      | 19411/48845 [6:52:31<10:28:14,  1.28s/it] 40%|███▉      | 19412/48845 [6:52:32<10:25:28,  1.28s/it] 40%|███▉      | 19413/48845 [6:52:33<10:23:21,  1.27s/it] 40%|███▉      | 19414/48845 [6:52:35<10:22:06,  1.27s/it] 40%|███▉      | 19415/48845 [6:52:36<10:21:16,  1.27s/it]                                                          {'loss': 2.0479, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19415/48845 [6:52:36<10:21:16,  1.27s/it] 40%|███▉      | 19416/48845 [6:52:37<10:20:30,  1.27s/it] 40%|███▉      | 19417/48845 [6:52:38<10:19:15,  1.26s/it] 40%|███▉      | 19418/48845 [6:52:40<10:19:05,  1.26s/it] 40%|███▉      | 19419/48845 [6:52:41<10:18:06,  1.26s/it] 40%|███▉      | 19420/48845 [6:52:42<10:17:44,  1.26s/it]                                                          {'loss': 2.1864, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19420/48845 [6:52:42<10:17:44,  1.26s/it] 40%|███▉      | 19421/48845 [6:52:43<10:17:50,  1.26s/it] 40%|███▉      | 19422/48845 [6:52:45<10:18:04,  1.26s/it] 40%|███▉      | 19423/48845 [6:52:46<10:18:08,  1.26s/it] 40%|███▉      | 19424/48845 [6:52:47<10:17:25,  1.26s/it] 40%|███▉      | 19425/48845 [6:52:48<10:17:58,  1.26s/it]                                                          {'loss': 1.9868, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19425/48845 [6:52:48<10:17:58,  1.26s/it] 40%|███▉      | 19426/48845 [6:52:50<10:17:57,  1.26s/it] 40%|███▉      | 19427/48845 [6:52:51<10:18:08,  1.26s/it] 40%|███▉      | 19428/48845 [6:52:52<10:18:30,  1.26s/it] 40%|███▉      | 19429/48845 [6:52:53<10:18:07,  1.26s/it] 40%|███▉      | 19430/48845 [6:52:55<10:18:34,  1.26s/it]                                                          {'loss': 1.9954, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19430/48845 [6:52:55<10:18:34,  1.26s/it] 40%|███▉      | 19431/48845 [6:52:56<10:18:57,  1.26s/it] 40%|███▉      | 19432/48845 [6:52:57<10:18:15,  1.26s/it] 40%|███▉      | 19433/48845 [6:52:59<10:18:19,  1.26s/it] 40%|███▉      | 19434/48845 [6:53:00<10:33:38,  1.29s/it] 40%|███▉      | 19435/48845 [6:53:01<10:28:51,  1.28s/it]                                                          {'loss': 1.9186, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19435/48845 [6:53:01<10:28:51,  1.28s/it] 40%|███▉      | 19436/48845 [6:53:02<10:25:37,  1.28s/it] 40%|███▉      | 19437/48845 [6:53:04<10:33:19,  1.29s/it] 40%|███▉      | 19438/48845 [6:53:05<10:28:47,  1.28s/it] 40%|███▉      | 19439/48845 [6:53:06<10:25:26,  1.28s/it] 40%|███▉      | 19440/48845 [6:53:08<10:22:52,  1.27s/it]                                                          {'loss': 1.9705, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19440/48845 [6:53:08<10:22:52,  1.27s/it] 40%|███▉      | 19441/48845 [6:53:09<10:21:19,  1.27s/it] 40%|███▉      | 19442/48845 [6:53:10<10:19:43,  1.26s/it] 40%|███▉      | 19443/48845 [6:53:11<10:19:04,  1.26s/it] 40%|███▉      | 19444/48845 [6:53:13<10:18:15,  1.26s/it] 40%|███▉      | 19445/48845 [6:53:14<10:17:54,  1.26s/it]                                                          {'loss': 2.0552, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19445/48845 [6:53:14<10:17:54,  1.26s/it] 40%|███▉      | 19446/48845 [6:53:15<10:17:57,  1.26s/it] 40%|███▉      | 19447/48845 [6:53:16<10:18:00,  1.26s/it] 40%|███▉      | 19448/48845 [6:53:18<10:17:58,  1.26s/it] 40%|███▉      | 19449/48845 [6:53:19<10:17:25,  1.26s/it] 40%|███▉      | 19450/48845 [6:53:20<10:17:16,  1.26s/it]                                                          {'loss': 2.0158, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19450/48845 [6:53:20<10:17:16,  1.26s/it] 40%|███▉      | 19451/48845 [6:53:21<10:17:13,  1.26s/it] 40%|███▉      | 19452/48845 [6:53:23<10:17:30,  1.26s/it] 40%|███▉      | 19453/48845 [6:53:24<10:17:31,  1.26s/it] 40%|███▉      | 19454/48845 [6:53:25<10:17:08,  1.26s/it] 40%|███▉      | 19455/48845 [6:53:26<10:17:13,  1.26s/it]                                                          {'loss': 2.1178, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19455/48845 [6:53:26<10:17:13,  1.26s/it] 40%|███▉      | 19456/48845 [6:53:28<10:16:46,  1.26s/it] 40%|███▉      | 19457/48845 [6:53:29<10:17:00,  1.26s/it] 40%|███▉      | 19458/48845 [6:53:30<10:16:49,  1.26s/it] 40%|███▉      | 19459/48845 [6:53:31<10:16:27,  1.26s/it] 40%|███▉      | 19460/48845 [6:53:33<10:16:56,  1.26s/it]                                                          {'loss': 2.1246, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19460/48845 [6:53:33<10:16:56,  1.26s/it] 40%|███▉      | 19461/48845 [6:53:34<10:17:15,  1.26s/it] 40%|███▉      | 19462/48845 [6:53:35<10:17:01,  1.26s/it] 40%|███▉      | 19463/48845 [6:53:37<10:16:58,  1.26s/it] 40%|███▉      | 19464/48845 [6:53:38<10:16:33,  1.26s/it] 40%|███▉      | 19465/48845 [6:53:39<10:16:16,  1.26s/it]                                                          {'loss': 2.1039, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19465/48845 [6:53:39<10:16:16,  1.26s/it] 40%|███▉      | 19466/48845 [6:53:40<10:16:11,  1.26s/it] 40%|███▉      | 19467/48845 [6:53:42<10:16:23,  1.26s/it] 40%|███▉      | 19468/48845 [6:53:43<10:17:07,  1.26s/it] 40%|███▉      | 19469/48845 [6:53:44<10:17:43,  1.26s/it] 40%|███▉      | 19470/48845 [6:53:45<10:18:01,  1.26s/it]                                                          {'loss': 2.0496, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19470/48845 [6:53:45<10:18:01,  1.26s/it] 40%|███▉      | 19471/48845 [6:53:47<10:17:18,  1.26s/it] 40%|███▉      | 19472/48845 [6:53:48<10:16:36,  1.26s/it] 40%|███▉      | 19473/48845 [6:53:49<10:16:55,  1.26s/it] 40%|███▉      | 19474/48845 [6:53:50<10:16:33,  1.26s/it] 40%|███▉      | 19475/48845 [6:53:52<10:16:35,  1.26s/it]                                                          {'loss': 2.1915, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19475/48845 [6:53:52<10:16:35,  1.26s/it] 40%|███▉      | 19476/48845 [6:53:53<10:17:43,  1.26s/it] 40%|███▉      | 19477/48845 [6:53:54<10:17:42,  1.26s/it] 40%|███▉      | 19478/48845 [6:53:55<10:17:45,  1.26s/it] 40%|███▉      | 19479/48845 [6:53:57<10:17:27,  1.26s/it] 40%|███▉      | 19480/48845 [6:53:58<10:16:57,  1.26s/it]                                                          {'loss': 1.8634, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19480/48845 [6:53:58<10:16:57,  1.26s/it] 40%|███▉      | 19481/48845 [6:53:59<10:17:09,  1.26s/it] 40%|███▉      | 19482/48845 [6:54:00<10:17:11,  1.26s/it] 40%|███▉      | 19483/48845 [6:54:02<10:17:52,  1.26s/it] 40%|███▉      | 19484/48845 [6:54:03<10:17:32,  1.26s/it] 40%|███▉      | 19485/48845 [6:54:04<10:16:59,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.093255966151799e-05, 'epoch': 1.99}
+ 40%|███▉      | 19485/48845 [6:54:04<10:16:59,  1.26s/it] 40%|███▉      | 19486/48845 [6:54:06<10:16:49,  1.26s/it] 40%|███▉      | 19487/48845 [6:54:07<10:16:30,  1.26s/it] 40%|███▉      | 19488/48845 [6:54:08<10:16:35,  1.26s/it] 40%|███▉      | 19489/48845 [6:54:09<10:16:35,  1.26s/it] 40%|███▉      | 19490/48845 [6:54:11<10:16:45,  1.26s/it]                                                          {'loss': 2.1525, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19490/48845 [6:54:11<10:16:45,  1.26s/it] 40%|███▉      | 19491/48845 [6:54:12<10:17:09,  1.26s/it] 40%|███▉      | 19492/48845 [6:54:13<10:17:01,  1.26s/it] 40%|███▉      | 19493/48845 [6:54:14<10:17:10,  1.26s/it] 40%|███▉      | 19494/48845 [6:54:16<10:16:58,  1.26s/it] 40%|███▉      | 19495/48845 [6:54:17<10:16:43,  1.26s/it]                                                          {'loss': 1.8291, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19495/48845 [6:54:17<10:16:43,  1.26s/it] 40%|███▉      | 19496/48845 [6:54:18<10:16:34,  1.26s/it] 40%|███▉      | 19497/48845 [6:54:19<10:16:12,  1.26s/it] 40%|███▉      | 19498/48845 [6:54:21<10:15:44,  1.26s/it] 40%|███▉      | 19499/48845 [6:54:22<10:16:10,  1.26s/it] 40%|███▉      | 19500/48845 [6:54:23<10:16:15,  1.26s/it]                                                          {'loss': 2.1042, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19500/48845 [6:54:23<10:16:15,  1.26s/it] 40%|███▉      | 19501/48845 [6:54:24<10:17:27,  1.26s/it] 40%|███▉      | 19502/48845 [6:54:26<10:17:30,  1.26s/it] 40%|███▉      | 19503/48845 [6:54:27<10:17:01,  1.26s/it] 40%|███▉      | 19504/48845 [6:54:28<10:17:07,  1.26s/it] 40%|███▉      | 19505/48845 [6:54:29<10:16:55,  1.26s/it]                                                          {'loss': 1.9611, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19505/48845 [6:54:29<10:16:55,  1.26s/it] 40%|███▉      | 19506/48845 [6:54:31<10:16:36,  1.26s/it] 40%|███▉      | 19507/48845 [6:54:32<10:16:49,  1.26s/it] 40%|███▉      | 19508/48845 [6:54:33<10:16:34,  1.26s/it] 40%|███▉      | 19509/48845 [6:54:35<10:16:20,  1.26s/it] 40%|███▉      | 19510/48845 [6:54:36<10:16:13,  1.26s/it]                                                          {'loss': 2.1815, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19510/48845 [6:54:36<10:16:13,  1.26s/it] 40%|███▉      | 19511/48845 [6:54:37<10:16:30,  1.26s/it] 40%|███▉      | 19512/48845 [6:54:38<10:16:56,  1.26s/it] 40%|███▉      | 19513/48845 [6:54:40<10:16:57,  1.26s/it] 40%|███▉      | 19514/48845 [6:54:41<10:16:07,  1.26s/it] 40%|███▉      | 19515/48845 [6:54:42<10:15:55,  1.26s/it]                                                          {'loss': 2.0261, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19515/48845 [6:54:42<10:15:55,  1.26s/it] 40%|███▉      | 19516/48845 [6:54:43<10:16:09,  1.26s/it] 40%|███▉      | 19517/48845 [6:54:45<10:16:23,  1.26s/it] 40%|███▉      | 19518/48845 [6:54:46<10:16:05,  1.26s/it] 40%|███▉      | 19519/48845 [6:54:47<10:16:01,  1.26s/it] 40%|███▉      | 19520/48845 [6:54:48<10:17:22,  1.26s/it]                                                          {'loss': 2.0391, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19520/48845 [6:54:48<10:17:22,  1.26s/it] 40%|███▉      | 19521/48845 [6:54:50<10:17:09,  1.26s/it] 40%|███▉      | 19522/48845 [6:54:51<10:17:09,  1.26s/it] 40%|███▉      | 19523/48845 [6:54:52<10:16:06,  1.26s/it] 40%|███▉      | 19524/48845 [6:54:53<10:16:09,  1.26s/it] 40%|███▉      | 19525/48845 [6:54:55<10:16:22,  1.26s/it]                                                          {'loss': 2.0206, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19525/48845 [6:54:55<10:16:22,  1.26s/it] 40%|███▉      | 19526/48845 [6:54:56<10:16:11,  1.26s/it] 40%|███▉      | 19527/48845 [6:54:57<10:32:59,  1.30s/it] 40%|███▉      | 19528/48845 [6:54:59<10:28:15,  1.29s/it] 40%|███▉      | 19529/48845 [6:55:00<10:24:23,  1.28s/it] 40%|███▉      | 19530/48845 [6:55:01<10:21:23,  1.27s/it]                                                          {'loss': 2.0418, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19530/48845 [6:55:01<10:21:23,  1.27s/it] 40%|███▉      | 19531/48845 [6:55:02<10:20:00,  1.27s/it] 40%|███▉      | 19532/48845 [6:55:04<10:18:19,  1.27s/it] 40%|███▉      | 19533/48845 [6:55:05<10:17:35,  1.26s/it] 40%|███▉      | 19534/48845 [6:55:06<10:17:18,  1.26s/it] 40%|███▉      | 19535/48845 [6:55:07<10:17:29,  1.26s/it]                                                          {'loss': 1.9488, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|███▉      | 19535/48845 [6:55:07<10:17:29,  1.26s/it] 40%|███▉      | 19536/48845 [6:55:09<10:17:22,  1.26s/it] 40%|███▉      | 19537/48845 [6:55:10<10:16:33,  1.26s/it] 40%|████      | 19538/48845 [6:55:11<10:16:13,  1.26s/it] 40%|████      | 19539/48845 [6:55:12<10:21:14,  1.27s/it] 40%|████      | 19540/48845 [6:55:14<10:19:36,  1.27s/it]                                                          {'loss': 2.0415, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19540/48845 [6:55:14<10:19:36,  1.27s/it] 40%|████      | 19541/48845 [6:55:15<10:18:33,  1.27s/it] 40%|████      | 19542/48845 [6:55:16<10:18:04,  1.27s/it] 40%|████      | 19543/48845 [6:55:18<10:17:43,  1.26s/it] 40%|████      | 19544/48845 [6:55:19<10:16:55,  1.26s/it] 40%|████      | 19545/48845 [6:55:20<10:15:57,  1.26s/it]                                                          {'loss': 2.308, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19545/48845 [6:55:20<10:15:57,  1.26s/it] 40%|████      | 19546/48845 [6:55:21<10:15:46,  1.26s/it] 40%|████      | 19547/48845 [6:55:23<10:15:55,  1.26s/it] 40%|████      | 19548/48845 [6:55:24<10:15:48,  1.26s/it] 40%|████      | 19549/48845 [6:55:25<10:15:43,  1.26s/it] 40%|████      | 19550/48845 [6:55:26<10:16:00,  1.26s/it]                                                          {'loss': 2.1376, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19550/48845 [6:55:26<10:16:00,  1.26s/it] 40%|████      | 19551/48845 [6:55:28<10:26:59,  1.28s/it] 40%|████      | 19552/48845 [6:55:29<10:23:48,  1.28s/it] 40%|████      | 19553/48845 [6:55:30<10:21:41,  1.27s/it] 40%|████      | 19554/48845 [6:55:31<10:20:17,  1.27s/it] 40%|████      | 19555/48845 [6:55:33<10:19:28,  1.27s/it]                                                          {'loss': 2.1565, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19555/48845 [6:55:33<10:19:28,  1.27s/it] 40%|████      | 19556/48845 [6:55:34<10:17:46,  1.27s/it] 40%|████      | 19557/48845 [6:55:35<10:17:31,  1.27s/it] 40%|████      | 19558/48845 [6:55:37<10:16:30,  1.26s/it] 40%|████      | 19559/48845 [6:55:38<10:17:10,  1.26s/it] 40%|████      | 19560/48845 [6:55:39<10:17:10,  1.26s/it]                                                          {'loss': 2.1095, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19560/48845 [6:55:39<10:17:10,  1.26s/it] 40%|████      | 19561/48845 [6:55:40<10:16:55,  1.26s/it] 40%|████      | 19562/48845 [6:55:42<10:16:36,  1.26s/it] 40%|████      | 19563/48845 [6:55:43<10:16:36,  1.26s/it] 40%|████      | 19564/48845 [6:55:44<10:16:01,  1.26s/it] 40%|████      | 19565/48845 [6:55:45<10:15:26,  1.26s/it]                                                          {'loss': 2.1438, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19565/48845 [6:55:45<10:15:26,  1.26s/it] 40%|████      | 19566/48845 [6:55:47<10:15:24,  1.26s/it] 40%|████      | 19567/48845 [6:55:48<10:15:53,  1.26s/it] 40%|████      | 19568/48845 [6:55:49<10:16:13,  1.26s/it] 40%|████      | 19569/48845 [6:55:50<10:15:38,  1.26s/it] 40%|████      | 19570/48845 [6:55:52<10:15:20,  1.26s/it]                                                          {'loss': 2.0793, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19570/48845 [6:55:52<10:15:20,  1.26s/it] 40%|████      | 19571/48845 [6:55:53<10:15:48,  1.26s/it] 40%|████      | 19572/48845 [6:55:54<10:16:10,  1.26s/it] 40%|████      | 19573/48845 [6:55:55<10:15:50,  1.26s/it] 40%|████      | 19574/48845 [6:55:57<10:14:56,  1.26s/it] 40%|████      | 19575/48845 [6:55:58<10:14:49,  1.26s/it]                                                          {'loss': 2.2227, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19575/48845 [6:55:58<10:14:49,  1.26s/it] 40%|████      | 19576/48845 [6:55:59<10:14:56,  1.26s/it] 40%|████      | 19577/48845 [6:56:01<10:14:53,  1.26s/it] 40%|████      | 19578/48845 [6:56:02<10:15:15,  1.26s/it] 40%|████      | 19579/48845 [6:56:03<10:14:50,  1.26s/it] 40%|████      | 19580/48845 [6:56:04<10:14:57,  1.26s/it]                                                          {'loss': 2.2625, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19580/48845 [6:56:04<10:14:57,  1.26s/it] 40%|████      | 19581/48845 [6:56:06<10:15:32,  1.26s/it] 40%|████      | 19582/48845 [6:56:07<10:15:33,  1.26s/it] 40%|████      | 19583/48845 [6:56:08<10:15:33,  1.26s/it] 40%|████      | 19584/48845 [6:56:09<10:15:14,  1.26s/it] 40%|████      | 19585/48845 [6:56:11<10:15:15,  1.26s/it]                                                          {'loss': 2.0458, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.0}
+ 40%|████      | 19585/48845 [6:56:11<10:15:15,  1.26s/it] 40%|████      | 19586/48845 [6:56:12<10:15:05,  1.26s/it] 40%|████      | 19587/48845 [6:56:13<10:14:45,  1.26s/it] 40%|████      | 19588/48845 [6:56:14<10:15:03,  1.26s/it] 40%|████      | 19589/48845 [6:56:16<10:15:14,  1.26s/it] 40%|████      | 19590/48845 [6:56:17<10:14:56,  1.26s/it]                                                          {'loss': 2.0662, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19590/48845 [6:56:17<10:14:56,  1.26s/it] 40%|████      | 19591/48845 [6:56:18<10:14:43,  1.26s/it] 40%|████      | 19592/48845 [6:56:19<10:14:36,  1.26s/it] 40%|████      | 19593/48845 [6:56:21<10:14:27,  1.26s/it] 40%|████      | 19594/48845 [6:56:22<10:14:41,  1.26s/it] 40%|████      | 19595/48845 [6:56:23<10:14:15,  1.26s/it]                                                          {'loss': 2.0601, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19595/48845 [6:56:23<10:14:15,  1.26s/it] 40%|████      | 19596/48845 [6:56:24<10:14:19,  1.26s/it] 40%|████      | 19597/48845 [6:56:26<10:13:50,  1.26s/it] 40%|████      | 19598/48845 [6:56:27<10:13:48,  1.26s/it] 40%|████      | 19599/48845 [6:56:28<10:14:03,  1.26s/it] 40%|████      | 19600/48845 [6:56:30<10:14:25,  1.26s/it]                                                          {'loss': 1.9899, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19600/48845 [6:56:30<10:14:25,  1.26s/it] 40%|████      | 19601/48845 [6:56:33<16:16:35,  2.00s/it] 40%|████      | 19602/48845 [6:56:35<14:27:40,  1.78s/it] 40%|████      | 19603/48845 [6:56:36<13:11:39,  1.62s/it] 40%|████      | 19604/48845 [6:56:37<12:18:12,  1.51s/it] 40%|████      | 19605/48845 [6:56:38<11:40:52,  1.44s/it]                                                          {'loss': 2.1077, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19605/48845 [6:56:38<11:40:52,  1.44s/it] 40%|████      | 19606/48845 [6:56:40<11:15:01,  1.39s/it] 40%|████      | 19607/48845 [6:56:41<10:56:33,  1.35s/it] 40%|████      | 19608/48845 [6:56:42<10:43:43,  1.32s/it] 40%|████      | 19609/48845 [6:56:43<10:34:37,  1.30s/it] 40%|████      | 19610/48845 [6:56:45<10:28:47,  1.29s/it]                                                          {'loss': 1.978, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19610/48845 [6:56:45<10:28:47,  1.29s/it] 40%|████      | 19611/48845 [6:56:46<10:24:10,  1.28s/it] 40%|████      | 19612/48845 [6:56:47<10:21:05,  1.27s/it] 40%|████      | 19613/48845 [6:56:48<10:19:07,  1.27s/it] 40%|████      | 19614/48845 [6:56:50<10:17:26,  1.27s/it] 40%|████      | 19615/48845 [6:56:51<10:15:50,  1.26s/it]                                                          {'loss': 2.1538, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19615/48845 [6:56:51<10:15:50,  1.26s/it] 40%|████      | 19616/48845 [6:56:52<10:15:35,  1.26s/it] 40%|████      | 19617/48845 [6:56:53<10:14:42,  1.26s/it] 40%|████      | 19618/48845 [6:56:55<10:14:01,  1.26s/it] 40%|████      | 19619/48845 [6:56:56<10:13:58,  1.26s/it] 40%|████      | 19620/48845 [6:56:57<10:14:04,  1.26s/it]                                                          {'loss': 1.8854, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19620/48845 [6:56:57<10:14:04,  1.26s/it] 40%|████      | 19621/48845 [6:56:58<10:14:30,  1.26s/it] 40%|████      | 19622/48845 [6:57:00<10:14:05,  1.26s/it] 40%|████      | 19623/48845 [6:57:01<10:14:10,  1.26s/it] 40%|████      | 19624/48845 [6:57:02<10:13:38,  1.26s/it] 40%|████      | 19625/48845 [6:57:03<10:13:38,  1.26s/it]                                                          {'loss': 2.036, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19625/48845 [6:57:03<10:13:38,  1.26s/it] 40%|████      | 19626/48845 [6:57:05<10:13:54,  1.26s/it] 40%|████      | 19627/48845 [6:57:06<10:13:32,  1.26s/it] 40%|████      | 19628/48845 [6:57:07<10:13:45,  1.26s/it] 40%|████      | 19629/48845 [6:57:09<10:14:40,  1.26s/it] 40%|████      | 19630/48845 [6:57:10<10:14:49,  1.26s/it]                                                          {'loss': 1.9125, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19630/48845 [6:57:10<10:14:49,  1.26s/it] 40%|████      | 19631/48845 [6:57:11<10:15:10,  1.26s/it] 40%|████      | 19632/48845 [6:57:12<10:14:00,  1.26s/it] 40%|████      | 19633/48845 [6:57:14<10:13:42,  1.26s/it] 40%|████      | 19634/48845 [6:57:15<10:14:18,  1.26s/it] 40%|████      | 19635/48845 [6:57:16<10:13:19,  1.26s/it]                                                          {'loss': 2.2074, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19635/48845 [6:57:16<10:13:19,  1.26s/it] 40%|████      | 19636/48845 [6:57:17<10:13:41,  1.26s/it] 40%|████      | 19637/48845 [6:57:19<10:14:17,  1.26s/it] 40%|████      | 19638/48845 [6:57:20<10:14:18,  1.26s/it] 40%|████      | 19639/48845 [6:57:21<10:14:21,  1.26s/it] 40%|████      | 19640/48845 [6:57:22<10:14:25,  1.26s/it]                                                          {'loss': 2.0434, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19640/48845 [6:57:22<10:14:25,  1.26s/it] 40%|████      | 19641/48845 [6:57:24<10:14:18,  1.26s/it] 40%|████      | 19642/48845 [6:57:25<10:14:56,  1.26s/it] 40%|████      | 19643/48845 [6:57:26<10:14:37,  1.26s/it] 40%|████      | 19644/48845 [6:57:27<10:14:00,  1.26s/it] 40%|████      | 19645/48845 [6:57:29<10:13:48,  1.26s/it]                                                          {'loss': 2.0484, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19645/48845 [6:57:29<10:13:48,  1.26s/it] 40%|████      | 19646/48845 [6:57:30<10:13:20,  1.26s/it] 40%|████      | 19647/48845 [6:57:31<10:13:29,  1.26s/it] 40%|████      | 19648/48845 [6:57:33<10:13:08,  1.26s/it] 40%|████      | 19649/48845 [6:57:34<10:13:03,  1.26s/it] 40%|████      | 19650/48845 [6:57:35<10:13:42,  1.26s/it]                                                          {'loss': 2.1308, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19650/48845 [6:57:35<10:13:42,  1.26s/it] 40%|████      | 19651/48845 [6:57:36<10:14:22,  1.26s/it] 40%|████      | 19652/48845 [6:57:38<10:30:48,  1.30s/it] 40%|████      | 19653/48845 [6:57:39<10:26:17,  1.29s/it] 40%|████      | 19654/48845 [6:57:40<10:22:41,  1.28s/it] 40%|████      | 19655/48845 [6:57:41<10:19:44,  1.27s/it]                                                          {'loss': 1.9327, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19655/48845 [6:57:41<10:19:44,  1.27s/it] 40%|████      | 19656/48845 [6:57:43<10:18:12,  1.27s/it] 40%|████      | 19657/48845 [6:57:44<10:15:46,  1.27s/it] 40%|████      | 19658/48845 [6:57:45<10:15:32,  1.27s/it] 40%|████      | 19659/48845 [6:57:46<10:14:28,  1.26s/it] 40%|████      | 19660/48845 [6:57:48<10:13:39,  1.26s/it]                                                          {'loss': 2.0949, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19660/48845 [6:57:48<10:13:39,  1.26s/it] 40%|████      | 19661/48845 [6:57:49<10:12:49,  1.26s/it] 40%|████      | 19662/48845 [6:57:50<10:12:59,  1.26s/it] 40%|████      | 19663/48845 [6:57:52<10:13:42,  1.26s/it] 40%|████      | 19664/48845 [6:57:53<10:14:35,  1.26s/it] 40%|████      | 19665/48845 [6:57:54<10:13:56,  1.26s/it]                                                          {'loss': 2.1407, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19665/48845 [6:57:54<10:13:56,  1.26s/it] 40%|████      | 19666/48845 [6:57:56<11:15:58,  1.39s/it] 40%|████      | 19667/48845 [6:57:57<10:57:32,  1.35s/it] 40%|████      | 19668/48845 [6:57:58<10:43:55,  1.32s/it] 40%|████      | 19669/48845 [6:58:00<10:34:16,  1.30s/it] 40%|████      | 19670/48845 [6:58:01<10:27:12,  1.29s/it]                                                          {'loss': 2.0214, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19670/48845 [6:58:01<10:27:12,  1.29s/it] 40%|████      | 19671/48845 [6:58:02<10:22:52,  1.28s/it] 40%|████      | 19672/48845 [6:58:03<10:19:15,  1.27s/it] 40%|████      | 19673/48845 [6:58:05<10:16:56,  1.27s/it] 40%|████      | 19674/48845 [6:58:06<10:16:32,  1.27s/it] 40%|████      | 19675/48845 [6:58:07<10:14:45,  1.26s/it]                                                          {'loss': 2.0392, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19675/48845 [6:58:07<10:14:45,  1.26s/it] 40%|████      | 19676/48845 [6:58:08<10:14:20,  1.26s/it] 40%|████      | 19677/48845 [6:58:10<10:13:40,  1.26s/it] 40%|████      | 19678/48845 [6:58:11<10:13:02,  1.26s/it] 40%|████      | 19679/48845 [6:58:12<10:13:36,  1.26s/it] 40%|████      | 19680/48845 [6:58:13<10:13:16,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.01}
+ 40%|████      | 19680/48845 [6:58:13<10:13:16,  1.26s/it] 40%|████      | 19681/48845 [6:58:15<10:13:39,  1.26s/it] 40%|████      | 19682/48845 [6:58:16<10:13:40,  1.26s/it] 40%|████      | 19683/48845 [6:58:17<10:13:16,  1.26s/it] 40%|████      | 19684/48845 [6:58:18<10:13:08,  1.26s/it] 40%|████      | 19685/48845 [6:58:20<10:12:31,  1.26s/it]                                                          {'loss': 2.0382, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19685/48845 [6:58:20<10:12:31,  1.26s/it] 40%|████      | 19686/48845 [6:58:21<10:12:42,  1.26s/it] 40%|████      | 19687/48845 [6:58:22<10:12:43,  1.26s/it] 40%|████      | 19688/48845 [6:58:23<10:12:13,  1.26s/it] 40%|████      | 19689/48845 [6:58:25<10:13:16,  1.26s/it] 40%|████      | 19690/48845 [6:58:26<10:12:46,  1.26s/it]                                                          {'loss': 2.0798, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19690/48845 [6:58:26<10:12:46,  1.26s/it] 40%|████      | 19691/48845 [6:58:27<10:12:28,  1.26s/it] 40%|████      | 19692/48845 [6:58:29<10:12:59,  1.26s/it] 40%|████      | 19693/48845 [6:58:30<10:12:55,  1.26s/it] 40%|████      | 19694/48845 [6:58:31<10:12:19,  1.26s/it] 40%|████      | 19695/48845 [6:58:32<10:12:16,  1.26s/it]                                                          {'loss': 2.0122, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19695/48845 [6:58:32<10:12:16,  1.26s/it] 40%|████      | 19696/48845 [6:58:34<10:13:33,  1.26s/it] 40%|████      | 19697/48845 [6:58:35<10:13:10,  1.26s/it] 40%|████      | 19698/48845 [6:58:36<10:12:25,  1.26s/it] 40%|████      | 19699/48845 [6:58:37<10:12:14,  1.26s/it] 40%|████      | 19700/48845 [6:58:39<10:33:04,  1.30s/it]                                                          {'loss': 2.0666, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19700/48845 [6:58:39<10:33:04,  1.30s/it] 40%|████      | 19701/48845 [6:58:40<10:27:34,  1.29s/it] 40%|████      | 19702/48845 [6:58:41<10:22:40,  1.28s/it] 40%|████      | 19703/48845 [6:58:43<10:19:18,  1.28s/it] 40%|████      | 19704/48845 [6:58:44<10:18:12,  1.27s/it] 40%|████      | 19705/48845 [6:58:45<10:16:27,  1.27s/it]                                                          {'loss': 2.0641, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19705/48845 [6:58:45<10:16:27,  1.27s/it] 40%|████      | 19706/48845 [6:58:46<10:15:18,  1.27s/it] 40%|████      | 19707/48845 [6:58:48<10:13:57,  1.26s/it] 40%|████      | 19708/48845 [6:58:49<10:13:18,  1.26s/it] 40%|████      | 19709/48845 [6:58:50<10:13:23,  1.26s/it] 40%|████      | 19710/48845 [6:58:51<10:12:42,  1.26s/it]                                                          {'loss': 1.9463, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19710/48845 [6:58:51<10:12:42,  1.26s/it] 40%|████      | 19711/48845 [6:58:53<10:13:17,  1.26s/it] 40%|████      | 19712/48845 [6:58:54<10:12:33,  1.26s/it] 40%|████      | 19713/48845 [6:58:55<10:12:40,  1.26s/it] 40%|████      | 19714/48845 [6:58:56<10:12:19,  1.26s/it] 40%|████      | 19715/48845 [6:58:58<10:12:04,  1.26s/it]                                                          {'loss': 2.0425, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19715/48845 [6:58:58<10:12:04,  1.26s/it] 40%|████      | 19716/48845 [6:58:59<10:11:52,  1.26s/it] 40%|████      | 19717/48845 [6:59:00<10:12:30,  1.26s/it] 40%|████      | 19718/48845 [6:59:01<10:12:28,  1.26s/it] 40%|████      | 19719/48845 [6:59:03<10:12:35,  1.26s/it] 40%|████      | 19720/48845 [6:59:04<10:12:08,  1.26s/it]                                                          {'loss': 2.1265, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19720/48845 [6:59:04<10:12:08,  1.26s/it] 40%|████      | 19721/48845 [6:59:05<10:12:01,  1.26s/it] 40%|████      | 19722/48845 [6:59:07<10:12:03,  1.26s/it] 40%|████      | 19723/48845 [6:59:08<10:11:50,  1.26s/it] 40%|████      | 19724/48845 [6:59:09<10:11:35,  1.26s/it] 40%|████      | 19725/48845 [6:59:10<10:11:23,  1.26s/it]                                                          {'loss': 1.9989, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19725/48845 [6:59:10<10:11:23,  1.26s/it] 40%|████      | 19726/48845 [6:59:12<10:11:38,  1.26s/it] 40%|████      | 19727/48845 [6:59:13<10:12:05,  1.26s/it] 40%|████      | 19728/48845 [6:59:14<10:11:31,  1.26s/it] 40%|████      | 19729/48845 [6:59:15<10:12:03,  1.26s/it] 40%|████      | 19730/48845 [6:59:17<10:11:48,  1.26s/it]                                                          {'loss': 2.0563, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19730/48845 [6:59:17<10:11:48,  1.26s/it] 40%|████      | 19731/48845 [6:59:18<10:11:59,  1.26s/it] 40%|████      | 19732/48845 [6:59:19<10:11:45,  1.26s/it] 40%|████      | 19733/48845 [6:59:20<10:11:40,  1.26s/it] 40%|████      | 19734/48845 [6:59:22<10:12:20,  1.26s/it] 40%|████      | 19735/48845 [6:59:23<10:12:32,  1.26s/it]                                                          {'loss': 2.0275, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19735/48845 [6:59:23<10:12:32,  1.26s/it] 40%|████      | 19736/48845 [6:59:24<10:12:07,  1.26s/it] 40%|████      | 19737/48845 [6:59:25<10:11:41,  1.26s/it] 40%|████      | 19738/48845 [6:59:27<10:11:11,  1.26s/it] 40%|████      | 19739/48845 [6:59:28<10:11:37,  1.26s/it] 40%|████      | 19740/48845 [6:59:29<10:12:20,  1.26s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19740/48845 [6:59:29<10:12:20,  1.26s/it] 40%|████      | 19741/48845 [6:59:30<10:12:01,  1.26s/it] 40%|████      | 19742/48845 [6:59:32<10:11:46,  1.26s/it] 40%|████      | 19743/48845 [6:59:33<10:11:48,  1.26s/it] 40%|████      | 19744/48845 [6:59:34<10:11:17,  1.26s/it] 40%|████      | 19745/48845 [6:59:36<10:12:15,  1.26s/it]                                                          {'loss': 2.1356, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19745/48845 [6:59:36<10:12:15,  1.26s/it] 40%|████      | 19746/48845 [6:59:37<10:12:11,  1.26s/it] 40%|████      | 19747/48845 [6:59:38<10:11:55,  1.26s/it] 40%|████      | 19748/48845 [6:59:39<10:11:53,  1.26s/it] 40%|████      | 19749/48845 [6:59:41<10:11:32,  1.26s/it] 40%|████      | 19750/48845 [6:59:42<10:11:04,  1.26s/it]                                                          {'loss': 2.1148, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19750/48845 [6:59:42<10:11:04,  1.26s/it] 40%|████      | 19751/48845 [6:59:43<10:11:13,  1.26s/it] 40%|████      | 19752/48845 [6:59:44<10:11:44,  1.26s/it] 40%|████      | 19753/48845 [6:59:46<10:11:49,  1.26s/it] 40%|████      | 19754/48845 [6:59:47<10:11:18,  1.26s/it] 40%|████      | 19755/48845 [6:59:48<10:11:20,  1.26s/it]                                                          {'loss': 1.8917, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19755/48845 [6:59:48<10:11:20,  1.26s/it] 40%|████      | 19756/48845 [6:59:49<10:12:06,  1.26s/it] 40%|████      | 19757/48845 [6:59:51<10:12:02,  1.26s/it] 40%|████      | 19758/48845 [6:59:52<10:11:36,  1.26s/it] 40%|████      | 19759/48845 [6:59:53<10:11:22,  1.26s/it] 40%|████      | 19760/48845 [6:59:54<10:10:54,  1.26s/it]                                                          {'loss': 2.026, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19760/48845 [6:59:54<10:10:54,  1.26s/it] 40%|████      | 19761/48845 [6:59:56<10:11:41,  1.26s/it] 40%|████      | 19762/48845 [6:59:57<10:12:10,  1.26s/it] 40%|████      | 19763/48845 [6:59:58<10:12:05,  1.26s/it] 40%|████      | 19764/48845 [6:59:59<10:12:22,  1.26s/it] 40%|████      | 19765/48845 [7:00:01<10:11:44,  1.26s/it]                                                          {'loss': 1.993, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19765/48845 [7:00:01<10:11:44,  1.26s/it] 40%|████      | 19766/48845 [7:00:02<10:11:29,  1.26s/it] 40%|████      | 19767/48845 [7:00:03<10:10:55,  1.26s/it] 40%|████      | 19768/48845 [7:00:05<10:13:14,  1.27s/it] 40%|████      | 19769/48845 [7:00:06<10:12:39,  1.26s/it] 40%|████      | 19770/48845 [7:00:07<10:12:14,  1.26s/it]                                                          {'loss': 1.9556, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19770/48845 [7:00:07<10:12:14,  1.26s/it] 40%|████      | 19771/48845 [7:00:08<10:11:49,  1.26s/it] 40%|████      | 19772/48845 [7:00:10<10:11:23,  1.26s/it] 40%|████      | 19773/48845 [7:00:11<10:10:54,  1.26s/it] 40%|████      | 19774/48845 [7:00:12<10:10:44,  1.26s/it] 40%|████      | 19775/48845 [7:00:13<10:10:31,  1.26s/it]                                                          {'loss': 1.9269, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19775/48845 [7:00:13<10:10:31,  1.26s/it] 40%|████      | 19776/48845 [7:00:15<10:12:06,  1.26s/it] 40%|████      | 19777/48845 [7:00:16<10:12:18,  1.26s/it] 40%|████      | 19778/48845 [7:00:17<10:11:23,  1.26s/it] 40%|████      | 19779/48845 [7:00:18<10:11:20,  1.26s/it] 40%|████      | 19780/48845 [7:00:20<10:11:01,  1.26s/it]                                                          {'loss': 1.9142, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.02}
+ 40%|████      | 19780/48845 [7:00:20<10:11:01,  1.26s/it] 40%|████      | 19781/48845 [7:00:21<10:11:45,  1.26s/it] 40%|████      | 19782/48845 [7:00:22<10:11:35,  1.26s/it] 41%|████      | 19783/48845 [7:00:23<10:11:02,  1.26s/it] 41%|████      | 19784/48845 [7:00:25<10:11:25,  1.26s/it] 41%|████      | 19785/48845 [7:00:26<10:12:02,  1.26s/it]                                                          {'loss': 2.137, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19785/48845 [7:00:26<10:12:02,  1.26s/it] 41%|████      | 19786/48845 [7:00:27<10:11:57,  1.26s/it] 41%|████      | 19787/48845 [7:00:29<10:11:24,  1.26s/it] 41%|████      | 19788/48845 [7:00:30<10:11:05,  1.26s/it] 41%|████      | 19789/48845 [7:00:31<10:11:01,  1.26s/it] 41%|████      | 19790/48845 [7:00:32<10:10:44,  1.26s/it]                                                          {'loss': 1.9353, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19790/48845 [7:00:32<10:10:44,  1.26s/it] 41%|████      | 19791/48845 [7:00:34<10:10:50,  1.26s/it] 41%|████      | 19792/48845 [7:00:35<10:10:34,  1.26s/it] 41%|████      | 19793/48845 [7:00:36<10:10:27,  1.26s/it] 41%|████      | 19794/48845 [7:00:37<10:10:27,  1.26s/it] 41%|████      | 19795/48845 [7:00:39<10:10:13,  1.26s/it]                                                          {'loss': 2.0333, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19795/48845 [7:00:39<10:10:13,  1.26s/it] 41%|████      | 19796/48845 [7:00:40<10:10:28,  1.26s/it] 41%|████      | 19797/48845 [7:00:41<10:10:10,  1.26s/it] 41%|████      | 19798/48845 [7:00:42<10:10:23,  1.26s/it] 41%|████      | 19799/48845 [7:00:44<10:11:37,  1.26s/it] 41%|████      | 19800/48845 [7:00:45<10:11:00,  1.26s/it]                                                          {'loss': 2.0925, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19800/48845 [7:00:45<10:11:00,  1.26s/it] 41%|████      | 19801/48845 [7:00:49<16:00:36,  1.98s/it] 41%|████      | 19802/48845 [7:00:50<14:15:08,  1.77s/it] 41%|████      | 19803/48845 [7:00:51<13:01:28,  1.61s/it] 41%|████      | 19804/48845 [7:00:52<12:09:00,  1.51s/it] 41%|████      | 19805/48845 [7:00:54<11:32:44,  1.43s/it]                                                          {'loss': 1.9887, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19805/48845 [7:00:54<11:32:44,  1.43s/it] 41%|████      | 19806/48845 [7:00:55<11:08:06,  1.38s/it] 41%|████      | 19807/48845 [7:00:56<10:50:10,  1.34s/it] 41%|████      | 19808/48845 [7:00:57<10:38:27,  1.32s/it] 41%|████      | 19809/48845 [7:00:59<10:29:47,  1.30s/it] 41%|████      | 19810/48845 [7:01:00<10:23:22,  1.29s/it]                                                          {'loss': 2.1223, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19810/48845 [7:01:00<10:23:22,  1.29s/it] 41%|████      | 19811/48845 [7:01:01<10:19:12,  1.28s/it] 41%|████      | 19812/48845 [7:01:02<10:15:53,  1.27s/it] 41%|████      | 19813/48845 [7:01:04<10:14:26,  1.27s/it] 41%|████      | 19814/48845 [7:01:05<10:13:02,  1.27s/it] 41%|████      | 19815/48845 [7:01:06<10:12:33,  1.27s/it]                                                          {'loss': 2.0759, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19815/48845 [7:01:06<10:12:33,  1.27s/it] 41%|████      | 19816/48845 [7:01:07<10:11:23,  1.26s/it] 41%|████      | 19817/48845 [7:01:09<10:10:45,  1.26s/it] 41%|████      | 19818/48845 [7:01:10<10:10:46,  1.26s/it] 41%|████      | 19819/48845 [7:01:11<10:10:22,  1.26s/it] 41%|████      | 19820/48845 [7:01:13<10:10:45,  1.26s/it]                                                          {'loss': 2.0699, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19820/48845 [7:01:13<10:10:45,  1.26s/it] 41%|████      | 19821/48845 [7:01:14<10:11:01,  1.26s/it] 41%|████      | 19822/48845 [7:01:15<10:10:23,  1.26s/it] 41%|████      | 19823/48845 [7:01:16<10:10:09,  1.26s/it] 41%|████      | 19824/48845 [7:01:18<10:10:12,  1.26s/it] 41%|████      | 19825/48845 [7:01:19<10:09:39,  1.26s/it]                                                          {'loss': 1.9995, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19825/48845 [7:01:19<10:09:39,  1.26s/it] 41%|████      | 19826/48845 [7:01:20<10:09:50,  1.26s/it] 41%|████      | 19827/48845 [7:01:21<10:09:19,  1.26s/it] 41%|████      | 19828/48845 [7:01:23<10:09:16,  1.26s/it] 41%|████      | 19829/48845 [7:01:24<10:09:31,  1.26s/it] 41%|████      | 19830/48845 [7:01:25<10:08:43,  1.26s/it]                                                          {'loss': 2.1576, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19830/48845 [7:01:25<10:08:43,  1.26s/it] 41%|████      | 19831/48845 [7:01:26<10:09:31,  1.26s/it] 41%|████      | 19832/48845 [7:01:28<10:10:11,  1.26s/it] 41%|████      | 19833/48845 [7:01:29<10:10:04,  1.26s/it] 41%|████      | 19834/48845 [7:01:30<10:10:04,  1.26s/it] 41%|████      | 19835/48845 [7:01:31<10:10:58,  1.26s/it]                                                          {'loss': 1.9806, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19835/48845 [7:01:31<10:10:58,  1.26s/it] 41%|████      | 19836/48845 [7:01:33<10:10:24,  1.26s/it] 41%|████      | 19837/48845 [7:01:34<10:10:23,  1.26s/it] 41%|████      | 19838/48845 [7:01:35<10:09:56,  1.26s/it] 41%|████      | 19839/48845 [7:01:36<10:09:52,  1.26s/it] 41%|████      | 19840/48845 [7:01:38<10:09:02,  1.26s/it]                                                          {'loss': 2.0281, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19840/48845 [7:01:38<10:09:02,  1.26s/it] 41%|████      | 19841/48845 [7:01:39<10:09:05,  1.26s/it] 41%|████      | 19842/48845 [7:01:40<10:09:32,  1.26s/it] 41%|████      | 19843/48845 [7:01:42<10:09:56,  1.26s/it] 41%|████      | 19844/48845 [7:01:43<10:09:49,  1.26s/it] 41%|████      | 19845/48845 [7:01:44<10:10:04,  1.26s/it]                                                          {'loss': 2.0892, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19845/48845 [7:01:44<10:10:04,  1.26s/it] 41%|████      | 19846/48845 [7:01:45<10:09:51,  1.26s/it] 41%|████      | 19847/48845 [7:01:47<10:09:31,  1.26s/it] 41%|████      | 19848/48845 [7:01:48<10:09:08,  1.26s/it] 41%|████      | 19849/48845 [7:01:49<10:08:54,  1.26s/it] 41%|████      | 19850/48845 [7:01:50<10:09:36,  1.26s/it]                                                          {'loss': 1.8751, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19850/48845 [7:01:50<10:09:36,  1.26s/it] 41%|████      | 19851/48845 [7:01:52<10:09:19,  1.26s/it] 41%|████      | 19852/48845 [7:01:53<10:09:32,  1.26s/it] 41%|████      | 19853/48845 [7:01:54<10:09:01,  1.26s/it] 41%|████      | 19854/48845 [7:01:55<10:08:45,  1.26s/it] 41%|████      | 19855/48845 [7:01:57<10:09:04,  1.26s/it]                                                          {'loss': 2.1149, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19855/48845 [7:01:57<10:09:04,  1.26s/it] 41%|████      | 19856/48845 [7:01:58<10:10:17,  1.26s/it] 41%|████      | 19857/48845 [7:01:59<10:10:07,  1.26s/it] 41%|████      | 19858/48845 [7:02:00<10:10:00,  1.26s/it] 41%|████      | 19859/48845 [7:02:02<10:09:34,  1.26s/it] 41%|████      | 19860/48845 [7:02:03<10:09:30,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19860/48845 [7:02:03<10:09:30,  1.26s/it] 41%|████      | 19861/48845 [7:02:04<10:10:16,  1.26s/it] 41%|████      | 19862/48845 [7:02:05<10:09:14,  1.26s/it] 41%|████      | 19863/48845 [7:02:07<10:09:05,  1.26s/it] 41%|████      | 19864/48845 [7:02:08<10:08:29,  1.26s/it] 41%|████      | 19865/48845 [7:02:09<10:08:31,  1.26s/it]                                                          {'loss': 2.0678, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19865/48845 [7:02:09<10:08:31,  1.26s/it] 41%|████      | 19866/48845 [7:02:11<10:09:13,  1.26s/it] 41%|████      | 19867/48845 [7:02:12<10:08:55,  1.26s/it] 41%|████      | 19868/48845 [7:02:13<10:08:59,  1.26s/it] 41%|████      | 19869/48845 [7:02:14<10:08:59,  1.26s/it] 41%|████      | 19870/48845 [7:02:16<10:08:25,  1.26s/it]                                                          {'loss': 2.3391, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19870/48845 [7:02:16<10:08:25,  1.26s/it] 41%|████      | 19871/48845 [7:02:17<10:08:46,  1.26s/it] 41%|████      | 19872/48845 [7:02:18<10:08:58,  1.26s/it] 41%|████      | 19873/48845 [7:02:19<10:09:03,  1.26s/it] 41%|████      | 19874/48845 [7:02:21<10:08:52,  1.26s/it] 41%|████      | 19875/48845 [7:02:22<10:08:28,  1.26s/it]                                                          {'loss': 2.087, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.03}
+ 41%|████      | 19875/48845 [7:02:22<10:08:28,  1.26s/it] 41%|████      | 19876/48845 [7:02:23<10:09:30,  1.26s/it] 41%|████      | 19877/48845 [7:02:24<10:09:13,  1.26s/it] 41%|████      | 19878/48845 [7:02:26<10:08:46,  1.26s/it] 41%|████      | 19879/48845 [7:02:27<10:08:32,  1.26s/it] 41%|████      | 19880/48845 [7:02:28<10:08:23,  1.26s/it]                                                          {'loss': 2.0022, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19880/48845 [7:02:28<10:08:23,  1.26s/it] 41%|████      | 19881/48845 [7:02:29<10:08:47,  1.26s/it] 41%|████      | 19882/48845 [7:02:31<10:08:34,  1.26s/it] 41%|████      | 19883/48845 [7:02:32<10:08:22,  1.26s/it] 41%|████      | 19884/48845 [7:02:33<10:07:54,  1.26s/it] 41%|████      | 19885/48845 [7:02:34<10:07:56,  1.26s/it]                                                          {'loss': 2.0101, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19885/48845 [7:02:34<10:07:56,  1.26s/it] 41%|████      | 19886/48845 [7:02:36<10:07:50,  1.26s/it] 41%|████      | 19887/48845 [7:02:37<10:07:41,  1.26s/it] 41%|████      | 19888/48845 [7:02:38<10:07:52,  1.26s/it] 41%|████      | 19889/48845 [7:02:40<10:08:31,  1.26s/it] 41%|████      | 19890/48845 [7:02:41<10:09:02,  1.26s/it]                                                          {'loss': 2.1196, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19890/48845 [7:02:41<10:09:02,  1.26s/it] 41%|████      | 19891/48845 [7:02:42<10:09:07,  1.26s/it] 41%|████      | 19892/48845 [7:02:43<10:09:14,  1.26s/it] 41%|████      | 19893/48845 [7:02:45<10:09:18,  1.26s/it] 41%|████      | 19894/48845 [7:02:46<10:08:57,  1.26s/it] 41%|████      | 19895/48845 [7:02:47<10:08:16,  1.26s/it]                                                          {'loss': 1.9365, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19895/48845 [7:02:47<10:08:16,  1.26s/it] 41%|████      | 19896/48845 [7:02:48<10:08:46,  1.26s/it] 41%|████      | 19897/48845 [7:02:50<10:11:11,  1.27s/it] 41%|████      | 19898/48845 [7:02:51<10:09:56,  1.26s/it] 41%|████      | 19899/48845 [7:02:52<10:09:18,  1.26s/it] 41%|████      | 19900/48845 [7:02:53<10:08:25,  1.26s/it]                                                          {'loss': 1.907, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19900/48845 [7:02:53<10:08:25,  1.26s/it] 41%|████      | 19901/48845 [7:02:55<10:08:50,  1.26s/it] 41%|████      | 19902/48845 [7:02:56<10:09:33,  1.26s/it] 41%|████      | 19903/48845 [7:02:57<10:08:37,  1.26s/it] 41%|████      | 19904/48845 [7:02:58<10:08:39,  1.26s/it] 41%|████      | 19905/48845 [7:03:00<10:08:54,  1.26s/it]                                                          {'loss': 2.2065, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19905/48845 [7:03:00<10:08:54,  1.26s/it] 41%|████      | 19906/48845 [7:03:01<10:08:46,  1.26s/it] 41%|████      | 19907/48845 [7:03:02<10:08:33,  1.26s/it] 41%|████      | 19908/48845 [7:03:04<10:09:12,  1.26s/it] 41%|████      | 19909/48845 [7:03:05<10:08:45,  1.26s/it] 41%|████      | 19910/48845 [7:03:06<10:08:51,  1.26s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19910/48845 [7:03:06<10:08:51,  1.26s/it] 41%|████      | 19911/48845 [7:03:07<10:08:27,  1.26s/it] 41%|████      | 19912/48845 [7:03:09<10:08:36,  1.26s/it] 41%|████      | 19913/48845 [7:03:10<10:08:54,  1.26s/it] 41%|████      | 19914/48845 [7:03:11<10:07:58,  1.26s/it] 41%|████      | 19915/48845 [7:03:12<10:08:39,  1.26s/it]                                                          {'loss': 2.0426, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19915/48845 [7:03:12<10:08:39,  1.26s/it] 41%|████      | 19916/48845 [7:03:14<10:07:54,  1.26s/it] 41%|████      | 19917/48845 [7:03:15<10:07:28,  1.26s/it] 41%|████      | 19918/48845 [7:03:16<10:07:56,  1.26s/it] 41%|████      | 19919/48845 [7:03:17<10:07:48,  1.26s/it] 41%|████      | 19920/48845 [7:03:19<10:07:57,  1.26s/it]                                                          {'loss': 2.0182, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19920/48845 [7:03:19<10:07:57,  1.26s/it] 41%|████      | 19921/48845 [7:03:20<10:08:23,  1.26s/it] 41%|████      | 19922/48845 [7:03:21<10:08:04,  1.26s/it] 41%|████      | 19923/48845 [7:03:22<10:08:13,  1.26s/it] 41%|████      | 19924/48845 [7:03:24<10:08:08,  1.26s/it] 41%|████      | 19925/48845 [7:03:25<10:07:39,  1.26s/it]                                                          {'loss': 2.1295, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19925/48845 [7:03:25<10:07:39,  1.26s/it] 41%|████      | 19926/48845 [7:03:26<10:07:59,  1.26s/it] 41%|████      | 19927/48845 [7:03:27<10:07:56,  1.26s/it] 41%|████      | 19928/48845 [7:03:29<10:07:59,  1.26s/it] 41%|████      | 19929/48845 [7:03:30<10:08:23,  1.26s/it] 41%|████      | 19930/48845 [7:03:31<10:08:19,  1.26s/it]                                                          {'loss': 1.9778, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19930/48845 [7:03:31<10:08:19,  1.26s/it] 41%|████      | 19931/48845 [7:03:33<10:09:11,  1.26s/it] 41%|████      | 19932/48845 [7:03:34<10:08:21,  1.26s/it] 41%|████      | 19933/48845 [7:03:35<10:07:57,  1.26s/it] 41%|████      | 19934/48845 [7:03:36<10:07:57,  1.26s/it] 41%|████      | 19935/48845 [7:03:38<10:08:20,  1.26s/it]                                                          {'loss': 2.1778, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19935/48845 [7:03:38<10:08:20,  1.26s/it] 41%|████      | 19936/48845 [7:03:39<10:08:21,  1.26s/it] 41%|████      | 19937/48845 [7:03:40<10:07:59,  1.26s/it] 41%|████      | 19938/48845 [7:03:41<10:07:57,  1.26s/it] 41%|████      | 19939/48845 [7:03:43<10:08:12,  1.26s/it] 41%|████      | 19940/48845 [7:03:44<10:08:19,  1.26s/it]                                                          {'loss': 1.9971, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19940/48845 [7:03:44<10:08:19,  1.26s/it] 41%|████      | 19941/48845 [7:03:45<10:08:22,  1.26s/it] 41%|████      | 19942/48845 [7:03:46<10:08:04,  1.26s/it] 41%|████      | 19943/48845 [7:03:48<10:08:19,  1.26s/it] 41%|████      | 19944/48845 [7:03:49<10:07:55,  1.26s/it] 41%|████      | 19945/48845 [7:03:50<10:08:06,  1.26s/it]                                                          {'loss': 2.1581, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19945/48845 [7:03:50<10:08:06,  1.26s/it] 41%|████      | 19946/48845 [7:03:51<10:08:08,  1.26s/it] 41%|████      | 19947/48845 [7:03:53<10:08:04,  1.26s/it] 41%|████      | 19948/48845 [7:03:54<10:07:18,  1.26s/it] 41%|████      | 19949/48845 [7:03:55<10:07:19,  1.26s/it] 41%|████      | 19950/48845 [7:03:57<10:06:52,  1.26s/it]                                                          {'loss': 2.1201, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19950/48845 [7:03:57<10:06:52,  1.26s/it] 41%|████      | 19951/48845 [7:03:58<10:06:53,  1.26s/it] 41%|████      | 19952/48845 [7:03:59<10:07:20,  1.26s/it] 41%|████      | 19953/48845 [7:04:00<10:07:20,  1.26s/it] 41%|████      | 19954/48845 [7:04:02<10:06:50,  1.26s/it] 41%|████      | 19955/48845 [7:04:03<10:07:20,  1.26s/it]                                                          {'loss': 2.0338, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19955/48845 [7:04:03<10:07:20,  1.26s/it] 41%|████      | 19956/48845 [7:04:04<10:07:18,  1.26s/it] 41%|████      | 19957/48845 [7:04:05<10:06:49,  1.26s/it] 41%|████      | 19958/48845 [7:04:07<10:07:33,  1.26s/it] 41%|████      | 19959/48845 [7:04:08<10:07:27,  1.26s/it] 41%|████      | 19960/48845 [7:04:09<10:07:13,  1.26s/it]                                                          {'loss': 2.0795, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19960/48845 [7:04:09<10:07:13,  1.26s/it] 41%|████      | 19961/48845 [7:04:10<10:07:02,  1.26s/it] 41%|████      | 19962/48845 [7:04:12<10:06:33,  1.26s/it] 41%|████      | 19963/48845 [7:04:13<10:06:47,  1.26s/it] 41%|████      | 19964/48845 [7:04:14<10:06:37,  1.26s/it] 41%|████      | 19965/48845 [7:04:15<10:07:41,  1.26s/it]                                                          {'loss': 2.1283, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19965/48845 [7:04:15<10:07:41,  1.26s/it] 41%|████      | 19966/48845 [7:04:17<10:08:30,  1.26s/it] 41%|████      | 19967/48845 [7:04:18<10:07:44,  1.26s/it] 41%|████      | 19968/48845 [7:04:19<10:07:46,  1.26s/it] 41%|████      | 19969/48845 [7:04:20<10:07:32,  1.26s/it] 41%|████      | 19970/48845 [7:04:22<10:07:18,  1.26s/it]                                                          {'loss': 2.1014, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19970/48845 [7:04:22<10:07:18,  1.26s/it] 41%|████      | 19971/48845 [7:04:23<10:08:06,  1.26s/it] 41%|████      | 19972/48845 [7:04:24<10:08:06,  1.26s/it] 41%|████      | 19973/48845 [7:04:26<10:07:36,  1.26s/it] 41%|████      | 19974/48845 [7:04:27<10:09:08,  1.27s/it] 41%|████      | 19975/48845 [7:04:28<10:08:01,  1.26s/it]                                                          {'loss': 2.123, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.04}
+ 41%|████      | 19975/48845 [7:04:28<10:08:01,  1.26s/it] 41%|████      | 19976/48845 [7:04:29<10:07:53,  1.26s/it] 41%|████      | 19977/48845 [7:04:31<10:08:04,  1.26s/it] 41%|████      | 19978/48845 [7:04:32<10:07:23,  1.26s/it] 41%|████      | 19979/48845 [7:04:33<10:07:02,  1.26s/it] 41%|████      | 19980/48845 [7:04:34<10:06:48,  1.26s/it]                                                          {'loss': 2.0555, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 19980/48845 [7:04:34<10:06:48,  1.26s/it] 41%|████      | 19981/48845 [7:04:36<10:07:25,  1.26s/it] 41%|████      | 19982/48845 [7:04:37<10:07:09,  1.26s/it] 41%|████      | 19983/48845 [7:04:38<10:06:43,  1.26s/it] 41%|████      | 19984/48845 [7:04:39<10:06:38,  1.26s/it] 41%|████      | 19985/48845 [7:04:41<10:06:15,  1.26s/it]                                                          {'loss': 1.9367, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 19985/48845 [7:04:41<10:06:15,  1.26s/it] 41%|████      | 19986/48845 [7:04:42<10:06:11,  1.26s/it] 41%|████      | 19987/48845 [7:04:43<10:06:23,  1.26s/it] 41%|████      | 19988/48845 [7:04:44<10:06:31,  1.26s/it] 41%|████      | 19989/48845 [7:04:46<10:06:04,  1.26s/it] 41%|████      | 19990/48845 [7:04:47<10:07:10,  1.26s/it]                                                          {'loss': 2.0565, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 19990/48845 [7:04:47<10:07:10,  1.26s/it] 41%|████      | 19991/48845 [7:04:48<10:07:16,  1.26s/it] 41%|████      | 19992/48845 [7:04:50<10:07:22,  1.26s/it] 41%|████      | 19993/48845 [7:04:51<10:06:50,  1.26s/it] 41%|████      | 19994/48845 [7:04:52<10:06:57,  1.26s/it] 41%|████      | 19995/48845 [7:04:53<10:06:40,  1.26s/it]                                                          {'loss': 2.0435, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 19995/48845 [7:04:53<10:06:40,  1.26s/it] 41%|████      | 19996/48845 [7:04:55<10:06:42,  1.26s/it] 41%|████      | 19997/48845 [7:04:56<10:06:49,  1.26s/it] 41%|████      | 19998/48845 [7:04:57<10:06:42,  1.26s/it] 41%|████      | 19999/48845 [7:04:58<10:06:28,  1.26s/it] 41%|████      | 20000/48845 [7:05:00<10:06:27,  1.26s/it]                                                          {'loss': 2.1854, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20000/48845 [7:05:00<10:06:27,  1.26s/it] 41%|████      | 20001/48845 [7:05:03<15:57:49,  1.99s/it] 41%|████      | 20002/48845 [7:05:05<14:11:54,  1.77s/it] 41%|████      | 20003/48845 [7:05:06<12:57:38,  1.62s/it] 41%|████      | 20004/48845 [7:05:07<12:06:14,  1.51s/it] 41%|████      | 20005/48845 [7:05:08<11:29:59,  1.44s/it]                                                          {'loss': 1.8746, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20005/48845 [7:05:08<11:29:59,  1.44s/it] 41%|████      | 20006/48845 [7:05:10<11:04:25,  1.38s/it] 41%|████      | 20007/48845 [7:05:11<10:46:27,  1.35s/it] 41%|████      | 20008/48845 [7:05:12<10:34:14,  1.32s/it] 41%|████      | 20009/48845 [7:05:13<10:25:47,  1.30s/it] 41%|████      | 20010/48845 [7:05:15<10:19:42,  1.29s/it]                                                          {'loss': 2.1849, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20010/48845 [7:05:15<10:19:42,  1.29s/it] 41%|████      | 20011/48845 [7:05:16<10:18:00,  1.29s/it] 41%|████      | 20012/48845 [7:05:17<10:14:40,  1.28s/it] 41%|████      | 20013/48845 [7:05:18<10:11:55,  1.27s/it] 41%|████      | 20014/48845 [7:05:20<10:10:04,  1.27s/it] 41%|████      | 20015/48845 [7:05:21<10:08:26,  1.27s/it]                                                          {'loss': 1.9101, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20015/48845 [7:05:21<10:08:26,  1.27s/it] 41%|████      | 20016/48845 [7:05:22<10:08:32,  1.27s/it] 41%|████      | 20017/48845 [7:05:23<10:07:41,  1.26s/it] 41%|████      | 20018/48845 [7:05:25<10:07:10,  1.26s/it] 41%|████      | 20019/48845 [7:05:26<10:06:56,  1.26s/it] 41%|████      | 20020/48845 [7:05:27<10:07:16,  1.26s/it]                                                          {'loss': 2.0603, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20020/48845 [7:05:27<10:07:16,  1.26s/it] 41%|████      | 20021/48845 [7:05:29<10:06:31,  1.26s/it] 41%|████      | 20022/48845 [7:05:30<10:06:25,  1.26s/it] 41%|█���██      | 20023/48845 [7:05:31<10:05:44,  1.26s/it] 41%|████      | 20024/48845 [7:05:32<10:05:28,  1.26s/it] 41%|████      | 20025/48845 [7:05:34<10:05:39,  1.26s/it]                                                          {'loss': 1.9993, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20025/48845 [7:05:34<10:05:39,  1.26s/it] 41%|████      | 20026/48845 [7:05:35<10:05:20,  1.26s/it] 41%|████      | 20027/48845 [7:05:36<10:06:20,  1.26s/it] 41%|████      | 20028/48845 [7:05:37<10:06:10,  1.26s/it] 41%|████      | 20029/48845 [7:05:39<10:06:40,  1.26s/it] 41%|████      | 20030/48845 [7:05:40<10:07:33,  1.27s/it]                                                          {'loss': 2.079, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20030/48845 [7:05:40<10:07:33,  1.27s/it] 41%|████      | 20031/48845 [7:05:41<10:07:18,  1.26s/it] 41%|████      | 20032/48845 [7:05:42<10:06:55,  1.26s/it] 41%|████      | 20033/48845 [7:05:44<10:06:59,  1.26s/it] 41%|████      | 20034/48845 [7:05:45<10:06:09,  1.26s/it] 41%|████      | 20035/48845 [7:05:46<10:05:06,  1.26s/it]                                                          {'loss': 2.0828, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20035/48845 [7:05:46<10:05:06,  1.26s/it] 41%|████      | 20036/48845 [7:05:47<10:05:58,  1.26s/it] 41%|████      | 20037/48845 [7:05:49<10:05:37,  1.26s/it] 41%|████      | 20038/48845 [7:05:50<10:05:24,  1.26s/it] 41%|████      | 20039/48845 [7:05:51<10:05:04,  1.26s/it] 41%|████      | 20040/48845 [7:05:53<10:05:56,  1.26s/it]                                                          {'loss': 2.0441, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20040/48845 [7:05:53<10:05:56,  1.26s/it] 41%|████      | 20041/48845 [7:05:54<10:06:12,  1.26s/it] 41%|████      | 20042/48845 [7:05:55<10:05:34,  1.26s/it] 41%|████      | 20043/48845 [7:05:56<10:05:22,  1.26s/it] 41%|████      | 20044/48845 [7:05:58<10:06:36,  1.26s/it] 41%|████      | 20045/48845 [7:05:59<10:05:54,  1.26s/it]                                                          {'loss': 2.0065, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20045/48845 [7:05:59<10:05:54,  1.26s/it] 41%|████      | 20046/48845 [7:06:00<10:06:18,  1.26s/it] 41%|████      | 20047/48845 [7:06:01<10:05:07,  1.26s/it] 41%|████      | 20048/48845 [7:06:03<10:27:59,  1.31s/it] 41%|████      | 20049/48845 [7:06:04<10:20:27,  1.29s/it] 41%|████      | 20050/48845 [7:06:05<10:15:59,  1.28s/it]                                                          {'loss': 2.0184, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20050/48845 [7:06:05<10:15:59,  1.28s/it] 41%|████      | 20051/48845 [7:06:07<10:12:30,  1.28s/it] 41%|████      | 20052/48845 [7:06:08<10:10:06,  1.27s/it] 41%|████      | 20053/48845 [7:06:09<10:08:26,  1.27s/it] 41%|████      | 20054/48845 [7:06:10<10:07:07,  1.27s/it] 41%|████      | 20055/48845 [7:06:12<10:06:57,  1.26s/it]                                                          {'loss': 2.093, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20055/48845 [7:06:12<10:06:57,  1.26s/it] 41%|████      | 20056/48845 [7:06:13<10:06:56,  1.26s/it] 41%|████      | 20057/48845 [7:06:14<10:06:03,  1.26s/it] 41%|████      | 20058/48845 [7:06:15<10:05:32,  1.26s/it] 41%|████      | 20059/48845 [7:06:17<10:04:27,  1.26s/it] 41%|████      | 20060/48845 [7:06:18<10:04:45,  1.26s/it]                                                          {'loss': 2.2859, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20060/48845 [7:06:18<10:04:45,  1.26s/it] 41%|████      | 20061/48845 [7:06:19<10:03:57,  1.26s/it] 41%|████      | 20062/48845 [7:06:20<10:03:32,  1.26s/it] 41%|████      | 20063/48845 [7:06:22<10:04:06,  1.26s/it] 41%|████      | 20064/48845 [7:06:23<10:03:47,  1.26s/it] 41%|████      | 20065/48845 [7:06:24<10:03:44,  1.26s/it]                                                          {'loss': 2.0818, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20065/48845 [7:06:24<10:03:44,  1.26s/it] 41%|████      | 20066/48845 [7:06:25<10:03:54,  1.26s/it] 41%|████      | 20067/48845 [7:06:27<10:04:00,  1.26s/it] 41%|████      | 20068/48845 [7:06:28<10:04:55,  1.26s/it] 41%|████      | 20069/48845 [7:06:29<10:04:05,  1.26s/it] 41%|████      | 20070/48845 [7:06:30<10:03:48,  1.26s/it]                                                          {'loss': 2.083, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20070/48845 [7:06:30<10:03:48,  1.26s/it] 41%|████      | 20071/48845 [7:06:32<10:03:50,  1.26s/it] 41%|████      | 20072/48845 [7:06:33<10:04:31,  1.26s/it] 41%|████      | 20073/48845 [7:06:34<10:04:30,  1.26s/it] 41%|████      | 20074/48845 [7:06:36<10:04:29,  1.26s/it] 41%|████      | 20075/48845 [7:06:37<10:04:10,  1.26s/it]                                                          {'loss': 2.0105, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.05}
+ 41%|████      | 20075/48845 [7:06:37<10:04:10,  1.26s/it] 41%|████      | 20076/48845 [7:06:38<10:05:50,  1.26s/it] 41%|████      | 20077/48845 [7:06:39<10:05:27,  1.26s/it] 41%|████      | 20078/48845 [7:06:41<10:05:03,  1.26s/it] 41%|████      | 20079/48845 [7:06:42<10:04:16,  1.26s/it] 41%|████      | 20080/48845 [7:06:43<10:05:03,  1.26s/it]                                                          {'loss': 2.0276, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20080/48845 [7:06:43<10:05:03,  1.26s/it] 41%|████      | 20081/48845 [7:06:44<10:04:52,  1.26s/it] 41%|████      | 20082/48845 [7:06:46<10:04:44,  1.26s/it] 41%|████      | 20083/48845 [7:06:47<10:05:01,  1.26s/it] 41%|████      | 20084/48845 [7:06:48<10:04:52,  1.26s/it] 41%|████      | 20085/48845 [7:06:49<10:04:18,  1.26s/it]                                                          {'loss': 2.018, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20085/48845 [7:06:49<10:04:18,  1.26s/it] 41%|████      | 20086/48845 [7:06:51<10:04:06,  1.26s/it] 41%|████      | 20087/48845 [7:06:52<10:04:23,  1.26s/it] 41%|████      | 20088/48845 [7:06:53<10:03:22,  1.26s/it] 41%|████      | 20089/48845 [7:06:54<10:03:03,  1.26s/it] 41%|████      | 20090/48845 [7:06:56<10:02:51,  1.26s/it]                                                          {'loss': 2.1916, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20090/48845 [7:06:56<10:02:51,  1.26s/it] 41%|████      | 20091/48845 [7:06:57<10:03:26,  1.26s/it] 41%|████      | 20092/48845 [7:06:58<10:03:51,  1.26s/it] 41%|████      | 20093/48845 [7:06:59<10:04:11,  1.26s/it] 41%|████      | 20094/48845 [7:07:01<10:04:32,  1.26s/it] 41%|████      | 20095/48845 [7:07:02<10:05:08,  1.26s/it]                                                          {'loss': 1.8866, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20095/48845 [7:07:02<10:05:08,  1.26s/it] 41%|████      | 20096/48845 [7:07:03<10:04:40,  1.26s/it] 41%|████      | 20097/48845 [7:07:05<10:04:01,  1.26s/it] 41%|████      | 20098/48845 [7:07:06<10:03:41,  1.26s/it] 41%|████      | 20099/48845 [7:07:07<10:04:16,  1.26s/it] 41%|████      | 20100/48845 [7:07:08<10:03:55,  1.26s/it]                                                          {'loss': 2.0875, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20100/48845 [7:07:08<10:03:55,  1.26s/it] 41%|████      | 20101/48845 [7:07:10<10:03:51,  1.26s/it] 41%|████      | 20102/48845 [7:07:11<10:03:30,  1.26s/it] 41%|████      | 20103/48845 [7:07:12<10:03:15,  1.26s/it] 41%|████      | 20104/48845 [7:07:13<10:03:25,  1.26s/it] 41%|████      | 20105/48845 [7:07:15<10:03:39,  1.26s/it]                                                          {'loss': 1.9545, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20105/48845 [7:07:15<10:03:39,  1.26s/it] 41%|████      | 20106/48845 [7:07:16<10:03:43,  1.26s/it] 41%|████      | 20107/48845 [7:07:17<10:04:03,  1.26s/it] 41%|████      | 20108/48845 [7:07:18<10:03:23,  1.26s/it] 41%|████      | 20109/48845 [7:07:20<10:03:42,  1.26s/it] 41%|████      | 20110/48845 [7:07:21<10:03:23,  1.26s/it]                                                          {'loss': 2.1144, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20110/48845 [7:07:21<10:03:23,  1.26s/it] 41%|████      | 20111/48845 [7:07:22<10:03:44,  1.26s/it] 41%|████      | 20112/48845 [7:07:23<10:03:15,  1.26s/it] 41%|████      | 20113/48845 [7:07:25<10:02:58,  1.26s/it] 41%|████      | 20114/48845 [7:07:26<10:03:22,  1.26s/it] 41%|████      | 20115/48845 [7:07:27<10:02:45,  1.26s/it]                                                          {'loss': 1.9577, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20115/48845 [7:07:27<10:02:45,  1.26s/it] 41%|████      | 20116/48845 [7:07:28<10:03:02,  1.26s/it] 41%|████      | 20117/48845 [7:07:30<10:03:05,  1.26s/it] 41%|████      | 20118/48845 [7:07:31<10:03:03,  1.26s/it] 41%|████      | 20119/48845 [7:07:32<10:03:20,  1.26s/it] 41%|████      | 20120/48845 [7:07:34<10:02:47,  1.26s/it]                                                          {'loss': 1.999, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20120/48845 [7:07:34<10:02:47,  1.26s/it] 41%|████      | 20121/48845 [7:07:35<10:03:24,  1.26s/it] 41%|████      | 20122/48845 [7:07:36<10:03:03,  1.26s/it] 41%|████      | 20123/48845 [7:07:37<10:02:59,  1.26s/it] 41%|████      | 20124/48845 [7:07:39<10:03:07,  1.26s/it] 41%|████      | 20125/48845 [7:07:40<10:02:38,  1.26s/it]                                                          {'loss': 2.0467, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20125/48845 [7:07:40<10:02:38,  1.26s/it] 41%|████      | 20126/48845 [7:07:41<10:02:59,  1.26s/it] 41%|████      | 20127/48845 [7:07:42<10:02:35,  1.26s/it] 41%|████      | 20128/48845 [7:07:44<10:02:35,  1.26s/it] 41%|████      | 20129/48845 [7:07:45<10:02:45,  1.26s/it] 41%|████      | 20130/48845 [7:07:46<10:02:58,  1.26s/it]                                                          {'loss': 1.8505, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20130/48845 [7:07:46<10:02:58,  1.26s/it] 41%|████      | 20131/48845 [7:07:47<10:03:08,  1.26s/it] 41%|████      | 20132/48845 [7:07:49<10:02:55,  1.26s/it] 41%|████      | 20133/48845 [7:07:50<10:02:46,  1.26s/it] 41%|████      | 20134/48845 [7:07:51<10:02:43,  1.26s/it] 41%|████      | 20135/48845 [7:07:52<10:02:32,  1.26s/it]                                                          {'loss': 1.9505, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20135/48845 [7:07:52<10:02:32,  1.26s/it] 41%|████      | 20136/48845 [7:07:54<10:03:00,  1.26s/it] 41%|████      | 20137/48845 [7:07:55<10:02:50,  1.26s/it] 41%|████      | 20138/48845 [7:07:56<10:02:35,  1.26s/it] 41%|████      | 20139/48845 [7:07:57<10:02:50,  1.26s/it] 41%|████      | 20140/48845 [7:07:59<10:04:12,  1.26s/it]                                                          {'loss': 2.2941, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20140/48845 [7:07:59<10:04:12,  1.26s/it] 41%|████      | 20141/48845 [7:08:00<10:04:19,  1.26s/it] 41%|████      | 20142/48845 [7:08:01<10:03:58,  1.26s/it] 41%|████      | 20143/48845 [7:08:02<10:03:41,  1.26s/it] 41%|████      | 20144/48845 [7:08:04<10:03:48,  1.26s/it] 41%|████      | 20145/48845 [7:08:05<10:03:12,  1.26s/it]                                                          {'loss': 1.9989, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████      | 20145/48845 [7:08:05<10:03:12,  1.26s/it] 41%|████      | 20146/48845 [7:08:06<10:03:32,  1.26s/it] 41%|████      | 20147/48845 [7:08:08<10:03:30,  1.26s/it] 41%|████      | 20148/48845 [7:08:09<10:03:59,  1.26s/it] 41%|████▏     | 20149/48845 [7:08:10<10:03:41,  1.26s/it] 41%|████▏     | 20150/48845 [7:08:11<10:03:45,  1.26s/it]                                                          {'loss': 1.9796, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████▏     | 20150/48845 [7:08:11<10:03:45,  1.26s/it] 41%|████▏     | 20151/48845 [7:08:13<10:04:01,  1.26s/it] 41%|████▏     | 20152/48845 [7:08:14<10:03:35,  1.26s/it] 41%|████▏     | 20153/48845 [7:08:15<10:03:12,  1.26s/it] 41%|████▏     | 20154/48845 [7:08:16<10:02:23,  1.26s/it] 41%|████▏     | 20155/48845 [7:08:18<10:03:05,  1.26s/it]                                                          {'loss': 2.08, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████▏     | 20155/48845 [7:08:18<10:03:05,  1.26s/it] 41%|████▏     | 20156/48845 [7:08:19<10:02:38,  1.26s/it] 41%|████▏     | 20157/48845 [7:08:20<10:02:52,  1.26s/it] 41%|████▏     | 20158/48845 [7:08:21<10:02:35,  1.26s/it] 41%|████▏     | 20159/48845 [7:08:23<10:02:11,  1.26s/it] 41%|████▏     | 20160/48845 [7:08:24<10:02:40,  1.26s/it]                                                          {'loss': 2.3132, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████▏     | 20160/48845 [7:08:24<10:02:40,  1.26s/it] 41%|████▏     | 20161/48845 [7:08:25<10:02:50,  1.26s/it] 41%|████▏     | 20162/48845 [7:08:26<10:03:09,  1.26s/it] 41%|████▏     | 20163/48845 [7:08:28<10:03:17,  1.26s/it] 41%|████▏     | 20164/48845 [7:08:29<10:03:52,  1.26s/it] 41%|████▏     | 20165/48845 [7:08:30<10:03:40,  1.26s/it]                                                          {'loss': 1.9484, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████▏     | 20165/48845 [7:08:30<10:03:40,  1.26s/it] 41%|████▏     | 20166/48845 [7:08:32<10:03:15,  1.26s/it] 41%|████▏     | 20167/48845 [7:08:33<10:02:38,  1.26s/it] 41%|████▏     | 20168/48845 [7:08:34<10:03:09,  1.26s/it] 41%|████▏     | 20169/48845 [7:08:35<10:02:42,  1.26s/it] 41%|████▏     | 20170/48845 [7:08:37<10:02:05,  1.26s/it]                                                          {'loss': 2.1018, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.06}
+ 41%|████▏     | 20170/48845 [7:08:37<10:02:05,  1.26s/it] 41%|████▏     | 20171/48845 [7:08:38<10:02:04,  1.26s/it] 41%|████▏     | 20172/48845 [7:08:39<10:01:19,  1.26s/it] 41%|████▏     | 20173/48845 [7:08:40<10:02:01,  1.26s/it] 41%|████▏     | 20174/48845 [7:08:42<10:01:50,  1.26s/it] 41%|████▏     | 20175/48845 [7:08:43<10:01:33,  1.26s/it]                                                          {'loss': 2.2552, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20175/48845 [7:08:43<10:01:33,  1.26s/it] 41%|████▏     | 20176/48845 [7:08:44<10:01:49,  1.26s/it] 41%|████▏     | 20177/48845 [7:08:45<10:01:10,  1.26s/it] 41%|████▏     | 20178/48845 [7:08:47<10:01:46,  1.26s/it] 41%|████▏     | 20179/48845 [7:08:48<10:01:23,  1.26s/it] 41%|████▏     | 20180/48845 [7:08:49<10:02:20,  1.26s/it]                                                          {'loss': 2.0764, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20180/48845 [7:08:49<10:02:20,  1.26s/it] 41%|████▏     | 20181/48845 [7:08:50<10:01:56,  1.26s/it] 41%|████▏     | 20182/48845 [7:08:52<10:02:00,  1.26s/it] 41%|████▏     | 20183/48845 [7:08:53<10:02:25,  1.26s/it] 41%|████▏     | 20184/48845 [7:08:54<10:01:53,  1.26s/it] 41%|████▏     | 20185/48845 [7:08:55<10:01:45,  1.26s/it]                                                          {'loss': 2.0343, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20185/48845 [7:08:55<10:01:45,  1.26s/it] 41%|████▏     | 20186/48845 [7:08:57<10:01:59,  1.26s/it] 41%|████▏     | 20187/48845 [7:08:58<10:02:04,  1.26s/it] 41%|████▏     | 20188/48845 [7:08:59<10:02:08,  1.26s/it] 41%|████▏     | 20189/48845 [7:09:00<10:02:13,  1.26s/it] 41%|████▏     | 20190/48845 [7:09:02<10:02:21,  1.26s/it]                                                          {'loss': 2.0838, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20190/48845 [7:09:02<10:02:21,  1.26s/it] 41%|████▏     | 20191/48845 [7:09:03<10:03:21,  1.26s/it] 41%|████▏     | 20192/48845 [7:09:04<10:02:46,  1.26s/it] 41%|████▏     | 20193/48845 [7:09:06<10:02:23,  1.26s/it] 41%|████▏     | 20194/48845 [7:09:07<10:01:48,  1.26s/it] 41%|████▏     | 20195/48845 [7:09:08<10:01:16,  1.26s/it]                                                          {'loss': 2.1728, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20195/48845 [7:09:08<10:01:16,  1.26s/it] 41%|████▏     | 20196/48845 [7:09:09<10:01:44,  1.26s/it] 41%|████▏     | 20197/48845 [7:09:11<10:01:14,  1.26s/it] 41%|████▏     | 20198/48845 [7:09:12<10:01:15,  1.26s/it] 41%|████▏     | 20199/48845 [7:09:13<10:00:53,  1.26s/it] 41%|████▏     | 20200/48845 [7:09:14<10:01:10,  1.26s/it]                                                          {'loss': 1.7831, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20200/48845 [7:09:14<10:01:10,  1.26s/it] 41%|████▏     | 20201/48845 [7:09:18<15:49:03,  1.99s/it] 41%|████▏     | 20202/48845 [7:09:19<14:04:45,  1.77s/it] 41%|████▏     | 20203/48845 [7:09:21<12:50:59,  1.62s/it] 41%|████▏     | 20204/48845 [7:09:22<11:59:39,  1.51s/it] 41%|████▏     | 20205/48845 [7:09:23<11:23:42,  1.43s/it]                                                          {'loss': 1.994, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20205/48845 [7:09:23<11:23:42,  1.43s/it] 41%|████▏     | 20206/48845 [7:09:24<10:58:21,  1.38s/it] 41%|████▏     | 20207/48845 [7:09:26<10:40:42,  1.34s/it] 41%|████▏     | 20208/48845 [7:09:27<10:29:06,  1.32s/it] 41%|████▏     | 20209/48845 [7:09:28<10:20:01,  1.30s/it] 41%|████▏     | 20210/48845 [7:09:29<10:14:08,  1.29s/it]                                                          {'loss': 2.0782, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20210/48845 [7:09:29<10:14:08,  1.29s/it] 41%|████▏     | 20211/48845 [7:09:31<10:10:29,  1.28s/it] 41%|████▏     | 20212/48845 [7:09:32<10:07:12,  1.27s/it] 41%|██��█▏     | 20213/48845 [7:09:33<10:05:13,  1.27s/it] 41%|████▏     | 20214/48845 [7:09:34<10:03:49,  1.27s/it] 41%|████▏     | 20215/48845 [7:09:36<10:02:53,  1.26s/it]                                                          {'loss': 2.01, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20215/48845 [7:09:36<10:02:53,  1.26s/it] 41%|████▏     | 20216/48845 [7:09:37<10:03:03,  1.26s/it] 41%|████▏     | 20217/48845 [7:09:38<10:02:26,  1.26s/it] 41%|████▏     | 20218/48845 [7:09:39<10:01:44,  1.26s/it] 41%|████▏     | 20219/48845 [7:09:41<10:01:38,  1.26s/it] 41%|████▏     | 20220/48845 [7:09:42<10:01:42,  1.26s/it]                                                          {'loss': 1.8966, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20220/48845 [7:09:42<10:01:42,  1.26s/it] 41%|████▏     | 20221/48845 [7:09:43<10:01:57,  1.26s/it] 41%|████▏     | 20222/48845 [7:09:44<10:03:06,  1.26s/it] 41%|████▏     | 20223/48845 [7:09:46<10:02:58,  1.26s/it] 41%|████▏     | 20224/48845 [7:09:47<10:02:16,  1.26s/it] 41%|████▏     | 20225/48845 [7:09:48<10:01:50,  1.26s/it]                                                          {'loss': 2.137, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20225/48845 [7:09:48<10:01:50,  1.26s/it] 41%|████▏     | 20226/48845 [7:09:50<10:01:41,  1.26s/it] 41%|████▏     | 20227/48845 [7:09:51<10:01:17,  1.26s/it] 41%|████▏     | 20228/48845 [7:09:52<10:00:47,  1.26s/it] 41%|████▏     | 20229/48845 [7:09:53<10:00:50,  1.26s/it] 41%|████▏     | 20230/48845 [7:09:55<9:59:57,  1.26s/it]                                                          {'loss': 2.1377, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20230/48845 [7:09:55<9:59:57,  1.26s/it] 41%|████▏     | 20231/48845 [7:09:56<10:00:20,  1.26s/it] 41%|████▏     | 20232/48845 [7:09:57<10:00:01,  1.26s/it] 41%|████▏     | 20233/48845 [7:09:58<10:00:01,  1.26s/it] 41%|████▏     | 20234/48845 [7:10:00<10:00:57,  1.26s/it] 41%|████▏     | 20235/48845 [7:10:01<10:01:11,  1.26s/it]                                                          {'loss': 2.0506, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20235/48845 [7:10:01<10:01:11,  1.26s/it] 41%|████▏     | 20236/48845 [7:10:02<10:01:49,  1.26s/it] 41%|████▏     | 20237/48845 [7:10:03<10:01:57,  1.26s/it] 41%|████▏     | 20238/48845 [7:10:05<10:01:45,  1.26s/it] 41%|████▏     | 20239/48845 [7:10:06<10:01:44,  1.26s/it] 41%|████▏     | 20240/48845 [7:10:07<10:01:11,  1.26s/it]                                                          {'loss': 2.0995, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20240/48845 [7:10:07<10:01:11,  1.26s/it] 41%|████▏     | 20241/48845 [7:10:08<10:01:06,  1.26s/it] 41%|████▏     | 20242/48845 [7:10:10<10:01:17,  1.26s/it] 41%|████▏     | 20243/48845 [7:10:11<10:00:28,  1.26s/it] 41%|████▏     | 20244/48845 [7:10:12<10:00:16,  1.26s/it] 41%|████▏     | 20245/48845 [7:10:13<9:59:51,  1.26s/it]                                                          {'loss': 2.0142, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20245/48845 [7:10:13<9:59:51,  1.26s/it] 41%|████▏     | 20246/48845 [7:10:15<10:00:25,  1.26s/it] 41%|████▏     | 20247/48845 [7:10:16<10:00:38,  1.26s/it] 41%|████▏     | 20248/48845 [7:10:17<10:00:32,  1.26s/it] 41%|████▏     | 20249/48845 [7:10:19<10:01:36,  1.26s/it] 41%|████▏     | 20250/48845 [7:10:20<10:00:51,  1.26s/it]                                                          {'loss': 1.8762, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20250/48845 [7:10:20<10:00:51,  1.26s/it] 41%|████▏     | 20251/48845 [7:10:21<10:01:03,  1.26s/it] 41%|████▏     | 20252/48845 [7:10:22<10:01:03,  1.26s/it] 41%|████▏     | 20253/48845 [7:10:24<10:00:52,  1.26s/it] 41%|████▏     | 20254/48845 [7:10:25<10:00:50,  1.26s/it] 41%|████▏     | 20255/48845 [7:10:26<10:00:16,  1.26s/it]                                                          {'loss': 1.9093, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20255/48845 [7:10:26<10:00:16,  1.26s/it] 41%|████▏     | 20256/48845 [7:10:27<10:00:19,  1.26s/it] 41%|████▏     | 20257/48845 [7:10:29<10:00:32,  1.26s/it] 41%|████▏     | 20258/48845 [7:10:30<10:00:29,  1.26s/it] 41%|████▏     | 20259/48845 [7:10:31<10:00:46,  1.26s/it] 41%|████▏     | 20260/48845 [7:10:32<10:01:31,  1.26s/it]                                                          {'loss': 2.1181, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20260/48845 [7:10:32<10:01:31,  1.26s/it] 41%|████▏     | 20261/48845 [7:10:34<10:02:29,  1.26s/it] 41%|████▏     | 20262/48845 [7:10:35<10:01:18,  1.26s/it] 41%|████▏     | 20263/48845 [7:10:36<10:00:17,  1.26s/it] 41%|████▏     | 20264/48845 [7:10:37<10:00:08,  1.26s/it] 41%|████▏     | 20265/48845 [7:10:39<10:00:40,  1.26s/it]                                                          {'loss': 2.182, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20265/48845 [7:10:39<10:00:40,  1.26s/it] 41%|████▏     | 20266/48845 [7:10:40<10:00:22,  1.26s/it] 41%|████▏     | 20267/48845 [7:10:41<10:00:45,  1.26s/it] 41%|████▏     | 20268/48845 [7:10:42<10:00:43,  1.26s/it] 41%|████▏     | 20269/48845 [7:10:44<10:01:23,  1.26s/it] 41%|████▏     | 20270/48845 [7:10:45<10:01:25,  1.26s/it]                                                          {'loss': 2.057, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.07}
+ 41%|████▏     | 20270/48845 [7:10:45<10:01:25,  1.26s/it] 42%|████▏     | 20271/48845 [7:10:46<10:00:49,  1.26s/it] 42%|████▏     | 20272/48845 [7:10:48<10:01:45,  1.26s/it] 42%|████▏     | 20273/48845 [7:10:49<10:01:23,  1.26s/it] 42%|████▏     | 20274/48845 [7:10:50<10:00:58,  1.26s/it] 42%|████▏     | 20275/48845 [7:10:51<10:00:17,  1.26s/it]                                                          {'loss': 2.0452, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20275/48845 [7:10:51<10:00:17,  1.26s/it] 42%|████▏     | 20276/48845 [7:10:53<10:01:25,  1.26s/it] 42%|████▏     | 20277/48845 [7:10:54<10:00:42,  1.26s/it] 42%|████▏     | 20278/48845 [7:10:55<10:00:39,  1.26s/it] 42%|████▏     | 20279/48845 [7:10:56<10:00:39,  1.26s/it] 42%|████▏     | 20280/48845 [7:10:58<10:00:23,  1.26s/it]                                                          {'loss': 1.9995, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20280/48845 [7:10:58<10:00:23,  1.26s/it] 42%|████▏     | 20281/48845 [7:10:59<10:00:35,  1.26s/it] 42%|████▏     | 20282/48845 [7:11:00<9:59:53,  1.26s/it]  42%|████▏     | 20283/48845 [7:11:01<10:00:08,  1.26s/it] 42%|████▏     | 20284/48845 [7:11:03<9:59:34,  1.26s/it]  42%|████▏     | 20285/48845 [7:11:04<9:59:29,  1.26s/it]                                                         {'loss': 1.9671, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20285/48845 [7:11:04<9:59:29,  1.26s/it] 42%|████▏     | 20286/48845 [7:11:05<9:59:43,  1.26s/it] 42%|████▏     | 20287/48845 [7:11:06<9:59:06,  1.26s/it] 42%|████▏     | 20288/48845 [7:11:08<9:59:15,  1.26s/it] 42%|████▏     | 20289/48845 [7:11:09<9:59:13,  1.26s/it] 42%|████▏     | 20290/48845 [7:11:10<9:59:35,  1.26s/it]                                                         {'loss': 2.0653, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20290/48845 [7:11:10<9:59:35,  1.26s/it] 42%|████▏     | 20291/48845 [7:11:11<9:59:42,  1.26s/it] 42%|████▏     | 20292/48845 [7:11:13<9:59:25,  1.26s/it] 42%|████▏     | 20293/48845 [7:11:14<9:59:38,  1.26s/it] 42%|████▏     | 20294/48845 [7:11:15<9:59:21,  1.26s/it] 42%|████▏     | 20295/48845 [7:11:17<9:59:27,  1.26s/it]                                                         {'loss': 1.9996, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20295/48845 [7:11:17<9:59:27,  1.26s/it] 42%|████▏     | 20296/48845 [7:11:18<9:59:55,  1.26s/it] 42%|████▏     | 20297/48845 [7:11:19<9:59:30,  1.26s/it] 42%|████▏     | 20298/48845 [7:11:20<9:59:10,  1.26s/it] 42%|████▏     | 20299/48845 [7:11:22<9:58:54,  1.26s/it] 42%|████▏     | 20300/48845 [7:11:23<9:58:50,  1.26s/it]                                                         {'loss': 2.0357, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20300/48845 [7:11:23<9:58:50,  1.26s/it] 42%|████▏     | 20301/48845 [7:11:24<9:59:16,  1.26s/it] 42%|████▏     | 20302/48845 [7:11:25<9:58:49,  1.26s/it] 42%|████▏     | 20303/48845 [7:11:27<9:58:58,  1.26s/it] 42%|████▏     | 20304/48845 [7:11:28<9:58:49,  1.26s/it] 42%|████▏     | 20305/48845 [7:11:29<9:59:15,  1.26s/it]                                                         {'loss': 2.017, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20305/48845 [7:11:29<9:59:15,  1.26s/it] 42%|████▏     | 20306/48845 [7:11:30<10:00:44,  1.26s/it] 42%|████▏     | 20307/48845 [7:11:32<10:00:02,  1.26s/it] 42%|████▏     | 20308/48845 [7:11:33<9:59:40,  1.26s/it]  42%|████▏     | 20309/48845 [7:11:34<9:59:37,  1.26s/it] 42%|████▏     | 20310/48845 [7:11:35<10:00:56,  1.26s/it]                                                          {'loss': 1.923, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20310/48845 [7:11:35<10:00:56,  1.26s/it] 42%|████▏     | 20311/48845 [7:11:37<10:00:10,  1.26s/it] 42%|████▏     | 20312/48845 [7:11:38<9:59:40,  1.26s/it]  42%|████▏     | 20313/48845 [7:11:39<9:59:33,  1.26s/it] 42%|████▏     | 20314/48845 [7:11:40<10:00:16,  1.26s/it] 42%|████▏     | 20315/48845 [7:11:42<9:59:10,  1.26s/it]                                                          {'loss': 2.193, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20315/48845 [7:11:42<9:59:10,  1.26s/it] 42%|████▏     | 20316/48845 [7:11:43<9:58:44,  1.26s/it] 42%|████▏     | 20317/48845 [7:11:44<9:58:43,  1.26s/it] 42%|████▏     | 20318/48845 [7:11:46<9:58:55,  1.26s/it] 42%|████▏     | 20319/48845 [7:11:47<9:59:13,  1.26s/it] 42%|████▏     | 20320/48845 [7:11:48<9:59:15,  1.26s/it]                                                         {'loss': 2.0676, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20320/48845 [7:11:48<9:59:15,  1.26s/it] 42%|████▏     | 20321/48845 [7:11:49<9:59:22,  1.26s/it] 42%|████▏     | 20322/48845 [7:11:51<10:01:20,  1.26s/it] 42%|████▏     | 20323/48845 [7:11:52<10:00:47,  1.26s/it] 42%|████▏     | 20324/48845 [7:11:53<10:00:22,  1.26s/it] 42%|████▏     | 20325/48845 [7:11:54<10:00:02,  1.26s/it]                                                          {'loss': 2.0478, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20325/48845 [7:11:54<10:00:02,  1.26s/it] 42%|████▏     | 20326/48845 [7:11:56<9:59:39,  1.26s/it]  42%|████▏     | 20327/48845 [7:11:57<9:59:46,  1.26s/it] 42%|████▏     | 20328/48845 [7:11:58<9:59:06,  1.26s/it] 42%|████▏     | 20329/48845 [7:11:59<9:59:38,  1.26s/it] 42%|████▏     | 20330/48845 [7:12:01<10:00:18,  1.26s/it]                                                          {'loss': 2.0421, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20330/48845 [7:12:01<10:00:18,  1.26s/it] 42%|████▏     | 20331/48845 [7:12:02<9:59:47,  1.26s/it]  42%|████▏     | 20332/48845 [7:12:03<9:59:45,  1.26s/it] 42%|████▏     | 20333/48845 [7:12:04<9:58:58,  1.26s/it] 42%|████▏     | 20334/48845 [7:12:06<9:59:08,  1.26s/it] 42%|████▏     | 20335/48845 [7:12:07<9:59:10,  1.26s/it]                                                         {'loss': 2.034, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20335/48845 [7:12:07<9:59:10,  1.26s/it] 42%|████▏     | 20336/48845 [7:12:08<9:58:54,  1.26s/it] 42%|████▏     | 20337/48845 [7:12:09<9:59:09,  1.26s/it] 42%|████▏     | 20338/48845 [7:12:11<9:58:49,  1.26s/it] 42%|████▏     | 20339/48845 [7:12:12<9:58:24,  1.26s/it] 42%|████▏     | 20340/48845 [7:12:13<9:58:22,  1.26s/it]                                                         {'loss': 2.1908, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20340/48845 [7:12:13<9:58:22,  1.26s/it] 42%|████▏     | 20341/48845 [7:12:15<9:58:12,  1.26s/it] 42%|████▏     | 20342/48845 [7:12:16<9:59:37,  1.26s/it] 42%|████▏     | 20343/48845 [7:12:17<9:58:45,  1.26s/it] 42%|████▏     | 20344/48845 [7:12:18<9:59:01,  1.26s/it] 42%|████▏     | 20345/48845 [7:12:20<9:59:11,  1.26s/it]                                                         {'loss': 2.0326, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20345/48845 [7:12:20<9:59:11,  1.26s/it] 42%|████▏     | 20346/48845 [7:12:21<9:59:32,  1.26s/it] 42%|████▏     | 20347/48845 [7:12:22<9:59:09,  1.26s/it] 42%|████▏     | 20348/48845 [7:12:23<9:59:45,  1.26s/it] 42%|████▏     | 20349/48845 [7:12:25<9:59:29,  1.26s/it] 42%|████▏     | 20350/48845 [7:12:26<9:59:34,  1.26s/it]                                                         {'loss': 2.0574, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20350/48845 [7:12:26<9:59:34,  1.26s/it] 42%|████▏     | 20351/48845 [7:12:27<9:58:19,  1.26s/it] 42%|████▏     | 20352/48845 [7:12:28<9:57:59,  1.26s/it] 42%|████▏     | 20353/48845 [7:12:30<9:58:06,  1.26s/it] 42%|████▏     | 20354/48845 [7:12:31<10:13:08,  1.29s/it] 42%|████▏     | 20355/48845 [7:12:32<10:08:34,  1.28s/it]                                                          {'loss': 2.0083, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20355/48845 [7:12:32<10:08:34,  1.28s/it] 42%|████▏     | 20356/48845 [7:12:34<10:05:01,  1.27s/it] 42%|████▏     | 20357/48845 [7:12:35<10:03:06,  1.27s/it] 42%|████▏     | 20358/48845 [7:12:36<10:01:50,  1.27s/it] 42%|████▏     | 20359/48845 [7:12:37<9:59:57,  1.26s/it]  42%|████▏     | 20360/48845 [7:12:39<9:59:47,  1.26s/it]                                                         {'loss': 2.098, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20360/48845 [7:12:39<9:59:47,  1.26s/it] 42%|████▏     | 20361/48845 [7:12:40<10:00:22,  1.26s/it] 42%|████▏     | 20362/48845 [7:12:41<10:00:20,  1.26s/it] 42%|████▏     | 20363/48845 [7:12:42<9:59:59,  1.26s/it]  42%|████▏     | 20364/48845 [7:12:44<9:59:16,  1.26s/it] 42%|████▏     | 20365/48845 [7:12:45<9:59:08,  1.26s/it]                                                         {'loss': 2.1833, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.08}
+ 42%|████▏     | 20365/48845 [7:12:45<9:59:08,  1.26s/it] 42%|████▏     | 20366/48845 [7:12:46<10:24:43,  1.32s/it] 42%|████▏     | 20367/48845 [7:12:48<10:16:55,  1.30s/it] 42%|████▏     | 20368/48845 [7:12:49<10:11:12,  1.29s/it] 42%|████▏     | 20369/48845 [7:12:50<10:06:48,  1.28s/it] 42%|████▏     | 20370/48845 [7:12:51<10:04:34,  1.27s/it]                                                          {'loss': 2.0113, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20370/48845 [7:12:51<10:04:34,  1.27s/it] 42%|████▏     | 20371/48845 [7:12:53<10:03:11,  1.27s/it] 42%|████▏     | 20372/48845 [7:12:54<10:01:55,  1.27s/it] 42%|████▏     | 20373/48845 [7:12:55<10:00:47,  1.27s/it] 42%|████▏     | 20374/48845 [7:12:56<10:00:07,  1.26s/it] 42%|████▏     | 20375/48845 [7:12:58<9:59:17,  1.26s/it]                                                          {'loss': 2.0239, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20375/48845 [7:12:58<9:59:17,  1.26s/it] 42%|████▏     | 20376/48845 [7:12:59<9:59:11,  1.26s/it] 42%|████▏     | 20377/48845 [7:13:00<9:58:27,  1.26s/it] 42%|████▏     | 20378/48845 [7:13:01<9:58:19,  1.26s/it] 42%|████▏     | 20379/48845 [7:13:03<9:58:05,  1.26s/it] 42%|████▏     | 20380/48845 [7:13:04<9:58:14,  1.26s/it]                                                         {'loss': 2.0114, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20380/48845 [7:13:04<9:58:14,  1.26s/it] 42%|████▏     | 20381/48845 [7:13:05<9:58:51,  1.26s/it] 42%|████▏     | 20382/48845 [7:13:07<9:58:22,  1.26s/it] 42%|████▏     | 20383/48845 [7:13:08<9:58:27,  1.26s/it] 42%|████▏     | 20384/48845 [7:13:09<9:58:27,  1.26s/it] 42%|████▏     | 20385/48845 [7:13:10<10:02:09,  1.27s/it]                                                          {'loss': 2.1582, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20385/48845 [7:13:10<10:02:09,  1.27s/it] 42%|████▏     | 20386/48845 [7:13:12<10:00:55,  1.27s/it] 42%|████▏     | 20387/48845 [7:13:13<9:59:44,  1.26s/it]  42%|████▏     | 20388/48845 [7:13:14<9:59:08,  1.26s/it] 42%|████▏     | 20389/48845 [7:13:15<9:58:32,  1.26s/it] 42%|████▏     | 20390/48845 [7:13:17<9:58:24,  1.26s/it]                                                         {'loss': 2.0555, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20390/48845 [7:13:17<9:58:24,  1.26s/it] 42%|████▏     | 20391/48845 [7:13:18<9:58:54,  1.26s/it] 42%|████▏     | 20392/48845 [7:13:19<9:58:40,  1.26s/it] 42%|████▏     | 20393/48845 [7:13:20<9:58:06,  1.26s/it] 42%|████▏     | 20394/48845 [7:13:22<9:57:47,  1.26s/it] 42%|████▏     | 20395/48845 [7:13:23<9:57:14,  1.26s/it]                                                         {'loss': 2.0546, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20395/48845 [7:13:23<9:57:14,  1.26s/it] 42%|████▏     | 20396/48845 [7:13:24<9:57:16,  1.26s/it] 42%|████▏     | 20397/48845 [7:13:25<9:57:36,  1.26s/it] 42%|████▏     | 20398/48845 [7:13:27<9:57:19,  1.26s/it] 42%|████▏     | 20399/48845 [7:13:28<9:57:07,  1.26s/it] 42%|████▏     | 20400/48845 [7:13:29<9:57:05,  1.26s/it]                                                         {'loss': 2.038, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20400/48845 [7:13:29<9:57:05,  1.26s/it] 42%|████▏     | 20401/48845 [7:13:33<15:43:28,  1.99s/it] 42%|████▏     | 20402/48845 [7:13:34<13:59:51,  1.77s/it] 42%|████▏     | 20403/48845 [7:13:35<12:47:12,  1.62s/it] 42%|████▏     | 20404/48845 [7:13:37<11:55:37,  1.51s/it] 42%|████▏     | 20405/48845 [7:13:38<11:20:11,  1.44s/it]                                                          {'loss': 1.914, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20405/48845 [7:13:38<11:20:11,  1.44s/it] 42%|████▏     | 20406/48845 [7:13:39<10:54:52,  1.38s/it] 42%|████▏     | 20407/48845 [7:13:40<10:37:14,  1.34s/it] 42%|████▏     | 20408/48845 [7:13:42<10:25:45,  1.32s/it] 42%|████▏     | 20409/48845 [7:13:43<10:16:30,  1.30s/it] 42%|████▏     | 20410/48845 [7:13:44<10:10:28,  1.29s/it]                                                          {'loss': 2.0603, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20410/48845 [7:13:44<10:10:28,  1.29s/it] 42%|████▏     | 20411/48845 [7:13:46<10:06:43,  1.28s/it] 42%|████▏     | 20412/48845 [7:13:47<10:03:14,  1.27s/it] 42%|████▏     | 20413/48845 [7:13:48<10:01:55,  1.27s/it] 42%|████▏     | 20414/48845 [7:13:49<10:00:09,  1.27s/it] 42%|████▏     | 20415/48845 [7:13:51<9:59:15,  1.26s/it]                                                          {'loss': 1.9179, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20415/48845 [7:13:51<9:59:15,  1.26s/it] 42%|████▏     | 20416/48845 [7:13:52<9:58:18,  1.26s/it] 42%|████▏     | 20417/48845 [7:13:53<9:57:44,  1.26s/it] 42%|████▏     | 20418/48845 [7:13:54<9:57:46,  1.26s/it] 42%|████▏     | 20419/48845 [7:13:56<9:56:52,  1.26s/it] 42%|████▏     | 20420/48845 [7:13:57<9:56:50,  1.26s/it]                                                         {'loss': 2.0705, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20420/48845 [7:13:57<9:56:50,  1.26s/it] 42%|████▏     | 20421/48845 [7:13:58<9:57:04,  1.26s/it] 42%|████▏     | 20422/48845 [7:13:59<9:56:32,  1.26s/it] 42%|████▏     | 20423/48845 [7:14:01<9:56:54,  1.26s/it] 42%|████▏     | 20424/48845 [7:14:02<9:56:57,  1.26s/it] 42%|████▏     | 20425/48845 [7:14:03<9:56:22,  1.26s/it]                                                         {'loss': 2.1017, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20425/48845 [7:14:03<9:56:22,  1.26s/it] 42%|████▏     | 20426/48845 [7:14:04<9:56:32,  1.26s/it] 42%|████▏     | 20427/48845 [7:14:06<9:56:20,  1.26s/it] 42%|████▏     | 20428/48845 [7:14:07<9:57:00,  1.26s/it] 42%|████▏     | 20429/48845 [7:14:08<9:57:12,  1.26s/it] 42%|████▏     | 20430/48845 [7:14:09<9:58:03,  1.26s/it]                                                         {'loss': 2.1691, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20430/48845 [7:14:09<9:58:03,  1.26s/it] 42%|████▏     | 20431/48845 [7:14:11<9:57:28,  1.26s/it] 42%|████▏     | 20432/48845 [7:14:12<9:57:07,  1.26s/it] 42%|████▏     | 20433/48845 [7:14:13<9:56:27,  1.26s/it] 42%|████▏     | 20434/48845 [7:14:14<9:56:18,  1.26s/it] 42%|████▏     | 20435/48845 [7:14:16<9:56:25,  1.26s/it]                                                         {'loss': 2.0571, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20435/48845 [7:14:16<9:56:25,  1.26s/it] 42%|████▏     | 20436/48845 [7:14:17<9:56:18,  1.26s/it] 42%|████▏     | 20437/48845 [7:14:18<9:55:52,  1.26s/it] 42%|████▏     | 20438/48845 [7:14:20<9:56:28,  1.26s/it] 42%|████▏     | 20439/48845 [7:14:21<9:56:33,  1.26s/it] 42%|████▏     | 20440/48845 [7:14:22<9:56:17,  1.26s/it]                                                         {'loss': 2.0214, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20440/48845 [7:14:22<9:56:17,  1.26s/it] 42%|████▏     | 20441/48845 [7:14:23<9:56:01,  1.26s/it] 42%|████▏     | 20442/48845 [7:14:25<9:56:04,  1.26s/it] 42%|████▏     | 20443/48845 [7:14:26<9:56:34,  1.26s/it] 42%|████▏     | 20444/48845 [7:14:27<9:55:47,  1.26s/it] 42%|████▏     | 20445/48845 [7:14:28<9:56:21,  1.26s/it]                                                         {'loss': 1.9396, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20445/48845 [7:14:28<9:56:21,  1.26s/it] 42%|████▏     | 20446/48845 [7:14:30<9:55:55,  1.26s/it] 42%|████▏     | 20447/48845 [7:14:31<9:56:13,  1.26s/it] 42%|████▏     | 20448/48845 [7:14:32<9:56:27,  1.26s/it] 42%|██��█▏     | 20449/48845 [7:14:33<9:57:17,  1.26s/it] 42%|████▏     | 20450/48845 [7:14:35<9:57:03,  1.26s/it]                                                         {'loss': 1.9736, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20450/48845 [7:14:35<9:57:03,  1.26s/it] 42%|████▏     | 20451/48845 [7:14:36<9:57:02,  1.26s/it] 42%|████▏     | 20452/48845 [7:14:37<9:57:14,  1.26s/it] 42%|████▏     | 20453/48845 [7:14:38<9:57:24,  1.26s/it] 42%|████▏     | 20454/48845 [7:14:40<9:57:01,  1.26s/it] 42%|████▏     | 20455/48845 [7:14:41<9:56:38,  1.26s/it]                                                         {'loss': 2.049, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20455/48845 [7:14:41<9:56:38,  1.26s/it] 42%|████▏     | 20456/48845 [7:14:42<9:57:28,  1.26s/it] 42%|████▏     | 20457/48845 [7:14:43<9:57:05,  1.26s/it] 42%|████▏     | 20458/48845 [7:14:45<9:56:51,  1.26s/it] 42%|████▏     | 20459/48845 [7:14:46<9:56:57,  1.26s/it] 42%|████▏     | 20460/48845 [7:14:47<9:56:46,  1.26s/it]                                                         {'loss': 2.2367, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20460/48845 [7:14:47<9:56:46,  1.26s/it] 42%|████▏     | 20461/48845 [7:14:49<9:57:23,  1.26s/it] 42%|████▏     | 20462/48845 [7:14:50<9:56:55,  1.26s/it] 42%|████▏     | 20463/48845 [7:14:51<9:56:31,  1.26s/it] 42%|████▏     | 20464/48845 [7:14:52<9:56:50,  1.26s/it] 42%|████▏     | 20465/48845 [7:14:54<9:56:34,  1.26s/it]                                                         {'loss': 2.0596, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.09}
+ 42%|████▏     | 20465/48845 [7:14:54<9:56:34,  1.26s/it] 42%|████▏     | 20466/48845 [7:14:55<9:57:03,  1.26s/it] 42%|████▏     | 20467/48845 [7:14:56<9:56:47,  1.26s/it] 42%|████▏     | 20468/48845 [7:14:57<9:56:17,  1.26s/it] 42%|████▏     | 20469/48845 [7:14:59<9:56:15,  1.26s/it] 42%|████▏     | 20470/48845 [7:15:00<9:56:00,  1.26s/it]                                                         {'loss': 2.1292, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20470/48845 [7:15:00<9:56:00,  1.26s/it] 42%|████▏     | 20471/48845 [7:15:01<9:55:59,  1.26s/it] 42%|████▏     | 20472/48845 [7:15:02<9:56:03,  1.26s/it] 42%|████▏     | 20473/48845 [7:15:04<9:56:29,  1.26s/it] 42%|████▏     | 20474/48845 [7:15:05<9:56:16,  1.26s/it] 42%|████▏     | 20475/48845 [7:15:06<9:55:58,  1.26s/it]                                                         {'loss': 1.9858, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20475/48845 [7:15:06<9:55:58,  1.26s/it] 42%|████▏     | 20476/48845 [7:15:07<9:55:45,  1.26s/it] 42%|████▏     | 20477/48845 [7:15:09<9:56:27,  1.26s/it] 42%|████▏     | 20478/48845 [7:15:10<9:56:17,  1.26s/it] 42%|████▏     | 20479/48845 [7:15:11<9:56:15,  1.26s/it] 42%|████▏     | 20480/48845 [7:15:12<9:55:57,  1.26s/it]                                                         {'loss': 1.9703, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20480/48845 [7:15:12<9:55:57,  1.26s/it] 42%|████▏     | 20481/48845 [7:15:14<9:56:10,  1.26s/it] 42%|████▏     | 20482/48845 [7:15:15<9:56:32,  1.26s/it] 42%|████▏     | 20483/48845 [7:15:16<9:56:56,  1.26s/it] 42%|████▏     | 20484/48845 [7:15:18<9:56:39,  1.26s/it] 42%|████▏     | 20485/48845 [7:15:19<9:57:10,  1.26s/it]                                                         {'loss': 2.0602, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20485/48845 [7:15:19<9:57:10,  1.26s/it] 42%|████▏     | 20486/48845 [7:15:20<9:56:47,  1.26s/it] 42%|████▏     | 20487/48845 [7:15:21<9:56:51,  1.26s/it] 42%|████▏     | 20488/48845 [7:15:23<9:56:29,  1.26s/it] 42%|████▏     | 20489/48845 [7:15:24<9:56:14,  1.26s/it] 42%|████▏     | 20490/48845 [7:15:25<9:55:41,  1.26s/it]                                                         {'loss': 2.006, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20490/48845 [7:15:25<9:55:41,  1.26s/it] 42%|████▏     | 20491/48845 [7:15:26<9:55:27,  1.26s/it] 42%|████▏     | 20492/48845 [7:15:28<9:55:30,  1.26s/it] 42%|████▏     | 20493/48845 [7:15:29<9:55:04,  1.26s/it] 42%|████▏     | 20494/48845 [7:15:30<9:55:07,  1.26s/it] 42%|████▏     | 20495/48845 [7:15:31<9:55:30,  1.26s/it]                                                         {'loss': 2.2229, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|██��█▏     | 20495/48845 [7:15:31<9:55:30,  1.26s/it] 42%|████▏     | 20496/48845 [7:15:33<9:56:05,  1.26s/it] 42%|████▏     | 20497/48845 [7:15:34<9:55:35,  1.26s/it] 42%|████▏     | 20498/48845 [7:15:35<9:55:26,  1.26s/it] 42%|████▏     | 20499/48845 [7:15:36<9:55:35,  1.26s/it] 42%|████▏     | 20500/48845 [7:15:38<9:55:47,  1.26s/it]                                                         {'loss': 2.1308, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20500/48845 [7:15:38<9:55:47,  1.26s/it] 42%|████▏     | 20501/48845 [7:15:39<9:56:16,  1.26s/it] 42%|████▏     | 20502/48845 [7:15:40<9:56:03,  1.26s/it] 42%|████▏     | 20503/48845 [7:15:41<9:55:49,  1.26s/it] 42%|████▏     | 20504/48845 [7:15:43<9:55:15,  1.26s/it] 42%|████▏     | 20505/48845 [7:15:44<9:54:34,  1.26s/it]                                                         {'loss': 2.1266, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20505/48845 [7:15:44<9:54:34,  1.26s/it] 42%|████▏     | 20506/48845 [7:15:45<9:55:04,  1.26s/it] 42%|████▏     | 20507/48845 [7:15:47<9:54:43,  1.26s/it] 42%|████▏     | 20508/48845 [7:15:48<9:54:47,  1.26s/it] 42%|████▏     | 20509/48845 [7:15:49<9:54:42,  1.26s/it] 42%|████▏     | 20510/48845 [7:15:50<9:56:11,  1.26s/it]                                                         {'loss': 2.1851, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20510/48845 [7:15:50<9:56:11,  1.26s/it] 42%|████▏     | 20511/48845 [7:15:52<9:56:19,  1.26s/it] 42%|████▏     | 20512/48845 [7:15:53<9:56:03,  1.26s/it] 42%|████▏     | 20513/48845 [7:15:54<9:56:13,  1.26s/it] 42%|████▏     | 20514/48845 [7:15:55<9:55:50,  1.26s/it] 42%|████▏     | 20515/48845 [7:15:57<9:55:17,  1.26s/it]                                                         {'loss': 2.127, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20515/48845 [7:15:57<9:55:17,  1.26s/it] 42%|████▏     | 20516/48845 [7:15:58<9:55:48,  1.26s/it] 42%|████▏     | 20517/48845 [7:15:59<9:55:20,  1.26s/it] 42%|████▏     | 20518/48845 [7:16:00<9:55:03,  1.26s/it] 42%|████▏     | 20519/48845 [7:16:02<9:54:42,  1.26s/it] 42%|████▏     | 20520/48845 [7:16:03<9:54:40,  1.26s/it]                                                         {'loss': 2.0656, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20520/48845 [7:16:03<9:54:40,  1.26s/it] 42%|████▏     | 20521/48845 [7:16:04<9:55:28,  1.26s/it] 42%|████▏     | 20522/48845 [7:16:05<9:55:25,  1.26s/it] 42%|████▏     | 20523/48845 [7:16:07<9:55:26,  1.26s/it] 42%|████▏     | 20524/48845 [7:16:08<9:55:19,  1.26s/it] 42%|████▏     | 20525/48845 [7:16:09<9:55:07,  1.26s/it]                                                         {'loss': 2.1739, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20525/48845 [7:16:09<9:55:07,  1.26s/it] 42%|████▏     | 20526/48845 [7:16:10<9:55:10,  1.26s/it] 42%|████▏     | 20527/48845 [7:16:12<9:55:08,  1.26s/it] 42%|████▏     | 20528/48845 [7:16:13<9:55:12,  1.26s/it] 42%|████▏     | 20529/48845 [7:16:14<9:55:31,  1.26s/it] 42%|████▏     | 20530/48845 [7:16:16<9:55:17,  1.26s/it]                                                         {'loss': 1.9815, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20530/48845 [7:16:16<9:55:17,  1.26s/it] 42%|████▏     | 20531/48845 [7:16:17<9:54:56,  1.26s/it] 42%|████▏     | 20532/48845 [7:16:18<9:54:43,  1.26s/it] 42%|████▏     | 20533/48845 [7:16:19<9:54:44,  1.26s/it] 42%|████▏     | 20534/48845 [7:16:21<9:54:54,  1.26s/it] 42%|████▏     | 20535/48845 [7:16:22<9:55:03,  1.26s/it]                                                         {'loss': 2.0607, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20535/48845 [7:16:22<9:55:03,  1.26s/it] 42%|████▏     | 20536/48845 [7:16:23<9:55:19,  1.26s/it] 42%|████▏     | 20537/48845 [7:16:24<9:55:06,  1.26s/it] 42%|████▏     | 20538/48845 [7:16:26<9:55:41,  1.26s/it] 42%|████▏     | 20539/48845 [7:16:27<9:55:52,  1.26s/it] 42%|████▏     | 20540/48845 [7:16:28<9:55:20,  1.26s/it]                                                         {'loss': 2.1063, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20540/48845 [7:16:28<9:55:20,  1.26s/it] 42%|████▏     | 20541/48845 [7:16:29<9:55:09,  1.26s/it] 42%|████▏     | 20542/48845 [7:16:31<9:55:40,  1.26s/it] 42%|████▏     | 20543/48845 [7:16:32<9:55:00,  1.26s/it] 42%|████▏     | 20544/48845 [7:16:33<9:55:05,  1.26s/it] 42%|████▏     | 20545/48845 [7:16:34<9:55:01,  1.26s/it]                                                         {'loss': 2.0112, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20545/48845 [7:16:34<9:55:01,  1.26s/it] 42%|████▏     | 20546/48845 [7:16:36<9:56:15,  1.26s/it] 42%|████▏     | 20547/48845 [7:16:37<9:56:12,  1.26s/it] 42%|████▏     | 20548/48845 [7:16:38<9:55:19,  1.26s/it] 42%|████▏     | 20549/48845 [7:16:40<9:55:05,  1.26s/it] 42%|████▏     | 20550/48845 [7:16:41<9:56:28,  1.26s/it]                                                         {'loss': 1.997, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20550/48845 [7:16:41<9:56:28,  1.26s/it] 42%|████▏     | 20551/48845 [7:16:42<9:56:04,  1.26s/it] 42%|████▏     | 20552/48845 [7:16:43<9:55:46,  1.26s/it] 42%|████▏     | 20553/48845 [7:16:45<9:55:25,  1.26s/it] 42%|████▏     | 20554/48845 [7:16:46<9:54:51,  1.26s/it] 42%|████▏     | 20555/48845 [7:16:47<9:55:03,  1.26s/it]                                                         {'loss': 2.0273, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20555/48845 [7:16:47<9:55:03,  1.26s/it] 42%|████▏     | 20556/48845 [7:16:48<9:55:28,  1.26s/it] 42%|████▏     | 20557/48845 [7:16:50<9:55:44,  1.26s/it] 42%|████▏     | 20558/48845 [7:16:51<9:56:04,  1.26s/it] 42%|████▏     | 20559/48845 [7:16:52<9:55:12,  1.26s/it] 42%|████▏     | 20560/48845 [7:16:53<9:55:02,  1.26s/it]                                                         {'loss': 2.0238, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.1}
+ 42%|████▏     | 20560/48845 [7:16:53<9:55:02,  1.26s/it] 42%|████▏     | 20561/48845 [7:16:55<9:55:06,  1.26s/it] 42%|████▏     | 20562/48845 [7:16:56<9:55:15,  1.26s/it] 42%|████▏     | 20563/48845 [7:16:57<9:55:25,  1.26s/it] 42%|████▏     | 20564/48845 [7:16:58<9:55:26,  1.26s/it] 42%|████▏     | 20565/48845 [7:17:00<9:55:04,  1.26s/it]                                                         {'loss': 2.0264, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20565/48845 [7:17:00<9:55:04,  1.26s/it] 42%|████▏     | 20566/48845 [7:17:01<10:21:03,  1.32s/it] 42%|████▏     | 20567/48845 [7:17:02<10:13:18,  1.30s/it] 42%|████▏     | 20568/48845 [7:17:04<10:08:06,  1.29s/it] 42%|████▏     | 20569/48845 [7:17:05<10:03:59,  1.28s/it] 42%|████▏     | 20570/48845 [7:17:06<10:18:17,  1.31s/it]                                                          {'loss': 2.1896, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20570/48845 [7:17:06<10:18:17,  1.31s/it] 42%|████▏     | 20571/48845 [7:17:08<10:11:05,  1.30s/it] 42%|████▏     | 20572/48845 [7:17:09<10:05:31,  1.29s/it] 42%|████▏     | 20573/48845 [7:17:10<10:01:41,  1.28s/it] 42%|████▏     | 20574/48845 [7:17:11<9:59:36,  1.27s/it]  42%|████▏     | 20575/48845 [7:17:13<9:57:40,  1.27s/it]                                                         {'loss': 2.0845, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20575/48845 [7:17:13<9:57:40,  1.27s/it] 42%|████▏     | 20576/48845 [7:17:14<9:57:02,  1.27s/it] 42%|████▏     | 20577/48845 [7:17:15<9:56:11,  1.27s/it] 42%|████▏     | 20578/48845 [7:17:16<9:54:45,  1.26s/it] 42%|████▏     | 20579/48845 [7:17:18<9:54:24,  1.26s/it] 42%|████▏     | 20580/48845 [7:17:19<9:54:52,  1.26s/it]                                                         {'loss': 2.2451, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20580/48845 [7:17:19<9:54:52,  1.26s/it] 42%|████▏     | 20581/48845 [7:17:20<9:55:27,  1.26s/it] 42%|████▏     | 20582/48845 [7:17:21<9:55:03,  1.26s/it] 42%|████▏     | 20583/48845 [7:17:23<9:54:25,  1.26s/it] 42%|████▏     | 20584/48845 [7:17:24<9:54:03,  1.26s/it] 42%|████▏     | 20585/48845 [7:17:25<9:53:57,  1.26s/it]                                                         {'loss': 2.0694, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20585/48845 [7:17:25<9:53:57,  1.26s/it] 42%|████▏     | 20586/48845 [7:17:27<9:53:59,  1.26s/it] 42%|████▏     | 20587/48845 [7:17:28<9:53:53,  1.26s/it] 42%|████▏     | 20588/48845 [7:17:29<9:53:34,  1.26s/it] 42%|████▏     | 20589/48845 [7:17:30<9:53:24,  1.26s/it] 42%|████▏     | 20590/48845 [7:17:32<9:53:17,  1.26s/it]                                                         {'loss': 2.0254, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20590/48845 [7:17:32<9:53:17,  1.26s/it] 42%|████▏     | 20591/48845 [7:17:33<9:53:08,  1.26s/it] 42%|████▏     | 20592/48845 [7:17:34<9:54:07,  1.26s/it] 42%|████▏     | 20593/48845 [7:17:35<9:53:57,  1.26s/it] 42%|████▏     | 20594/48845 [7:17:37<9:52:47,  1.26s/it] 42%|████▏     | 20595/48845 [7:17:38<9:53:24,  1.26s/it]                                                         {'loss': 2.1054, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20595/48845 [7:17:38<9:53:24,  1.26s/it] 42%|████▏     | 20596/48845 [7:17:39<9:53:09,  1.26s/it] 42%|████▏     | 20597/48845 [7:17:40<9:53:30,  1.26s/it] 42%|████▏     | 20598/48845 [7:17:42<9:53:27,  1.26s/it] 42%|████▏     | 20599/48845 [7:17:43<9:53:34,  1.26s/it] 42%|████▏     | 20600/48845 [7:17:44<9:53:08,  1.26s/it]                                                         {'loss': 1.9804, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20600/48845 [7:17:44<9:53:08,  1.26s/it] 42%|████▏     | 20601/48845 [7:17:48<15:36:23,  1.99s/it] 42%|████▏     | 20602/48845 [7:17:49<13:53:51,  1.77s/it] 42%|████▏     | 20603/48845 [7:17:50<12:41:52,  1.62s/it] 42%|████▏     | 20604/48845 [7:17:52<11:50:54,  1.51s/it] 42%|████▏     | 20605/48845 [7:17:53<11:15:12,  1.43s/it]                                                          {'loss': 2.2966, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20605/48845 [7:17:53<11:15:12,  1.43s/it] 42%|████▏     | 20606/48845 [7:17:54<10:51:02,  1.38s/it] 42%|████▏     | 20607/48845 [7:17:55<10:33:31,  1.35s/it] 42%|████▏     | 20608/48845 [7:17:57<10:21:23,  1.32s/it] 42%|████▏     | 20609/48845 [7:17:58<10:12:41,  1.30s/it] 42%|████▏     | 20610/48845 [7:17:59<10:06:41,  1.29s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20610/48845 [7:17:59<10:06:41,  1.29s/it] 42%|████▏     | 20611/48845 [7:18:00<10:02:39,  1.28s/it] 42%|████▏     | 20612/48845 [7:18:02<9:59:40,  1.27s/it]  42%|████▏     | 20613/48845 [7:18:03<9:57:40,  1.27s/it] 42%|████▏     | 20614/48845 [7:18:04<9:55:50,  1.27s/it] 42%|████▏     | 20615/48845 [7:18:05<9:54:32,  1.26s/it]                                                         {'loss': 2.0981, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20615/48845 [7:18:05<9:54:32,  1.26s/it] 42%|████▏     | 20616/48845 [7:18:07<9:54:17,  1.26s/it] 42%|████▏     | 20617/48845 [7:18:08<9:53:03,  1.26s/it] 42%|████▏     | 20618/48845 [7:18:09<9:53:16,  1.26s/it] 42%|████▏     | 20619/48845 [7:18:11<9:52:42,  1.26s/it] 42%|████▏     | 20620/48845 [7:18:12<9:52:32,  1.26s/it]                                                         {'loss': 2.0551, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20620/48845 [7:18:12<9:52:32,  1.26s/it] 42%|████▏     | 20621/48845 [7:18:13<9:53:07,  1.26s/it] 42%|████▏     | 20622/48845 [7:18:14<9:52:48,  1.26s/it] 42%|████▏     | 20623/48845 [7:18:16<9:52:55,  1.26s/it] 42%|████▏     | 20624/48845 [7:18:17<9:52:58,  1.26s/it] 42%|████▏     | 20625/48845 [7:18:18<9:52:35,  1.26s/it]                                                         {'loss': 2.0243, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20625/48845 [7:18:18<9:52:35,  1.26s/it] 42%|████▏     | 20626/48845 [7:18:19<9:52:41,  1.26s/it] 42%|████▏     | 20627/48845 [7:18:21<9:52:26,  1.26s/it] 42%|████▏     | 20628/48845 [7:18:22<9:52:20,  1.26s/it] 42%|████▏     | 20629/48845 [7:18:23<9:52:56,  1.26s/it] 42%|████▏     | 20630/48845 [7:18:24<9:53:26,  1.26s/it]                                                         {'loss': 2.1921, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20630/48845 [7:18:24<9:53:26,  1.26s/it] 42%|████▏     | 20631/48845 [7:18:26<9:53:33,  1.26s/it] 42%|████▏     | 20632/48845 [7:18:27<9:53:48,  1.26s/it] 42%|████▏     | 20633/48845 [7:18:28<9:53:10,  1.26s/it] 42%|████▏     | 20634/48845 [7:18:29<9:53:07,  1.26s/it] 42%|████▏     | 20635/48845 [7:18:31<9:52:52,  1.26s/it]                                                         {'loss': 2.0718, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20635/48845 [7:18:31<9:52:52,  1.26s/it] 42%|████▏     | 20636/48845 [7:18:32<9:52:52,  1.26s/it] 42%|████▏     | 20637/48845 [7:18:33<9:52:23,  1.26s/it] 42%|████▏     | 20638/48845 [7:18:34<9:52:33,  1.26s/it] 42%|████▏     | 20639/48845 [7:18:36<9:52:04,  1.26s/it] 42%|████▏     | 20640/48845 [7:18:37<9:52:15,  1.26s/it]                                                         {'loss': 2.0244, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20640/48845 [7:18:37<9:52:15,  1.26s/it] 42%|████▏     | 20641/48845 [7:18:38<9:52:06,  1.26s/it] 42%|████▏     | 20642/48845 [7:18:40<9:52:35,  1.26s/it] 42%|████▏     | 20643/48845 [7:18:41<9:52:05,  1.26s/it] 42%|████▏     | 20644/48845 [7:18:42<9:52:19,  1.26s/it] 42%|████▏     | 20645/48845 [7:18:43<9:51:37,  1.26s/it]                                                         {'loss': 1.9206, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20645/48845 [7:18:43<9:51:37,  1.26s/it] 42%|████▏     | 20646/48845 [7:18:45<9:52:14,  1.26s/it] 42%|████▏     | 20647/48845 [7:18:46<9:51:20,  1.26s/it] 42%|████▏     | 20648/48845 [7:18:47<9:51:07,  1.26s/it] 42%|████▏     | 20649/48845 [7:18:48<9:51:25,  1.26s/it] 42%|████▏     | 20650/48845 [7:18:50<9:52:00,  1.26s/it]                                                         {'loss': 2.0567, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20650/48845 [7:18:50<9:52:00,  1.26s/it] 42%|████▏     | 20651/48845 [7:18:51<9:52:48,  1.26s/it] 42%|████▏     | 20652/48845 [7:18:52<9:53:01,  1.26s/it] 42%|████▏     | 20653/48845 [7:18:53<9:52:40,  1.26s/it] 42%|████▏     | 20654/48845 [7:18:55<9:52:16,  1.26s/it] 42%|████▏     | 20655/48845 [7:18:56<9:52:21,  1.26s/it]                                                         {'loss': 2.09, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20655/48845 [7:18:56<9:52:21,  1.26s/it] 42%|████▏     | 20656/48845 [7:18:57<9:52:37,  1.26s/it] 42%|████▏     | 20657/48845 [7:18:58<9:53:02,  1.26s/it] 42%|████▏     | 20658/48845 [7:19:00<9:52:27,  1.26s/it] 42%|████▏     | 20659/48845 [7:19:01<9:53:21,  1.26s/it] 42%|████▏     | 20660/48845 [7:19:02<9:52:58,  1.26s/it]                                                         {'loss': 2.0562, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.11}
+ 42%|████▏     | 20660/48845 [7:19:02<9:52:58,  1.26s/it] 42%|████▏     | 20661/48845 [7:19:03<9:52:19,  1.26s/it] 42%|████▏     | 20662/48845 [7:19:05<9:52:15,  1.26s/it] 42%|████▏     | 20663/48845 [7:19:06<10:05:02,  1.29s/it] 42%|████▏     | 20664/48845 [7:19:07<10:01:30,  1.28s/it] 42%|████▏     | 20665/48845 [7:19:09<9:58:17,  1.27s/it]                                                          {'loss': 1.9265, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20665/48845 [7:19:09<9:58:17,  1.27s/it] 42%|████▏     | 20666/48845 [7:19:10<9:59:28,  1.28s/it] 42%|████▏     | 20667/48845 [7:19:11<9:57:03,  1.27s/it] 42%|████▏     | 20668/48845 [7:19:12<9:55:07,  1.27s/it] 42%|████▏     | 20669/48845 [7:19:14<9:54:01,  1.26s/it] 42%|████▏     | 20670/48845 [7:19:15<9:53:47,  1.26s/it]                                                         {'loss': 2.077, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20670/48845 [7:19:15<9:53:47,  1.26s/it] 42%|████▏     | 20671/48845 [7:19:16<9:52:55,  1.26s/it] 42%|████▏     | 20672/48845 [7:19:17<9:52:34,  1.26s/it] 42%|████▏     | 20673/48845 [7:19:19<9:52:01,  1.26s/it] 42%|████▏     | 20674/48845 [7:19:20<9:52:27,  1.26s/it] 42%|████▏     | 20675/48845 [7:19:21<9:52:01,  1.26s/it]                                                         {'loss': 2.0361, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20675/48845 [7:19:21<9:52:01,  1.26s/it] 42%|████▏     | 20676/48845 [7:19:22<9:52:27,  1.26s/it] 42%|████▏     | 20677/48845 [7:19:24<9:52:08,  1.26s/it] 42%|████▏     | 20678/48845 [7:19:25<9:52:26,  1.26s/it] 42%|████▏     | 20679/48845 [7:19:26<9:52:18,  1.26s/it] 42%|████▏     | 20680/48845 [7:19:28<9:52:16,  1.26s/it]                                                         {'loss': 2.1264, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20680/48845 [7:19:28<9:52:16,  1.26s/it] 42%|████▏     | 20681/48845 [7:19:29<9:52:02,  1.26s/it] 42%|████▏     | 20682/48845 [7:19:30<9:51:46,  1.26s/it] 42%|████▏     | 20683/48845 [7:19:31<9:51:57,  1.26s/it] 42%|████▏     | 20684/48845 [7:19:33<9:51:40,  1.26s/it] 42%|████▏     | 20685/48845 [7:19:34<9:51:37,  1.26s/it]                                                         {'loss': 1.9361, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20685/48845 [7:19:34<9:51:37,  1.26s/it] 42%|████▏     | 20686/48845 [7:19:35<10:15:51,  1.31s/it] 42%|████▏     | 20687/48845 [7:19:37<10:08:17,  1.30s/it] 42%|████▏     | 20688/48845 [7:19:38<10:03:05,  1.29s/it] 42%|████▏     | 20689/48845 [7:19:39<9:59:02,  1.28s/it]  42%|████▏     | 20690/48845 [7:19:40<9:56:47,  1.27s/it]                                                         {'loss': 2.0293, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20690/48845 [7:19:40<9:56:47,  1.27s/it] 42%|████▏     | 20691/48845 [7:19:42<9:55:28,  1.27s/it] 42%|████▏     | 20692/48845 [7:19:43<9:54:07,  1.27s/it] 42%|████▏     | 20693/48845 [7:19:44<9:52:53,  1.26s/it] 42%|████▏     | 20694/48845 [7:19:45<9:52:21,  1.26s/it] 42%|████▏     | 20695/48845 [7:19:47<9:52:17,  1.26s/it]                                                         {'loss': 1.9342, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20695/48845 [7:19:47<9:52:17,  1.26s/it] 42%|████▏     | 20696/48845 [7:19:48<9:52:03,  1.26s/it] 42%|████▏     | 20697/48845 [7:19:49<9:51:58,  1.26s/it] 42%|████▏     | 20698/48845 [7:19:50<9:51:41,  1.26s/it] 42%|████▏     | 20699/48845 [7:19:52<9:51:36,  1.26s/it] 42%|████▏     | 20700/48845 [7:19:53<9:51:43,  1.26s/it]                                                         {'loss': 2.1254, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20700/48845 [7:19:53<9:51:43,  1.26s/it] 42%|████▏     | 20701/48845 [7:19:54<9:51:13,  1.26s/it] 42%|████▏     | 20702/48845 [7:19:55<9:51:32,  1.26s/it] 42%|████▏     | 20703/48845 [7:19:57<9:52:04,  1.26s/it] 42%|████▏     | 20704/48845 [7:19:58<9:51:59,  1.26s/it] 42%|████▏     | 20705/48845 [7:19:59<9:51:12,  1.26s/it]                                                         {'loss': 1.953, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20705/48845 [7:19:59<9:51:12,  1.26s/it] 42%|████▏     | 20706/48845 [7:20:00<9:51:20,  1.26s/it] 42%|████▏     | 20707/48845 [7:20:02<9:51:25,  1.26s/it] 42%|████▏     | 20708/48845 [7:20:03<9:51:24,  1.26s/it] 42%|████▏     | 20709/48845 [7:20:04<9:51:13,  1.26s/it] 42%|████▏     | 20710/48845 [7:20:06<9:51:40,  1.26s/it]                                                         {'loss': 1.9746, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20710/48845 [7:20:06<9:51:40,  1.26s/it] 42%|████▏     | 20711/48845 [7:20:07<9:51:29,  1.26s/it] 42%|████▏     | 20712/48845 [7:20:08<9:50:31,  1.26s/it] 42%|████▏     | 20713/48845 [7:20:09<9:50:42,  1.26s/it] 42%|████▏     | 20714/48845 [7:20:11<9:51:28,  1.26s/it] 42%|████▏     | 20715/48845 [7:20:12<9:51:11,  1.26s/it]                                                         {'loss': 2.0257, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20715/48845 [7:20:12<9:51:11,  1.26s/it] 42%|████▏     | 20716/48845 [7:20:13<9:51:06,  1.26s/it] 42%|████▏     | 20717/48845 [7:20:14<9:51:17,  1.26s/it] 42%|████▏     | 20718/48845 [7:20:16<9:51:10,  1.26s/it] 42%|████▏     | 20719/48845 [7:20:17<9:51:04,  1.26s/it] 42%|████▏     | 20720/48845 [7:20:18<9:51:23,  1.26s/it]                                                         {'loss': 2.0382, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20720/48845 [7:20:18<9:51:23,  1.26s/it] 42%|████▏     | 20721/48845 [7:20:19<9:51:32,  1.26s/it] 42%|████▏     | 20722/48845 [7:20:21<9:51:09,  1.26s/it] 42%|████▏     | 20723/48845 [7:20:22<9:51:49,  1.26s/it] 42%|████▏     | 20724/48845 [7:20:23<9:50:35,  1.26s/it] 42%|████▏     | 20725/48845 [7:20:24<9:50:26,  1.26s/it]                                                         {'loss': 2.2462, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20725/48845 [7:20:24<9:50:26,  1.26s/it] 42%|████▏     | 20726/48845 [7:20:26<9:50:40,  1.26s/it] 42%|████▏     | 20727/48845 [7:20:27<9:51:09,  1.26s/it] 42%|████▏     | 20728/48845 [7:20:28<9:50:54,  1.26s/it] 42%|████▏     | 20729/48845 [7:20:29<9:50:13,  1.26s/it] 42%|████▏     | 20730/48845 [7:20:31<9:49:48,  1.26s/it]                                                         {'loss': 2.2637, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20730/48845 [7:20:31<9:49:48,  1.26s/it] 42%|████▏     | 20731/48845 [7:20:32<9:50:22,  1.26s/it] 42%|████▏     | 20732/48845 [7:20:33<9:50:12,  1.26s/it] 42%|████▏     | 20733/48845 [7:20:35<9:50:31,  1.26s/it] 42%|████▏     | 20734/48845 [7:20:36<9:49:39,  1.26s/it] 42%|████▏     | 20735/48845 [7:20:37<9:50:00,  1.26s/it]                                                         {'loss': 2.0683, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20735/48845 [7:20:37<9:50:00,  1.26s/it] 42%|████▏     | 20736/48845 [7:20:38<9:50:38,  1.26s/it] 42%|████▏     | 20737/48845 [7:20:40<9:50:01,  1.26s/it] 42%|████▏     | 20738/48845 [7:20:41<9:50:29,  1.26s/it] 42%|████▏     | 20739/48845 [7:20:42<9:50:38,  1.26s/it] 42%|████▏     | 20740/48845 [7:20:43<9:50:48,  1.26s/it]                                                         {'loss': 2.1314, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20740/48845 [7:20:43<9:50:48,  1.26s/it] 42%|████▏     | 20741/48845 [7:20:45<9:51:39,  1.26s/it] 42%|████▏     | 20742/48845 [7:20:46<9:50:51,  1.26s/it] 42%|████▏     | 20743/48845 [7:20:47<9:50:29,  1.26s/it] 42%|████▏     | 20744/48845 [7:20:48<9:50:48,  1.26s/it] 42%|████▏     | 20745/48845 [7:20:50<9:50:39,  1.26s/it]                                                         {'loss': 1.9803, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20745/48845 [7:20:50<9:50:39,  1.26s/it] 42%|████▏     | 20746/48845 [7:20:51<9:50:16,  1.26s/it] 42%|████▏     | 20747/48845 [7:20:52<9:49:44,  1.26s/it] 42%|████▏     | 20748/48845 [7:20:53<9:49:25,  1.26s/it] 42%|████▏     | 20749/48845 [7:20:55<9:50:18,  1.26s/it] 42%|████▏     | 20750/48845 [7:20:56<9:49:49,  1.26s/it]                                                         {'loss': 2.0596, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20750/48845 [7:20:56<9:49:49,  1.26s/it] 42%|████▏     | 20751/48845 [7:20:57<9:49:47,  1.26s/it] 42%|████▏     | 20752/48845 [7:20:58<9:50:06,  1.26s/it] 42%|████▏     | 20753/48845 [7:21:00<9:50:53,  1.26s/it] 42%|████▏     | 20754/48845 [7:21:01<9:50:59,  1.26s/it] 42%|████▏     | 20755/48845 [7:21:02<9:50:36,  1.26s/it]                                                         {'loss': 1.9867, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.12}
+ 42%|████▏     | 20755/48845 [7:21:02<9:50:36,  1.26s/it] 42%|████▏     | 20756/48845 [7:21:04<9:51:07,  1.26s/it] 42%|████▏     | 20757/48845 [7:21:05<9:50:44,  1.26s/it] 42%|████▏     | 20758/48845 [7:21:06<9:51:20,  1.26s/it] 42%|████▏     | 20759/48845 [7:21:07<9:50:38,  1.26s/it] 43%|████▎     | 20760/48845 [7:21:09<9:50:13,  1.26s/it]                                                         {'loss': 1.9873, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20760/48845 [7:21:09<9:50:13,  1.26s/it] 43%|████▎     | 20761/48845 [7:21:10<9:50:07,  1.26s/it] 43%|████▎     | 20762/48845 [7:21:11<9:50:49,  1.26s/it] 43%|████▎     | 20763/48845 [7:21:12<9:51:22,  1.26s/it] 43%|████▎     | 20764/48845 [7:21:14<9:50:44,  1.26s/it] 43%|████▎     | 20765/48845 [7:21:15<9:52:14,  1.27s/it]                                                         {'loss': 2.0402, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20765/48845 [7:21:15<9:52:14,  1.27s/it] 43%|████▎     | 20766/48845 [7:21:16<9:51:42,  1.26s/it] 43%|████▎     | 20767/48845 [7:21:17<9:50:56,  1.26s/it] 43%|████▎     | 20768/48845 [7:21:19<9:50:47,  1.26s/it] 43%|████▎     | 20769/48845 [7:21:20<9:50:31,  1.26s/it] 43%|████▎     | 20770/48845 [7:21:21<9:50:47,  1.26s/it]                                                         {'loss': 2.0145, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20770/48845 [7:21:21<9:50:47,  1.26s/it] 43%|████▎     | 20771/48845 [7:21:22<9:50:19,  1.26s/it] 43%|████▎     | 20772/48845 [7:21:24<9:50:07,  1.26s/it] 43%|████▎     | 20773/48845 [7:21:25<9:51:05,  1.26s/it] 43%|████▎     | 20774/48845 [7:21:26<9:50:55,  1.26s/it] 43%|████▎     | 20775/48845 [7:21:28<9:50:58,  1.26s/it]                                                         {'loss': 1.9933, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20775/48845 [7:21:28<9:50:58,  1.26s/it] 43%|████▎     | 20776/48845 [7:21:29<9:51:09,  1.26s/it] 43%|████▎     | 20777/48845 [7:21:30<9:50:17,  1.26s/it] 43%|████▎     | 20778/48845 [7:21:31<9:54:57,  1.27s/it] 43%|████▎     | 20779/48845 [7:21:33<9:53:56,  1.27s/it] 43%|████▎     | 20780/48845 [7:21:34<9:52:46,  1.27s/it]                                                         {'loss': 2.0222, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20780/48845 [7:21:34<9:52:46,  1.27s/it] 43%|████▎     | 20781/48845 [7:21:35<9:51:42,  1.27s/it] 43%|████▎     | 20782/48845 [7:21:37<10:13:17,  1.31s/it] 43%|████▎     | 20783/48845 [7:21:38<10:05:47,  1.30s/it] 43%|████▎     | 20784/48845 [7:21:39<10:00:49,  1.28s/it] 43%|████▎     | 20785/48845 [7:21:40<9:57:12,  1.28s/it]                                                          {'loss': 1.9301, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20785/48845 [7:21:40<9:57:12,  1.28s/it] 43%|████▎     | 20786/48845 [7:21:42<9:55:17,  1.27s/it] 43%|████▎     | 20787/48845 [7:21:43<9:53:32,  1.27s/it] 43%|████▎     | 20788/48845 [7:21:44<9:52:01,  1.27s/it] 43%|████▎     | 20789/48845 [7:21:45<9:51:17,  1.26s/it] 43%|████▎     | 20790/48845 [7:21:47<9:50:52,  1.26s/it]                                                         {'loss': 1.9628, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20790/48845 [7:21:47<9:50:52,  1.26s/it] 43%|████▎     | 20791/48845 [7:21:48<9:50:50,  1.26s/it] 43%|████▎     | 20792/48845 [7:21:49<9:49:57,  1.26s/it] 43%|████▎     | 20793/48845 [7:21:50<9:49:39,  1.26s/it] 43%|████▎     | 20794/48845 [7:21:52<9:49:32,  1.26s/it] 43%|████▎     | 20795/48845 [7:21:53<9:48:51,  1.26s/it]                                                         {'loss': 1.9853, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20795/48845 [7:21:53<9:48:51,  1.26s/it] 43%|████▎     | 20796/48845 [7:21:54<9:49:22,  1.26s/it] 43%|████▎     | 20797/48845 [7:21:55<9:49:27,  1.26s/it] 43%|████▎     | 20798/48845 [7:21:57<9:49:29,  1.26s/it] 43%|████▎     | 20799/48845 [7:21:58<9:49:40,  1.26s/it] 43%|████▎     | 20800/48845 [7:21:59<9:49:21,  1.26s/it]                                                         {'loss': 2.1442, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20800/48845 [7:21:59<9:49:21,  1.26s/it] 43%|████▎     | 20801/48845 [7:22:03<15:29:51,  1.99s/it] 43%|████▎     | 20802/48845 [7:22:04<13:47:22,  1.77s/it] 43%|████▎     | 20803/48845 [7:22:05<12:35:22,  1.62s/it] 43%|████▎     | 20804/48845 [7:22:07<11:45:31,  1.51s/it] 43%|████▎     | 20805/48845 [7:22:08<11:10:00,  1.43s/it]                                                          {'loss': 1.9568, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20805/48845 [7:22:08<11:10:00,  1.43s/it] 43%|████▎     | 20806/48845 [7:22:09<10:45:36,  1.38s/it] 43%|████▎     | 20807/48845 [7:22:10<10:28:56,  1.35s/it] 43%|████▎     | 20808/48845 [7:22:12<10:17:39,  1.32s/it] 43%|████▎     | 20809/48845 [7:22:13<10:09:16,  1.30s/it] 43%|████▎     | 20810/48845 [7:22:14<10:03:35,  1.29s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20810/48845 [7:22:14<10:03:35,  1.29s/it] 43%|████▎     | 20811/48845 [7:22:16<9:58:57,  1.28s/it]  43%|████▎     | 20812/48845 [7:22:17<9:56:07,  1.28s/it] 43%|████▎     | 20813/48845 [7:22:18<9:53:57,  1.27s/it] 43%|████▎     | 20814/48845 [7:22:19<9:52:13,  1.27s/it] 43%|████▎     | 20815/48845 [7:22:21<9:51:34,  1.27s/it]                                                         {'loss': 2.0898, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20815/48845 [7:22:21<9:51:34,  1.27s/it] 43%|████▎     | 20816/48845 [7:22:22<9:50:20,  1.26s/it] 43%|████▎     | 20817/48845 [7:22:23<9:50:04,  1.26s/it] 43%|████▎     | 20818/48845 [7:22:24<9:49:01,  1.26s/it] 43%|████▎     | 20819/48845 [7:22:26<9:48:34,  1.26s/it] 43%|████▎     | 20820/48845 [7:22:27<9:48:51,  1.26s/it]                                                         {'loss': 1.9455, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20820/48845 [7:22:27<9:48:51,  1.26s/it] 43%|████▎     | 20821/48845 [7:22:28<9:48:40,  1.26s/it] 43%|████▎     | 20822/48845 [7:22:29<9:48:08,  1.26s/it] 43%|████▎     | 20823/48845 [7:22:31<9:47:59,  1.26s/it] 43%|████▎     | 20824/48845 [7:22:32<9:48:15,  1.26s/it] 43%|████▎     | 20825/48845 [7:22:33<9:48:16,  1.26s/it]                                                         {'loss': 1.9364, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20825/48845 [7:22:33<9:48:16,  1.26s/it] 43%|████▎     | 20826/48845 [7:22:34<9:48:29,  1.26s/it] 43%|████▎     | 20827/48845 [7:22:36<9:48:11,  1.26s/it] 43%|████▎     | 20828/48845 [7:22:37<9:47:53,  1.26s/it] 43%|████▎     | 20829/48845 [7:22:38<9:47:58,  1.26s/it] 43%|████▎     | 20830/48845 [7:22:39<9:48:11,  1.26s/it]                                                         {'loss': 2.1803, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20830/48845 [7:22:39<9:48:11,  1.26s/it] 43%|████▎     | 20831/48845 [7:22:41<9:48:05,  1.26s/it] 43%|████▎     | 20832/48845 [7:22:42<9:48:00,  1.26s/it] 43%|████▎     | 20833/48845 [7:22:43<9:47:47,  1.26s/it] 43%|████▎     | 20834/48845 [7:22:44<9:47:53,  1.26s/it] 43%|████▎     | 20835/48845 [7:22:46<9:51:34,  1.27s/it]                                                         {'loss': 2.0934, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20835/48845 [7:22:46<9:51:34,  1.27s/it] 43%|████▎     | 20836/48845 [7:22:47<9:50:33,  1.27s/it] 43%|████▎     | 20837/48845 [7:22:48<9:49:19,  1.26s/it] 43%|████▎     | 20838/48845 [7:22:50<9:48:51,  1.26s/it] 43%|████▎     | 20839/48845 [7:22:51<9:50:13,  1.26s/it] 43%|████▎     | 20840/48845 [7:22:52<9:50:00,  1.26s/it]                                                         {'loss': 2.0596, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20840/48845 [7:22:52<9:50:00,  1.26s/it] 43%|████▎     | 20841/48845 [7:22:53<9:50:15,  1.26s/it] 43%|████▎     | 20842/48845 [7:22:55<9:49:28,  1.26s/it] 43%|████▎     | 20843/48845 [7:22:56<9:48:49,  1.26s/it] 43%|████▎     | 20844/48845 [7:22:57<9:48:34,  1.26s/it] 43%|████▎     | 20845/48845 [7:22:58<9:48:08,  1.26s/it]                                                         {'loss': 1.813, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20845/48845 [7:22:58<9:48:08,  1.26s/it] 43%|████▎     | 20846/48845 [7:23:00<9:48:12,  1.26s/it] 43%|████▎     | 20847/48845 [7:23:01<9:48:04,  1.26s/it] 43%|████▎     | 20848/48845 [7:23:02<9:47:28,  1.26s/it] 43%|████▎     | 20849/48845 [7:23:03<9:47:43,  1.26s/it] 43%|████▎     | 20850/48845 [7:23:05<9:47:30,  1.26s/it]                                                         {'loss': 2.0095, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20850/48845 [7:23:05<9:47:30,  1.26s/it] 43%|████▎     | 20851/48845 [7:23:06<9:48:04,  1.26s/it] 43%|████▎     | 20852/48845 [7:23:07<9:47:43,  1.26s/it] 43%|████▎     | 20853/48845 [7:23:08<9:47:46,  1.26s/it] 43%|████▎     | 20854/48845 [7:23:10<9:47:30,  1.26s/it] 43%|████▎     | 20855/48845 [7:23:11<9:47:06,  1.26s/it]                                                         {'loss': 2.1887, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.13}
+ 43%|████▎     | 20855/48845 [7:23:11<9:47:06,  1.26s/it] 43%|████▎     | 20856/48845 [7:23:12<9:47:45,  1.26s/it] 43%|████▎     | 20857/48845 [7:23:14<9:47:50,  1.26s/it] 43%|████▎     | 20858/48845 [7:23:15<9:47:46,  1.26s/it] 43%|████▎     | 20859/48845 [7:23:16<9:57:21,  1.28s/it] 43%|████▎     | 20860/48845 [7:23:17<9:54:09,  1.27s/it]                                                         {'loss': 2.0667, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20860/48845 [7:23:17<9:54:09,  1.27s/it] 43%|████▎     | 20861/48845 [7:23:19<9:52:04,  1.27s/it] 43%|████▎     | 20862/48845 [7:23:20<9:51:14,  1.27s/it] 43%|████▎     | 20863/48845 [7:23:21<9:49:54,  1.26s/it] 43%|████▎     | 20864/48845 [7:23:22<9:49:01,  1.26s/it] 43%|████▎     | 20865/48845 [7:23:24<9:48:31,  1.26s/it]                                                         {'loss': 2.1521, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20865/48845 [7:23:24<9:48:31,  1.26s/it] 43%|████▎     | 20866/48845 [7:23:25<9:48:00,  1.26s/it] 43%|████▎     | 20867/48845 [7:23:26<9:48:04,  1.26s/it] 43%|████▎     | 20868/48845 [7:23:27<9:47:23,  1.26s/it] 43%|████▎     | 20869/48845 [7:23:29<9:47:19,  1.26s/it] 43%|████▎     | 20870/48845 [7:23:30<9:47:25,  1.26s/it]                                                         {'loss': 2.0195, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20870/48845 [7:23:30<9:47:25,  1.26s/it] 43%|████▎     | 20871/48845 [7:23:31<9:48:14,  1.26s/it] 43%|████▎     | 20872/48845 [7:23:32<9:48:01,  1.26s/it] 43%|████▎     | 20873/48845 [7:23:34<9:48:06,  1.26s/it] 43%|████▎     | 20874/48845 [7:23:35<9:48:27,  1.26s/it] 43%|████▎     | 20875/48845 [7:23:36<9:47:35,  1.26s/it]                                                         {'loss': 2.081, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20875/48845 [7:23:36<9:47:35,  1.26s/it] 43%|████▎     | 20876/48845 [7:23:38<9:48:07,  1.26s/it] 43%|████▎     | 20877/48845 [7:23:39<9:48:12,  1.26s/it] 43%|████▎     | 20878/48845 [7:23:40<9:48:16,  1.26s/it] 43%|████▎     | 20879/48845 [7:23:41<9:47:34,  1.26s/it] 43%|████▎     | 20880/48845 [7:23:43<9:47:35,  1.26s/it]                                                         {'loss': 2.0194, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20880/48845 [7:23:43<9:47:35,  1.26s/it] 43%|████▎     | 20881/48845 [7:23:44<9:47:52,  1.26s/it] 43%|████▎     | 20882/48845 [7:23:45<9:48:19,  1.26s/it] 43%|████▎     | 20883/48845 [7:23:46<9:48:06,  1.26s/it] 43%|████▎     | 20884/48845 [7:23:48<9:48:01,  1.26s/it] 43%|████▎     | 20885/48845 [7:23:49<9:47:48,  1.26s/it]                                                         {'loss': 2.073, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20885/48845 [7:23:49<9:47:48,  1.26s/it] 43%|████▎     | 20886/48845 [7:23:50<9:49:01,  1.26s/it] 43%|████▎     | 20887/48845 [7:23:51<9:48:46,  1.26s/it] 43%|████▎     | 20888/48845 [7:23:53<9:48:00,  1.26s/it] 43%|████▎     | 20889/48845 [7:23:54<9:47:44,  1.26s/it] 43%|████▎     | 20890/48845 [7:23:55<10:03:27,  1.30s/it]                                                          {'loss': 1.9879, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20890/48845 [7:23:55<10:03:27,  1.30s/it] 43%|████▎     | 20891/48845 [7:23:57<9:59:06,  1.29s/it]  43%|████▎     | 20892/48845 [7:23:58<9:56:11,  1.28s/it] 43%|████▎     | 20893/48845 [7:23:59<9:54:30,  1.28s/it] 43%|████▎     | 20894/48845 [7:24:00<9:51:50,  1.27s/it] 43%|████▎     | 20895/48845 [7:24:02<9:50:14,  1.27s/it]                                                         {'loss': 2.2202, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20895/48845 [7:24:02<9:50:14,  1.27s/it] 43%|████▎     | 20896/48845 [7:24:03<9:49:09,  1.26s/it] 43%|████▎     | 20897/48845 [7:24:04<9:49:14,  1.27s/it] 43%|████▎     | 20898/48845 [7:24:05<9:48:12,  1.26s/it] 43%|████▎     | 20899/48845 [7:24:07<9:47:35,  1.26s/it] 43%|████▎     | 20900/48845 [7:24:08<9:47:09,  1.26s/it]                                                         {'loss': 2.1856, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20900/48845 [7:24:08<9:47:09,  1.26s/it] 43%|████▎     | 20901/48845 [7:24:09<9:47:23,  1.26s/it] 43%|████▎     | 20902/48845 [7:24:10<9:47:25,  1.26s/it] 43%|████▎     | 20903/48845 [7:24:12<9:46:56,  1.26s/it] 43%|████▎     | 20904/48845 [7:24:13<9:47:03,  1.26s/it] 43%|████▎     | 20905/48845 [7:24:14<9:47:12,  1.26s/it]                                                         {'loss': 2.0675, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20905/48845 [7:24:14<9:47:12,  1.26s/it] 43%|████▎     | 20906/48845 [7:24:15<9:47:48,  1.26s/it] 43%|████▎     | 20907/48845 [7:24:17<9:47:33,  1.26s/it] 43%|████▎     | 20908/48845 [7:24:18<9:47:01,  1.26s/it] 43%|████▎     | 20909/48845 [7:24:19<9:47:01,  1.26s/it] 43%|████▎     | 20910/48845 [7:24:21<9:47:06,  1.26s/it]                                                         {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20910/48845 [7:24:21<9:47:06,  1.26s/it] 43%|████▎     | 20911/48845 [7:24:22<9:46:45,  1.26s/it] 43%|████▎     | 20912/48845 [7:24:23<9:46:21,  1.26s/it] 43%|████▎     | 20913/48845 [7:24:24<9:46:02,  1.26s/it] 43%|████▎     | 20914/48845 [7:24:26<9:46:10,  1.26s/it] 43%|████▎     | 20915/48845 [7:24:27<9:46:51,  1.26s/it]                                                         {'loss': 1.9659, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20915/48845 [7:24:27<9:46:51,  1.26s/it] 43%|████▎     | 20916/48845 [7:24:28<9:46:59,  1.26s/it] 43%|████▎     | 20917/48845 [7:24:29<9:47:13,  1.26s/it] 43%|████▎     | 20918/48845 [7:24:31<9:47:24,  1.26s/it] 43%|████▎     | 20919/48845 [7:24:32<9:47:03,  1.26s/it] 43%|████▎     | 20920/48845 [7:24:33<9:46:43,  1.26s/it]                                                         {'loss': 1.9459, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20920/48845 [7:24:33<9:46:43,  1.26s/it] 43%|████▎     | 20921/48845 [7:24:34<9:46:48,  1.26s/it] 43%|████▎     | 20922/48845 [7:24:36<9:46:06,  1.26s/it] 43%|████▎     | 20923/48845 [7:24:37<9:46:45,  1.26s/it] 43%|████▎     | 20924/48845 [7:24:38<9:46:34,  1.26s/it] 43%|████▎     | 20925/48845 [7:24:39<9:47:01,  1.26s/it]                                                         {'loss': 2.0352, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20925/48845 [7:24:39<9:47:01,  1.26s/it] 43%|████▎     | 20926/48845 [7:24:41<9:47:10,  1.26s/it] 43%|████▎     | 20927/48845 [7:24:42<9:46:44,  1.26s/it] 43%|████▎     | 20928/48845 [7:24:43<9:46:34,  1.26s/it] 43%|████▎     | 20929/48845 [7:24:44<9:46:28,  1.26s/it] 43%|████▎     | 20930/48845 [7:24:46<9:46:06,  1.26s/it]                                                         {'loss': 2.0392, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20930/48845 [7:24:46<9:46:06,  1.26s/it] 43%|████▎     | 20931/48845 [7:24:47<9:46:07,  1.26s/it] 43%|████▎     | 20932/48845 [7:24:48<9:45:39,  1.26s/it] 43%|████▎     | 20933/48845 [7:24:50<9:46:53,  1.26s/it] 43%|████▎     | 20934/48845 [7:24:51<9:46:39,  1.26s/it] 43%|████▎     | 20935/48845 [7:24:52<9:46:20,  1.26s/it]                                                         {'loss': 2.0942, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20935/48845 [7:24:52<9:46:20,  1.26s/it] 43%|████▎     | 20936/48845 [7:24:53<9:46:00,  1.26s/it] 43%|████▎     | 20937/48845 [7:24:55<9:45:53,  1.26s/it] 43%|████▎     | 20938/48845 [7:24:56<9:46:13,  1.26s/it] 43%|████▎     | 20939/48845 [7:24:57<9:46:01,  1.26s/it] 43%|████▎     | 20940/48845 [7:24:58<9:46:06,  1.26s/it]                                                         {'loss': 2.1441, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20940/48845 [7:24:58<9:46:06,  1.26s/it] 43%|████▎     | 20941/48845 [7:25:00<9:47:21,  1.26s/it] 43%|████▎     | 20942/48845 [7:25:01<9:47:13,  1.26s/it] 43%|████▎     | 20943/48845 [7:25:02<9:46:56,  1.26s/it] 43%|████▎     | 20944/48845 [7:25:03<9:46:33,  1.26s/it] 43%|████▎     | 20945/48845 [7:25:05<9:46:12,  1.26s/it]                                                         {'loss': 2.0066, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20945/48845 [7:25:05<9:46:12,  1.26s/it] 43%|████▎     | 20946/48845 [7:25:06<9:46:56,  1.26s/it] 43%|████▎     | 20947/48845 [7:25:07<9:46:48,  1.26s/it] 43%|████▎     | 20948/48845 [7:25:08<9:46:00,  1.26s/it] 43%|████▎     | 20949/48845 [7:25:10<9:45:24,  1.26s/it] 43%|████▎     | 20950/48845 [7:25:11<9:44:58,  1.26s/it]                                                         {'loss': 2.0278, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.14}
+ 43%|████▎     | 20950/48845 [7:25:11<9:44:58,  1.26s/it] 43%|████▎     | 20951/48845 [7:25:12<9:45:32,  1.26s/it] 43%|████▎     | 20952/48845 [7:25:13<9:45:12,  1.26s/it] 43%|████▎     | 20953/48845 [7:25:15<9:45:36,  1.26s/it] 43%|████▎     | 20954/48845 [7:25:16<9:45:16,  1.26s/it] 43%|████▎     | 20955/48845 [7:25:17<9:46:09,  1.26s/it]                                                         {'loss': 2.0268, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20955/48845 [7:25:17<9:46:09,  1.26s/it] 43%|████▎     | 20956/48845 [7:25:19<9:46:16,  1.26s/it] 43%|████▎     | 20957/48845 [7:25:20<9:45:33,  1.26s/it] 43%|████▎     | 20958/48845 [7:25:21<9:45:37,  1.26s/it] 43%|████▎     | 20959/48845 [7:25:22<9:45:15,  1.26s/it] 43%|████▎     | 20960/48845 [7:25:24<9:45:01,  1.26s/it]                                                         {'loss': 2.1752, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20960/48845 [7:25:24<9:45:01,  1.26s/it] 43%|████▎     | 20961/48845 [7:25:25<9:46:06,  1.26s/it] 43%|████▎     | 20962/48845 [7:25:26<9:51:28,  1.27s/it] 43%|████▎     | 20963/48845 [7:25:27<9:49:42,  1.27s/it] 43%|████▎     | 20964/48845 [7:25:29<9:48:21,  1.27s/it] 43%|████▎     | 20965/48845 [7:25:30<9:47:02,  1.26s/it]                                                         {'loss': 1.9538, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20965/48845 [7:25:30<9:47:02,  1.26s/it] 43%|████▎     | 20966/48845 [7:25:31<9:46:06,  1.26s/it] 43%|████▎     | 20967/48845 [7:25:32<9:46:34,  1.26s/it] 43%|████▎     | 20968/48845 [7:25:34<9:46:30,  1.26s/it] 43%|████▎     | 20969/48845 [7:25:35<9:46:10,  1.26s/it] 43%|████▎     | 20970/48845 [7:25:36<9:46:13,  1.26s/it]                                                         {'loss': 2.0081, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20970/48845 [7:25:36<9:46:13,  1.26s/it] 43%|████▎     | 20971/48845 [7:25:37<9:45:53,  1.26s/it] 43%|████▎     | 20972/48845 [7:25:39<9:46:03,  1.26s/it] 43%|████▎     | 20973/48845 [7:25:40<9:46:03,  1.26s/it] 43%|████▎     | 20974/48845 [7:25:41<9:45:52,  1.26s/it] 43%|████▎     | 20975/48845 [7:25:43<9:46:03,  1.26s/it]                                                         {'loss': 2.1661, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20975/48845 [7:25:43<9:46:03,  1.26s/it] 43%|████▎     | 20976/48845 [7:25:44<9:46:09,  1.26s/it] 43%|████▎     | 20977/48845 [7:25:45<9:45:56,  1.26s/it] 43%|████▎     | 20978/48845 [7:25:46<9:45:59,  1.26s/it] 43%|████▎     | 20979/48845 [7:25:48<9:45:48,  1.26s/it] 43%|████▎     | 20980/48845 [7:25:49<9:45:51,  1.26s/it]                                                         {'loss': 2.123, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20980/48845 [7:25:49<9:45:51,  1.26s/it] 43%|████▎     | 20981/48845 [7:25:50<9:45:15,  1.26s/it] 43%|████▎     | 20982/48845 [7:25:51<9:45:04,  1.26s/it] 43%|████▎     | 20983/48845 [7:25:53<9:44:17,  1.26s/it] 43%|████▎     | 20984/48845 [7:25:54<9:44:30,  1.26s/it] 43%|████▎     | 20985/48845 [7:25:55<9:44:41,  1.26s/it]                                                         {'loss': 2.1744, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20985/48845 [7:25:55<9:44:41,  1.26s/it] 43%|████▎     | 20986/48845 [7:25:56<9:44:53,  1.26s/it] 43%|████▎     | 20987/48845 [7:25:58<9:45:08,  1.26s/it] 43%|████▎     | 20988/48845 [7:25:59<9:44:55,  1.26s/it] 43%|████▎     | 20989/48845 [7:26:00<9:44:17,  1.26s/it] 43%|████▎     | 20990/48845 [7:26:01<9:45:21,  1.26s/it]                                                         {'loss': 2.0629, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20990/48845 [7:26:01<9:45:21,  1.26s/it] 43%|████▎     | 20991/48845 [7:26:03<9:45:04,  1.26s/it] 43%|████▎     | 20992/48845 [7:26:04<9:45:04,  1.26s/it] 43%|████▎     | 20993/48845 [7:26:05<9:45:09,  1.26s/it] 43%|████▎     | 20994/48845 [7:26:07<10:06:05,  1.31s/it] 43%|████▎     | 20995/48845 [7:26:08<9:59:56,  1.29s/it]                                                          {'loss': 2.1053, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 20995/48845 [7:26:08<9:59:56,  1.29s/it] 43%|████▎     | 20996/48845 [7:26:09<9:56:09,  1.28s/it] 43%|████▎     | 20997/48845 [7:26:10<9:52:33,  1.28s/it] 43%|████▎     | 20998/48845 [7:26:12<9:50:19,  1.27s/it] 43%|████▎     | 20999/48845 [7:26:13<9:48:30,  1.27s/it] 43%|████▎     | 21000/48845 [7:26:14<9:47:21,  1.27s/it]                                                         {'loss': 2.1492, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21000/48845 [7:26:14<9:47:21,  1.27s/it] 43%|████▎     | 21001/48845 [7:26:18<15:24:14,  1.99s/it] 43%|████▎     | 21002/48845 [7:26:19<13:42:33,  1.77s/it] 43%|████▎     | 21003/48845 [7:26:20<12:30:38,  1.62s/it] 43%|████▎     | 21004/48845 [7:26:22<11:40:35,  1.51s/it] 43%|████▎     | 21005/48845 [7:26:23<11:04:46,  1.43s/it]                                                          {'loss': 2.3091, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21005/48845 [7:26:23<11:04:46,  1.43s/it] 43%|████▎     | 21006/48845 [7:26:24<10:40:35,  1.38s/it] 43%|████▎     | 21007/48845 [7:26:25<10:24:04,  1.35s/it] 43%|████▎     | 21008/48845 [7:26:27<10:11:34,  1.32s/it] 43%|████▎     | 21009/48845 [7:26:28<10:03:25,  1.30s/it] 43%|████▎     | 21010/48845 [7:26:29<9:57:09,  1.29s/it]                                                          {'loss': 2.0044, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21010/48845 [7:26:29<9:57:09,  1.29s/it] 43%|████▎     | 21011/48845 [7:26:30<9:53:12,  1.28s/it] 43%|████▎     | 21012/48845 [7:26:32<9:50:59,  1.27s/it] 43%|████▎     | 21013/48845 [7:26:33<9:48:55,  1.27s/it] 43%|████▎     | 21014/48845 [7:26:34<9:48:03,  1.27s/it] 43%|████▎     | 21015/48845 [7:26:35<9:47:15,  1.27s/it]                                                         {'loss': 2.0935, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21015/48845 [7:26:35<9:47:15,  1.27s/it] 43%|████▎     | 21016/48845 [7:26:37<9:46:19,  1.26s/it] 43%|████▎     | 21017/48845 [7:26:38<9:58:13,  1.29s/it] 43%|████▎     | 21018/48845 [7:26:39<9:53:30,  1.28s/it] 43%|████▎     | 21019/48845 [7:26:41<9:50:56,  1.27s/it] 43%|████▎     | 21020/48845 [7:26:42<9:48:44,  1.27s/it]                                                         {'loss': 2.0642, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21020/48845 [7:26:42<9:48:44,  1.27s/it] 43%|████▎     | 21021/48845 [7:26:43<9:47:23,  1.27s/it] 43%|████▎     | 21022/48845 [7:26:44<9:46:47,  1.27s/it] 43%|████▎     | 21023/48845 [7:26:46<9:45:49,  1.26s/it] 43%|████▎     | 21024/48845 [7:26:47<9:45:09,  1.26s/it] 43%|████▎     | 21025/48845 [7:26:48<9:45:18,  1.26s/it]                                                         {'loss': 2.0747, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21025/48845 [7:26:48<9:45:18,  1.26s/it] 43%|████▎     | 21026/48845 [7:26:49<9:45:20,  1.26s/it] 43%|████▎     | 21027/48845 [7:26:51<9:45:18,  1.26s/it] 43%|████▎     | 21028/48845 [7:26:52<9:45:15,  1.26s/it] 43%|████▎     | 21029/48845 [7:26:53<9:44:47,  1.26s/it] 43%|████▎     | 21030/48845 [7:26:54<9:44:18,  1.26s/it]                                                         {'loss': 2.0432, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21030/48845 [7:26:54<9:44:18,  1.26s/it] 43%|████▎     | 21031/48845 [7:26:56<9:44:16,  1.26s/it] 43%|████▎     | 21032/48845 [7:26:57<9:44:14,  1.26s/it] 43%|████▎     | 21033/48845 [7:26:58<9:43:38,  1.26s/it] 43%|████▎     | 21034/48845 [7:27:00<9:43:44,  1.26s/it] 43%|████▎     | 21035/48845 [7:27:01<9:43:44,  1.26s/it]                                                         {'loss': 2.167, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21035/48845 [7:27:01<9:43:44,  1.26s/it] 43%|████▎     | 21036/48845 [7:27:02<9:44:46,  1.26s/it] 43%|████▎     | 21037/48845 [7:27:03<9:44:54,  1.26s/it] 43%|████▎     | 21038/48845 [7:27:05<9:44:07,  1.26s/it] 43%|████▎     | 21039/48845 [7:27:06<9:43:37,  1.26s/it] 43%|████▎     | 21040/48845 [7:27:07<9:44:02,  1.26s/it]                                                         {'loss': 2.1031, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21040/48845 [7:27:07<9:44:02,  1.26s/it] 43%|████▎     | 21041/48845 [7:27:08<9:43:54,  1.26s/it] 43%|████▎     | 21042/48845 [7:27:10<9:44:19,  1.26s/it] 43%|████▎     | 21043/48845 [7:27:11<9:43:37,  1.26s/it] 43%|████▎     | 21044/48845 [7:27:12<9:43:04,  1.26s/it] 43%|████▎     | 21045/48845 [7:27:13<9:43:02,  1.26s/it]                                                         {'loss': 1.9724, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21045/48845 [7:27:13<9:43:02,  1.26s/it] 43%|████▎     | 21046/48845 [7:27:15<9:43:17,  1.26s/it] 43%|████▎     | 21047/48845 [7:27:16<9:43:40,  1.26s/it] 43%|████▎     | 21048/48845 [7:27:17<9:43:23,  1.26s/it] 43%|████▎     | 21049/48845 [7:27:18<9:43:11,  1.26s/it] 43%|████▎     | 21050/48845 [7:27:20<9:43:05,  1.26s/it]                                                         {'loss': 2.0223, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.15}
+ 43%|████▎     | 21050/48845 [7:27:20<9:43:05,  1.26s/it] 43%|████▎     | 21051/48845 [7:27:21<9:43:53,  1.26s/it] 43%|████▎     | 21052/48845 [7:27:22<9:43:56,  1.26s/it] 43%|████▎     | 21053/48845 [7:27:23<9:43:21,  1.26s/it] 43%|████▎     | 21054/48845 [7:27:25<9:42:51,  1.26s/it] 43%|████▎     | 21055/48845 [7:27:26<9:43:49,  1.26s/it]                                                         {'loss': 2.0605, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21055/48845 [7:27:26<9:43:49,  1.26s/it] 43%|████▎     | 21056/48845 [7:27:27<9:43:48,  1.26s/it] 43%|████▎     | 21057/48845 [7:27:28<9:44:09,  1.26s/it] 43%|████▎     | 21058/48845 [7:27:30<9:43:55,  1.26s/it] 43%|████▎     | 21059/48845 [7:27:31<9:43:46,  1.26s/it] 43%|████▎     | 21060/48845 [7:27:32<9:43:40,  1.26s/it]                                                         {'loss': 2.1022, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21060/48845 [7:27:32<9:43:40,  1.26s/it] 43%|████▎     | 21061/48845 [7:27:34<9:43:45,  1.26s/it] 43%|████▎     | 21062/48845 [7:27:35<9:44:20,  1.26s/it] 43%|████▎     | 21063/48845 [7:27:36<9:44:20,  1.26s/it] 43%|████▎     | 21064/48845 [7:27:37<9:44:19,  1.26s/it] 43%|████▎     | 21065/48845 [7:27:39<9:44:29,  1.26s/it]                                                         {'loss': 2.0157, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21065/48845 [7:27:39<9:44:29,  1.26s/it] 43%|████▎     | 21066/48845 [7:27:40<9:44:14,  1.26s/it] 43%|████▎     | 21067/48845 [7:27:41<9:44:12,  1.26s/it] 43%|████▎     | 21068/48845 [7:27:42<9:44:07,  1.26s/it] 43%|████▎     | 21069/48845 [7:27:44<9:43:42,  1.26s/it] 43%|████▎     | 21070/48845 [7:27:45<9:43:30,  1.26s/it]                                                         {'loss': 2.1952, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21070/48845 [7:27:45<9:43:30,  1.26s/it] 43%|████▎     | 21071/48845 [7:27:46<9:43:34,  1.26s/it] 43%|████▎     | 21072/48845 [7:27:48<10:08:34,  1.31s/it] 43%|████▎     | 21073/48845 [7:27:49<10:00:32,  1.30s/it] 43%|████▎     | 21074/48845 [7:27:50<9:55:38,  1.29s/it]  43%|████▎     | 21075/48845 [7:27:51<9:52:28,  1.28s/it]                                                         {'loss': 1.957, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21075/48845 [7:27:51<9:52:28,  1.28s/it] 43%|████▎     | 21076/48845 [7:27:53<9:49:09,  1.27s/it] 43%|████▎     | 21077/48845 [7:27:54<9:47:32,  1.27s/it] 43%|████▎     | 21078/48845 [7:27:55<9:45:31,  1.27s/it] 43%|████▎     | 21079/48845 [7:27:56<9:45:12,  1.26s/it] 43%|████▎     | 21080/48845 [7:27:58<9:44:51,  1.26s/it]                                                         {'loss': 2.3731, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21080/48845 [7:27:58<9:44:51,  1.26s/it] 43%|████▎     | 21081/48845 [7:27:59<9:44:39,  1.26s/it] 43%|████▎     | 21082/48845 [7:28:00<9:43:41,  1.26s/it] 43%|████▎     | 21083/48845 [7:28:01<9:43:43,  1.26s/it] 43%|████▎     | 21084/48845 [7:28:03<9:42:46,  1.26s/it] 43%|████▎     | 21085/48845 [7:28:04<9:43:01,  1.26s/it]                                                         {'loss': 2.1917, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21085/48845 [7:28:04<9:43:01,  1.26s/it] 43%|████▎     | 21086/48845 [7:28:05<9:43:20,  1.26s/it] 43%|████▎     | 21087/48845 [7:28:06<9:43:06,  1.26s/it] 43%|████▎     | 21088/48845 [7:28:08<9:42:45,  1.26s/it] 43%|████▎     | 21089/48845 [7:28:09<9:42:21,  1.26s/it] 43%|████▎     | 21090/48845 [7:28:10<9:42:50,  1.26s/it]                                                         {'loss': 1.9708, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21090/48845 [7:28:10<9:42:50,  1.26s/it] 43%|████▎     | 21091/48845 [7:28:12<9:42:51,  1.26s/it] 43%|████▎     | 21092/48845 [7:28:13<9:43:28,  1.26s/it] 43%|████▎     | 21093/48845 [7:28:14<9:43:43,  1.26s/it] 43%|████▎     | 21094/48845 [7:28:15<9:43:09,  1.26s/it] 43%|████▎     | 21095/48845 [7:28:17<9:42:45,  1.26s/it]                                                         {'loss': 1.9233, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21095/48845 [7:28:17<9:42:45,  1.26s/it] 43%|████▎     | 21096/48845 [7:28:18<9:43:13,  1.26s/it] 43%|████▎     | 21097/48845 [7:28:19<9:43:07,  1.26s/it] 43%|████▎     | 21098/48845 [7:28:20<9:43:47,  1.26s/it] 43%|████▎     | 21099/48845 [7:28:22<9:43:11,  1.26s/it] 43%|████▎     | 21100/48845 [7:28:23<9:43:34,  1.26s/it]                                                         {'loss': 2.0062, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21100/48845 [7:28:23<9:43:34,  1.26s/it] 43%|████▎     | 21101/48845 [7:28:24<9:43:21,  1.26s/it] 43%|████▎     | 21102/48845 [7:28:25<9:43:07,  1.26s/it] 43%|████▎     | 21103/48845 [7:28:27<9:42:38,  1.26s/it] 43%|████▎     | 21104/48845 [7:28:28<9:42:21,  1.26s/it] 43%|████▎     | 21105/48845 [7:28:29<9:42:15,  1.26s/it]                                                         {'loss': 1.9846, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21105/48845 [7:28:29<9:42:15,  1.26s/it] 43%|████▎     | 21106/48845 [7:28:30<9:42:04,  1.26s/it] 43%|████▎     | 21107/48845 [7:28:32<9:42:06,  1.26s/it] 43%|████▎     | 21108/48845 [7:28:33<9:42:28,  1.26s/it] 43%|████▎     | 21109/48845 [7:28:34<9:42:10,  1.26s/it] 43%|████▎     | 21110/48845 [7:28:35<9:42:22,  1.26s/it]                                                         {'loss': 2.0373, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21110/48845 [7:28:35<9:42:22,  1.26s/it] 43%|████▎     | 21111/48845 [7:28:37<9:42:26,  1.26s/it] 43%|████▎     | 21112/48845 [7:28:38<9:42:18,  1.26s/it] 43%|████▎     | 21113/48845 [7:28:39<9:42:32,  1.26s/it] 43%|████▎     | 21114/48845 [7:28:41<9:42:25,  1.26s/it] 43%|████▎     | 21115/48845 [7:28:42<9:42:04,  1.26s/it]                                                         {'loss': 2.0565, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21115/48845 [7:28:42<9:42:04,  1.26s/it] 43%|████▎     | 21116/48845 [7:28:43<9:42:30,  1.26s/it] 43%|████▎     | 21117/48845 [7:28:44<9:42:36,  1.26s/it] 43%|████▎     | 21118/48845 [7:28:46<9:42:39,  1.26s/it] 43%|████▎     | 21119/48845 [7:28:47<9:42:06,  1.26s/it] 43%|████▎     | 21120/48845 [7:28:48<9:41:54,  1.26s/it]                                                         {'loss': 2.1258, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21120/48845 [7:28:48<9:41:54,  1.26s/it] 43%|████▎     | 21121/48845 [7:28:49<9:42:42,  1.26s/it] 43%|████▎     | 21122/48845 [7:28:51<9:42:28,  1.26s/it] 43%|████▎     | 21123/48845 [7:28:52<9:42:37,  1.26s/it] 43%|████▎     | 21124/48845 [7:28:53<9:42:46,  1.26s/it] 43%|████▎     | 21125/48845 [7:28:54<9:42:27,  1.26s/it]                                                         {'loss': 2.1738, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21125/48845 [7:28:54<9:42:27,  1.26s/it] 43%|████▎     | 21126/48845 [7:28:56<9:42:35,  1.26s/it] 43%|████▎     | 21127/48845 [7:28:57<9:42:03,  1.26s/it] 43%|████▎     | 21128/48845 [7:28:58<9:41:53,  1.26s/it] 43%|████▎     | 21129/48845 [7:28:59<9:41:40,  1.26s/it] 43%|████▎     | 21130/48845 [7:29:01<9:41:53,  1.26s/it]                                                         {'loss': 1.9963, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21130/48845 [7:29:01<9:41:53,  1.26s/it] 43%|████▎     | 21131/48845 [7:29:02<9:42:11,  1.26s/it] 43%|████▎     | 21132/48845 [7:29:03<9:41:45,  1.26s/it] 43%|████▎     | 21133/48845 [7:29:04<9:41:35,  1.26s/it] 43%|████▎     | 21134/48845 [7:29:06<9:41:29,  1.26s/it] 43%|████▎     | 21135/48845 [7:29:07<9:41:45,  1.26s/it]                                                         {'loss': 1.947, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21135/48845 [7:29:07<9:41:45,  1.26s/it] 43%|████▎     | 21136/48845 [7:29:08<9:42:22,  1.26s/it] 43%|████▎     | 21137/48845 [7:29:10<9:42:39,  1.26s/it] 43%|████▎     | 21138/48845 [7:29:11<9:42:38,  1.26s/it] 43%|████▎     | 21139/48845 [7:29:12<9:42:19,  1.26s/it] 43%|████▎     | 21140/48845 [7:29:13<9:42:22,  1.26s/it]                                                         {'loss': 1.9967, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21140/48845 [7:29:13<9:42:22,  1.26s/it] 43%|████▎     | 21141/48845 [7:29:15<9:43:08,  1.26s/it] 43%|████▎     | 21142/48845 [7:29:16<9:42:49,  1.26s/it] 43%|████▎     | 21143/48845 [7:29:17<9:42:25,  1.26s/it] 43%|████▎     | 21144/48845 [7:29:18<9:42:17,  1.26s/it] 43%|████▎     | 21145/48845 [7:29:20<9:41:53,  1.26s/it]                                                         {'loss': 2.0332, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.16}
+ 43%|████▎     | 21145/48845 [7:29:20<9:41:53,  1.26s/it] 43%|████▎     | 21146/48845 [7:29:21<9:41:59,  1.26s/it] 43%|████▎     | 21147/48845 [7:29:22<9:41:53,  1.26s/it] 43%|████▎     | 21148/48845 [7:29:23<9:41:32,  1.26s/it] 43%|████▎     | 21149/48845 [7:29:25<9:42:28,  1.26s/it] 43%|████▎     | 21150/48845 [7:29:26<9:42:08,  1.26s/it]                                                         {'loss': 2.004, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21150/48845 [7:29:26<9:42:08,  1.26s/it] 43%|████▎     | 21151/48845 [7:29:27<9:42:12,  1.26s/it] 43%|████▎     | 21152/48845 [7:29:28<9:42:16,  1.26s/it] 43%|████▎     | 21153/48845 [7:29:30<9:42:09,  1.26s/it] 43%|████▎     | 21154/48845 [7:29:31<9:41:54,  1.26s/it] 43%|████▎     | 21155/48845 [7:29:32<9:41:50,  1.26s/it]                                                         {'loss': 2.0577, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21155/48845 [7:29:32<9:41:50,  1.26s/it] 43%|████▎     | 21156/48845 [7:29:33<9:42:22,  1.26s/it] 43%|████▎     | 21157/48845 [7:29:35<9:43:21,  1.26s/it] 43%|████▎     | 21158/48845 [7:29:36<9:42:55,  1.26s/it] 43%|████▎     | 21159/48845 [7:29:37<9:42:47,  1.26s/it] 43%|████▎     | 21160/48845 [7:29:39<9:42:54,  1.26s/it]                                                         {'loss': 1.9984, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21160/48845 [7:29:39<9:42:54,  1.26s/it] 43%|████▎     | 21161/48845 [7:29:40<9:42:50,  1.26s/it] 43%|████▎     | 21162/48845 [7:29:41<9:42:52,  1.26s/it] 43%|████▎     | 21163/48845 [7:29:42<9:43:47,  1.27s/it] 43%|████▎     | 21164/48845 [7:29:44<9:42:55,  1.26s/it] 43%|████▎     | 21165/48845 [7:29:45<9:42:37,  1.26s/it]                                                         {'loss': 2.1758, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21165/48845 [7:29:45<9:42:37,  1.26s/it] 43%|████▎     | 21166/48845 [7:29:46<9:41:43,  1.26s/it] 43%|████▎     | 21167/48845 [7:29:47<9:43:05,  1.26s/it] 43%|████▎     | 21168/48845 [7:29:49<9:42:27,  1.26s/it] 43%|████▎     | 21169/48845 [7:29:50<9:41:56,  1.26s/it] 43%|████▎     | 21170/48845 [7:29:51<9:41:22,  1.26s/it]                                                         {'loss': 2.046, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21170/48845 [7:29:51<9:41:22,  1.26s/it] 43%|████▎     | 21171/48845 [7:29:52<9:40:53,  1.26s/it] 43%|████▎     | 21172/48845 [7:29:54<9:41:00,  1.26s/it] 43%|████▎     | 21173/48845 [7:29:55<9:41:49,  1.26s/it] 43%|████▎     | 21174/48845 [7:29:56<9:41:07,  1.26s/it] 43%|████▎     | 21175/48845 [7:29:57<9:41:39,  1.26s/it]                                                         {'loss': 2.047, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21175/48845 [7:29:57<9:41:39,  1.26s/it] 43%|████▎     | 21176/48845 [7:29:59<9:41:23,  1.26s/it] 43%|████▎     | 21177/48845 [7:30:00<9:41:29,  1.26s/it] 43%|████▎     | 21178/48845 [7:30:01<9:41:54,  1.26s/it] 43%|████▎     | 21179/48845 [7:30:02<9:41:10,  1.26s/it] 43%|████▎     | 21180/48845 [7:30:04<9:41:43,  1.26s/it]                                                         {'loss': 2.124, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21180/48845 [7:30:04<9:41:43,  1.26s/it] 43%|████▎     | 21181/48845 [7:30:05<9:41:41,  1.26s/it] 43%|████▎     | 21182/48845 [7:30:06<9:41:28,  1.26s/it] 43%|████▎     | 21183/48845 [7:30:08<9:41:10,  1.26s/it] 43%|████▎     | 21184/48845 [7:30:09<9:40:52,  1.26s/it] 43%|████▎     | 21185/48845 [7:30:10<9:41:05,  1.26s/it]                                                         {'loss': 1.9901, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21185/48845 [7:30:10<9:41:05,  1.26s/it] 43%|████▎     | 21186/48845 [7:30:11<9:41:13,  1.26s/it] 43%|████▎     | 21187/48845 [7:30:13<9:40:49,  1.26s/it] 43%|████▎     | 21188/48845 [7:30:14<9:40:47,  1.26s/it] 43%|████▎     | 21189/48845 [7:30:15<9:40:30,  1.26s/it] 43%|████▎     | 21190/48845 [7:30:16<9:40:32,  1.26s/it]                                                         {'loss': 2.0699, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21190/48845 [7:30:16<9:40:32,  1.26s/it] 43%|████▎     | 21191/48845 [7:30:18<9:41:03,  1.26s/it] 43%|████▎     | 21192/48845 [7:30:19<9:40:19,  1.26s/it] 43%|████▎     | 21193/48845 [7:30:20<9:39:51,  1.26s/it] 43%|████▎     | 21194/48845 [7:30:21<9:39:55,  1.26s/it] 43%|████▎     | 21195/48845 [7:30:23<9:40:01,  1.26s/it]                                                         {'loss': 1.9575, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21195/48845 [7:30:23<9:40:01,  1.26s/it] 43%|████▎     | 21196/48845 [7:30:24<9:40:33,  1.26s/it] 43%|████▎     | 21197/48845 [7:30:25<9:40:18,  1.26s/it] 43%|████▎     | 21198/48845 [7:30:26<9:40:24,  1.26s/it] 43%|████▎     | 21199/48845 [7:30:28<9:40:03,  1.26s/it] 43%|████▎     | 21200/48845 [7:30:29<9:40:25,  1.26s/it]                                                         {'loss': 2.1762, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21200/48845 [7:30:29<9:40:25,  1.26s/it] 43%|████▎     | 21201/48845 [7:30:33<15:13:29,  1.98s/it] 43%|████▎     | 21202/48845 [7:30:34<13:33:30,  1.77s/it] 43%|████▎     | 21203/48845 [7:30:35<12:23:51,  1.61s/it] 43%|████▎     | 21204/48845 [7:30:36<11:34:47,  1.51s/it] 43%|████▎     | 21205/48845 [7:30:38<11:00:54,  1.43s/it]                                                          {'loss': 2.1221, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21205/48845 [7:30:38<11:00:54,  1.43s/it] 43%|████▎     | 21206/48845 [7:30:39<10:37:09,  1.38s/it] 43%|████▎     | 21207/48845 [7:30:40<10:19:37,  1.35s/it] 43%|████▎     | 21208/48845 [7:30:41<10:08:07,  1.32s/it] 43%|████▎     | 21209/48845 [7:30:43<10:00:06,  1.30s/it] 43%|████▎     | 21210/48845 [7:30:44<9:54:04,  1.29s/it]                                                          {'loss': 2.1106, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21210/48845 [7:30:44<9:54:04,  1.29s/it] 43%|████▎     | 21211/48845 [7:30:45<9:50:21,  1.28s/it] 43%|████▎     | 21212/48845 [7:30:46<9:47:07,  1.27s/it] 43%|████▎     | 21213/48845 [7:30:48<9:44:47,  1.27s/it] 43%|████▎     | 21214/48845 [7:30:49<9:43:38,  1.27s/it] 43%|████▎     | 21215/48845 [7:30:50<9:42:12,  1.26s/it]                                                         {'loss': 1.9984, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21215/48845 [7:30:50<9:42:12,  1.26s/it] 43%|████▎     | 21216/48845 [7:30:52<9:41:38,  1.26s/it] 43%|████▎     | 21217/48845 [7:30:53<9:40:48,  1.26s/it] 43%|████▎     | 21218/48845 [7:30:54<9:40:39,  1.26s/it] 43%|████▎     | 21219/48845 [7:30:55<9:40:21,  1.26s/it] 43%|████▎     | 21220/48845 [7:30:57<9:40:19,  1.26s/it]                                                         {'loss': 2.0668, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21220/48845 [7:30:57<9:40:19,  1.26s/it] 43%|████▎     | 21221/48845 [7:30:58<9:40:05,  1.26s/it] 43%|████▎     | 21222/48845 [7:30:59<9:39:58,  1.26s/it] 43%|████▎     | 21223/48845 [7:31:00<9:39:52,  1.26s/it] 43%|████▎     | 21224/48845 [7:31:02<9:39:59,  1.26s/it] 43%|████▎     | 21225/48845 [7:31:03<9:39:34,  1.26s/it]                                                         {'loss': 2.0733, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21225/48845 [7:31:03<9:39:34,  1.26s/it] 43%|████▎     | 21226/48845 [7:31:04<9:39:56,  1.26s/it] 43%|████▎     | 21227/48845 [7:31:05<9:39:35,  1.26s/it] 43%|████▎     | 21228/48845 [7:31:07<9:39:41,  1.26s/it] 43%|████▎     | 21229/48845 [7:31:08<9:40:03,  1.26s/it] 43%|████▎     | 21230/48845 [7:31:09<9:40:19,  1.26s/it]                                                         {'loss': 1.9663, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21230/48845 [7:31:09<9:40:19,  1.26s/it] 43%|████▎     | 21231/48845 [7:31:10<9:40:55,  1.26s/it] 43%|████▎     | 21232/48845 [7:31:12<9:40:39,  1.26s/it] 43%|████▎     | 21233/48845 [7:31:13<9:40:46,  1.26s/it] 43%|████▎     | 21234/48845 [7:31:14<9:40:59,  1.26s/it] 43%|████▎     | 21235/48845 [7:31:15<9:40:06,  1.26s/it]                                                         {'loss': 2.1586, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21235/48845 [7:31:15<9:40:06,  1.26s/it] 43%|████▎     | 21236/48845 [7:31:17<9:40:35,  1.26s/it] 43%|████▎     | 21237/48845 [7:31:18<9:40:28,  1.26s/it] 43%|████▎     | 21238/48845 [7:31:19<9:40:31,  1.26s/it] 43%|████▎     | 21239/48845 [7:31:21<9:40:07,  1.26s/it] 43%|████▎     | 21240/48845 [7:31:22<9:39:38,  1.26s/it]                                                         {'loss': 2.0421, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21240/48845 [7:31:22<9:39:38,  1.26s/it] 43%|████▎     | 21241/48845 [7:31:23<9:39:35,  1.26s/it] 43%|████▎     | 21242/48845 [7:31:24<9:40:25,  1.26s/it] 43%|████▎     | 21243/48845 [7:31:26<9:39:49,  1.26s/it] 43%|████▎     | 21244/48845 [7:31:27<9:39:32,  1.26s/it] 43%|████▎     | 21245/48845 [7:31:28<9:39:03,  1.26s/it]                                                         {'loss': 2.121, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.17}
+ 43%|████▎     | 21245/48845 [7:31:28<9:39:03,  1.26s/it] 43%|████▎     | 21246/48845 [7:31:29<9:39:32,  1.26s/it] 43%|████▎     | 21247/48845 [7:31:31<9:40:09,  1.26s/it] 44%|████▎     | 21248/48845 [7:31:32<9:39:43,  1.26s/it] 44%|████▎     | 21249/48845 [7:31:33<9:38:51,  1.26s/it] 44%|████▎     | 21250/48845 [7:31:34<9:39:00,  1.26s/it]                                                         {'loss': 2.0501, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21250/48845 [7:31:34<9:39:00,  1.26s/it] 44%|████▎     | 21251/48845 [7:31:36<9:38:59,  1.26s/it] 44%|████▎     | 21252/48845 [7:31:37<9:39:35,  1.26s/it] 44%|████▎     | 21253/48845 [7:31:38<9:39:39,  1.26s/it] 44%|████▎     | 21254/48845 [7:31:39<9:39:16,  1.26s/it] 44%|████▎     | 21255/48845 [7:31:41<9:38:55,  1.26s/it]                                                         {'loss': 2.0082, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21255/48845 [7:31:41<9:38:55,  1.26s/it] 44%|████▎     | 21256/48845 [7:31:42<9:38:44,  1.26s/it] 44%|████▎     | 21257/48845 [7:31:43<9:38:43,  1.26s/it] 44%|████▎     | 21258/48845 [7:31:44<9:38:37,  1.26s/it] 44%|████▎     | 21259/48845 [7:31:46<9:39:00,  1.26s/it] 44%|████▎     | 21260/48845 [7:31:47<9:38:53,  1.26s/it]                                                         {'loss': 2.1766, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21260/48845 [7:31:47<9:38:53,  1.26s/it] 44%|████▎     | 21261/48845 [7:31:48<9:39:20,  1.26s/it] 44%|████▎     | 21262/48845 [7:31:49<9:39:48,  1.26s/it] 44%|████▎     | 21263/48845 [7:31:51<9:39:34,  1.26s/it] 44%|████▎     | 21264/48845 [7:31:52<9:39:10,  1.26s/it] 44%|████▎     | 21265/48845 [7:31:53<9:40:09,  1.26s/it]                                                         {'loss': 2.0121, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21265/48845 [7:31:53<9:40:09,  1.26s/it] 44%|████▎     | 21266/48845 [7:31:55<9:40:08,  1.26s/it] 44%|████▎     | 21267/48845 [7:31:56<9:40:18,  1.26s/it] 44%|████▎     | 21268/48845 [7:31:57<9:39:51,  1.26s/it] 44%|████▎     | 21269/48845 [7:31:58<9:41:35,  1.27s/it] 44%|████▎     | 21270/48845 [7:32:00<9:41:11,  1.26s/it]                                                         {'loss': 1.9863, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21270/48845 [7:32:00<9:41:11,  1.26s/it] 44%|████▎     | 21271/48845 [7:32:01<9:41:16,  1.26s/it] 44%|████▎     | 21272/48845 [7:32:02<9:40:29,  1.26s/it] 44%|████▎     | 21273/48845 [7:32:03<9:41:06,  1.26s/it] 44%|████▎     | 21274/48845 [7:32:05<9:40:32,  1.26s/it] 44%|████▎     | 21275/48845 [7:32:06<9:40:05,  1.26s/it]                                                         {'loss': 2.209, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21275/48845 [7:32:06<9:40:05,  1.26s/it] 44%|████▎     | 21276/48845 [7:32:07<9:39:51,  1.26s/it] 44%|████▎     | 21277/48845 [7:32:08<9:39:44,  1.26s/it] 44%|████▎     | 21278/48845 [7:32:10<9:39:58,  1.26s/it] 44%|████▎     | 21279/48845 [7:32:11<9:39:17,  1.26s/it] 44%|████▎     | 21280/48845 [7:32:12<9:38:58,  1.26s/it]                                                         {'loss': 2.1207, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21280/48845 [7:32:12<9:38:58,  1.26s/it] 44%|████▎     | 21281/48845 [7:32:13<9:39:31,  1.26s/it] 44%|████▎     | 21282/48845 [7:32:15<9:39:16,  1.26s/it] 44%|████▎     | 21283/48845 [7:32:16<9:39:35,  1.26s/it] 44%|████▎     | 21284/48845 [7:32:17<9:39:33,  1.26s/it] 44%|████▎     | 21285/48845 [7:32:19<9:39:31,  1.26s/it]                                                         {'loss': 1.9865, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21285/48845 [7:32:19<9:39:31,  1.26s/it] 44%|████▎     | 21286/48845 [7:32:20<9:39:18,  1.26s/it] 44%|████▎     | 21287/48845 [7:32:21<9:38:56,  1.26s/it] 44%|████▎     | 21288/48845 [7:32:22<9:39:09,  1.26s/it] 44%|████▎     | 21289/48845 [7:32:24<9:39:01,  1.26s/it] 44%|████▎     | 21290/48845 [7:32:25<9:39:08,  1.26s/it]                                                         {'loss': 2.0954, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21290/48845 [7:32:25<9:39:08,  1.26s/it] 44%|████▎     | 21291/48845 [7:32:26<9:39:25,  1.26s/it] 44%|████▎     | 21292/48845 [7:32:27<9:38:54,  1.26s/it] 44%|████▎     | 21293/48845 [7:32:29<9:38:43,  1.26s/it] 44%|████▎     | 21294/48845 [7:32:30<9:39:06,  1.26s/it] 44%|████▎     | 21295/48845 [7:32:31<9:38:54,  1.26s/it]                                                         {'loss': 1.9864, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21295/48845 [7:32:31<9:38:54,  1.26s/it] 44%|████▎     | 21296/48845 [7:32:32<9:38:43,  1.26s/it] 44%|████▎     | 21297/48845 [7:32:34<9:38:58,  1.26s/it] 44%|████▎     | 21298/48845 [7:32:35<9:38:51,  1.26s/it] 44%|████▎     | 21299/48845 [7:32:36<9:39:27,  1.26s/it] 44%|████▎     | 21300/48845 [7:32:37<9:39:11,  1.26s/it]                                                         {'loss': 1.9451, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21300/48845 [7:32:37<9:39:11,  1.26s/it] 44%|████▎     | 21301/48845 [7:32:39<9:39:03,  1.26s/it] 44%|████▎     | 21302/48845 [7:32:40<9:38:52,  1.26s/it] 44%|████▎     | 21303/48845 [7:32:41<9:39:09,  1.26s/it] 44%|████▎     | 21304/48845 [7:32:42<9:39:14,  1.26s/it] 44%|████▎     | 21305/48845 [7:32:44<9:39:14,  1.26s/it]                                                         {'loss': 2.124, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21305/48845 [7:32:44<9:39:14,  1.26s/it] 44%|████▎     | 21306/48845 [7:32:45<9:38:51,  1.26s/it] 44%|████▎     | 21307/48845 [7:32:46<9:38:59,  1.26s/it] 44%|████▎     | 21308/48845 [7:32:48<9:38:56,  1.26s/it] 44%|████▎     | 21309/48845 [7:32:49<9:39:10,  1.26s/it] 44%|████▎     | 21310/48845 [7:32:50<9:38:09,  1.26s/it]                                                         {'loss': 1.9205, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21310/48845 [7:32:50<9:38:09,  1.26s/it] 44%|████▎     | 21311/48845 [7:32:51<9:37:50,  1.26s/it] 44%|████▎     | 21312/48845 [7:32:53<9:38:18,  1.26s/it] 44%|████▎     | 21313/48845 [7:32:54<9:38:48,  1.26s/it] 44%|████▎     | 21314/48845 [7:32:55<9:38:39,  1.26s/it] 44%|████▎     | 21315/48845 [7:32:56<9:38:34,  1.26s/it]                                                         {'loss': 2.0025, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21315/48845 [7:32:56<9:38:34,  1.26s/it] 44%|████▎     | 21316/48845 [7:32:58<9:38:43,  1.26s/it] 44%|████▎     | 21317/48845 [7:32:59<9:39:15,  1.26s/it] 44%|████▎     | 21318/48845 [7:33:00<9:38:43,  1.26s/it] 44%|████▎     | 21319/48845 [7:33:01<9:38:21,  1.26s/it] 44%|████▎     | 21320/48845 [7:33:03<9:38:39,  1.26s/it]                                                         {'loss': 2.2776, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21320/48845 [7:33:03<9:38:39,  1.26s/it] 44%|████▎     | 21321/48845 [7:33:04<9:38:52,  1.26s/it] 44%|████▎     | 21322/48845 [7:33:05<9:38:34,  1.26s/it] 44%|████▎     | 21323/48845 [7:33:06<9:38:24,  1.26s/it] 44%|████▎     | 21324/48845 [7:33:08<9:39:01,  1.26s/it] 44%|████▎     | 21325/48845 [7:33:09<9:38:55,  1.26s/it]                                                         {'loss': 2.0222, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21325/48845 [7:33:09<9:38:55,  1.26s/it] 44%|████▎     | 21326/48845 [7:33:10<9:38:47,  1.26s/it] 44%|████▎     | 21327/48845 [7:33:11<9:38:20,  1.26s/it] 44%|████▎     | 21328/48845 [7:33:13<9:38:46,  1.26s/it] 44%|████▎     | 21329/48845 [7:33:14<9:38:28,  1.26s/it] 44%|████▎     | 21330/48845 [7:33:15<9:38:06,  1.26s/it]                                                         {'loss': 2.2344, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21330/48845 [7:33:15<9:38:06,  1.26s/it] 44%|████▎     | 21331/48845 [7:33:17<9:38:01,  1.26s/it] 44%|████▎     | 21332/48845 [7:33:18<9:37:57,  1.26s/it] 44%|████▎     | 21333/48845 [7:33:19<9:37:52,  1.26s/it] 44%|████▎     | 21334/48845 [7:33:20<9:37:51,  1.26s/it] 44%|████▎     | 21335/48845 [7:33:22<9:37:58,  1.26s/it]                                                         {'loss': 1.8529, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21335/48845 [7:33:22<9:37:58,  1.26s/it] 44%|████▎     | 21336/48845 [7:33:23<9:38:05,  1.26s/it] 44%|████▎     | 21337/48845 [7:33:24<9:37:36,  1.26s/it] 44%|████▎     | 21338/48845 [7:33:25<9:37:54,  1.26s/it] 44%|████▎     | 21339/48845 [7:33:27<9:37:18,  1.26s/it] 44%|████▎     | 21340/48845 [7:33:28<9:37:24,  1.26s/it]                                                         {'loss': 2.1408, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21340/48845 [7:33:28<9:37:24,  1.26s/it] 44%|████▎     | 21341/48845 [7:33:29<9:40:53,  1.27s/it] 44%|████▎     | 21342/48845 [7:33:30<9:39:44,  1.26s/it] 44%|████▎     | 21343/48845 [7:33:32<9:39:05,  1.26s/it] 44%|████▎     | 21344/48845 [7:33:33<9:39:11,  1.26s/it] 44%|████▎     | 21345/48845 [7:33:34<9:50:43,  1.29s/it]                                                         {'loss': 1.8768, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.18}
+ 44%|████▎     | 21345/48845 [7:33:34<9:50:43,  1.29s/it] 44%|████▎     | 21346/48845 [7:33:36<9:47:48,  1.28s/it] 44%|████▎     | 21347/48845 [7:33:37<9:44:44,  1.28s/it] 44%|████▎     | 21348/48845 [7:33:38<9:42:33,  1.27s/it] 44%|████▎     | 21349/48845 [7:33:39<9:42:18,  1.27s/it] 44%|████▎     | 21350/48845 [7:33:41<9:40:39,  1.27s/it]                                                         {'loss': 2.0257, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▎     | 21350/48845 [7:33:41<9:40:39,  1.27s/it] 44%|████▎     | 21351/48845 [7:33:42<9:39:51,  1.27s/it] 44%|████▎     | 21352/48845 [7:33:43<9:39:14,  1.26s/it] 44%|████▎     | 21353/48845 [7:33:44<9:38:18,  1.26s/it] 44%|████▎     | 21354/48845 [7:33:46<9:38:10,  1.26s/it] 44%|████▎     | 21355/48845 [7:33:47<9:37:22,  1.26s/it]                                                         {'loss': 2.192, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▎     | 21355/48845 [7:33:47<9:37:22,  1.26s/it] 44%|████▎     | 21356/48845 [7:33:48<9:37:21,  1.26s/it] 44%|████▎     | 21357/48845 [7:33:49<9:37:12,  1.26s/it] 44%|████▎     | 21358/48845 [7:33:51<9:37:04,  1.26s/it] 44%|████▎     | 21359/48845 [7:33:52<9:37:42,  1.26s/it] 44%|████▎     | 21360/48845 [7:33:53<9:36:50,  1.26s/it]                                                         {'loss': 1.9504, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▎     | 21360/48845 [7:33:53<9:36:50,  1.26s/it] 44%|████▎     | 21361/48845 [7:33:54<9:37:29,  1.26s/it] 44%|████▎     | 21362/48845 [7:33:56<9:36:40,  1.26s/it] 44%|████▎     | 21363/48845 [7:33:57<9:36:28,  1.26s/it] 44%|████▎     | 21364/48845 [7:33:58<9:37:26,  1.26s/it] 44%|████▎     | 21365/48845 [7:34:00<9:38:40,  1.26s/it]                                                         {'loss': 2.0651, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▎     | 21365/48845 [7:34:00<9:38:40,  1.26s/it] 44%|████▎     | 21366/48845 [7:34:01<9:38:57,  1.26s/it] 44%|████▎     | 21367/48845 [7:34:02<9:39:35,  1.27s/it] 44%|████▎     | 21368/48845 [7:34:03<10:01:22,  1.31s/it] 44%|████▎     | 21369/48845 [7:34:05<9:55:16,  1.30s/it]  44%|████▍     | 21370/48845 [7:34:06<9:49:56,  1.29s/it]                                                         {'loss': 1.9985, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21370/48845 [7:34:06<9:49:56,  1.29s/it] 44%|████▍     | 21371/48845 [7:34:07<9:46:09,  1.28s/it] 44%|████▍     | 21372/48845 [7:34:09<9:43:21,  1.27s/it] 44%|████▍     | 21373/48845 [7:34:10<9:41:31,  1.27s/it] 44%|████▍     | 21374/48845 [7:34:11<9:40:36,  1.27s/it] 44%|████▍     | 21375/48845 [7:34:12<9:39:23,  1.27s/it]                                                         {'loss': 1.9651, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21375/48845 [7:34:12<9:39:23,  1.27s/it] 44%|████▍     | 21376/48845 [7:34:14<9:38:37,  1.26s/it] 44%|████▍     | 21377/48845 [7:34:15<9:38:02,  1.26s/it] 44%|████▍     | 21378/48845 [7:34:16<9:38:02,  1.26s/it] 44%|████▍     | 21379/48845 [7:34:17<9:37:40,  1.26s/it] 44%|████▍     | 21380/48845 [7:34:19<9:37:05,  1.26s/it]                                                         {'loss': 2.2098, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21380/48845 [7:34:19<9:37:05,  1.26s/it] 44%|████▍     | 21381/48845 [7:34:20<9:37:22,  1.26s/it] 44%|████▍     | 21382/48845 [7:34:21<9:37:30,  1.26s/it] 44%|████▍     | 21383/48845 [7:34:22<9:37:16,  1.26s/it] 44%|████▍     | 21384/48845 [7:34:24<9:37:06,  1.26s/it] 44%|████▍     | 21385/48845 [7:34:25<9:36:51,  1.26s/it]                                                         {'loss': 2.0692, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21385/48845 [7:34:25<9:36:51,  1.26s/it] 44%|████▍     | 21386/48845 [7:34:26<9:36:42,  1.26s/it] 44%|████▍     | 21387/48845 [7:34:27<9:36:44,  1.26s/it] 44%|████▍     | 21388/48845 [7:34:29<9:36:47,  1.26s/it] 44%|████▍     | 21389/48845 [7:34:30<9:37:00,  1.26s/it] 44%|████▍     | 21390/48845 [7:34:31<9:37:14,  1.26s/it]                                                         {'loss': 2.0024, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21390/48845 [7:34:31<9:37:14,  1.26s/it] 44%|████▍     | 21391/48845 [7:34:33<10:08:59,  1.33s/it] 44%|████▍     | 21392/48845 [7:34:34<9:59:48,  1.31s/it]  44%|████▍     | 21393/48845 [7:34:35<9:53:23,  1.30s/it] 44%|████▍     | 21394/48845 [7:34:37<9:48:45,  1.29s/it] 44%|████▍     | 21395/48845 [7:34:38<9:45:21,  1.28s/it]                                                         {'loss': 2.1506, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21395/48845 [7:34:38<9:45:21,  1.28s/it] 44%|████▍     | 21396/48845 [7:34:39<9:43:11,  1.27s/it] 44%|████▍     | 21397/48845 [7:34:40<9:41:07,  1.27s/it] 44%|████▍     | 21398/48845 [7:34:42<9:40:19,  1.27s/it] 44%|████▍     | 21399/48845 [7:34:43<9:38:40,  1.27s/it] 44%|████▍     | 21400/48845 [7:34:44<9:37:50,  1.26s/it]                                                         {'loss': 1.9608, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21400/48845 [7:34:44<9:37:50,  1.26s/it] 44%|████▍     | 21401/48845 [7:34:48<15:10:02,  1.99s/it] 44%|████▍     | 21402/48845 [7:34:49<13:29:50,  1.77s/it] 44%|████▍     | 21403/48845 [7:34:50<12:19:36,  1.62s/it] 44%|████▍     | 21404/48845 [7:34:52<11:30:34,  1.51s/it] 44%|████▍     | 21405/48845 [7:34:53<10:55:43,  1.43s/it]                                                          {'loss': 2.0985, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21405/48845 [7:34:53<10:55:43,  1.43s/it] 44%|████▍     | 21406/48845 [7:34:54<10:32:16,  1.38s/it] 44%|████▍     | 21407/48845 [7:34:55<10:15:25,  1.35s/it] 44%|████▍     | 21408/48845 [7:34:57<10:03:20,  1.32s/it] 44%|████▍     | 21409/48845 [7:34:58<9:55:17,  1.30s/it]  44%|████▍     | 21410/48845 [7:34:59<9:49:17,  1.29s/it]                                                         {'loss': 2.0282, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21410/48845 [7:34:59<9:49:17,  1.29s/it] 44%|████▍     | 21411/48845 [7:35:00<9:46:18,  1.28s/it] 44%|████▍     | 21412/48845 [7:35:02<9:43:43,  1.28s/it] 44%|████▍     | 21413/48845 [7:35:03<9:41:18,  1.27s/it] 44%|████▍     | 21414/48845 [7:35:04<9:39:22,  1.27s/it] 44%|████▍     | 21415/48845 [7:35:05<9:37:59,  1.26s/it]                                                         {'loss': 2.0343, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21415/48845 [7:35:05<9:37:59,  1.26s/it] 44%|████▍     | 21416/48845 [7:35:07<9:37:21,  1.26s/it] 44%|████▍     | 21417/48845 [7:35:08<9:37:12,  1.26s/it] 44%|████▍     | 21418/48845 [7:35:09<9:49:19,  1.29s/it] 44%|████▍     | 21419/48845 [7:35:11<9:45:19,  1.28s/it] 44%|████▍     | 21420/48845 [7:35:12<9:42:43,  1.27s/it]                                                         {'loss': 1.9677, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21420/48845 [7:35:12<9:42:43,  1.27s/it] 44%|████▍     | 21421/48845 [7:35:13<9:41:17,  1.27s/it] 44%|████▍     | 21422/48845 [7:35:14<9:39:54,  1.27s/it] 44%|████▍     | 21423/48845 [7:35:16<9:38:21,  1.27s/it] 44%|████▍     | 21424/48845 [7:35:17<9:37:49,  1.26s/it] 44%|████▍     | 21425/48845 [7:35:18<9:37:20,  1.26s/it]                                                         {'loss': 2.1301, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21425/48845 [7:35:18<9:37:20,  1.26s/it] 44%|████▍     | 21426/48845 [7:35:19<9:37:07,  1.26s/it] 44%|████▍     | 21427/48845 [7:35:21<9:37:23,  1.26s/it] 44%|████▍     | 21428/48845 [7:35:22<9:36:08,  1.26s/it] 44%|████▍     | 21429/48845 [7:35:23<9:36:07,  1.26s/it] 44%|████▍     | 21430/48845 [7:35:24<9:35:40,  1.26s/it]                                                         {'loss': 2.1609, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21430/48845 [7:35:24<9:35:40,  1.26s/it] 44%|████▍     | 21431/48845 [7:35:26<9:35:58,  1.26s/it] 44%|████▍     | 21432/48845 [7:35:27<9:35:59,  1.26s/it] 44%|████▍     | 21433/48845 [7:35:28<9:35:17,  1.26s/it] 44%|████▍     | 21434/48845 [7:35:29<9:35:44,  1.26s/it] 44%|████▍     | 21435/48845 [7:35:31<9:35:10,  1.26s/it]                                                         {'loss': 1.9668, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21435/48845 [7:35:31<9:35:10,  1.26s/it] 44%|████▍     | 21436/48845 [7:35:32<9:35:31,  1.26s/it] 44%|████▍     | 21437/48845 [7:35:33<9:36:23,  1.26s/it] 44%|████▍     | 21438/48845 [7:35:34<9:36:46,  1.26s/it] 44%|████▍     | 21439/48845 [7:35:36<9:36:13,  1.26s/it] 44%|████▍     | 21440/48845 [7:35:37<9:36:24,  1.26s/it]                                                         {'loss': 2.033, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.19}
+ 44%|████▍     | 21440/48845 [7:35:37<9:36:24,  1.26s/it] 44%|████▍     | 21441/48845 [7:35:38<9:36:32,  1.26s/it] 44%|████▍     | 21442/48845 [7:35:40<9:36:43,  1.26s/it] 44%|████▍     | 21443/48845 [7:35:41<9:36:12,  1.26s/it] 44%|███���▍     | 21444/48845 [7:35:42<9:35:55,  1.26s/it] 44%|████▍     | 21445/48845 [7:35:43<9:35:52,  1.26s/it]                                                         {'loss': 2.0132, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21445/48845 [7:35:43<9:35:52,  1.26s/it] 44%|████▍     | 21446/48845 [7:35:45<9:35:28,  1.26s/it] 44%|████▍     | 21447/48845 [7:35:46<9:35:35,  1.26s/it] 44%|████▍     | 21448/48845 [7:35:47<9:35:38,  1.26s/it] 44%|████▍     | 21449/48845 [7:35:48<9:54:00,  1.30s/it] 44%|████▍     | 21450/48845 [7:35:50<9:49:00,  1.29s/it]                                                         {'loss': 1.9166, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21450/48845 [7:35:50<9:49:00,  1.29s/it] 44%|████▍     | 21451/48845 [7:35:51<9:46:00,  1.28s/it] 44%|████▍     | 21452/48845 [7:35:52<9:42:48,  1.28s/it] 44%|████▍     | 21453/48845 [7:35:54<9:40:40,  1.27s/it] 44%|████▍     | 21454/48845 [7:35:55<9:39:51,  1.27s/it] 44%|████▍     | 21455/48845 [7:35:56<9:38:16,  1.27s/it]                                                         {'loss': 2.0414, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21455/48845 [7:35:56<9:38:16,  1.27s/it] 44%|████▍     | 21456/48845 [7:35:57<9:37:45,  1.27s/it] 44%|████▍     | 21457/48845 [7:35:59<9:36:51,  1.26s/it] 44%|████▍     | 21458/48845 [7:36:00<9:36:42,  1.26s/it] 44%|████▍     | 21459/48845 [7:36:01<9:36:36,  1.26s/it] 44%|████▍     | 21460/48845 [7:36:02<9:36:02,  1.26s/it]                                                         {'loss': 1.9945, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21460/48845 [7:36:02<9:36:02,  1.26s/it] 44%|████▍     | 21461/48845 [7:36:04<9:35:58,  1.26s/it] 44%|████▍     | 21462/48845 [7:36:05<9:36:31,  1.26s/it] 44%|████▍     | 21463/48845 [7:36:06<9:35:34,  1.26s/it] 44%|████▍     | 21464/48845 [7:36:07<9:35:12,  1.26s/it] 44%|████▍     | 21465/48845 [7:36:09<9:34:53,  1.26s/it]                                                         {'loss': 1.8944, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21465/48845 [7:36:09<9:34:53,  1.26s/it] 44%|████▍     | 21466/48845 [7:36:10<9:35:05,  1.26s/it] 44%|████▍     | 21467/48845 [7:36:11<9:35:12,  1.26s/it] 44%|████▍     | 21468/48845 [7:36:12<9:35:08,  1.26s/it] 44%|████▍     | 21469/48845 [7:36:14<9:35:27,  1.26s/it] 44%|████▍     | 21470/48845 [7:36:15<9:34:58,  1.26s/it]                                                         {'loss': 2.0988, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21470/48845 [7:36:15<9:34:58,  1.26s/it] 44%|████▍     | 21471/48845 [7:36:16<9:34:55,  1.26s/it] 44%|████▍     | 21472/48845 [7:36:18<9:39:04,  1.27s/it] 44%|████▍     | 21473/48845 [7:36:19<9:37:52,  1.27s/it] 44%|████▍     | 21474/48845 [7:36:20<9:36:54,  1.26s/it] 44%|████▍     | 21475/48845 [7:36:21<9:37:19,  1.27s/it]                                                         {'loss': 1.9384, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21475/48845 [7:36:21<9:37:19,  1.27s/it] 44%|████▍     | 21476/48845 [7:36:23<9:38:11,  1.27s/it] 44%|████▍     | 21477/48845 [7:36:24<9:36:55,  1.26s/it] 44%|████▍     | 21478/48845 [7:36:25<9:38:40,  1.27s/it] 44%|████▍     | 21479/48845 [7:36:26<9:37:45,  1.27s/it] 44%|████▍     | 21480/48845 [7:36:28<9:36:38,  1.26s/it]                                                         {'loss': 2.2428, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21480/48845 [7:36:28<9:36:38,  1.26s/it] 44%|████▍     | 21481/48845 [7:36:29<9:36:35,  1.26s/it] 44%|████▍     | 21482/48845 [7:36:30<9:36:40,  1.26s/it] 44%|████▍     | 21483/48845 [7:36:31<9:35:51,  1.26s/it] 44%|████▍     | 21484/48845 [7:36:33<9:35:36,  1.26s/it] 44%|████▍     | 21485/48845 [7:36:34<9:35:39,  1.26s/it]                                                         {'loss': 2.2293, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21485/48845 [7:36:34<9:35:39,  1.26s/it] 44%|████▍     | 21486/48845 [7:36:35<9:36:05,  1.26s/it] 44%|████▍     | 21487/48845 [7:36:36<9:36:03,  1.26s/it] 44%|████▍     | 21488/48845 [7:36:38<9:35:48,  1.26s/it] 44%|████▍     | 21489/48845 [7:36:39<9:35:27,  1.26s/it] 44%|████▍     | 21490/48845 [7:36:40<9:43:37,  1.28s/it]                                                         {'loss': 1.9978, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21490/48845 [7:36:40<9:43:37,  1.28s/it] 44%|████▍     | 21491/48845 [7:36:42<9:41:09,  1.27s/it] 44%|████▍     | 21492/48845 [7:36:43<9:39:07,  1.27s/it] 44%|████▍     | 21493/48845 [7:36:44<9:38:36,  1.27s/it] 44%|████▍     | 21494/48845 [7:36:45<9:38:01,  1.27s/it] 44%|████▍     | 21495/48845 [7:36:47<9:36:35,  1.26s/it]                                                         {'loss': 1.9864, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21495/48845 [7:36:47<9:36:35,  1.26s/it] 44%|████▍     | 21496/48845 [7:36:48<9:36:06,  1.26s/it] 44%|████▍     | 21497/48845 [7:36:49<9:35:09,  1.26s/it] 44%|████▍     | 21498/48845 [7:36:50<9:35:09,  1.26s/it] 44%|████▍     | 21499/48845 [7:36:52<9:35:26,  1.26s/it] 44%|████▍     | 21500/48845 [7:36:53<9:34:22,  1.26s/it]                                                         {'loss': 2.0609, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21500/48845 [7:36:53<9:34:22,  1.26s/it] 44%|████▍     | 21501/48845 [7:36:54<9:34:29,  1.26s/it] 44%|████▍     | 21502/48845 [7:36:55<9:34:38,  1.26s/it] 44%|████▍     | 21503/48845 [7:36:57<9:34:54,  1.26s/it] 44%|████▍     | 21504/48845 [7:36:58<9:34:47,  1.26s/it] 44%|████▍     | 21505/48845 [7:36:59<9:34:15,  1.26s/it]                                                         {'loss': 2.0043, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21505/48845 [7:36:59<9:34:15,  1.26s/it] 44%|████▍     | 21506/48845 [7:37:01<9:35:03,  1.26s/it] 44%|████▍     | 21507/48845 [7:37:02<9:35:14,  1.26s/it] 44%|████▍     | 21508/48845 [7:37:03<9:34:42,  1.26s/it] 44%|████▍     | 21509/48845 [7:37:04<9:34:24,  1.26s/it] 44%|████▍     | 21510/48845 [7:37:06<9:34:27,  1.26s/it]                                                         {'loss': 1.9467, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21510/48845 [7:37:06<9:34:27,  1.26s/it] 44%|████▍     | 21511/48845 [7:37:07<9:34:15,  1.26s/it] 44%|████▍     | 21512/48845 [7:37:08<9:34:36,  1.26s/it] 44%|████▍     | 21513/48845 [7:37:09<9:33:55,  1.26s/it] 44%|████▍     | 21514/48845 [7:37:11<9:48:46,  1.29s/it] 44%|████▍     | 21515/48845 [7:37:12<9:44:59,  1.28s/it]                                                         {'loss': 1.9877, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21515/48845 [7:37:12<9:44:59,  1.28s/it] 44%|████▍     | 21516/48845 [7:37:13<9:41:51,  1.28s/it] 44%|████▍     | 21517/48845 [7:37:15<9:39:51,  1.27s/it] 44%|████▍     | 21518/48845 [7:37:16<9:37:49,  1.27s/it] 44%|████▍     | 21519/48845 [7:37:17<9:36:20,  1.27s/it] 44%|████▍     | 21520/48845 [7:37:18<9:35:46,  1.26s/it]                                                         {'loss': 2.046, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21520/48845 [7:37:18<9:35:46,  1.26s/it] 44%|████▍     | 21521/48845 [7:37:20<9:35:23,  1.26s/it] 44%|████▍     | 21522/48845 [7:37:21<9:36:00,  1.26s/it] 44%|████▍     | 21523/48845 [7:37:22<9:35:39,  1.26s/it] 44%|████▍     | 21524/48845 [7:37:23<9:35:29,  1.26s/it] 44%|████▍     | 21525/48845 [7:37:25<9:35:25,  1.26s/it]                                                         {'loss': 1.9171, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21525/48845 [7:37:25<9:35:25,  1.26s/it] 44%|████▍     | 21526/48845 [7:37:26<9:34:42,  1.26s/it] 44%|████▍     | 21527/48845 [7:37:27<9:34:10,  1.26s/it] 44%|████▍     | 21528/48845 [7:37:28<9:34:18,  1.26s/it] 44%|████▍     | 21529/48845 [7:37:30<9:34:20,  1.26s/it] 44%|████▍     | 21530/48845 [7:37:31<9:34:16,  1.26s/it]                                                         {'loss': 2.0163, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21530/48845 [7:37:31<9:34:16,  1.26s/it] 44%|████▍     | 21531/48845 [7:37:32<9:33:36,  1.26s/it] 44%|████▍     | 21532/48845 [7:37:33<9:33:36,  1.26s/it] 44%|████▍     | 21533/48845 [7:37:35<9:34:18,  1.26s/it] 44%|████▍     | 21534/48845 [7:37:36<9:34:17,  1.26s/it] 44%|████▍     | 21535/48845 [7:37:37<9:33:58,  1.26s/it]                                                         {'loss': 1.9344, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21535/48845 [7:37:37<9:33:58,  1.26s/it] 44%|████▍     | 21536/48845 [7:37:38<9:34:38,  1.26s/it] 44%|████▍     | 21537/48845 [7:37:40<9:34:29,  1.26s/it] 44%|████▍     | 21538/48845 [7:37:41<9:34:06,  1.26s/it] 44%|███���▍     | 21539/48845 [7:37:42<9:34:01,  1.26s/it] 44%|████▍     | 21540/48845 [7:37:44<9:33:37,  1.26s/it]                                                         {'loss': 2.1266, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.2}
+ 44%|████▍     | 21540/48845 [7:37:44<9:33:37,  1.26s/it] 44%|████▍     | 21541/48845 [7:37:45<9:33:54,  1.26s/it] 44%|████▍     | 21542/48845 [7:37:46<9:33:21,  1.26s/it] 44%|████▍     | 21543/48845 [7:37:47<9:33:02,  1.26s/it] 44%|████▍     | 21544/48845 [7:37:49<9:32:57,  1.26s/it] 44%|████▍     | 21545/48845 [7:37:50<9:33:00,  1.26s/it]                                                         {'loss': 2.0412, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21545/48845 [7:37:50<9:33:00,  1.26s/it] 44%|████▍     | 21546/48845 [7:37:51<9:34:02,  1.26s/it] 44%|████▍     | 21547/48845 [7:37:52<9:33:49,  1.26s/it] 44%|████▍     | 21548/48845 [7:37:54<9:33:32,  1.26s/it] 44%|████▍     | 21549/48845 [7:37:55<9:34:01,  1.26s/it] 44%|████▍     | 21550/48845 [7:37:56<9:33:19,  1.26s/it]                                                         {'loss': 2.3533, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21550/48845 [7:37:56<9:33:19,  1.26s/it] 44%|████▍     | 21551/48845 [7:37:57<9:33:26,  1.26s/it] 44%|████▍     | 21552/48845 [7:37:59<9:33:35,  1.26s/it] 44%|████▍     | 21553/48845 [7:38:00<9:33:17,  1.26s/it] 44%|████▍     | 21554/48845 [7:38:01<9:33:02,  1.26s/it] 44%|████▍     | 21555/48845 [7:38:02<9:33:25,  1.26s/it]                                                         {'loss': 2.0523, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21555/48845 [7:38:02<9:33:25,  1.26s/it] 44%|████▍     | 21556/48845 [7:38:04<9:34:07,  1.26s/it] 44%|████▍     | 21557/48845 [7:38:05<9:33:51,  1.26s/it] 44%|████▍     | 21558/48845 [7:38:06<9:33:23,  1.26s/it] 44%|████▍     | 21559/48845 [7:38:07<9:33:48,  1.26s/it] 44%|████▍     | 21560/48845 [7:38:09<9:33:17,  1.26s/it]                                                         {'loss': 2.2628, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21560/48845 [7:38:09<9:33:17,  1.26s/it] 44%|████▍     | 21561/48845 [7:38:10<9:33:02,  1.26s/it] 44%|████▍     | 21562/48845 [7:38:11<9:32:24,  1.26s/it] 44%|████▍     | 21563/48845 [7:38:13<9:32:37,  1.26s/it] 44%|████▍     | 21564/48845 [7:38:14<9:33:01,  1.26s/it] 44%|████▍     | 21565/48845 [7:38:15<9:33:16,  1.26s/it]                                                         {'loss': 2.0881, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21565/48845 [7:38:15<9:33:16,  1.26s/it] 44%|████▍     | 21566/48845 [7:38:16<9:33:20,  1.26s/it] 44%|████▍     | 21567/48845 [7:38:18<9:32:53,  1.26s/it] 44%|████▍     | 21568/48845 [7:38:19<9:32:31,  1.26s/it] 44%|████▍     | 21569/48845 [7:38:20<9:32:37,  1.26s/it] 44%|████▍     | 21570/48845 [7:38:21<9:32:34,  1.26s/it]                                                         {'loss': 1.9567, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21570/48845 [7:38:21<9:32:34,  1.26s/it] 44%|████▍     | 21571/48845 [7:38:23<9:32:57,  1.26s/it] 44%|████▍     | 21572/48845 [7:38:24<9:32:37,  1.26s/it] 44%|████▍     | 21573/48845 [7:38:25<9:32:43,  1.26s/it] 44%|████▍     | 21574/48845 [7:38:26<9:33:10,  1.26s/it] 44%|████▍     | 21575/48845 [7:38:28<9:32:58,  1.26s/it]                                                         {'loss': 1.9909, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21575/48845 [7:38:28<9:32:58,  1.26s/it] 44%|████▍     | 21576/48845 [7:38:29<9:32:57,  1.26s/it] 44%|████▍     | 21577/48845 [7:38:30<9:32:11,  1.26s/it] 44%|████▍     | 21578/48845 [7:38:31<9:32:14,  1.26s/it] 44%|████▍     | 21579/48845 [7:38:33<9:32:10,  1.26s/it] 44%|████▍     | 21580/48845 [7:38:34<9:31:52,  1.26s/it]                                                         {'loss': 2.0897, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21580/48845 [7:38:34<9:31:52,  1.26s/it] 44%|████▍     | 21581/48845 [7:38:35<9:32:07,  1.26s/it] 44%|████▍     | 21582/48845 [7:38:36<9:31:47,  1.26s/it] 44%|████▍     | 21583/48845 [7:38:38<9:31:41,  1.26s/it] 44%|████▍     | 21584/48845 [7:38:39<9:32:20,  1.26s/it] 44%|████▍     | 21585/48845 [7:38:40<9:31:52,  1.26s/it]                                                         {'loss': 2.1003, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21585/48845 [7:38:40<9:31:52,  1.26s/it] 44%|████▍     | 21586/48845 [7:38:41<9:32:01,  1.26s/it] 44%|████▍     | 21587/48845 [7:38:43<9:31:49,  1.26s/it] 44%|████▍     | 21588/48845 [7:38:44<9:32:06,  1.26s/it] 44%|████▍     | 21589/48845 [7:38:45<9:32:33,  1.26s/it] 44%|████▍     | 21590/48845 [7:38:47<9:49:21,  1.30s/it]                                                         {'loss': 1.9688, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21590/48845 [7:38:47<9:49:21,  1.30s/it] 44%|████▍     | 21591/48845 [7:38:48<9:44:03,  1.29s/it] 44%|████▍     | 21592/48845 [7:38:49<9:40:42,  1.28s/it] 44%|████▍     | 21593/48845 [7:38:50<9:38:14,  1.27s/it] 44%|████▍     | 21594/48845 [7:38:52<9:36:03,  1.27s/it] 44%|████▍     | 21595/48845 [7:38:53<9:34:34,  1.27s/it]                                                         {'loss': 2.0542, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21595/48845 [7:38:53<9:34:34,  1.27s/it] 44%|████▍     | 21596/48845 [7:38:54<9:33:22,  1.26s/it] 44%|████▍     | 21597/48845 [7:38:55<9:33:13,  1.26s/it] 44%|████▍     | 21598/48845 [7:38:57<9:32:24,  1.26s/it] 44%|████▍     | 21599/48845 [7:38:58<9:32:16,  1.26s/it] 44%|████▍     | 21600/48845 [7:38:59<9:32:01,  1.26s/it]                                                         {'loss': 1.9402, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21600/48845 [7:38:59<9:32:01,  1.26s/it] 44%|████▍     | 21601/48845 [7:39:03<15:04:01,  1.99s/it] 44%|████▍     | 21602/48845 [7:39:04<13:24:16,  1.77s/it] 44%|████▍     | 21603/48845 [7:39:05<12:14:38,  1.62s/it] 44%|████▍     | 21604/48845 [7:39:07<11:25:43,  1.51s/it] 44%|████▍     | 21605/48845 [7:39:08<10:50:58,  1.43s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21605/48845 [7:39:08<10:50:58,  1.43s/it] 44%|████▍     | 21606/48845 [7:39:09<10:26:42,  1.38s/it] 44%|████▍     | 21607/48845 [7:39:10<10:09:53,  1.34s/it] 44%|████▍     | 21608/48845 [7:39:12<9:58:19,  1.32s/it]  44%|████▍     | 21609/48845 [7:39:13<9:50:21,  1.30s/it] 44%|████▍     | 21610/48845 [7:39:14<9:44:41,  1.29s/it]                                                         {'loss': 2.016, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21610/48845 [7:39:14<9:44:41,  1.29s/it] 44%|████▍     | 21611/48845 [7:39:16<9:40:09,  1.28s/it] 44%|████▍     | 21612/48845 [7:39:17<9:37:32,  1.27s/it] 44%|████▍     | 21613/48845 [7:39:18<9:35:50,  1.27s/it] 44%|████▍     | 21614/48845 [7:39:19<9:34:02,  1.26s/it] 44%|████▍     | 21615/48845 [7:39:21<9:32:57,  1.26s/it]                                                         {'loss': 1.9769, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21615/48845 [7:39:21<9:32:57,  1.26s/it] 44%|████▍     | 21616/48845 [7:39:22<9:32:27,  1.26s/it] 44%|████▍     | 21617/48845 [7:39:23<9:32:41,  1.26s/it] 44%|████▍     | 21618/48845 [7:39:24<9:32:27,  1.26s/it] 44%|████▍     | 21619/48845 [7:39:26<9:31:57,  1.26s/it] 44%|████▍     | 21620/48845 [7:39:27<9:31:56,  1.26s/it]                                                         {'loss': 2.0603, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21620/48845 [7:39:27<9:31:56,  1.26s/it] 44%|████▍     | 21621/48845 [7:39:28<9:32:14,  1.26s/it] 44%|████▍     | 21622/48845 [7:39:29<9:32:14,  1.26s/it] 44%|████▍     | 21623/48845 [7:39:31<9:32:05,  1.26s/it] 44%|████▍     | 21624/48845 [7:39:32<9:31:30,  1.26s/it] 44%|████▍     | 21625/48845 [7:39:33<9:31:59,  1.26s/it]                                                         {'loss': 1.9934, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21625/48845 [7:39:33<9:31:59,  1.26s/it] 44%|████▍     | 21626/48845 [7:39:34<9:31:13,  1.26s/it] 44%|████▍     | 21627/48845 [7:39:36<9:31:11,  1.26s/it] 44%|████▍     | 21628/48845 [7:39:37<9:31:08,  1.26s/it] 44%|████▍     | 21629/48845 [7:39:38<9:31:34,  1.26s/it] 44%|████▍     | 21630/48845 [7:39:39<9:31:53,  1.26s/it]                                                         {'loss': 2.1546, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21630/48845 [7:39:39<9:31:53,  1.26s/it] 44%|████▍     | 21631/48845 [7:39:41<9:31:49,  1.26s/it] 44%|████▍     | 21632/48845 [7:39:42<9:32:15,  1.26s/it] 44%|████▍     | 21633/48845 [7:39:43<9:31:29,  1.26s/it] 44%|████▍     | 21634/48845 [7:39:44<9:31:18,  1.26s/it] 44%|████▍     | 21635/48845 [7:39:46<9:31:16,  1.26s/it]                                                         {'loss': 1.8224, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.21}
+ 44%|████▍     | 21635/48845 [7:39:46<9:31:16,  1.26s/it] 44%|████▍     | 21636/48845 [7:39:47<9:31:14,  1.26s/it] 44%|████▍     | 21637/48845 [7:39:48<9:31:18,  1.26s/it] 44%|████▍     | 21638/48845 [7:39:50<9:32:05,  1.26s/it] 44%|████▍     | 21639/48845 [7:39:51<9:32:10,  1.26s/it] 44%|████▍     | 21640/48845 [7:39:52<9:31:31,  1.26s/it]                                                         {'loss': 2.0516, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21640/48845 [7:39:52<9:31:31,  1.26s/it] 44%|████▍     | 21641/48845 [7:39:53<9:31:32,  1.26s/it] 44%|████▍     | 21642/48845 [7:39:55<9:31:30,  1.26s/it] 44%|████▍     | 21643/48845 [7:39:56<9:32:08,  1.26s/it] 44%|████▍     | 21644/48845 [7:39:57<9:31:51,  1.26s/it] 44%|████▍     | 21645/48845 [7:39:58<9:31:26,  1.26s/it]                                                         {'loss': 2.0242, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21645/48845 [7:39:58<9:31:26,  1.26s/it] 44%|████▍     | 21646/48845 [7:40:00<9:31:45,  1.26s/it] 44%|████▍     | 21647/48845 [7:40:01<9:31:35,  1.26s/it] 44%|████▍     | 21648/48845 [7:40:02<9:31:54,  1.26s/it] 44%|████▍     | 21649/48845 [7:40:03<9:31:24,  1.26s/it] 44%|████▍     | 21650/48845 [7:40:05<9:31:36,  1.26s/it]                                                         {'loss': 2.1843, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21650/48845 [7:40:05<9:31:36,  1.26s/it] 44%|████▍     | 21651/48845 [7:40:06<9:31:20,  1.26s/it] 44%|████▍     | 21652/48845 [7:40:07<9:31:11,  1.26s/it] 44%|████▍     | 21653/48845 [7:40:08<9:31:00,  1.26s/it] 44%|████▍     | 21654/48845 [7:40:10<9:31:01,  1.26s/it] 44%|████▍     | 21655/48845 [7:40:11<9:32:04,  1.26s/it]                                                         {'loss': 2.119, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21655/48845 [7:40:11<9:32:04,  1.26s/it] 44%|████▍     | 21656/48845 [7:40:12<9:32:05,  1.26s/it] 44%|████▍     | 21657/48845 [7:40:13<9:31:47,  1.26s/it] 44%|████▍     | 21658/48845 [7:40:15<9:31:17,  1.26s/it] 44%|████▍     | 21659/48845 [7:40:16<9:30:49,  1.26s/it] 44%|████▍     | 21660/48845 [7:40:17<9:31:02,  1.26s/it]                                                         {'loss': 2.1456, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21660/48845 [7:40:17<9:31:02,  1.26s/it] 44%|████▍     | 21661/48845 [7:40:19<9:32:32,  1.26s/it] 44%|████▍     | 21662/48845 [7:40:20<9:31:53,  1.26s/it] 44%|████▍     | 21663/48845 [7:40:21<9:31:25,  1.26s/it] 44%|████▍     | 21664/48845 [7:40:22<9:31:06,  1.26s/it] 44%|████▍     | 21665/48845 [7:40:24<9:31:06,  1.26s/it]                                                         {'loss': 1.9613, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21665/48845 [7:40:24<9:31:06,  1.26s/it] 44%|████▍     | 21666/48845 [7:40:25<9:31:48,  1.26s/it] 44%|████▍     | 21667/48845 [7:40:26<9:31:31,  1.26s/it] 44%|████▍     | 21668/48845 [7:40:27<9:30:47,  1.26s/it] 44%|████▍     | 21669/48845 [7:40:29<9:31:13,  1.26s/it] 44%|████▍     | 21670/48845 [7:40:30<9:30:53,  1.26s/it]                                                         {'loss': 2.0377, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21670/48845 [7:40:30<9:30:53,  1.26s/it] 44%|████▍     | 21671/48845 [7:40:31<9:30:48,  1.26s/it] 44%|████▍     | 21672/48845 [7:40:32<9:30:45,  1.26s/it] 44%|████▍     | 21673/48845 [7:40:34<9:30:43,  1.26s/it] 44%|████▍     | 21674/48845 [7:40:35<9:30:40,  1.26s/it] 44%|████▍     | 21675/48845 [7:40:36<9:30:45,  1.26s/it]                                                         {'loss': 1.9924, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21675/48845 [7:40:36<9:30:45,  1.26s/it] 44%|████▍     | 21676/48845 [7:40:37<9:31:08,  1.26s/it] 44%|████▍     | 21677/48845 [7:40:39<9:30:37,  1.26s/it] 44%|████▍     | 21678/48845 [7:40:40<9:30:25,  1.26s/it] 44%|████▍     | 21679/48845 [7:40:41<9:30:34,  1.26s/it] 44%|████▍     | 21680/48845 [7:40:42<9:30:23,  1.26s/it]                                                         {'loss': 2.0261, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21680/48845 [7:40:42<9:30:23,  1.26s/it] 44%|████▍     | 21681/48845 [7:40:44<9:31:22,  1.26s/it] 44%|████▍     | 21682/48845 [7:40:45<9:30:54,  1.26s/it] 44%|████▍     | 21683/48845 [7:40:46<9:30:21,  1.26s/it] 44%|████▍     | 21684/48845 [7:40:48<9:30:30,  1.26s/it] 44%|████▍     | 21685/48845 [7:40:49<9:30:06,  1.26s/it]                                                         {'loss': 1.9492, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21685/48845 [7:40:49<9:30:06,  1.26s/it] 44%|████▍     | 21686/48845 [7:40:50<9:30:17,  1.26s/it] 44%|████▍     | 21687/48845 [7:40:51<9:30:21,  1.26s/it] 44%|████▍     | 21688/48845 [7:40:53<9:30:02,  1.26s/it] 44%|████▍     | 21689/48845 [7:40:54<9:30:13,  1.26s/it] 44%|████▍     | 21690/48845 [7:40:55<9:30:04,  1.26s/it]                                                         {'loss': 1.8685, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21690/48845 [7:40:55<9:30:04,  1.26s/it] 44%|████▍     | 21691/48845 [7:40:56<9:30:26,  1.26s/it] 44%|████▍     | 21692/48845 [7:40:58<9:30:56,  1.26s/it] 44%|████▍     | 21693/48845 [7:40:59<9:30:41,  1.26s/it] 44%|████▍     | 21694/48845 [7:41:00<9:30:57,  1.26s/it] 44%|████▍     | 21695/48845 [7:41:01<9:30:35,  1.26s/it]                                                         {'loss': 2.1153, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21695/48845 [7:41:01<9:30:35,  1.26s/it] 44%|████▍     | 21696/48845 [7:41:03<9:30:26,  1.26s/it] 44%|████▍     | 21697/48845 [7:41:04<9:30:43,  1.26s/it] 44%|████▍     | 21698/48845 [7:41:05<9:30:26,  1.26s/it] 44%|████▍     | 21699/48845 [7:41:06<9:30:12,  1.26s/it] 44%|████▍     | 21700/48845 [7:41:08<9:29:50,  1.26s/it]                                                         {'loss': 2.0606, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21700/48845 [7:41:08<9:29:50,  1.26s/it] 44%|████▍     | 21701/48845 [7:41:09<9:29:41,  1.26s/it] 44%|████▍     | 21702/48845 [7:41:10<9:29:30,  1.26s/it] 44%|████▍     | 21703/48845 [7:41:11<9:29:21,  1.26s/it] 44%|████▍     | 21704/48845 [7:41:13<9:29:38,  1.26s/it] 44%|████▍     | 21705/48845 [7:41:14<9:29:32,  1.26s/it]                                                         {'loss': 2.0913, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21705/48845 [7:41:14<9:29:32,  1.26s/it] 44%|████▍     | 21706/48845 [7:41:15<9:29:52,  1.26s/it] 44%|████▍     | 21707/48845 [7:41:17<9:30:12,  1.26s/it] 44%|████▍     | 21708/48845 [7:41:18<9:29:56,  1.26s/it] 44%|████▍     | 21709/48845 [7:41:19<9:29:48,  1.26s/it] 44%|████▍     | 21710/48845 [7:41:20<9:29:31,  1.26s/it]                                                         {'loss': 2.0916, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21710/48845 [7:41:20<9:29:31,  1.26s/it] 44%|████▍     | 21711/48845 [7:41:22<9:29:18,  1.26s/it] 44%|████▍     | 21712/48845 [7:41:23<9:29:31,  1.26s/it] 44%|████▍     | 21713/48845 [7:41:24<9:29:37,  1.26s/it] 44%|████▍     | 21714/48845 [7:41:25<9:29:25,  1.26s/it] 44%|████▍     | 21715/48845 [7:41:27<9:29:30,  1.26s/it]                                                         {'loss': 2.0896, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21715/48845 [7:41:27<9:29:30,  1.26s/it] 44%|████▍     | 21716/48845 [7:41:28<9:29:28,  1.26s/it] 44%|████▍     | 21717/48845 [7:41:29<9:30:08,  1.26s/it] 44%|████▍     | 21718/48845 [7:41:30<9:29:35,  1.26s/it] 44%|████▍     | 21719/48845 [7:41:32<9:30:02,  1.26s/it] 44%|████▍     | 21720/48845 [7:41:33<9:29:18,  1.26s/it]                                                         {'loss': 1.9174, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21720/48845 [7:41:33<9:29:18,  1.26s/it] 44%|████▍     | 21721/48845 [7:41:34<9:29:19,  1.26s/it] 44%|████▍     | 21722/48845 [7:41:35<9:30:09,  1.26s/it] 44%|████▍     | 21723/48845 [7:41:37<9:29:55,  1.26s/it] 44%|████▍     | 21724/48845 [7:41:38<9:29:41,  1.26s/it] 44%|████▍     | 21725/48845 [7:41:39<9:28:58,  1.26s/it]                                                         {'loss': 2.0329, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21725/48845 [7:41:39<9:28:58,  1.26s/it] 44%|████▍     | 21726/48845 [7:41:40<9:31:00,  1.26s/it] 44%|████▍     | 21727/48845 [7:41:42<9:30:53,  1.26s/it] 44%|████▍     | 21728/48845 [7:41:43<9:30:05,  1.26s/it] 44%|████▍     | 21729/48845 [7:41:44<9:29:47,  1.26s/it] 44%|████▍     | 21730/48845 [7:41:45<9:30:01,  1.26s/it]                                                         {'loss': 2.0713, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21730/48845 [7:41:45<9:30:01,  1.26s/it] 44%|████▍     | 21731/48845 [7:41:47<9:29:42,  1.26s/it] 44%|████▍     | 21732/48845 [7:41:48<9:29:35,  1.26s/it] 44%|████▍     | 21733/48845 [7:41:49<9:29:11,  1.26s/it] 44%|████▍     | 21734/48845 [7:41:51<9:29:00,  1.26s/it] 44%|████▍     | 21735/48845 [7:41:52<9:29:39,  1.26s/it]                                                         {'loss': 1.9485, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.22}
+ 44%|████▍     | 21735/48845 [7:41:52<9:29:39,  1.26s/it] 44%|████▍     | 21736/48845 [7:41:53<9:29:57,  1.26s/it] 45%|████▍     | 21737/48845 [7:41:54<9:30:04,  1.26s/it] 45%|████▍     | 21738/48845 [7:41:56<9:29:53,  1.26s/it] 45%|████▍     | 21739/48845 [7:41:57<9:29:12,  1.26s/it] 45%|████▍     | 21740/48845 [7:41:58<9:29:27,  1.26s/it]                                                         {'loss': 2.1496, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21740/48845 [7:41:58<9:29:27,  1.26s/it] 45%|████▍     | 21741/48845 [7:41:59<9:29:14,  1.26s/it] 45%|████▍     | 21742/48845 [7:42:01<9:28:48,  1.26s/it] 45%|████▍     | 21743/48845 [7:42:02<9:28:19,  1.26s/it] 45%|████▍     | 21744/48845 [7:42:03<9:28:29,  1.26s/it] 45%|████▍     | 21745/48845 [7:42:04<9:29:04,  1.26s/it]                                                         {'loss': 2.1167, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21745/48845 [7:42:04<9:29:04,  1.26s/it] 45%|████▍     | 21746/48845 [7:42:06<9:28:50,  1.26s/it] 45%|████▍     | 21747/48845 [7:42:07<9:28:47,  1.26s/it] 45%|████▍     | 21748/48845 [7:42:08<9:28:53,  1.26s/it] 45%|████▍     | 21749/48845 [7:42:09<9:29:23,  1.26s/it] 45%|████▍     | 21750/48845 [7:42:11<9:29:44,  1.26s/it]                                                         {'loss': 2.0106, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21750/48845 [7:42:11<9:29:44,  1.26s/it] 45%|████▍     | 21751/48845 [7:42:12<9:29:50,  1.26s/it] 45%|████▍     | 21752/48845 [7:42:13<9:29:30,  1.26s/it] 45%|████▍     | 21753/48845 [7:42:14<9:29:52,  1.26s/it] 45%|████▍     | 21754/48845 [7:42:16<9:29:24,  1.26s/it] 45%|████▍     | 21755/48845 [7:42:17<9:29:08,  1.26s/it]                                                         {'loss': 2.1197, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21755/48845 [7:42:17<9:29:08,  1.26s/it] 45%|████▍     | 21756/48845 [7:42:18<9:29:03,  1.26s/it] 45%|████▍     | 21757/48845 [7:42:20<9:29:16,  1.26s/it] 45%|████▍     | 21758/48845 [7:42:21<9:29:38,  1.26s/it] 45%|████▍     | 21759/48845 [7:42:22<9:29:07,  1.26s/it] 45%|████▍     | 21760/48845 [7:42:23<9:29:07,  1.26s/it]                                                         {'loss': 2.0306, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21760/48845 [7:42:23<9:29:07,  1.26s/it] 45%|████▍     | 21761/48845 [7:42:25<9:29:01,  1.26s/it] 45%|████▍     | 21762/48845 [7:42:26<9:28:43,  1.26s/it] 45%|████▍     | 21763/48845 [7:42:27<9:29:18,  1.26s/it] 45%|████▍     | 21764/48845 [7:42:28<9:28:53,  1.26s/it] 45%|████▍     | 21765/48845 [7:42:30<9:29:47,  1.26s/it]                                                         {'loss': 2.0526, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21765/48845 [7:42:30<9:29:47,  1.26s/it] 45%|████▍     | 21766/48845 [7:42:31<9:30:57,  1.27s/it] 45%|████▍     | 21767/48845 [7:42:32<9:30:05,  1.26s/it] 45%|████▍     | 21768/48845 [7:42:33<9:29:49,  1.26s/it] 45%|████▍     | 21769/48845 [7:42:35<9:29:34,  1.26s/it] 45%|████▍     | 21770/48845 [7:42:36<9:28:55,  1.26s/it]                                                         {'loss': 1.9272, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21770/48845 [7:42:36<9:28:55,  1.26s/it] 45%|████▍     | 21771/48845 [7:42:37<9:29:26,  1.26s/it] 45%|████▍     | 21772/48845 [7:42:38<9:28:41,  1.26s/it] 45%|████▍     | 21773/48845 [7:42:40<9:28:24,  1.26s/it] 45%|████▍     | 21774/48845 [7:42:41<9:29:00,  1.26s/it] 45%|████▍     | 21775/48845 [7:42:42<9:28:57,  1.26s/it]                                                         {'loss': 2.1352, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21775/48845 [7:42:42<9:28:57,  1.26s/it] 45%|████▍     | 21776/48845 [7:42:43<9:29:24,  1.26s/it] 45%|████▍     | 21777/48845 [7:42:45<9:29:12,  1.26s/it] 45%|████▍     | 21778/48845 [7:42:46<9:29:13,  1.26s/it] 45%|████▍     | 21779/48845 [7:42:47<9:29:12,  1.26s/it] 45%|████▍     | 21780/48845 [7:42:49<9:37:22,  1.28s/it]                                                         {'loss': 2.0996, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21780/48845 [7:42:49<9:37:22,  1.28s/it] 45%|████▍     | 21781/48845 [7:42:50<9:35:28,  1.28s/it] 45%|████▍     | 21782/48845 [7:42:51<9:32:50,  1.27s/it] 45%|████▍     | 21783/48845 [7:42:52<9:31:25,  1.27s/it] 45%|████▍     | 21784/48845 [7:42:54<9:30:28,  1.26s/it] 45%|████▍     | 21785/48845 [7:42:55<9:30:08,  1.26s/it]                                                         {'loss': 2.0516, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21785/48845 [7:42:55<9:30:08,  1.26s/it] 45%|████▍     | 21786/48845 [7:42:56<9:30:08,  1.26s/it] 45%|████▍     | 21787/48845 [7:42:57<9:29:58,  1.26s/it] 45%|████▍     | 21788/48845 [7:42:59<9:29:45,  1.26s/it] 45%|████▍     | 21789/48845 [7:43:00<9:28:52,  1.26s/it] 45%|████▍     | 21790/48845 [7:43:01<9:28:42,  1.26s/it]                                                         {'loss': 2.0543, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21790/48845 [7:43:01<9:28:42,  1.26s/it] 45%|████▍     | 21791/48845 [7:43:02<9:28:37,  1.26s/it] 45%|████▍     | 21792/48845 [7:43:04<9:30:13,  1.26s/it] 45%|████▍     | 21793/48845 [7:43:05<9:29:37,  1.26s/it] 45%|████▍     | 21794/48845 [7:43:06<9:29:30,  1.26s/it] 45%|████▍     | 21795/48845 [7:43:08<9:28:42,  1.26s/it]                                                         {'loss': 2.2369, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21795/48845 [7:43:08<9:28:42,  1.26s/it] 45%|████▍     | 21796/48845 [7:43:09<9:29:24,  1.26s/it] 45%|████▍     | 21797/48845 [7:43:10<9:29:17,  1.26s/it] 45%|████▍     | 21798/48845 [7:43:11<9:28:26,  1.26s/it] 45%|████▍     | 21799/48845 [7:43:13<9:28:19,  1.26s/it] 45%|████▍     | 21800/48845 [7:43:14<9:28:24,  1.26s/it]                                                         {'loss': 2.0763, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21800/48845 [7:43:14<9:28:24,  1.26s/it] 45%|████▍     | 21801/48845 [7:43:18<15:00:32,  2.00s/it] 45%|████▍     | 21802/48845 [7:43:19<13:20:14,  1.78s/it] 45%|████▍     | 21803/48845 [7:43:20<12:10:16,  1.62s/it] 45%|████▍     | 21804/48845 [7:43:21<11:21:02,  1.51s/it] 45%|████▍     | 21805/48845 [7:43:23<10:47:03,  1.44s/it]                                                          {'loss': 2.0089, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21805/48845 [7:43:23<10:47:03,  1.44s/it] 45%|████▍     | 21806/48845 [7:43:24<10:22:44,  1.38s/it] 45%|████▍     | 21807/48845 [7:43:25<10:06:09,  1.35s/it] 45%|████▍     | 21808/48845 [7:43:26<9:54:45,  1.32s/it]  45%|████▍     | 21809/48845 [7:43:28<9:46:45,  1.30s/it] 45%|████▍     | 21810/48845 [7:43:29<9:41:19,  1.29s/it]                                                         {'loss': 2.0152, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21810/48845 [7:43:29<9:41:19,  1.29s/it] 45%|████▍     | 21811/48845 [7:43:30<9:38:30,  1.28s/it] 45%|████▍     | 21812/48845 [7:43:31<9:34:51,  1.28s/it] 45%|████▍     | 21813/48845 [7:43:33<9:33:24,  1.27s/it] 45%|████▍     | 21814/48845 [7:43:34<9:32:02,  1.27s/it] 45%|████▍     | 21815/48845 [7:43:35<9:32:57,  1.27s/it]                                                         {'loss': 2.1657, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21815/48845 [7:43:35<9:32:57,  1.27s/it] 45%|████▍     | 21816/48845 [7:43:36<9:31:42,  1.27s/it] 45%|████▍     | 21817/48845 [7:43:38<9:30:21,  1.27s/it] 45%|████▍     | 21818/48845 [7:43:39<9:30:09,  1.27s/it] 45%|████▍     | 21819/48845 [7:43:40<9:29:24,  1.26s/it] 45%|████▍     | 21820/48845 [7:43:42<9:27:58,  1.26s/it]                                                         {'loss': 2.0965, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21820/48845 [7:43:42<9:27:58,  1.26s/it] 45%|████▍     | 21821/48845 [7:43:43<9:27:39,  1.26s/it] 45%|████▍     | 21822/48845 [7:43:44<9:27:10,  1.26s/it] 45%|���███▍     | 21823/48845 [7:43:45<9:27:05,  1.26s/it] 45%|████▍     | 21824/48845 [7:43:47<9:27:12,  1.26s/it] 45%|████▍     | 21825/48845 [7:43:48<9:27:22,  1.26s/it]                                                         {'loss': 1.8604, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21825/48845 [7:43:48<9:27:22,  1.26s/it] 45%|████▍     | 21826/48845 [7:43:49<9:27:27,  1.26s/it] 45%|████▍     | 21827/48845 [7:43:50<9:27:17,  1.26s/it] 45%|████▍     | 21828/48845 [7:43:52<9:27:24,  1.26s/it] 45%|████▍     | 21829/48845 [7:43:53<9:27:21,  1.26s/it] 45%|████▍     | 21830/48845 [7:43:54<9:27:11,  1.26s/it]                                                         {'loss': 1.8693, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.23}
+ 45%|████▍     | 21830/48845 [7:43:54<9:27:11,  1.26s/it] 45%|████▍     | 21831/48845 [7:43:55<9:27:15,  1.26s/it] 45%|████▍     | 21832/48845 [7:43:57<9:27:27,  1.26s/it] 45%|████▍     | 21833/48845 [7:43:58<9:27:22,  1.26s/it] 45%|████▍     | 21834/48845 [7:43:59<9:27:42,  1.26s/it] 45%|████▍     | 21835/48845 [7:44:00<9:27:27,  1.26s/it]                                                         {'loss': 2.1553, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21835/48845 [7:44:00<9:27:27,  1.26s/it] 45%|████▍     | 21836/48845 [7:44:02<9:27:27,  1.26s/it] 45%|████▍     | 21837/48845 [7:44:03<9:27:05,  1.26s/it] 45%|████▍     | 21838/48845 [7:44:04<9:26:41,  1.26s/it] 45%|████▍     | 21839/48845 [7:44:05<9:27:00,  1.26s/it] 45%|████▍     | 21840/48845 [7:44:07<9:27:39,  1.26s/it]                                                         {'loss': 2.0504, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21840/48845 [7:44:07<9:27:39,  1.26s/it] 45%|████▍     | 21841/48845 [7:44:08<9:27:11,  1.26s/it] 45%|████▍     | 21842/48845 [7:44:09<9:27:26,  1.26s/it] 45%|████▍     | 21843/48845 [7:44:10<9:26:57,  1.26s/it] 45%|████▍     | 21844/48845 [7:44:12<9:26:50,  1.26s/it] 45%|████▍     | 21845/48845 [7:44:13<9:27:11,  1.26s/it]                                                         {'loss': 2.0483, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21845/48845 [7:44:13<9:27:11,  1.26s/it] 45%|████▍     | 21846/48845 [7:44:14<9:27:31,  1.26s/it] 45%|████▍     | 21847/48845 [7:44:16<9:27:27,  1.26s/it] 45%|████▍     | 21848/48845 [7:44:17<9:27:19,  1.26s/it] 45%|████▍     | 21849/48845 [7:44:18<9:28:51,  1.26s/it] 45%|████▍     | 21850/48845 [7:44:19<9:28:16,  1.26s/it]                                                         {'loss': 2.0941, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21850/48845 [7:44:19<9:28:16,  1.26s/it] 45%|████▍     | 21851/48845 [7:44:21<9:28:16,  1.26s/it] 45%|████▍     | 21852/48845 [7:44:22<9:28:42,  1.26s/it] 45%|████▍     | 21853/48845 [7:44:23<9:28:07,  1.26s/it] 45%|████▍     | 21854/48845 [7:44:24<9:27:31,  1.26s/it] 45%|████▍     | 21855/48845 [7:44:26<9:27:50,  1.26s/it]                                                         {'loss': 1.9918, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21855/48845 [7:44:26<9:27:50,  1.26s/it] 45%|████▍     | 21856/48845 [7:44:27<9:27:28,  1.26s/it] 45%|████▍     | 21857/48845 [7:44:28<9:27:00,  1.26s/it] 45%|████▍     | 21858/48845 [7:44:29<9:26:51,  1.26s/it] 45%|████▍     | 21859/48845 [7:44:31<9:26:25,  1.26s/it] 45%|████▍     | 21860/48845 [7:44:32<9:26:22,  1.26s/it]                                                         {'loss': 2.0834, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21860/48845 [7:44:32<9:26:22,  1.26s/it] 45%|████▍     | 21861/48845 [7:44:33<9:26:35,  1.26s/it] 45%|████▍     | 21862/48845 [7:44:34<9:26:03,  1.26s/it] 45%|████▍     | 21863/48845 [7:44:36<9:26:13,  1.26s/it] 45%|████▍     | 21864/48845 [7:44:37<9:26:16,  1.26s/it] 45%|████▍     | 21865/48845 [7:44:38<9:26:27,  1.26s/it]                                                         {'loss': 2.029, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21865/48845 [7:44:38<9:26:27,  1.26s/it] 45%|████▍     | 21866/48845 [7:44:39<9:26:18,  1.26s/it] 45%|████▍     | 21867/48845 [7:44:41<9:26:22,  1.26s/it] 45%|████▍     | 21868/48845 [7:44:42<9:26:01,  1.26s/it] 45%|████▍     | 21869/48845 [7:44:43<9:26:01,  1.26s/it] 45%|████▍     | 21870/48845 [7:44:45<9:26:29,  1.26s/it]                                                         {'loss': 2.2071, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21870/48845 [7:44:45<9:26:29,  1.26s/it] 45%|████▍     | 21871/48845 [7:44:46<9:26:23,  1.26s/it] 45%|████▍     | 21872/48845 [7:44:47<9:26:24,  1.26s/it] 45%|████▍     | 21873/48845 [7:44:48<9:26:21,  1.26s/it] 45%|████▍     | 21874/48845 [7:44:50<9:26:35,  1.26s/it] 45%|████▍     | 21875/48845 [7:44:51<9:26:51,  1.26s/it]                                                         {'loss': 2.1589, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21875/48845 [7:44:51<9:26:51,  1.26s/it] 45%|████▍     | 21876/48845 [7:44:52<9:26:23,  1.26s/it] 45%|████▍     | 21877/48845 [7:44:53<9:27:16,  1.26s/it] 45%|████▍     | 21878/48845 [7:44:55<9:26:58,  1.26s/it] 45%|████▍     | 21879/48845 [7:44:56<9:26:24,  1.26s/it] 45%|████▍     | 21880/48845 [7:44:57<9:26:38,  1.26s/it]                                                         {'loss': 2.1539, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21880/48845 [7:44:57<9:26:38,  1.26s/it] 45%|████▍     | 21881/48845 [7:44:58<9:26:14,  1.26s/it] 45%|████▍     | 21882/48845 [7:45:00<9:26:22,  1.26s/it] 45%|████▍     | 21883/48845 [7:45:01<9:26:15,  1.26s/it] 45%|████▍     | 21884/48845 [7:45:02<9:26:59,  1.26s/it] 45%|████▍     | 21885/48845 [7:45:03<9:26:55,  1.26s/it]                                                         {'loss': 2.0303, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21885/48845 [7:45:03<9:26:55,  1.26s/it] 45%|████▍     | 21886/48845 [7:45:05<9:27:12,  1.26s/it] 45%|████▍     | 21887/48845 [7:45:06<9:26:40,  1.26s/it] 45%|████▍     | 21888/48845 [7:45:07<9:26:29,  1.26s/it] 45%|████▍     | 21889/48845 [7:45:08<9:25:56,  1.26s/it] 45%|████▍     | 21890/48845 [7:45:10<9:25:36,  1.26s/it]                                                         {'loss': 2.0735, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21890/48845 [7:45:10<9:25:36,  1.26s/it] 45%|████▍     | 21891/48845 [7:45:11<9:25:20,  1.26s/it] 45%|████▍     | 21892/48845 [7:45:12<9:25:55,  1.26s/it] 45%|████▍     | 21893/48845 [7:45:14<9:25:54,  1.26s/it] 45%|████▍     | 21894/48845 [7:45:15<9:25:50,  1.26s/it] 45%|████▍     | 21895/48845 [7:45:16<9:25:48,  1.26s/it]                                                         {'loss': 2.1463, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21895/48845 [7:45:16<9:25:48,  1.26s/it] 45%|████▍     | 21896/48845 [7:45:17<9:25:49,  1.26s/it] 45%|████▍     | 21897/48845 [7:45:19<9:25:36,  1.26s/it] 45%|████▍     | 21898/48845 [7:45:20<9:25:58,  1.26s/it] 45%|████▍     | 21899/48845 [7:45:21<9:25:40,  1.26s/it] 45%|████▍     | 21900/48845 [7:45:22<9:26:24,  1.26s/it]                                                         {'loss': 2.0226, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21900/48845 [7:45:22<9:26:24,  1.26s/it] 45%|████▍     | 21901/48845 [7:45:24<9:26:35,  1.26s/it] 45%|████▍     | 21902/48845 [7:45:25<9:26:09,  1.26s/it] 45%|████▍     | 21903/48845 [7:45:26<9:26:29,  1.26s/it] 45%|████▍     | 21904/48845 [7:45:27<9:26:16,  1.26s/it] 45%|████▍     | 21905/48845 [7:45:29<9:25:49,  1.26s/it]                                                         {'loss': 2.197, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21905/48845 [7:45:29<9:25:49,  1.26s/it] 45%|████▍     | 21906/48845 [7:45:30<9:25:55,  1.26s/it] 45%|████▍     | 21907/48845 [7:45:31<9:26:12,  1.26s/it] 45%|████▍     | 21908/48845 [7:45:32<9:25:45,  1.26s/it] 45%|████▍     | 21909/48845 [7:45:34<9:26:19,  1.26s/it] 45%|████▍     | 21910/48845 [7:45:35<9:26:03,  1.26s/it]                                                         {'loss': 1.9106, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21910/48845 [7:45:35<9:26:03,  1.26s/it] 45%|████▍     | 21911/48845 [7:45:36<9:26:05,  1.26s/it] 45%|████▍     | 21912/48845 [7:45:37<9:25:59,  1.26s/it] 45%|████▍     | 21913/48845 [7:45:39<9:26:58,  1.26s/it] 45%|████▍     | 21914/48845 [7:45:40<9:26:37,  1.26s/it] 45%|████▍     | 21915/48845 [7:45:41<9:26:59,  1.26s/it]                                                         {'loss': 2.1045, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21915/48845 [7:45:41<9:26:59,  1.26s/it] 45%|████▍     | 21916/48845 [7:45:43<9:26:54,  1.26s/it] 45%|████▍     | 21917/48845 [7:45:44<9:26:44,  1.26s/it] 45%|████▍     | 21918/48845 [7:45:45<9:27:00,  1.26s/it] 45%|████▍     | 21919/48845 [7:45:46<9:26:41,  1.26s/it] 45%|████▍     | 21920/48845 [7:45:48<9:25:46,  1.26s/it]                                                         {'loss': 2.1405, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21920/48845 [7:45:48<9:25:46,  1.26s/it] 45%|████▍     | 21921/48845 [7:45:49<9:25:51,  1.26s/it] 45%|████▍     | 21922/48845 [7:45:50<9:25:49,  1.26s/it] 45%|████▍     | 21923/48845 [7:45:51<9:26:01,  1.26s/it] 45%|████▍     | 21924/48845 [7:45:53<9:25:21,  1.26s/it] 45%|████▍     | 21925/48845 [7:45:54<9:25:13,  1.26s/it]                                                         {'loss': 2.1915, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21925/48845 [7:45:54<9:25:13,  1.26s/it] 45%|████▍     | 21926/48845 [7:45:55<9:25:10,  1.26s/it] 45%|████▍     | 21927/48845 [7:45:56<9:25:32,  1.26s/it] 45%|████▍     | 21928/48845 [7:45:58<9:26:01,  1.26s/it] 45%|████▍     | 21929/48845 [7:45:59<9:25:48,  1.26s/it] 45%|████▍     | 21930/48845 [7:46:00<9:25:28,  1.26s/it]                                                         {'loss': 2.217, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.24}
+ 45%|████▍     | 21930/48845 [7:46:00<9:25:28,  1.26s/it] 45%|████▍     | 21931/48845 [7:46:01<9:25:10,  1.26s/it] 45%|████▍     | 21932/48845 [7:46:03<9:27:05,  1.26s/it] 45%|████▍     | 21933/48845 [7:46:04<9:27:21,  1.26s/it] 45%|████▍     | 21934/48845 [7:46:05<9:26:30,  1.26s/it] 45%|████▍     | 21935/48845 [7:46:07<9:26:25,  1.26s/it]                                                         {'loss': 2.2254, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21935/48845 [7:46:07<9:26:25,  1.26s/it] 45%|████▍     | 21936/48845 [7:46:08<9:26:56,  1.26s/it] 45%|████▍     | 21937/48845 [7:46:09<9:26:25,  1.26s/it] 45%|████▍     | 21938/48845 [7:46:10<9:25:39,  1.26s/it] 45%|████▍     | 21939/48845 [7:46:12<9:25:35,  1.26s/it] 45%|████▍     | 21940/48845 [7:46:13<9:25:35,  1.26s/it]                                                         {'loss': 2.3049, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21940/48845 [7:46:13<9:25:35,  1.26s/it] 45%|████▍     | 21941/48845 [7:46:14<9:25:43,  1.26s/it] 45%|████▍     | 21942/48845 [7:46:15<9:25:25,  1.26s/it] 45%|████▍     | 21943/48845 [7:46:17<9:24:53,  1.26s/it] 45%|████▍     | 21944/48845 [7:46:18<9:25:45,  1.26s/it] 45%|████▍     | 21945/48845 [7:46:19<9:25:57,  1.26s/it]                                                         {'loss': 2.1131, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21945/48845 [7:46:19<9:25:57,  1.26s/it] 45%|████▍     | 21946/48845 [7:46:20<9:25:42,  1.26s/it] 45%|████▍     | 21947/48845 [7:46:22<9:25:31,  1.26s/it] 45%|████▍     | 21948/48845 [7:46:23<9:25:35,  1.26s/it] 45%|████▍     | 21949/48845 [7:46:24<9:25:06,  1.26s/it] 45%|████▍     | 21950/48845 [7:46:25<9:24:43,  1.26s/it]                                                         {'loss': 2.1159, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21950/48845 [7:46:25<9:24:43,  1.26s/it] 45%|████▍     | 21951/48845 [7:46:27<9:25:36,  1.26s/it] 45%|████▍     | 21952/48845 [7:46:28<9:24:54,  1.26s/it] 45%|████▍     | 21953/48845 [7:46:29<9:25:28,  1.26s/it] 45%|████▍     | 21954/48845 [7:46:30<9:25:09,  1.26s/it] 45%|████▍     | 21955/48845 [7:46:32<9:25:00,  1.26s/it]                                                         {'loss': 2.2496, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21955/48845 [7:46:32<9:25:00,  1.26s/it] 45%|████▍     | 21956/48845 [7:46:33<9:25:07,  1.26s/it] 45%|████▍     | 21957/48845 [7:46:34<9:25:15,  1.26s/it] 45%|████▍     | 21958/48845 [7:46:36<9:25:24,  1.26s/it] 45%|████▍     | 21959/48845 [7:46:37<9:25:24,  1.26s/it] 45%|████▍     | 21960/48845 [7:46:38<9:25:39,  1.26s/it]                                                         {'loss': 1.9812, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21960/48845 [7:46:38<9:25:39,  1.26s/it] 45%|████▍     | 21961/48845 [7:46:39<9:25:40,  1.26s/it] 45%|████▍     | 21962/48845 [7:46:41<9:25:15,  1.26s/it] 45%|████▍     | 21963/48845 [7:46:42<9:25:09,  1.26s/it] 45%|████▍     | 21964/48845 [7:46:43<9:25:24,  1.26s/it] 45%|████▍     | 21965/48845 [7:46:44<9:25:15,  1.26s/it]                                                         {'loss': 1.9247, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21965/48845 [7:46:44<9:25:15,  1.26s/it] 45%|████▍     | 21966/48845 [7:46:46<9:25:37,  1.26s/it] 45%|████▍     | 21967/48845 [7:46:47<9:24:54,  1.26s/it] 45%|████▍     | 21968/48845 [7:46:48<9:24:36,  1.26s/it] 45%|████▍     | 21969/48845 [7:46:49<9:24:21,  1.26s/it] 45%|████▍     | 21970/48845 [7:46:51<9:24:14,  1.26s/it]                                                         {'loss': 2.2309, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21970/48845 [7:46:51<9:24:14,  1.26s/it] 45%|████▍     | 21971/48845 [7:46:52<9:24:05,  1.26s/it] 45%|████▍     | 21972/48845 [7:46:53<9:24:24,  1.26s/it] 45%|████▍     | 21973/48845 [7:46:54<9:24:13,  1.26s/it] 45%|████▍     | 21974/48845 [7:46:56<9:24:49,  1.26s/it] 45%|████▍     | 21975/48845 [7:46:57<9:24:38,  1.26s/it]                                                         {'loss': 2.1856, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21975/48845 [7:46:57<9:24:38,  1.26s/it] 45%|████▍     | 21976/48845 [7:46:58<9:24:47,  1.26s/it] 45%|████▍     | 21977/48845 [7:46:59<9:24:19,  1.26s/it] 45%|████▍     | 21978/48845 [7:47:01<9:24:50,  1.26s/it] 45%|████▍     | 21979/48845 [7:47:02<9:24:47,  1.26s/it] 45%|████▍     | 21980/48845 [7:47:03<9:24:34,  1.26s/it]                                                         {'loss': 1.9254, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▍     | 21980/48845 [7:47:03<9:24:34,  1.26s/it] 45%|████▌     | 21981/48845 [7:47:05<9:24:25,  1.26s/it] 45%|████▌     | 21982/48845 [7:47:06<9:24:10,  1.26s/it] 45%|████▌     | 21983/48845 [7:47:07<9:23:39,  1.26s/it] 45%|████▌     | 21984/48845 [7:47:08<9:24:27,  1.26s/it] 45%|████▌     | 21985/48845 [7:47:10<9:25:19,  1.26s/it]                                                         {'loss': 2.1622, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 21985/48845 [7:47:10<9:25:19,  1.26s/it] 45%|████▌     | 21986/48845 [7:47:11<9:24:55,  1.26s/it] 45%|████▌     | 21987/48845 [7:47:12<9:25:16,  1.26s/it] 45%|████▌     | 21988/48845 [7:47:13<9:24:38,  1.26s/it] 45%|████▌     | 21989/48845 [7:47:15<9:24:50,  1.26s/it] 45%|████▌     | 21990/48845 [7:47:16<9:24:45,  1.26s/it]                                                         {'loss': 1.8417, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 21990/48845 [7:47:16<9:24:45,  1.26s/it] 45%|████▌     | 21991/48845 [7:47:17<9:24:06,  1.26s/it] 45%|████▌     | 21992/48845 [7:47:18<9:23:55,  1.26s/it] 45%|████▌     | 21993/48845 [7:47:20<9:24:12,  1.26s/it] 45%|████▌     | 21994/48845 [7:47:21<9:25:01,  1.26s/it] 45%|████▌     | 21995/48845 [7:47:22<9:25:20,  1.26s/it]                                                         {'loss': 2.3685, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 21995/48845 [7:47:22<9:25:20,  1.26s/it] 45%|████▌     | 21996/48845 [7:47:23<9:25:06,  1.26s/it] 45%|████▌     | 21997/48845 [7:47:25<9:24:12,  1.26s/it] 45%|████▌     | 21998/48845 [7:47:26<9:24:03,  1.26s/it] 45%|████▌     | 21999/48845 [7:47:27<9:23:54,  1.26s/it] 45%|████▌     | 22000/48845 [7:47:28<9:24:01,  1.26s/it]                                                         {'loss': 2.11, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22000/48845 [7:47:28<9:24:01,  1.26s/it] 45%|████▌     | 22001/48845 [7:47:32<14:51:19,  1.99s/it] 45%|████▌     | 22002/48845 [7:47:33<13:12:37,  1.77s/it] 45%|████▌     | 22003/48845 [7:47:35<12:03:55,  1.62s/it] 45%|████▌     | 22004/48845 [7:47:36<11:15:07,  1.51s/it] 45%|████▌     | 22005/48845 [7:47:37<10:42:03,  1.44s/it]                                                          {'loss': 2.2245, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22005/48845 [7:47:37<10:42:03,  1.44s/it] 45%|████▌     | 22006/48845 [7:47:38<10:18:50,  1.38s/it] 45%|████▌     | 22007/48845 [7:47:40<10:01:45,  1.35s/it] 45%|████▌     | 22008/48845 [7:47:41<9:50:14,  1.32s/it]  45%|████▌     | 22009/48845 [7:47:42<9:42:22,  1.30s/it] 45%|████▌     | 22010/48845 [7:47:44<9:36:52,  1.29s/it]                                                         {'loss': 2.0075, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22010/48845 [7:47:44<9:36:52,  1.29s/it] 45%|████▌     | 22011/48845 [7:47:45<9:32:51,  1.28s/it] 45%|████▌     | 22012/48845 [7:47:46<9:29:34,  1.27s/it] 45%|████▌     | 22013/48845 [7:47:47<9:27:33,  1.27s/it] 45%|████▌     | 22014/48845 [7:47:49<9:25:56,  1.27s/it] 45%|████▌     | 22015/48845 [7:47:50<9:24:59,  1.26s/it]                                                         {'loss': 2.0592, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22015/48845 [7:47:50<9:24:59,  1.26s/it] 45%|████▌     | 22016/48845 [7:47:51<9:25:32,  1.26s/it] 45%|████▌     | 22017/48845 [7:47:52<9:25:11,  1.26s/it] 45%|████▌     | 22018/48845 [7:47:54<9:24:44,  1.26s/it] 45%|████▌     | 22019/48845 [7:47:55<9:25:22,  1.26s/it] 45%|████▌     | 22020/48845 [7:47:56<9:24:50,  1.26s/it]                                                         {'loss': 1.9456, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22020/48845 [7:47:56<9:24:50,  1.26s/it] 45%|████▌     | 22021/48845 [7:47:57<9:25:03,  1.26s/it] 45%|████▌     | 22022/48845 [7:47:59<9:24:27,  1.26s/it] 45%|████▌     | 22023/48845 [7:48:00<9:24:21,  1.26s/it] 45%|████▌     | 22024/48845 [7:48:01<9:24:20,  1.26s/it] 45%|████▌     | 22025/48845 [7:48:02<9:23:26,  1.26s/it]                                                         {'loss': 2.1177, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.25}
+ 45%|████▌     | 22025/48845 [7:48:02<9:23:26,  1.26s/it] 45%|████▌     | 22026/48845 [7:48:04<9:24:05,  1.26s/it] 45%|████▌     | 22027/48845 [7:48:05<9:23:52,  1.26s/it] 45%|████▌     | 22028/48845 [7:48:06<9:23:23,  1.26s/it] 45%|████▌     | 22029/48845 [7:48:07<9:23:11,  1.26s/it] 45%|████▌     | 22030/48845 [7:48:09<9:23:20,  1.26s/it]                                                         {'loss': 2.1632, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22030/48845 [7:48:09<9:23:20,  1.26s/it] 45%|████▌     | 22031/48845 [7:48:10<9:23:27,  1.26s/it] 45%|████▌     | 22032/48845 [7:48:11<9:23:19,  1.26s/it] 45%|████▌     | 22033/48845 [7:48:13<9:22:56,  1.26s/it] 45%|████▌     | 22034/48845 [7:48:14<9:22:58,  1.26s/it] 45%|████▌     | 22035/48845 [7:48:15<9:22:54,  1.26s/it]                                                         {'loss': 1.9822, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22035/48845 [7:48:15<9:22:54,  1.26s/it] 45%|████▌     | 22036/48845 [7:48:16<9:22:40,  1.26s/it] 45%|████▌     | 22037/48845 [7:48:18<9:28:40,  1.27s/it] 45%|████▌     | 22038/48845 [7:48:19<9:27:06,  1.27s/it] 45%|████▌     | 22039/48845 [7:48:20<9:26:19,  1.27s/it] 45%|████▌     | 22040/48845 [7:48:21<9:25:12,  1.27s/it]                                                         {'loss': 2.3076, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22040/48845 [7:48:21<9:25:12,  1.27s/it] 45%|████▌     | 22041/48845 [7:48:23<9:24:23,  1.26s/it] 45%|████▌     | 22042/48845 [7:48:24<9:24:17,  1.26s/it] 45%|████▌     | 22043/48845 [7:48:25<9:24:32,  1.26s/it] 45%|████▌     | 22044/48845 [7:48:26<9:24:05,  1.26s/it] 45%|████▌     | 22045/48845 [7:48:28<9:23:36,  1.26s/it]                                                         {'loss': 2.1504, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22045/48845 [7:48:28<9:23:36,  1.26s/it] 45%|████▌     | 22046/48845 [7:48:29<9:24:05,  1.26s/it] 45%|████▌     | 22047/48845 [7:48:30<9:23:58,  1.26s/it] 45%|████▌     | 22048/48845 [7:48:31<9:23:44,  1.26s/it] 45%|████▌     | 22049/48845 [7:48:33<9:23:09,  1.26s/it] 45%|████▌     | 22050/48845 [7:48:34<9:23:09,  1.26s/it]                                                         {'loss': 2.0346, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22050/48845 [7:48:34<9:23:09,  1.26s/it] 45%|████▌     | 22051/48845 [7:48:35<9:23:08,  1.26s/it] 45%|████▌     | 22052/48845 [7:48:37<9:22:50,  1.26s/it] 45%|████▌     | 22053/48845 [7:48:38<9:22:44,  1.26s/it] 45%|████▌     | 22054/48845 [7:48:39<9:22:23,  1.26s/it] 45%|████▌     | 22055/48845 [7:48:40<9:22:31,  1.26s/it]                                                         {'loss': 2.0418, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22055/48845 [7:48:40<9:22:31,  1.26s/it] 45%|████▌     | 22056/48845 [7:48:42<9:22:30,  1.26s/it] 45%|████▌     | 22057/48845 [7:48:43<9:22:49,  1.26s/it] 45%|████▌     | 22058/48845 [7:48:44<9:23:04,  1.26s/it] 45%|████▌     | 22059/48845 [7:48:45<9:22:45,  1.26s/it] 45%|████▌     | 22060/48845 [7:48:47<9:22:30,  1.26s/it]                                                         {'loss': 1.941, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22060/48845 [7:48:47<9:22:30,  1.26s/it] 45%|████▌     | 22061/48845 [7:48:48<9:23:01,  1.26s/it] 45%|████▌     | 22062/48845 [7:48:49<9:23:41,  1.26s/it] 45%|████▌     | 22063/48845 [7:48:50<9:22:51,  1.26s/it] 45%|████▌     | 22064/48845 [7:48:52<9:22:36,  1.26s/it] 45%|████▌     | 22065/48845 [7:48:53<9:22:36,  1.26s/it]                                                         {'loss': 2.1329, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22065/48845 [7:48:53<9:22:36,  1.26s/it] 45%|████▌     | 22066/48845 [7:48:54<9:23:01,  1.26s/it] 45%|████▌     | 22067/48845 [7:48:55<9:22:51,  1.26s/it] 45%|████▌     | 22068/48845 [7:48:57<9:22:28,  1.26s/it] 45%|████▌     | 22069/48845 [7:48:58<9:22:38,  1.26s/it] 45%|████▌     | 22070/48845 [7:48:59<9:22:25,  1.26s/it]                                                         {'loss': 2.0675, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22070/48845 [7:48:59<9:22:25,  1.26s/it] 45%|████▌     | 22071/48845 [7:49:00<9:22:14,  1.26s/it] 45%|████▌     | 22072/48845 [7:49:02<9:21:52,  1.26s/it] 45%|████▌     | 22073/48845 [7:49:03<9:22:01,  1.26s/it] 45%|████▌     | 22074/48845 [7:49:04<9:22:28,  1.26s/it] 45%|████▌     | 22075/48845 [7:49:06<9:22:03,  1.26s/it]                                                         {'loss': 1.9939, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22075/48845 [7:49:06<9:22:03,  1.26s/it] 45%|████▌     | 22076/48845 [7:49:07<9:22:01,  1.26s/it] 45%|████▌     | 22077/48845 [7:49:08<9:22:00,  1.26s/it] 45%|████▌     | 22078/48845 [7:49:09<9:22:03,  1.26s/it] 45%|████▌     | 22079/48845 [7:49:11<9:22:06,  1.26s/it] 45%|████▌     | 22080/48845 [7:49:12<9:21:56,  1.26s/it]                                                         {'loss': 2.0841, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22080/48845 [7:49:12<9:21:56,  1.26s/it] 45%|████▌     | 22081/48845 [7:49:13<9:22:13,  1.26s/it] 45%|████▌     | 22082/48845 [7:49:14<9:22:24,  1.26s/it] 45%|████▌     | 22083/48845 [7:49:16<9:22:12,  1.26s/it] 45%|████▌     | 22084/48845 [7:49:17<9:21:39,  1.26s/it] 45%|████▌     | 22085/48845 [7:49:18<9:21:36,  1.26s/it]                                                         {'loss': 2.1282, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22085/48845 [7:49:18<9:21:36,  1.26s/it] 45%|████▌     | 22086/48845 [7:49:19<9:21:33,  1.26s/it] 45%|████▌     | 22087/48845 [7:49:21<9:21:29,  1.26s/it] 45%|████▌     | 22088/48845 [7:49:22<9:21:17,  1.26s/it] 45%|████▌     | 22089/48845 [7:49:23<9:21:39,  1.26s/it] 45%|████▌     | 22090/48845 [7:49:24<9:21:51,  1.26s/it]                                                         {'loss': 2.0154, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22090/48845 [7:49:24<9:21:51,  1.26s/it] 45%|████▌     | 22091/48845 [7:49:26<9:21:32,  1.26s/it] 45%|████▌     | 22092/48845 [7:49:27<9:21:31,  1.26s/it] 45%|████▌     | 22093/48845 [7:49:28<9:21:31,  1.26s/it] 45%|████▌     | 22094/48845 [7:49:29<9:21:21,  1.26s/it] 45%|████▌     | 22095/48845 [7:49:31<9:21:34,  1.26s/it]                                                         {'loss': 2.0779, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22095/48845 [7:49:31<9:21:34,  1.26s/it] 45%|████▌     | 22096/48845 [7:49:32<9:21:31,  1.26s/it] 45%|████▌     | 22097/48845 [7:49:33<9:21:15,  1.26s/it] 45%|████▌     | 22098/48845 [7:49:34<9:21:41,  1.26s/it] 45%|████▌     | 22099/48845 [7:49:36<9:22:23,  1.26s/it] 45%|████▌     | 22100/48845 [7:49:37<9:21:33,  1.26s/it]                                                         {'loss': 1.9717, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22100/48845 [7:49:37<9:21:33,  1.26s/it] 45%|████▌     | 22101/48845 [7:49:38<9:21:37,  1.26s/it] 45%|████▌     | 22102/48845 [7:49:40<9:21:21,  1.26s/it] 45%|████▌     | 22103/48845 [7:49:41<9:21:14,  1.26s/it] 45%|████▌     | 22104/48845 [7:49:42<9:21:18,  1.26s/it] 45%|████▌     | 22105/48845 [7:49:43<9:21:11,  1.26s/it]                                                         {'loss': 2.1077, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22105/48845 [7:49:43<9:21:11,  1.26s/it] 45%|████▌     | 22106/48845 [7:49:45<9:21:12,  1.26s/it] 45%|█��██▌     | 22107/48845 [7:49:46<9:21:52,  1.26s/it] 45%|████▌     | 22108/48845 [7:49:47<9:21:20,  1.26s/it] 45%|████▌     | 22109/48845 [7:49:48<9:21:11,  1.26s/it] 45%|████▌     | 22110/48845 [7:49:50<9:21:04,  1.26s/it]                                                         {'loss': 2.0634, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22110/48845 [7:49:50<9:21:04,  1.26s/it] 45%|████▌     | 22111/48845 [7:49:51<9:21:07,  1.26s/it] 45%|████▌     | 22112/48845 [7:49:52<9:21:01,  1.26s/it] 45%|████▌     | 22113/48845 [7:49:53<9:21:06,  1.26s/it] 45%|████▌     | 22114/48845 [7:49:55<9:21:14,  1.26s/it] 45%|████▌     | 22115/48845 [7:49:56<9:22:17,  1.26s/it]                                                         {'loss': 2.1735, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22115/48845 [7:49:56<9:22:17,  1.26s/it] 45%|████▌     | 22116/48845 [7:49:57<9:22:09,  1.26s/it] 45%|████▌     | 22117/48845 [7:49:58<9:22:17,  1.26s/it] 45%|████▌     | 22118/48845 [7:50:00<9:21:29,  1.26s/it] 45%|████▌     | 22119/48845 [7:50:01<9:22:16,  1.26s/it] 45%|████▌     | 22120/48845 [7:50:02<9:21:46,  1.26s/it]                                                         {'loss': 2.0849, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22120/48845 [7:50:02<9:21:46,  1.26s/it] 45%|████▌     | 22121/48845 [7:50:03<9:21:22,  1.26s/it] 45%|████▌     | 22122/48845 [7:50:05<9:21:29,  1.26s/it] 45%|████▌     | 22123/48845 [7:50:06<9:21:17,  1.26s/it] 45%|████▌     | 22124/48845 [7:50:07<9:21:44,  1.26s/it] 45%|████▌     | 22125/48845 [7:50:09<9:21:17,  1.26s/it]                                                         {'loss': 2.0827, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.26}
+ 45%|████▌     | 22125/48845 [7:50:09<9:21:17,  1.26s/it] 45%|████▌     | 22126/48845 [7:50:10<9:21:20,  1.26s/it] 45%|████▌     | 22127/48845 [7:50:11<9:20:53,  1.26s/it] 45%|████▌     | 22128/48845 [7:50:12<9:20:43,  1.26s/it] 45%|████▌     | 22129/48845 [7:50:14<9:20:59,  1.26s/it] 45%|████▌     | 22130/48845 [7:50:15<9:21:15,  1.26s/it]                                                         {'loss': 1.9866, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22130/48845 [7:50:15<9:21:15,  1.26s/it] 45%|████▌     | 22131/48845 [7:50:16<9:20:54,  1.26s/it] 45%|████▌     | 22132/48845 [7:50:17<9:20:52,  1.26s/it] 45%|████▌     | 22133/48845 [7:50:19<9:20:51,  1.26s/it] 45%|████▌     | 22134/48845 [7:50:20<9:20:47,  1.26s/it] 45%|████▌     | 22135/48845 [7:50:21<9:21:28,  1.26s/it]                                                         {'loss': 2.0198, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22135/48845 [7:50:21<9:21:28,  1.26s/it] 45%|████▌     | 22136/48845 [7:50:22<9:21:39,  1.26s/it] 45%|████▌     | 22137/48845 [7:50:24<9:21:42,  1.26s/it] 45%|████▌     | 22138/48845 [7:50:25<9:21:20,  1.26s/it] 45%|████▌     | 22139/48845 [7:50:26<9:21:40,  1.26s/it] 45%|████▌     | 22140/48845 [7:50:27<9:21:25,  1.26s/it]                                                         {'loss': 2.0609, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22140/48845 [7:50:27<9:21:25,  1.26s/it] 45%|████▌     | 22141/48845 [7:50:29<9:21:37,  1.26s/it] 45%|████▌     | 22142/48845 [7:50:30<9:21:16,  1.26s/it] 45%|████▌     | 22143/48845 [7:50:31<9:20:54,  1.26s/it] 45%|████▌     | 22144/48845 [7:50:32<9:20:50,  1.26s/it] 45%|████▌     | 22145/48845 [7:50:34<9:21:14,  1.26s/it]                                                         {'loss': 2.1488, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22145/48845 [7:50:34<9:21:14,  1.26s/it] 45%|████▌     | 22146/48845 [7:50:35<9:20:55,  1.26s/it] 45%|████▌     | 22147/48845 [7:50:36<9:20:35,  1.26s/it] 45%|████▌     | 22148/48845 [7:50:38<9:20:34,  1.26s/it] 45%|████▌     | 22149/48845 [7:50:39<9:20:29,  1.26s/it] 45%|████▌     | 22150/48845 [7:50:40<9:20:31,  1.26s/it]                                                         {'loss': 2.0026, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22150/48845 [7:50:40<9:20:31,  1.26s/it] 45%|████▌     | 22151/48845 [7:50:41<9:21:12,  1.26s/it] 45%|████▌     | 22152/48845 [7:50:43<9:21:24,  1.26s/it] 45%|████▌     | 22153/48845 [7:50:44<9:21:34,  1.26s/it] 45%|████▌     | 22154/48845 [7:50:45<9:21:44,  1.26s/it] 45%|████▌     | 22155/48845 [7:50:46<9:21:20,  1.26s/it]                                                         {'loss': 2.023, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22155/48845 [7:50:46<9:21:20,  1.26s/it] 45%|████▌     | 22156/48845 [7:50:48<9:28:54,  1.28s/it] 45%|████▌     | 22157/48845 [7:50:49<9:26:09,  1.27s/it] 45%|████▌     | 22158/48845 [7:50:50<9:24:51,  1.27s/it] 45%|████▌     | 22159/48845 [7:50:51<9:23:59,  1.27s/it] 45%|████▌     | 22160/48845 [7:50:53<9:22:36,  1.26s/it]                                                         {'loss': 2.2945, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22160/48845 [7:50:53<9:22:36,  1.26s/it] 45%|████▌     | 22161/48845 [7:50:54<9:21:42,  1.26s/it] 45%|████▌     | 22162/48845 [7:50:55<9:21:11,  1.26s/it] 45%|████▌     | 22163/48845 [7:50:56<9:20:40,  1.26s/it] 45%|████▌     | 22164/48845 [7:50:58<9:20:23,  1.26s/it] 45%|████▌     | 22165/48845 [7:50:59<9:20:15,  1.26s/it]                                                         {'loss': 2.0618, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22165/48845 [7:50:59<9:20:15,  1.26s/it] 45%|████▌     | 22166/48845 [7:51:00<9:20:13,  1.26s/it] 45%|████▌     | 22167/48845 [7:51:02<9:19:59,  1.26s/it] 45%|████▌     | 22168/48845 [7:51:03<9:31:16,  1.28s/it] 45%|████▌     | 22169/48845 [7:51:04<9:29:06,  1.28s/it] 45%|████▌     | 22170/48845 [7:51:05<9:26:06,  1.27s/it]                                                         {'loss': 2.0295, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22170/48845 [7:51:05<9:26:06,  1.27s/it] 45%|████▌     | 22171/48845 [7:51:07<9:24:17,  1.27s/it] 45%|████▌     | 22172/48845 [7:51:08<9:22:43,  1.27s/it] 45%|████▌     | 22173/48845 [7:51:09<9:21:24,  1.26s/it] 45%|████▌     | 22174/48845 [7:51:10<9:20:48,  1.26s/it] 45%|████▌     | 22175/48845 [7:51:12<9:19:49,  1.26s/it]                                                         {'loss': 1.9702, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22175/48845 [7:51:12<9:19:49,  1.26s/it] 45%|████▌     | 22176/48845 [7:51:13<9:19:33,  1.26s/it] 45%|████▌     | 22177/48845 [7:51:14<9:19:29,  1.26s/it] 45%|████▌     | 22178/48845 [7:51:15<9:19:39,  1.26s/it] 45%|████▌     | 22179/48845 [7:51:17<9:20:04,  1.26s/it] 45%|████▌     | 22180/48845 [7:51:18<9:19:52,  1.26s/it]                                                         {'loss': 2.1221, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22180/48845 [7:51:18<9:19:52,  1.26s/it] 45%|████▌     | 22181/48845 [7:51:19<9:19:56,  1.26s/it] 45%|████▌     | 22182/48845 [7:51:20<9:20:02,  1.26s/it] 45%|████▌     | 22183/48845 [7:51:22<9:19:55,  1.26s/it] 45%|████▌     | 22184/48845 [7:51:23<9:19:37,  1.26s/it] 45%|████▌     | 22185/48845 [7:51:24<9:19:55,  1.26s/it]                                                         {'loss': 2.0534, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22185/48845 [7:51:24<9:19:55,  1.26s/it] 45%|████▌     | 22186/48845 [7:51:26<9:19:44,  1.26s/it] 45%|████▌     | 22187/48845 [7:51:27<9:19:40,  1.26s/it] 45%|████▌     | 22188/48845 [7:51:28<9:20:26,  1.26s/it] 45%|████▌     | 22189/48845 [7:51:29<9:20:06,  1.26s/it] 45%|████▌     | 22190/48845 [7:51:31<9:19:50,  1.26s/it]                                                         {'loss': 2.0888, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22190/48845 [7:51:31<9:19:50,  1.26s/it] 45%|████▌     | 22191/48845 [7:51:32<9:19:47,  1.26s/it] 45%|████▌     | 22192/48845 [7:51:33<9:19:48,  1.26s/it] 45%|████▌     | 22193/48845 [7:51:34<9:19:48,  1.26s/it] 45%|████▌     | 22194/48845 [7:51:36<9:20:20,  1.26s/it] 45%|████▌     | 22195/48845 [7:51:37<9:19:50,  1.26s/it]                                                         {'loss': 2.0834, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22195/48845 [7:51:37<9:19:50,  1.26s/it] 45%|████▌     | 22196/48845 [7:51:38<9:19:47,  1.26s/it] 45%|████▌     | 22197/48845 [7:51:39<9:19:48,  1.26s/it] 45%|████▌     | 22198/48845 [7:51:41<9:19:33,  1.26s/it] 45%|████▌     | 22199/48845 [7:51:42<9:19:43,  1.26s/it] 45%|████▌     | 22200/48845 [7:51:43<9:20:00,  1.26s/it]                                                         {'loss': 2.1224, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22200/48845 [7:51:43<9:20:00,  1.26s/it] 45%|████▌     | 22201/48845 [7:51:47<14:42:52,  1.99s/it] 45%|████▌     | 22202/48845 [7:51:48<13:05:23,  1.77s/it] 45%|████▌     | 22203/48845 [7:51:49<11:57:37,  1.62s/it] 45%|████▌     | 22204/48845 [7:51:51<11:10:02,  1.51s/it] 45%|████▌     | 22205/48845 [7:51:52<10:37:30,  1.44s/it]                                                          {'loss': 2.151, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22205/48845 [7:51:52<10:37:30,  1.44s/it] 45%|████▌     | 22206/48845 [7:51:53<10:14:07,  1.38s/it] 45%|████▌     | 22207/48845 [7:51:54<9:58:07,  1.35s/it]  45%|████▌     | 22208/48845 [7:51:56<9:46:33,  1.32s/it] 45%|████▌     | 22209/48845 [7:51:57<9:38:22,  1.30s/it] 45%|████▌     | 22210/48845 [7:51:58<9:32:23,  1.29s/it]                                                         {'loss': 1.955, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22210/48845 [7:51:58<9:32:23,  1.29s/it] 45%|████▌     | 22211/48845 [7:51:59<9:28:35,  1.28s/it] 45%|████▌     | 22212/48845 [7:52:01<9:25:37,  1.27s/it] 45%|████▌     | 22213/48845 [7:52:02<9:24:03,  1.27s/it] 45%|████▌     | 22214/48845 [7:52:03<9:22:22,  1.27s/it] 45%|████▌     | 22215/48845 [7:52:05<9:21:06,  1.26s/it]                                                         {'loss': 1.9814, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22215/48845 [7:52:05<9:21:06,  1.26s/it] 45%|████▌     | 22216/48845 [7:52:06<9:20:36,  1.26s/it] 45%|████▌     | 22217/48845 [7:52:07<9:20:02,  1.26s/it] 45%|████▌     | 22218/48845 [7:52:08<9:19:03,  1.26s/it] 45%|████▌     | 22219/48845 [7:52:10<9:18:49,  1.26s/it] 45%|████▌     | 22220/48845 [7:52:11<9:18:52,  1.26s/it]                                                         {'loss': 1.958, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.27}
+ 45%|████▌     | 22220/48845 [7:52:11<9:18:52,  1.26s/it] 45%|████▌     | 22221/48845 [7:52:12<9:18:42,  1.26s/it] 45%|████▌     | 22222/48845 [7:52:13<9:18:17,  1.26s/it] 45%|████▌     | 22223/48845 [7:52:15<9:18:05,  1.26s/it] 45%|████▌     | 22224/48845 [7:52:16<9:18:22,  1.26s/it] 46%|████▌     | 22225/48845 [7:52:17<9:18:51,  1.26s/it]                                                         {'loss': 1.9862, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22225/48845 [7:52:17<9:18:51,  1.26s/it] 46%|████▌     | 22226/48845 [7:52:18<9:19:04,  1.26s/it] 46%|████▌     | 22227/48845 [7:52:20<9:20:04,  1.26s/it] 46%|████▌     | 22228/48845 [7:52:21<9:19:26,  1.26s/it] 46%|████▌     | 22229/48845 [7:52:22<9:19:14,  1.26s/it] 46%|████▌     | 22230/48845 [7:52:23<9:19:20,  1.26s/it]                                                         {'loss': 1.9603, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22230/48845 [7:52:23<9:19:20,  1.26s/it] 46%|████▌     | 22231/48845 [7:52:25<9:20:32,  1.26s/it] 46%|████▌     | 22232/48845 [7:52:26<9:19:50,  1.26s/it] 46%|████▌     | 22233/48845 [7:52:27<9:19:41,  1.26s/it] 46%|████▌     | 22234/48845 [7:52:28<9:19:15,  1.26s/it] 46%|████▌     | 22235/48845 [7:52:30<9:18:47,  1.26s/it]                                                         {'loss': 2.0102, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22235/48845 [7:52:30<9:18:47,  1.26s/it] 46%|████▌     | 22236/48845 [7:52:31<9:18:46,  1.26s/it] 46%|████▌     | 22237/48845 [7:52:32<9:18:41,  1.26s/it] 46%|████▌     | 22238/48845 [7:52:33<9:18:44,  1.26s/it] 46%|████▌     | 22239/48845 [7:52:35<9:18:40,  1.26s/it] 46%|████▌     | 22240/48845 [7:52:36<9:18:42,  1.26s/it]                                                         {'loss': 2.0579, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22240/48845 [7:52:36<9:18:42,  1.26s/it] 46%|████▌     | 22241/48845 [7:52:37<9:18:44,  1.26s/it] 46%|████▌     | 22242/48845 [7:52:39<9:18:34,  1.26s/it] 46%|████▌     | 22243/48845 [7:52:40<9:18:41,  1.26s/it] 46%|████▌     | 22244/48845 [7:52:41<9:18:20,  1.26s/it] 46%|████▌     | 22245/48845 [7:52:42<9:18:23,  1.26s/it]                                                         {'loss': 2.0443, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22245/48845 [7:52:42<9:18:23,  1.26s/it] 46%|████▌     | 22246/48845 [7:52:44<9:38:22,  1.30s/it] 46%|████▌     | 22247/48845 [7:52:45<9:32:35,  1.29s/it] 46%|████▌     | 22248/48845 [7:52:46<9:28:01,  1.28s/it] 46%|████▌     | 22249/48845 [7:52:48<9:25:38,  1.28s/it] 46%|████▌     | 22250/48845 [7:52:49<9:44:15,  1.32s/it]                                                         {'loss': 2.08, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22250/48845 [7:52:49<9:44:15,  1.32s/it] 46%|████▌     | 22251/48845 [7:52:50<9:37:59,  1.30s/it] 46%|████▌     | 22252/48845 [7:52:51<9:31:35,  1.29s/it] 46%|████▌     | 22253/48845 [7:52:53<9:27:46,  1.28s/it] 46%|████▌     | 22254/48845 [7:52:54<9:26:02,  1.28s/it] 46%|████▌     | 22255/48845 [7:52:55<9:23:21,  1.27s/it]                                                         {'loss': 1.8709, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22255/48845 [7:52:55<9:23:21,  1.27s/it] 46%|████▌     | 22256/48845 [7:52:56<9:22:13,  1.27s/it] 46%|████▌     | 22257/48845 [7:52:58<9:20:56,  1.27s/it] 46%|████▌     | 22258/48845 [7:52:59<9:20:15,  1.26s/it] 46%|████▌     | 22259/48845 [7:53:00<9:19:59,  1.26s/it] 46%|████▌     | 22260/48845 [7:53:02<9:19:17,  1.26s/it]                                                         {'loss': 2.1058, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22260/48845 [7:53:02<9:19:17,  1.26s/it] 46%|████▌     | 22261/48845 [7:53:03<9:19:33,  1.26s/it] 46%|████▌     | 22262/48845 [7:53:04<9:19:40,  1.26s/it] 46%|████▌     | 22263/48845 [7:53:05<9:19:09,  1.26s/it] 46%|████▌     | 22264/48845 [7:53:07<9:19:34,  1.26s/it] 46%|████▌     | 22265/48845 [7:53:08<9:18:59,  1.26s/it]                                                         {'loss': 2.1242, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22265/48845 [7:53:08<9:18:59,  1.26s/it] 46%|████▌     | 22266/48845 [7:53:09<9:20:23,  1.27s/it] 46%|████▌     | 22267/48845 [7:53:10<9:19:59,  1.26s/it] 46%|████▌     | 22268/48845 [7:53:12<9:19:17,  1.26s/it] 46%|████▌     | 22269/48845 [7:53:13<9:18:42,  1.26s/it] 46%|████▌     | 22270/48845 [7:53:14<9:18:37,  1.26s/it]                                                         {'loss': 2.1369, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22270/48845 [7:53:14<9:18:37,  1.26s/it] 46%|████▌     | 22271/48845 [7:53:15<9:18:35,  1.26s/it] 46%|████▌     | 22272/48845 [7:53:17<9:18:30,  1.26s/it] 46%|████▌     | 22273/48845 [7:53:18<9:18:11,  1.26s/it] 46%|████▌     | 22274/48845 [7:53:19<9:17:56,  1.26s/it] 46%|████▌     | 22275/48845 [7:53:20<9:17:41,  1.26s/it]                                                         {'loss': 2.0265, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22275/48845 [7:53:20<9:17:41,  1.26s/it] 46%|████▌     | 22276/48845 [7:53:22<9:17:43,  1.26s/it] 46%|████▌     | 22277/48845 [7:53:23<9:18:15,  1.26s/it] 46%|████▌     | 22278/48845 [7:53:24<9:17:56,  1.26s/it] 46%|████▌     | 22279/48845 [7:53:26<9:18:14,  1.26s/it] 46%|████▌     | 22280/48845 [7:53:27<9:18:32,  1.26s/it]                                                         {'loss': 1.9577, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22280/48845 [7:53:27<9:18:32,  1.26s/it] 46%|████▌     | 22281/48845 [7:53:28<9:19:03,  1.26s/it] 46%|████▌     | 22282/48845 [7:53:29<9:19:15,  1.26s/it] 46%|████▌     | 22283/48845 [7:53:31<9:18:46,  1.26s/it] 46%|████▌     | 22284/48845 [7:53:32<9:18:18,  1.26s/it] 46%|████▌     | 22285/48845 [7:53:33<9:19:07,  1.26s/it]                                                         {'loss': 2.2502, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22285/48845 [7:53:33<9:19:07,  1.26s/it] 46%|████▌     | 22286/48845 [7:53:34<9:18:30,  1.26s/it] 46%|████▌     | 22287/48845 [7:53:36<9:18:13,  1.26s/it] 46%|████▌     | 22288/48845 [7:53:37<9:17:50,  1.26s/it] 46%|████▌     | 22289/48845 [7:53:38<9:17:47,  1.26s/it] 46%|████▌     | 22290/48845 [7:53:39<9:17:57,  1.26s/it]                                                         {'loss': 1.9531, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22290/48845 [7:53:39<9:17:57,  1.26s/it] 46%|████▌     | 22291/48845 [7:53:41<9:17:47,  1.26s/it] 46%|████▌     | 22292/48845 [7:53:42<9:17:39,  1.26s/it] 46%|████▌     | 22293/48845 [7:53:43<9:17:49,  1.26s/it] 46%|████▌     | 22294/48845 [7:53:44<9:17:31,  1.26s/it] 46%|████▌     | 22295/48845 [7:53:46<9:17:36,  1.26s/it]                                                         {'loss': 2.1107, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22295/48845 [7:53:46<9:17:36,  1.26s/it] 46%|████▌     | 22296/48845 [7:53:47<9:17:46,  1.26s/it] 46%|████▌     | 22297/48845 [7:53:48<9:17:26,  1.26s/it] 46%|████▌     | 22298/48845 [7:53:49<9:18:32,  1.26s/it] 46%|████▌     | 22299/48845 [7:53:51<9:18:08,  1.26s/it] 46%|████▌     | 22300/48845 [7:53:52<9:17:54,  1.26s/it]                                                         {'loss': 1.9382, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22300/48845 [7:53:52<9:17:54,  1.26s/it] 46%|████▌     | 22301/48845 [7:53:53<9:17:38,  1.26s/it] 46%|████▌     | 22302/48845 [7:53:55<9:17:28,  1.26s/it] 46%|████▌     | 22303/48845 [7:53:56<9:17:45,  1.26s/it] 46%|████▌     | 22304/48845 [7:53:57<9:17:10,  1.26s/it] 46%|████▌     | 22305/48845 [7:53:58<9:17:21,  1.26s/it]                                                         {'loss': 2.1121, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22305/48845 [7:53:58<9:17:21,  1.26s/it] 46%|████▌     | 22306/48845 [7:54:00<9:18:43,  1.26s/it] 46%|████▌     | 22307/48845 [7:54:01<9:18:17,  1.26s/it] 46%|████▌     | 22308/48845 [7:54:02<9:19:03,  1.26s/it] 46%|████▌     | 22309/48845 [7:54:03<9:18:18,  1.26s/it] 46%|████▌     | 22310/48845 [7:54:05<9:17:39,  1.26s/it]                                                         {'loss': 2.1072, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22310/48845 [7:54:05<9:17:39,  1.26s/it] 46%|████▌     | 22311/48845 [7:54:06<9:18:02,  1.26s/it] 46%|████▌     | 22312/48845 [7:54:07<9:17:21,  1.26s/it] 46%|████▌     | 22313/48845 [7:54:08<9:17:20,  1.26s/it] 46%|████▌     | 22314/48845 [7:54:10<9:17:29,  1.26s/it] 46%|████▌     | 22315/48845 [7:54:11<9:17:31,  1.26s/it]                                                         {'loss': 2.0106, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22315/48845 [7:54:11<9:17:31,  1.26s/it] 46%|████▌     | 22316/48845 [7:54:12<9:17:44,  1.26s/it] 46%|████▌     | 22317/48845 [7:54:13<9:19:21,  1.27s/it] 46%|████▌     | 22318/48845 [7:54:15<9:18:52,  1.26s/it] 46%|████▌     | 22319/48845 [7:54:16<9:18:31,  1.26s/it] 46%|████▌     | 22320/48845 [7:54:17<9:18:09,  1.26s/it]                                                         {'loss': 1.993, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.28}
+ 46%|████▌     | 22320/48845 [7:54:17<9:18:09,  1.26s/it] 46%|████▌     | 22321/48845 [7:54:19<9:24:44,  1.28s/it] 46%|████▌     | 22322/48845 [7:54:20<9:22:34,  1.27s/it] 46%|████▌     | 22323/48845 [7:54:21<9:21:28,  1.27s/it] 46%|████▌     | 22324/48845 [7:54:22<9:20:09,  1.27s/it] 46%|████▌     | 22325/48845 [7:54:24<9:19:31,  1.27s/it]                                                         {'loss': 2.1375, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22325/48845 [7:54:24<9:19:31,  1.27s/it] 46%|████▌     | 22326/48845 [7:54:25<9:18:52,  1.26s/it] 46%|████▌     | 22327/48845 [7:54:26<9:18:20,  1.26s/it] 46%|████▌     | 22328/48845 [7:54:27<9:18:19,  1.26s/it] 46%|████▌     | 22329/48845 [7:54:29<9:17:58,  1.26s/it] 46%|████▌     | 22330/48845 [7:54:30<9:17:37,  1.26s/it]                                                         {'loss': 1.9685, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22330/48845 [7:54:30<9:17:37,  1.26s/it] 46%|████▌     | 22331/48845 [7:54:31<9:17:44,  1.26s/it] 46%|████▌     | 22332/48845 [7:54:32<9:17:35,  1.26s/it] 46%|████▌     | 22333/48845 [7:54:34<9:17:36,  1.26s/it] 46%|████▌     | 22334/48845 [7:54:35<9:17:20,  1.26s/it] 46%|████▌     | 22335/48845 [7:54:36<9:16:51,  1.26s/it]                                                         {'loss': 2.0896, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22335/48845 [7:54:36<9:16:51,  1.26s/it] 46%|████▌     | 22336/48845 [7:54:37<9:17:38,  1.26s/it] 46%|████▌     | 22337/48845 [7:54:39<9:17:31,  1.26s/it] 46%|████▌     | 22338/48845 [7:54:40<9:17:25,  1.26s/it] 46%|████▌     | 22339/48845 [7:54:41<9:17:21,  1.26s/it] 46%|████▌     | 22340/48845 [7:54:43<9:17:21,  1.26s/it]                                                         {'loss': 1.9912, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22340/48845 [7:54:43<9:17:21,  1.26s/it] 46%|████▌     | 22341/48845 [7:54:44<9:17:12,  1.26s/it] 46%|████▌     | 22342/48845 [7:54:45<9:17:03,  1.26s/it] 46%|████▌     | 22343/48845 [7:54:46<9:16:50,  1.26s/it] 46%|████▌     | 22344/48845 [7:54:48<9:17:04,  1.26s/it] 46%|████▌     | 22345/48845 [7:54:49<9:17:00,  1.26s/it]                                                         {'loss': 2.0182, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22345/48845 [7:54:49<9:17:00,  1.26s/it] 46%|████▌     | 22346/48845 [7:54:50<9:17:29,  1.26s/it] 46%|████▌     | 22347/48845 [7:54:51<9:17:05,  1.26s/it] 46%|████▌     | 22348/48845 [7:54:53<9:16:30,  1.26s/it] 46%|████▌     | 22349/48845 [7:54:54<9:16:30,  1.26s/it] 46%|████▌     | 22350/48845 [7:54:55<9:16:07,  1.26s/it]                                                         {'loss': 2.0176, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22350/48845 [7:54:55<9:16:07,  1.26s/it] 46%|████▌     | 22351/48845 [7:54:56<9:16:42,  1.26s/it] 46%|████▌     | 22352/48845 [7:54:58<9:16:51,  1.26s/it] 46%|████▌     | 22353/48845 [7:54:59<9:16:24,  1.26s/it] 46%|████▌     | 22354/48845 [7:55:00<9:16:14,  1.26s/it] 46%|████▌     | 22355/48845 [7:55:01<9:15:58,  1.26s/it]                                                         {'loss': 1.9778, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22355/48845 [7:55:01<9:15:58,  1.26s/it] 46%|████▌     | 22356/48845 [7:55:03<9:16:10,  1.26s/it] 46%|████▌     | 22357/48845 [7:55:04<9:16:31,  1.26s/it] 46%|████▌     | 22358/48845 [7:55:05<9:16:48,  1.26s/it] 46%|████▌     | 22359/48845 [7:55:06<9:17:00,  1.26s/it] 46%|████▌     | 22360/48845 [7:55:08<9:17:03,  1.26s/it]                                                         {'loss': 1.993, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22360/48845 [7:55:08<9:17:03,  1.26s/it] 46%|████▌     | 22361/48845 [7:55:09<9:16:58,  1.26s/it] 46%|████▌     | 22362/48845 [7:55:10<9:17:18,  1.26s/it] 46%|████▌     | 22363/48845 [7:55:12<9:17:02,  1.26s/it] 46%|████▌     | 22364/48845 [7:55:13<9:17:19,  1.26s/it] 46%|████▌     | 22365/48845 [7:55:14<9:17:34,  1.26s/it]                                                         {'loss': 1.946, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22365/48845 [7:55:14<9:17:34,  1.26s/it] 46%|████▌     | 22366/48845 [7:55:15<9:17:19,  1.26s/it] 46%|████▌     | 22367/48845 [7:55:17<9:17:22,  1.26s/it] 46%|████▌     | 22368/48845 [7:55:18<9:16:52,  1.26s/it] 46%|████▌     | 22369/48845 [7:55:19<9:16:19,  1.26s/it] 46%|████▌     | 22370/48845 [7:55:20<9:16:38,  1.26s/it]                                                         {'loss': 1.9842, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22370/48845 [7:55:20<9:16:38,  1.26s/it] 46%|████▌     | 22371/48845 [7:55:22<9:15:50,  1.26s/it] 46%|████▌     | 22372/48845 [7:55:23<9:16:07,  1.26s/it] 46%|████▌     | 22373/48845 [7:55:24<9:16:05,  1.26s/it] 46%|████▌     | 22374/48845 [7:55:25<9:16:00,  1.26s/it] 46%|████▌     | 22375/48845 [7:55:27<9:16:05,  1.26s/it]                                                         {'loss': 2.1323, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22375/48845 [7:55:27<9:16:05,  1.26s/it] 46%|████▌     | 22376/48845 [7:55:28<9:16:05,  1.26s/it] 46%|████▌     | 22377/48845 [7:55:29<9:16:19,  1.26s/it] 46%|████▌     | 22378/48845 [7:55:30<9:16:34,  1.26s/it] 46%|████▌     | 22379/48845 [7:55:32<9:16:18,  1.26s/it] 46%|████▌     | 22380/48845 [7:55:33<9:16:18,  1.26s/it]                                                         {'loss': 1.9425, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22380/48845 [7:55:33<9:16:18,  1.26s/it] 46%|████▌     | 22381/48845 [7:55:34<9:16:12,  1.26s/it] 46%|████▌     | 22382/48845 [7:55:35<9:16:16,  1.26s/it] 46%|████▌     | 22383/48845 [7:55:37<9:16:11,  1.26s/it] 46%|████▌     | 22384/48845 [7:55:38<9:16:06,  1.26s/it] 46%|████▌     | 22385/48845 [7:55:39<9:15:58,  1.26s/it]                                                         {'loss': 2.0267, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22385/48845 [7:55:39<9:15:58,  1.26s/it] 46%|████▌     | 22386/48845 [7:55:41<9:16:06,  1.26s/it] 46%|████▌     | 22387/48845 [7:55:42<9:15:42,  1.26s/it] 46%|████▌     | 22388/48845 [7:55:43<9:16:01,  1.26s/it] 46%|████▌     | 22389/48845 [7:55:44<9:16:45,  1.26s/it] 46%|████▌     | 22390/48845 [7:55:46<9:36:08,  1.31s/it]                                                         {'loss': 2.1229, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22390/48845 [7:55:46<9:36:08,  1.31s/it] 46%|████���     | 22391/48845 [7:55:47<9:30:02,  1.29s/it] 46%|████▌     | 22392/48845 [7:55:48<9:25:33,  1.28s/it] 46%|████▌     | 22393/48845 [7:55:49<9:22:21,  1.28s/it] 46%|████▌     | 22394/48845 [7:55:51<9:20:09,  1.27s/it] 46%|████▌     | 22395/48845 [7:55:52<9:18:20,  1.27s/it]                                                         {'loss': 1.8741, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22395/48845 [7:55:52<9:18:20,  1.27s/it] 46%|████▌     | 22396/48845 [7:55:53<9:17:49,  1.27s/it] 46%|████▌     | 22397/48845 [7:55:55<9:32:03,  1.30s/it] 46%|████▌     | 22398/48845 [7:55:56<9:26:57,  1.29s/it] 46%|████▌     | 22399/48845 [7:55:57<9:23:13,  1.28s/it] 46%|████▌     | 22400/48845 [7:55:58<9:21:19,  1.27s/it]                                                         {'loss': 2.0185, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22400/48845 [7:55:58<9:21:19,  1.27s/it] 46%|████▌     | 22401/48845 [7:56:02<14:52:05,  2.02s/it] 46%|████▌     | 22402/48845 [7:56:03<13:11:17,  1.80s/it] 46%|████▌     | 22403/48845 [7:56:05<12:00:58,  1.64s/it] 46%|████▌     | 22404/48845 [7:56:06<11:10:52,  1.52s/it] 46%|████▌     | 22405/48845 [7:56:07<10:36:34,  1.44s/it]                                                          {'loss': 1.9889, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22405/48845 [7:56:07<10:36:34,  1.44s/it] 46%|████▌     | 22406/48845 [7:56:09<10:12:28,  1.39s/it] 46%|████▌     | 22407/48845 [7:56:10<9:55:48,  1.35s/it]  46%|████▌     | 22408/48845 [7:56:11<9:43:14,  1.32s/it] 46%|████▌     | 22409/48845 [7:56:12<9:35:09,  1.31s/it] 46%|████▌     | 22410/48845 [7:56:14<9:28:57,  1.29s/it]                                                         {'loss': 2.0437, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22410/48845 [7:56:14<9:28:57,  1.29s/it] 46%|████▌     | 22411/48845 [7:56:15<9:25:18,  1.28s/it] 46%|████▌     | 22412/48845 [7:56:16<9:22:00,  1.28s/it] 46%|████▌     | 22413/48845 [7:56:17<9:20:13,  1.27s/it] 46%|████▌     | 22414/48845 [7:56:19<9:18:27,  1.27s/it] 46%|████▌     | 22415/48845 [7:56:20<9:17:30,  1.27s/it]                                                         {'loss': 1.9506, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.29}
+ 46%|████▌     | 22415/48845 [7:56:20<9:17:30,  1.27s/it] 46%|████▌     | 22416/48845 [7:56:21<9:16:53,  1.26s/it] 46%|████▌     | 22417/48845 [7:56:22<9:15:50,  1.26s/it] 46%|████▌     | 22418/48845 [7:56:24<9:15:40,  1.26s/it] 46%|████▌     | 22419/48845 [7:56:25<9:15:56,  1.26s/it] 46%|████▌     | 22420/48845 [7:56:26<9:15:42,  1.26s/it]                                                         {'loss': 2.0272, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22420/48845 [7:56:26<9:15:42,  1.26s/it] 46%|████▌     | 22421/48845 [7:56:27<9:15:32,  1.26s/it] 46%|████▌     | 22422/48845 [7:56:29<9:15:14,  1.26s/it] 46%|████▌     | 22423/48845 [7:56:30<9:15:03,  1.26s/it] 46%|████▌     | 22424/48845 [7:56:31<9:13:52,  1.26s/it] 46%|████▌     | 22425/48845 [7:56:32<9:14:15,  1.26s/it]                                                         {'loss': 2.0421, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22425/48845 [7:56:32<9:14:15,  1.26s/it] 46%|████▌     | 22426/48845 [7:56:34<9:14:58,  1.26s/it] 46%|████▌     | 22427/48845 [7:56:35<9:14:27,  1.26s/it] 46%|████▌     | 22428/48845 [7:56:36<9:14:27,  1.26s/it] 46%|████▌     | 22429/48845 [7:56:38<9:15:22,  1.26s/it] 46%|████▌     | 22430/48845 [7:56:39<9:15:24,  1.26s/it]                                                         {'loss': 1.9536, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22430/48845 [7:56:39<9:15:24,  1.26s/it] 46%|████▌     | 22431/48845 [7:56:40<9:15:23,  1.26s/it] 46%|████▌     | 22432/48845 [7:56:41<9:15:39,  1.26s/it] 46%|████▌     | 22433/48845 [7:56:43<9:15:19,  1.26s/it] 46%|████▌     | 22434/48845 [7:56:44<9:15:26,  1.26s/it] 46%|████▌     | 22435/48845 [7:56:45<9:15:07,  1.26s/it]                                                         {'loss': 2.0484, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22435/48845 [7:56:45<9:15:07,  1.26s/it] 46%|████▌     | 22436/48845 [7:56:46<9:14:54,  1.26s/it] 46%|████▌     | 22437/48845 [7:56:48<9:36:55,  1.31s/it] 46%|████▌     | 22438/48845 [7:56:49<9:30:32,  1.30s/it] 46%|████▌     | 22439/48845 [7:56:50<9:26:06,  1.29s/it] 46%|████▌     | 22440/48845 [7:56:52<9:22:33,  1.28s/it]                                                         {'loss': 2.1104, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22440/48845 [7:56:52<9:22:33,  1.28s/it] 46%|████▌     | 22441/48845 [7:56:53<9:25:04,  1.28s/it] 46%|████▌     | 22442/48845 [7:56:54<9:22:40,  1.28s/it] 46%|████▌     | 22443/48845 [7:56:55<9:20:29,  1.27s/it] 46%|████▌     | 22444/48845 [7:56:57<9:18:28,  1.27s/it] 46%|████▌     | 22445/48845 [7:56:58<9:17:33,  1.27s/it]                                                         {'loss': 2.1854, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22445/48845 [7:56:58<9:17:33,  1.27s/it] 46%|████▌     | 22446/48845 [7:56:59<9:16:44,  1.27s/it] 46%|████▌     | 22447/48845 [7:57:00<9:16:13,  1.26s/it] 46%|████▌     | 22448/48845 [7:57:02<9:15:20,  1.26s/it] 46%|████▌     | 22449/48845 [7:57:03<9:15:42,  1.26s/it] 46%|████▌     | 22450/48845 [7:57:04<9:15:37,  1.26s/it]                                                         {'loss': 1.96, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22450/48845 [7:57:04<9:15:37,  1.26s/it] 46%|████▌     | 22451/48845 [7:57:05<9:15:47,  1.26s/it] 46%|████▌     | 22452/48845 [7:57:07<9:15:30,  1.26s/it] 46%|████▌     | 22453/48845 [7:57:08<9:15:26,  1.26s/it] 46%|████▌     | 22454/48845 [7:57:09<9:14:45,  1.26s/it] 46%|████▌     | 22455/48845 [7:57:11<9:14:45,  1.26s/it]                                                         {'loss': 2.049, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22455/48845 [7:57:11<9:14:45,  1.26s/it] 46%|████▌     | 22456/48845 [7:57:12<9:14:11,  1.26s/it] 46%|████▌     | 22457/48845 [7:57:13<9:13:53,  1.26s/it] 46%|████▌     | 22458/48845 [7:57:14<9:14:12,  1.26s/it] 46%|████▌     | 22459/48845 [7:57:16<9:13:50,  1.26s/it] 46%|████▌     | 22460/48845 [7:57:17<9:14:18,  1.26s/it]                                                         {'loss': 1.9618, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22460/48845 [7:57:17<9:14:18,  1.26s/it] 46%|████▌     | 22461/48845 [7:57:18<9:13:58,  1.26s/it] 46%|████▌     | 22462/48845 [7:57:19<9:13:53,  1.26s/it] 46%|████▌     | 22463/48845 [7:57:21<9:14:02,  1.26s/it] 46%|████▌     | 22464/48845 [7:57:22<9:13:49,  1.26s/it] 46%|████▌     | 22465/48845 [7:57:23<9:14:04,  1.26s/it]                                                         {'loss': 2.0329, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22465/48845 [7:57:23<9:14:04,  1.26s/it] 46%|████▌     | 22466/48845 [7:57:24<9:14:01,  1.26s/it] 46%|████▌     | 22467/48845 [7:57:26<9:14:05,  1.26s/it] 46%|████▌     | 22468/48845 [7:57:27<9:15:03,  1.26s/it] 46%|████▌     | 22469/48845 [7:57:28<9:14:48,  1.26s/it] 46%|████▌     | 22470/48845 [7:57:29<9:14:58,  1.26s/it]                                                         {'loss': 1.9669, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22470/48845 [7:57:29<9:14:58,  1.26s/it] 46%|████▌     | 22471/48845 [7:57:31<9:14:53,  1.26s/it] 46%|████▌     | 22472/48845 [7:57:32<9:14:17,  1.26s/it] 46%|████▌     | 22473/48845 [7:57:33<9:14:57,  1.26s/it] 46%|████▌     | 22474/48845 [7:57:34<9:14:35,  1.26s/it] 46%|████▌     | 22475/48845 [7:57:36<9:14:51,  1.26s/it]                                                         {'loss': 2.0509, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22475/48845 [7:57:36<9:14:51,  1.26s/it] 46%|████▌     | 22476/48845 [7:57:37<9:16:00,  1.27s/it] 46%|████▌     | 22477/48845 [7:57:38<9:15:27,  1.26s/it] 46%|████▌     | 22478/48845 [7:57:40<9:14:56,  1.26s/it] 46%|████▌     | 22479/48845 [7:57:41<9:14:58,  1.26s/it] 46%|████▌     | 22480/48845 [7:57:42<9:14:20,  1.26s/it]                                                         {'loss': 2.0228, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22480/48845 [7:57:42<9:14:20,  1.26s/it] 46%|████▌     | 22481/48845 [7:57:43<9:14:25,  1.26s/it] 46%|████▌     | 22482/48845 [7:57:45<9:13:45,  1.26s/it] 46%|████▌     | 22483/48845 [7:57:46<9:13:31,  1.26s/it] 46%|████▌     | 22484/48845 [7:57:47<9:13:17,  1.26s/it] 46%|████▌     | 22485/48845 [7:57:48<9:13:50,  1.26s/it]                                                         {'loss': 1.8341, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22485/48845 [7:57:48<9:13:50,  1.26s/it] 46%|���███▌     | 22486/48845 [7:57:50<9:14:01,  1.26s/it] 46%|████▌     | 22487/48845 [7:57:51<9:13:52,  1.26s/it] 46%|████▌     | 22488/48845 [7:57:52<9:13:46,  1.26s/it] 46%|████▌     | 22489/48845 [7:57:53<9:14:13,  1.26s/it] 46%|████▌     | 22490/48845 [7:57:55<9:14:18,  1.26s/it]                                                         {'loss': 2.0155, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22490/48845 [7:57:55<9:14:18,  1.26s/it] 46%|████▌     | 22491/48845 [7:57:56<9:14:16,  1.26s/it] 46%|████▌     | 22492/48845 [7:57:57<9:13:54,  1.26s/it] 46%|████▌     | 22493/48845 [7:57:58<9:13:24,  1.26s/it] 46%|████▌     | 22494/48845 [7:58:00<9:13:43,  1.26s/it] 46%|████▌     | 22495/48845 [7:58:01<9:13:13,  1.26s/it]                                                         {'loss': 2.1466, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22495/48845 [7:58:01<9:13:13,  1.26s/it] 46%|████▌     | 22496/48845 [7:58:02<9:13:57,  1.26s/it] 46%|████▌     | 22497/48845 [7:58:03<9:13:43,  1.26s/it] 46%|████▌     | 22498/48845 [7:58:05<9:13:28,  1.26s/it] 46%|████▌     | 22499/48845 [7:58:06<9:13:43,  1.26s/it] 46%|████▌     | 22500/48845 [7:58:07<9:13:19,  1.26s/it]                                                         {'loss': 2.344, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22500/48845 [7:58:07<9:13:19,  1.26s/it] 46%|████▌     | 22501/48845 [7:58:09<9:13:14,  1.26s/it] 46%|████▌     | 22502/48845 [7:58:10<9:13:10,  1.26s/it] 46%|████▌     | 22503/48845 [7:58:11<9:13:09,  1.26s/it] 46%|████▌     | 22504/48845 [7:58:12<9:13:22,  1.26s/it] 46%|████▌     | 22505/48845 [7:58:14<9:13:14,  1.26s/it]                                                         {'loss': 2.1873, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22505/48845 [7:58:14<9:13:14,  1.26s/it] 46%|████▌     | 22506/48845 [7:58:15<9:14:09,  1.26s/it] 46%|████▌     | 22507/48845 [7:58:16<9:14:35,  1.26s/it] 46%|████▌     | 22508/48845 [7:58:17<9:13:59,  1.26s/it] 46%|████▌     | 22509/48845 [7:58:19<9:14:00,  1.26s/it] 46%|████▌     | 22510/48845 [7:58:20<9:13:41,  1.26s/it]                                                         {'loss': 2.0412, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22510/48845 [7:58:20<9:13:41,  1.26s/it] 46%|████▌     | 22511/48845 [7:58:21<9:13:40,  1.26s/it] 46%|████▌     | 22512/48845 [7:58:22<9:13:31,  1.26s/it] 46%|████▌     | 22513/48845 [7:58:24<9:13:35,  1.26s/it] 46%|████▌     | 22514/48845 [7:58:25<9:14:11,  1.26s/it] 46%|████▌     | 22515/48845 [7:58:26<9:13:58,  1.26s/it]                                                         {'loss': 2.1132, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.3}
+ 46%|████▌     | 22515/48845 [7:58:26<9:13:58,  1.26s/it] 46%|████▌     | 22516/48845 [7:58:27<9:13:48,  1.26s/it] 46%|████▌     | 22517/48845 [7:58:29<9:13:24,  1.26s/it] 46%|████▌     | 22518/48845 [7:58:30<9:13:04,  1.26s/it] 46%|████▌     | 22519/48845 [7:58:31<9:12:54,  1.26s/it] 46%|████▌     | 22520/48845 [7:58:32<9:12:54,  1.26s/it]                                                         {'loss': 1.959, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22520/48845 [7:58:32<9:12:54,  1.26s/it] 46%|████▌     | 22521/48845 [7:58:34<9:15:05,  1.27s/it] 46%|████▌     | 22522/48845 [7:58:35<9:14:27,  1.26s/it] 46%|████▌     | 22523/48845 [7:58:36<9:14:02,  1.26s/it] 46%|████▌     | 22524/48845 [7:58:38<9:13:41,  1.26s/it] 46%|████▌     | 22525/48845 [7:58:39<9:14:10,  1.26s/it]                                                         {'loss': 2.0353, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22525/48845 [7:58:39<9:14:10,  1.26s/it] 46%|████▌     | 22526/48845 [7:58:40<9:13:48,  1.26s/it] 46%|████▌     | 22527/48845 [7:58:41<9:13:16,  1.26s/it] 46%|████▌     | 22528/48845 [7:58:43<9:13:23,  1.26s/it] 46%|████▌     | 22529/48845 [7:58:44<9:13:21,  1.26s/it] 46%|████▌     | 22530/48845 [7:58:45<9:12:34,  1.26s/it]                                                         {'loss': 1.925, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22530/48845 [7:58:45<9:12:34,  1.26s/it] 46%|████▌     | 22531/48845 [7:58:46<9:12:52,  1.26s/it] 46%|████▌     | 22532/48845 [7:58:48<9:12:07,  1.26s/it] 46%|████▌     | 22533/48845 [7:58:49<9:33:47,  1.31s/it] 46%|████▌     | 22534/48845 [7:58:50<9:27:38,  1.29s/it] 46%|████▌     | 22535/48845 [7:58:52<9:22:53,  1.28s/it]                                                         {'loss': 2.103, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22535/48845 [7:58:52<9:22:53,  1.28s/it] 46%|████▌     | 22536/48845 [7:58:53<9:19:23,  1.28s/it] 46%|████▌     | 22537/48845 [7:58:54<9:17:03,  1.27s/it] 46%|████▌     | 22538/48845 [7:58:55<9:15:36,  1.27s/it] 46%|████▌     | 22539/48845 [7:58:57<9:14:50,  1.27s/it] 46%|████▌     | 22540/48845 [7:58:58<9:13:25,  1.26s/it]                                                         {'loss': 1.9809, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22540/48845 [7:58:58<9:13:25,  1.26s/it] 46%|████▌     | 22541/48845 [7:58:59<9:12:36,  1.26s/it] 46%|████▌     | 22542/48845 [7:59:00<9:12:41,  1.26s/it] 46%|████▌     | 22543/48845 [7:59:02<9:12:12,  1.26s/it] 46%|████▌     | 22544/48845 [7:59:03<9:12:06,  1.26s/it] 46%|████▌     | 22545/48845 [7:59:04<9:12:13,  1.26s/it]                                                         {'loss': 2.0064, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22545/48845 [7:59:04<9:12:13,  1.26s/it] 46%|████▌     | 22546/48845 [7:59:05<9:12:12,  1.26s/it] 46%|████▌     | 22547/48845 [7:59:07<9:12:08,  1.26s/it] 46%|████▌     | 22548/48845 [7:59:08<9:13:53,  1.26s/it] 46%|████▌     | 22549/48845 [7:59:09<9:13:24,  1.26s/it] 46%|████▌     | 22550/48845 [7:59:10<9:12:52,  1.26s/it]                                                         {'loss': 2.065, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22550/48845 [7:59:10<9:12:52,  1.26s/it] 46%|████▌     | 22551/48845 [7:59:12<9:13:06,  1.26s/it] 46%|████▌     | 22552/48845 [7:59:13<9:12:45,  1.26s/it] 46%|████▌     | 22553/48845 [7:59:14<9:12:39,  1.26s/it] 46%|████▌     | 22554/48845 [7:59:16<9:11:56,  1.26s/it] 46%|████▌     | 22555/48845 [7:59:17<9:11:51,  1.26s/it]                                                         {'loss': 2.0992, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22555/48845 [7:59:17<9:11:51,  1.26s/it] 46%|████▌     | 22556/48845 [7:59:18<9:11:43,  1.26s/it] 46%|████▌     | 22557/48845 [7:59:19<9:34:45,  1.31s/it] 46%|████▌     | 22558/48845 [7:59:21<9:27:52,  1.30s/it] 46%|████▌     | 22559/48845 [7:59:22<9:23:25,  1.29s/it] 46%|████▌     | 22560/48845 [7:59:23<9:19:38,  1.28s/it]                                                         {'loss': 2.1203, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22560/48845 [7:59:23<9:19:38,  1.28s/it] 46%|████▌     | 22561/48845 [7:59:25<9:18:29,  1.27s/it] 46%|████▌     | 22562/48845 [7:59:26<9:16:19,  1.27s/it] 46%|████▌     | 22563/48845 [7:59:27<9:14:31,  1.27s/it] 46%|████▌     | 22564/48845 [7:59:28<9:13:45,  1.26s/it] 46%|████▌     | 22565/48845 [7:59:30<9:13:19,  1.26s/it]                                                         {'loss': 2.1477, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22565/48845 [7:59:30<9:13:19,  1.26s/it] 46%|████▌     | 22566/48845 [7:59:31<9:13:11,  1.26s/it] 46%|████▌     | 22567/48845 [7:59:32<9:12:46,  1.26s/it] 46%|████▌     | 22568/48845 [7:59:33<9:12:22,  1.26s/it] 46%|████▌     | 22569/48845 [7:59:35<9:13:05,  1.26s/it] 46%|████▌     | 22570/48845 [7:59:36<9:13:05,  1.26s/it]                                                         {'loss': 2.1852, 'learning_rate': 4.093255966151799e-05, 'epoch': 2.31}
+ 46%|████▌     | 22570/48845 [7:59:36<9:13:05,  1.26s/it] 46%|████▌     | 22571/48845 [7:59:37<9:40:51,  1.33s/it] 46%|████▌     | 22572/48845 [7:59:39<9:32:22,  1.31s/it] 46%|████▌     | 22573/48845 [7:59:40<9:27:10,  1.30s/it] 46%|████▌     | 22574/48845 [7:59:41<9:22:39,  1.29s/it] 46%|████▌     | 22575/48845 [7:59:42<9:19:40,  1.28s/it]                                                         {'loss': 1.9606, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▌     | 22575/48845 [7:59:42<9:19:40,  1.28s/it] 46%|████▌     | 22576/48845 [7:59:44<9:17:33,  1.27s/it] 46%|████▌     | 22577/48845 [7:59:45<9:20:27,  1.28s/it] 46%|████▌     | 22578/48845 [7:59:46<9:18:01,  1.27s/it] 46%|████▌     | 22579/48845 [7:59:47<9:15:51,  1.27s/it] 46%|████▌     | 22580/48845 [7:59:49<9:14:35,  1.27s/it]                                                         {'loss': 1.8691, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▌     | 22580/48845 [7:59:49<9:14:35,  1.27s/it] 46%|████▌     | 22581/48845 [7:59:50<9:14:02,  1.27s/it] 46%|████▌     | 22582/48845 [7:59:51<9:12:55,  1.26s/it] 46%|████▌     | 22583/48845 [7:59:52<9:12:08,  1.26s/it] 46%|████▌     | 22584/48845 [7:59:54<9:21:50,  1.28s/it] 46%|████▌     | 22585/48845 [7:59:55<9:20:34,  1.28s/it]                                                         {'loss': 2.2533, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▌     | 22585/48845 [7:59:55<9:20:34,  1.28s/it] 46%|████▌     | 22586/48845 [7:59:56<9:18:14,  1.28s/it] 46%|████▌     | 22587/48845 [7:59:58<9:16:35,  1.27s/it] 46%|████▌     | 22588/48845 [7:59:59<9:15:32,  1.27s/it] 46%|████▌     | 22589/48845 [8:00:00<9:14:26,  1.27s/it] 46%|████▌     | 22590/48845 [8:00:01<9:13:25,  1.26s/it]                                                         {'loss': 2.0659, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▌     | 22590/48845 [8:00:01<9:13:25,  1.26s/it] 46%|████▋     | 22591/48845 [8:00:03<9:13:10,  1.26s/it] 46%|████▋     | 22592/48845 [8:00:04<9:13:00,  1.26s/it] 46%|████▋     | 22593/48845 [8:00:05<9:12:19,  1.26s/it] 46%|████▋     | 22594/48845 [8:00:06<9:12:38,  1.26s/it] 46%|████▋     | 22595/48845 [8:00:08<9:12:05,  1.26s/it]                                                         {'loss': 1.8838, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▋     | 22595/48845 [8:00:08<9:12:05,  1.26s/it] 46%|████▋     | 22596/48845 [8:00:09<9:11:58,  1.26s/it] 46%|████▋     | 22597/48845 [8:00:10<9:11:42,  1.26s/it] 46%|████▋     | 22598/48845 [8:00:12<9:11:35,  1.26s/it] 46%|████▋     | 22599/48845 [8:00:13<9:11:27,  1.26s/it] 46%|████▋     | 22600/48845 [8:00:14<9:11:28,  1.26s/it]                                                         {'loss': 2.1531, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▋     | 22600/48845 [8:00:14<9:11:28,  1.26s/it] 46%|████▋     | 22601/48845 [8:00:18<14:33:15,  2.00s/it] 46%|████▋     | 22602/48845 [8:00:19<12:56:27,  1.78s/it] 46%|████▋     | 22603/48845 [8:00:20<11:49:15,  1.62s/it] 46%|████▋     | 22604/48845 [8:00:22<11:02:10,  1.51s/it] 46%|████▋     | 22605/48845 [8:00:23<10:28:40,  1.44s/it]                                                          {'loss': 2.0315, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▋     | 22605/48845 [8:00:23<10:28:40,  1.44s/it] 46%|████▋     | 22606/48845 [8:00:24<10:05:49,  1.39s/it] 46%|████▋     | 22607/48845 [8:00:25<9:49:44,  1.35s/it]  46%|████▋     | 22608/48845 [8:00:27<9:37:59,  1.32s/it] 46%|████▋     | 22609/48845 [8:00:28<9:29:09,  1.30s/it] 46%|████▋     | 22610/48845 [8:00:29<9:24:17,  1.29s/it]                                                         {'loss': 2.2229, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▋     | 22610/48845 [8:00:29<9:24:17,  1.29s/it] 46%|████▋     | 22611/48845 [8:00:30<9:20:31,  1.28s/it] 46%|████▋     | 22612/48845 [8:00:32<9:17:22,  1.27s/it] 46%|████▋     | 22613/48845 [8:00:33<9:15:07,  1.27s/it] 46%|████▋     | 22614/48845 [8:00:34<9:13:21,  1.27s/it] 46%|████▋     | 22615/48845 [8:00:35<9:12:27,  1.26s/it]                                                         {'loss': 2.062, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.31}
+ 46%|████▋     | 22615/48845 [8:00:35<9:12:27,  1.26s/it] 46%|████▋     | 22616/48845 [8:00:37<9:12:49,  1.26s/it] 46%|████▋     | 22617/48845 [8:00:38<9:11:33,  1.26s/it] 46%|████▋     | 22618/48845 [8:00:39<9:11:23,  1.26s/it] 46%|████▋     | 22619/48845 [8:00:40<9:10:44,  1.26s/it] 46%|████▋     | 22620/48845 [8:00:42<9:10:25,  1.26s/it]                                                         {'loss': 2.0466, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22620/48845 [8:00:42<9:10:25,  1.26s/it] 46%|████▋     | 22621/48845 [8:00:43<9:10:32,  1.26s/it] 46%|████▋     | 22622/48845 [8:00:44<9:10:28,  1.26s/it] 46%|████▋     | 22623/48845 [8:00:45<9:10:43,  1.26s/it] 46%|████▋     | 22624/48845 [8:00:47<9:10:07,  1.26s/it] 46%|████▋     | 22625/48845 [8:00:48<9:10:14,  1.26s/it]                                                         {'loss': 2.0093, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22625/48845 [8:00:48<9:10:14,  1.26s/it] 46%|████▋     | 22626/48845 [8:00:49<9:11:00,  1.26s/it] 46%|████▋     | 22627/48845 [8:00:51<9:10:50,  1.26s/it] 46%|████▋     | 22628/48845 [8:00:52<9:10:44,  1.26s/it] 46%|████▋     | 22629/48845 [8:00:53<9:10:10,  1.26s/it] 46%|████▋     | 22630/48845 [8:00:54<9:10:41,  1.26s/it]                                                         {'loss': 2.1514, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22630/48845 [8:00:54<9:10:41,  1.26s/it] 46%|████▋     | 22631/48845 [8:00:56<9:11:12,  1.26s/it] 46%|████▋     | 22632/48845 [8:00:57<9:10:54,  1.26s/it] 46%|████▋     | 22633/48845 [8:00:58<9:10:46,  1.26s/it] 46%|████▋     | 22634/48845 [8:00:59<9:13:54,  1.27s/it] 46%|████▋     | 22635/48845 [8:01:01<9:12:41,  1.27s/it]                                                         {'loss': 2.2524, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22635/48845 [8:01:01<9:12:41,  1.27s/it] 46%|████▋     | 22636/48845 [8:01:02<9:12:10,  1.26s/it] 46%|████▋     | 22637/48845 [8:01:03<9:11:58,  1.26s/it] 46%|████▋     | 22638/48845 [8:01:04<9:11:11,  1.26s/it] 46%|████▋     | 22639/48845 [8:01:06<9:10:51,  1.26s/it] 46%|████▋     | 22640/48845 [8:01:07<9:10:32,  1.26s/it]                                                         {'loss': 2.0362, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22640/48845 [8:01:07<9:10:32,  1.26s/it] 46%|████▋     | 22641/48845 [8:01:08<9:10:18,  1.26s/it] 46%|████▋     | 22642/48845 [8:01:09<9:11:26,  1.26s/it] 46%|████▋     | 22643/48845 [8:01:11<9:11:16,  1.26s/it] 46%|████▋     | 22644/48845 [8:01:12<9:10:45,  1.26s/it] 46%|████▋     | 22645/48845 [8:01:13<9:10:34,  1.26s/it]                                                         {'loss': 2.1671, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22645/48845 [8:01:13<9:10:34,  1.26s/it] 46%|████▋     | 22646/48845 [8:01:14<9:10:34,  1.26s/it] 46%|████▋     | 22647/48845 [8:01:16<9:10:24,  1.26s/it] 46%|████▋     | 22648/48845 [8:01:17<9:10:24,  1.26s/it] 46%|████▋     | 22649/48845 [8:01:18<9:10:19,  1.26s/it] 46%|████▋     | 22650/48845 [8:01:20<9:10:19,  1.26s/it]                                                         {'loss': 2.083, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22650/48845 [8:01:20<9:10:19,  1.26s/it] 46%|████▋     | 22651/48845 [8:01:21<9:11:06,  1.26s/it] 46%|████▋     | 22652/48845 [8:01:22<9:11:15,  1.26s/it] 46%|████▋     | 22653/48845 [8:01:23<9:11:07,  1.26s/it] 46%|████▋     | 22654/48845 [8:01:25<9:10:17,  1.26s/it] 46%|████▋     | 22655/48845 [8:01:26<9:10:09,  1.26s/it]                                                         {'loss': 2.0911, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22655/48845 [8:01:26<9:10:09,  1.26s/it] 46%|████▋     | 22656/48845 [8:01:27<9:10:23,  1.26s/it] 46%|████▋     | 22657/48845 [8:01:28<9:10:07,  1.26s/it] 46%|████▋     | 22658/48845 [8:01:30<9:10:06,  1.26s/it] 46%|████▋     | 22659/48845 [8:01:31<9:10:09,  1.26s/it] 46%|████▋     | 22660/48845 [8:01:32<9:10:06,  1.26s/it]                                                         {'loss': 2.0894, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22660/48845 [8:01:32<9:10:06,  1.26s/it] 46%|████▋     | 22661/48845 [8:01:33<9:10:07,  1.26s/it] 46%|████▋     | 22662/48845 [8:01:35<9:10:06,  1.26s/it] 46%|████▋     | 22663/48845 [8:01:36<9:10:33,  1.26s/it] 46%|████▋     | 22664/48845 [8:01:37<9:10:15,  1.26s/it] 46%|████▋     | 22665/48845 [8:01:38<9:10:20,  1.26s/it]                                                         {'loss': 1.9826, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22665/48845 [8:01:38<9:10:20,  1.26s/it] 46%|████▋     | 22666/48845 [8:01:40<9:10:29,  1.26s/it] 46%|████▋     | 22667/48845 [8:01:41<9:10:04,  1.26s/it] 46%|████▋     | 22668/48845 [8:01:42<9:09:52,  1.26s/it] 46%|████▋     | 22669/48845 [8:01:43<9:09:41,  1.26s/it] 46%|████▋     | 22670/48845 [8:01:45<9:09:49,  1.26s/it]                                                         {'loss': 2.0813, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22670/48845 [8:01:45<9:09:49,  1.26s/it] 46%|████▋     | 22671/48845 [8:01:46<9:09:55,  1.26s/it] 46%|████▋     | 22672/48845 [8:01:47<9:09:27,  1.26s/it] 46%|████▋     | 22673/48845 [8:01:49<9:10:05,  1.26s/it] 46%|████▋     | 22674/48845 [8:01:50<9:10:07,  1.26s/it] 46%|████▋     | 22675/48845 [8:01:51<9:10:12,  1.26s/it]                                                         {'loss': 1.9331, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22675/48845 [8:01:51<9:10:12,  1.26s/it] 46%|████▋     | 22676/48845 [8:01:52<9:10:02,  1.26s/it] 46%|████▋     | 22677/48845 [8:01:54<9:10:43,  1.26s/it] 46%|████▋     | 22678/48845 [8:01:55<9:10:50,  1.26s/it] 46%|████▋     | 22679/48845 [8:01:56<9:10:10,  1.26s/it] 46%|████▋     | 22680/48845 [8:01:57<9:09:50,  1.26s/it]                                                         {'loss': 2.0841, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22680/48845 [8:01:57<9:09:50,  1.26s/it] 46%|████▋     | 22681/48845 [8:01:59<9:10:34,  1.26s/it] 46%|████▋     | 22682/48845 [8:02:00<9:10:37,  1.26s/it] 46%|████▋     | 22683/48845 [8:02:01<9:10:16,  1.26s/it] 46%|████▋     | 22684/48845 [8:02:02<9:09:53,  1.26s/it] 46%|████▋     | 22685/48845 [8:02:04<9:09:36,  1.26s/it]                                                         {'loss': 2.184, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22685/48845 [8:02:04<9:09:36,  1.26s/it] 46%|████▋     | 22686/48845 [8:02:05<9:10:55,  1.26s/it] 46%|████▋     | 22687/48845 [8:02:06<9:11:20,  1.26s/it] 46%|████▋     | 22688/48845 [8:02:07<9:10:56,  1.26s/it] 46%|████▋     | 22689/48845 [8:02:09<9:11:16,  1.26s/it] 46%|████▋     | 22690/48845 [8:02:10<9:10:52,  1.26s/it]                                                         {'loss': 2.0112, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22690/48845 [8:02:10<9:10:52,  1.26s/it] 46%|████▋     | 22691/48845 [8:02:11<9:10:21,  1.26s/it] 46%|████▋     | 22692/48845 [8:02:13<9:10:41,  1.26s/it] 46%|████▋     | 22693/48845 [8:02:14<9:10:23,  1.26s/it] 46%|████▋     | 22694/48845 [8:02:15<9:10:23,  1.26s/it] 46%|████▋     | 22695/48845 [8:02:16<9:09:56,  1.26s/it]                                                         {'loss': 2.0086, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22695/48845 [8:02:16<9:09:56,  1.26s/it] 46%|████▋     | 22696/48845 [8:02:18<9:09:46,  1.26s/it] 46%|████▋     | 22697/48845 [8:02:19<9:09:58,  1.26s/it] 46%|████▋     | 22698/48845 [8:02:20<9:09:32,  1.26s/it] 46%|████▋     | 22699/48845 [8:02:21<9:09:27,  1.26s/it] 46%|████▋     | 22700/48845 [8:02:23<9:08:54,  1.26s/it]                                                         {'loss': 2.0785, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22700/48845 [8:02:23<9:08:54,  1.26s/it] 46%|████▋     | 22701/48845 [8:02:24<9:09:21,  1.26s/it] 46%|████▋     | 22702/48845 [8:02:25<9:09:14,  1.26s/it] 46%|████▋     | 22703/48845 [8:02:26<9:09:12,  1.26s/it] 46%|████▋     | 22704/48845 [8:02:28<9:13:04,  1.27s/it] 46%|████▋     | 22705/48845 [8:02:29<9:11:28,  1.27s/it]                                                         {'loss': 2.0122, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22705/48845 [8:02:29<9:11:28,  1.27s/it] 46%|████▋     | 22706/48845 [8:02:30<9:11:16,  1.27s/it] 46%|████▋     | 22707/48845 [8:02:31<9:10:18,  1.26s/it] 46%|████▋     | 22708/48845 [8:02:33<9:09:59,  1.26s/it] 46%|████▋     | 22709/48845 [8:02:34<9:09:54,  1.26s/it] 46%|████▋     | 22710/48845 [8:02:35<9:09:17,  1.26s/it]                                                         {'loss': 1.8549, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.32}
+ 46%|████▋     | 22710/48845 [8:02:35<9:09:17,  1.26s/it] 46%|████▋     | 22711/48845 [8:02:36<9:08:49,  1.26s/it] 46%|████▋     | 22712/48845 [8:02:38<9:08:55,  1.26s/it] 47%|████▋     | 22713/48845 [8:02:39<9:09:43,  1.26s/it] 47%|████▋     | 22714/48845 [8:02:40<9:09:39,  1.26s/it] 47%|████▋     | 22715/48845 [8:02:42<9:09:45,  1.26s/it]                                                         {'loss': 2.1912, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22715/48845 [8:02:42<9:09:45,  1.26s/it] 47%|████▋     | 22716/48845 [8:02:43<9:09:36,  1.26s/it] 47%|████▋     | 22717/48845 [8:02:44<9:08:54,  1.26s/it] 47%|████▋     | 22718/48845 [8:02:45<9:08:24,  1.26s/it] 47%|████▋     | 22719/48845 [8:02:47<9:08:23,  1.26s/it] 47%|████▋     | 22720/48845 [8:02:48<9:08:24,  1.26s/it]                                                         {'loss': 2.0423, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22720/48845 [8:02:48<9:08:24,  1.26s/it] 47%|████▋     | 22721/48845 [8:02:49<9:08:33,  1.26s/it] 47%|████▋     | 22722/48845 [8:02:50<9:08:25,  1.26s/it] 47%|████▋     | 22723/48845 [8:02:52<9:08:21,  1.26s/it] 47%|████▋     | 22724/48845 [8:02:53<9:08:27,  1.26s/it] 47%|████▋     | 22725/48845 [8:02:54<9:08:27,  1.26s/it]                                                         {'loss': 1.9975, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22725/48845 [8:02:54<9:08:27,  1.26s/it] 47%|████▋     | 22726/48845 [8:02:55<9:08:23,  1.26s/it] 47%|████▋     | 22727/48845 [8:02:57<9:08:10,  1.26s/it] 47%|████▋     | 22728/48845 [8:02:58<9:08:11,  1.26s/it] 47%|████▋     | 22729/48845 [8:02:59<9:08:03,  1.26s/it] 47%|████▋     | 22730/48845 [8:03:00<9:08:01,  1.26s/it]                                                         {'loss': 2.0209, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22730/48845 [8:03:00<9:08:01,  1.26s/it] 47%|████▋     | 22731/48845 [8:03:02<9:08:01,  1.26s/it] 47%|████▋     | 22732/48845 [8:03:03<9:08:19,  1.26s/it] 47%|████▋     | 22733/48845 [8:03:04<9:08:15,  1.26s/it] 47%|████▋     | 22734/48845 [8:03:05<9:08:07,  1.26s/it] 47%|████▋     | 22735/48845 [8:03:07<9:08:04,  1.26s/it]                                                         {'loss': 2.1072, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22735/48845 [8:03:07<9:08:04,  1.26s/it] 47%|████▋     | 22736/48845 [8:03:08<9:09:18,  1.26s/it] 47%|████▋     | 22737/48845 [8:03:09<9:09:29,  1.26s/it] 47%|████▋     | 22738/48845 [8:03:11<9:08:57,  1.26s/it] 47%|████▋     | 22739/48845 [8:03:12<9:08:59,  1.26s/it] 47%|████▋     | 22740/48845 [8:03:13<9:09:15,  1.26s/it]                                                         {'loss': 1.9749, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22740/48845 [8:03:13<9:09:15,  1.26s/it] 47%|████▋     | 22741/48845 [8:03:14<9:08:50,  1.26s/it] 47%|████▋     | 22742/48845 [8:03:16<9:08:41,  1.26s/it] 47%|████▋     | 22743/48845 [8:03:17<9:08:59,  1.26s/it] 47%|████▋     | 22744/48845 [8:03:18<9:08:22,  1.26s/it] 47%|████▋     | 22745/48845 [8:03:19<9:08:11,  1.26s/it]                                                         {'loss': 2.0071, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22745/48845 [8:03:19<9:08:11,  1.26s/it] 47%|████▋     | 22746/48845 [8:03:21<9:08:13,  1.26s/it] 47%|████▋     | 22747/48845 [8:03:22<9:07:59,  1.26s/it] 47%|████▋     | 22748/48845 [8:03:23<9:07:41,  1.26s/it] 47%|████▋     | 22749/48845 [8:03:24<9:07:47,  1.26s/it] 47%|████▋     | 22750/48845 [8:03:26<9:07:38,  1.26s/it]                                                         {'loss': 2.0539, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22750/48845 [8:03:26<9:07:38,  1.26s/it] 47%|████▋     | 22751/48845 [8:03:27<9:08:03,  1.26s/it] 47%|████▋     | 22752/48845 [8:03:28<9:07:47,  1.26s/it] 47%|████▋     | 22753/48845 [8:03:29<9:07:47,  1.26s/it] 47%|████▋     | 22754/48845 [8:03:31<9:07:38,  1.26s/it] 47%|████▋     | 22755/48845 [8:03:32<9:07:32,  1.26s/it]                                                         {'loss': 2.1073, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22755/48845 [8:03:32<9:07:32,  1.26s/it] 47%|████▋     | 22756/48845 [8:03:33<9:07:47,  1.26s/it] 47%|████▋     | 22757/48845 [8:03:34<9:07:38,  1.26s/it] 47%|████▋     | 22758/48845 [8:03:36<9:07:36,  1.26s/it] 47%|████▋     | 22759/48845 [8:03:37<9:07:33,  1.26s/it] 47%|████▋     | 22760/48845 [8:03:38<9:07:30,  1.26s/it]                                                         {'loss': 2.04, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22760/48845 [8:03:38<9:07:30,  1.26s/it] 47%|████▋     | 22761/48845 [8:03:40<9:07:39,  1.26s/it] 47%|████▋     | 22762/48845 [8:03:41<9:07:39,  1.26s/it] 47%|████▋     | 22763/48845 [8:03:42<9:07:40,  1.26s/it] 47%|████▋     | 22764/48845 [8:03:43<9:07:40,  1.26s/it] 47%|████▋     | 22765/48845 [8:03:45<9:07:17,  1.26s/it]                                                         {'loss': 2.0231, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22765/48845 [8:03:45<9:07:17,  1.26s/it] 47%|████▋     | 22766/48845 [8:03:46<9:07:28,  1.26s/it] 47%|████▋     | 22767/48845 [8:03:47<9:07:25,  1.26s/it] 47%|████▋     | 22768/48845 [8:03:48<9:07:40,  1.26s/it] 47%|████▋     | 22769/48845 [8:03:50<9:07:42,  1.26s/it] 47%|████▋     | 22770/48845 [8:03:51<9:07:28,  1.26s/it]                                                         {'loss': 2.1824, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22770/48845 [8:03:51<9:07:28,  1.26s/it] 47%|████▋     | 22771/48845 [8:03:52<9:07:14,  1.26s/it] 47%|████▋     | 22772/48845 [8:03:53<9:08:19,  1.26s/it] 47%|████▋     | 22773/48845 [8:03:55<9:07:55,  1.26s/it] 47%|████▋     | 22774/48845 [8:03:56<9:07:49,  1.26s/it] 47%|████▋     | 22775/48845 [8:03:57<9:06:54,  1.26s/it]                                                         {'loss': 2.0214, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22775/48845 [8:03:57<9:06:54,  1.26s/it] 47%|████▋     | 22776/48845 [8:03:58<9:06:30,  1.26s/it] 47%|████▋     | 22777/48845 [8:04:00<9:06:56,  1.26s/it] 47%|████▋     | 22778/48845 [8:04:01<9:07:14,  1.26s/it] 47%|████▋     | 22779/48845 [8:04:02<9:06:58,  1.26s/it] 47%|████▋     | 22780/48845 [8:04:03<9:07:02,  1.26s/it]                                                         {'loss': 1.9042, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22780/48845 [8:04:03<9:07:02,  1.26s/it] 47%|████▋     | 22781/48845 [8:04:05<9:07:08,  1.26s/it] 47%|████▋     | 22782/48845 [8:04:06<9:07:02,  1.26s/it] 47%|████▋     | 22783/48845 [8:04:07<9:06:57,  1.26s/it] 47%|████▋     | 22784/48845 [8:04:08<9:07:13,  1.26s/it] 47%|████▋     | 22785/48845 [8:04:10<9:07:12,  1.26s/it]                                                         {'loss': 2.0035, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22785/48845 [8:04:10<9:07:12,  1.26s/it] 47%|████▋     | 22786/48845 [8:04:11<9:07:35,  1.26s/it] 47%|████▋     | 22787/48845 [8:04:12<9:06:52,  1.26s/it] 47%|████▋     | 22788/48845 [8:04:14<9:06:57,  1.26s/it] 47%|████▋     | 22789/48845 [8:04:15<9:06:57,  1.26s/it] 47%|████▋     | 22790/48845 [8:04:16<9:07:08,  1.26s/it]                                                         {'loss': 2.0677, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22790/48845 [8:04:16<9:07:08,  1.26s/it] 47%|████▋     | 22791/48845 [8:04:17<9:06:56,  1.26s/it] 47%|████▋     | 22792/48845 [8:04:19<9:06:49,  1.26s/it] 47%|████▋     | 22793/48845 [8:04:20<9:06:51,  1.26s/it] 47%|████▋     | 22794/48845 [8:04:21<9:07:03,  1.26s/it] 47%|████▋     | 22795/48845 [8:04:22<9:06:33,  1.26s/it]                                                         {'loss': 2.1015, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22795/48845 [8:04:22<9:06:33,  1.26s/it] 47%|████▋     | 22796/48845 [8:04:24<9:06:57,  1.26s/it] 47%|████▋     | 22797/48845 [8:04:25<9:06:42,  1.26s/it] 47%|████▋     | 22798/48845 [8:04:26<9:06:59,  1.26s/it] 47%|████▋     | 22799/48845 [8:04:27<9:07:01,  1.26s/it] 47%|████▋     | 22800/48845 [8:04:29<9:06:42,  1.26s/it]                                                         {'loss': 2.1944, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22800/48845 [8:04:29<9:06:42,  1.26s/it] 47%|████▋     | 22801/48845 [8:04:32<14:22:19,  1.99s/it] 47%|████▋     | 22802/48845 [8:04:34<12:47:39,  1.77s/it] 47%|████▋     | 22803/48845 [8:04:35<11:41:05,  1.62s/it] 47%|████▋     | 22804/48845 [8:04:36<10:54:41,  1.51s/it] 47%|████▋     | 22805/48845 [8:04:37<10:21:36,  1.43s/it]                                                          {'loss': 1.9386, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22805/48845 [8:04:37<10:21:36,  1.43s/it] 47%|████▋     | 22806/48845 [8:04:39<9:59:06,  1.38s/it]  47%|████▋     | 22807/48845 [8:04:40<9:43:55,  1.35s/it] 47%|████▋     | 22808/48845 [8:04:41<9:33:05,  1.32s/it] 47%|████▋     | 22809/48845 [8:04:42<9:25:37,  1.30s/it] 47%|████▋     | 22810/48845 [8:04:44<9:20:01,  1.29s/it]                                                         {'loss': 1.9623, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.33}
+ 47%|████▋     | 22810/48845 [8:04:44<9:20:01,  1.29s/it] 47%|████▋     | 22811/48845 [8:04:45<9:16:34,  1.28s/it] 47%|████▋     | 22812/48845 [8:04:46<9:13:41,  1.28s/it] 47%|████▋     | 22813/48845 [8:04:47<9:11:04,  1.27s/it] 47%|████▋     | 22814/48845 [8:04:49<9:09:51,  1.27s/it] 47%|████▋     | 22815/48845 [8:04:50<9:08:53,  1.27s/it]                                                         {'loss': 2.1877, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22815/48845 [8:04:50<9:08:53,  1.27s/it] 47%|████▋     | 22816/48845 [8:04:51<9:08:24,  1.26s/it] 47%|████▋     | 22817/48845 [8:04:52<9:08:52,  1.27s/it] 47%|████▋     | 22818/48845 [8:04:54<9:09:49,  1.27s/it] 47%|████▋     | 22819/48845 [8:04:55<9:08:53,  1.27s/it] 47%|████▋     | 22820/48845 [8:04:56<9:08:13,  1.26s/it]                                                         {'loss': 2.039, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22820/48845 [8:04:56<9:08:13,  1.26s/it] 47%|████▋     | 22821/48845 [8:04:58<9:07:54,  1.26s/it] 47%|████▋     | 22822/48845 [8:04:59<9:07:26,  1.26s/it] 47%|████▋     | 22823/48845 [8:05:00<9:07:53,  1.26s/it] 47%|████▋     | 22824/48845 [8:05:01<9:07:38,  1.26s/it] 47%|████▋     | 22825/48845 [8:05:03<9:07:06,  1.26s/it]                                                         {'loss': 2.0838, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22825/48845 [8:05:03<9:07:06,  1.26s/it] 47%|████▋     | 22826/48845 [8:05:04<9:06:53,  1.26s/it] 47%|████▋     | 22827/48845 [8:05:05<9:06:41,  1.26s/it] 47%|████▋     | 22828/48845 [8:05:06<9:06:48,  1.26s/it] 47%|████▋     | 22829/48845 [8:05:08<9:07:02,  1.26s/it] 47%|████▋     | 22830/48845 [8:05:09<9:06:49,  1.26s/it]                                                         {'loss': 1.9018, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22830/48845 [8:05:09<9:06:49,  1.26s/it] 47%|████▋     | 22831/48845 [8:05:10<9:07:08,  1.26s/it] 47%|████▋     | 22832/48845 [8:05:11<9:06:46,  1.26s/it] 47%|████▋     | 22833/48845 [8:05:13<9:06:50,  1.26s/it] 47%|████▋     | 22834/48845 [8:05:14<9:06:57,  1.26s/it] 47%|████▋     | 22835/48845 [8:05:15<9:06:43,  1.26s/it]                                                         {'loss': 2.1328, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22835/48845 [8:05:15<9:06:43,  1.26s/it] 47%|████▋     | 22836/48845 [8:05:16<9:07:06,  1.26s/it] 47%|████▋     | 22837/48845 [8:05:18<9:06:44,  1.26s/it] 47%|████▋     | 22838/48845 [8:05:19<9:07:00,  1.26s/it] 47%|████▋     | 22839/48845 [8:05:20<9:07:03,  1.26s/it] 47%|████▋     | 22840/48845 [8:05:22<9:06:54,  1.26s/it]                                                         {'loss': 2.2948, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22840/48845 [8:05:22<9:06:54,  1.26s/it] 47%|████▋     | 22841/48845 [8:05:23<9:06:40,  1.26s/it] 47%|████▋     | 22842/48845 [8:05:24<9:06:19,  1.26s/it] 47%|████▋     | 22843/48845 [8:05:25<9:06:04,  1.26s/it] 47%|████▋     | 22844/48845 [8:05:27<9:06:03,  1.26s/it] 47%|████▋     | 22845/48845 [8:05:28<9:06:15,  1.26s/it]                                                         {'loss': 2.0258, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22845/48845 [8:05:28<9:06:15,  1.26s/it] 47%|████▋     | 22846/48845 [8:05:29<9:06:25,  1.26s/it] 47%|████▋     | 22847/48845 [8:05:30<9:06:05,  1.26s/it] 47%|████▋     | 22848/48845 [8:05:32<9:06:06,  1.26s/it] 47%|████▋     | 22849/48845 [8:05:33<9:06:20,  1.26s/it] 47%|████▋     | 22850/48845 [8:05:34<9:06:00,  1.26s/it]                                                         {'loss': 2.0169, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22850/48845 [8:05:34<9:06:00,  1.26s/it] 47%|████▋     | 22851/48845 [8:05:35<9:06:16,  1.26s/it] 47%|████▋     | 22852/48845 [8:05:37<9:06:18,  1.26s/it] 47%|████▋     | 22853/48845 [8:05:38<9:06:03,  1.26s/it] 47%|████▋     | 22854/48845 [8:05:39<9:06:07,  1.26s/it] 47%|████▋     | 22855/48845 [8:05:40<9:06:03,  1.26s/it]                                                         {'loss': 2.0416, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22855/48845 [8:05:40<9:06:03,  1.26s/it] 47%|████▋     | 22856/48845 [8:05:42<9:05:52,  1.26s/it] 47%|████▋     | 22857/48845 [8:05:43<9:05:52,  1.26s/it] 47%|████▋     | 22858/48845 [8:05:44<9:05:20,  1.26s/it] 47%|████▋     | 22859/48845 [8:05:45<9:05:27,  1.26s/it] 47%|████▋     | 22860/48845 [8:05:47<9:05:39,  1.26s/it]                                                         {'loss': 2.2839, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22860/48845 [8:05:47<9:05:39,  1.26s/it] 47%|████▋     | 22861/48845 [8:05:48<9:05:33,  1.26s/it] 47%|████▋     | 22862/48845 [8:05:49<9:06:06,  1.26s/it] 47%|████▋     | 22863/48845 [8:05:50<9:05:31,  1.26s/it] 47%|████▋     | 22864/48845 [8:05:52<9:05:47,  1.26s/it] 47%|████▋     | 22865/48845 [8:05:53<9:06:00,  1.26s/it]                                                         {'loss': 2.0589, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22865/48845 [8:05:53<9:06:00,  1.26s/it] 47%|████▋     | 22866/48845 [8:05:54<9:06:31,  1.26s/it] 47%|████▋     | 22867/48845 [8:05:56<9:06:47,  1.26s/it] 47%|████▋     | 22868/48845 [8:05:57<9:06:00,  1.26s/it] 47%|████▋     | 22869/48845 [8:05:58<9:06:19,  1.26s/it] 47%|████▋     | 22870/48845 [8:05:59<9:07:09,  1.26s/it]                                                         {'loss': 2.0501, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22870/48845 [8:05:59<9:07:09,  1.26s/it] 47%|████▋     | 22871/48845 [8:06:01<9:06:58,  1.26s/it] 47%|████▋     | 22872/48845 [8:06:02<9:06:26,  1.26s/it] 47%|████▋     | 22873/48845 [8:06:03<9:06:04,  1.26s/it] 47%|████▋     | 22874/48845 [8:06:04<9:05:40,  1.26s/it] 47%|████▋     | 22875/48845 [8:06:06<9:05:54,  1.26s/it]                                                         {'loss': 1.991, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22875/48845 [8:06:06<9:05:54,  1.26s/it] 47%|████▋     | 22876/48845 [8:06:07<9:05:59,  1.26s/it] 47%|████▋     | 22877/48845 [8:06:08<9:06:00,  1.26s/it] 47%|████▋     | 22878/48845 [8:06:09<9:05:53,  1.26s/it] 47%|████▋     | 22879/48845 [8:06:11<9:06:04,  1.26s/it] 47%|████▋     | 22880/48845 [8:06:12<9:05:53,  1.26s/it]                                                         {'loss': 2.0835, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22880/48845 [8:06:12<9:05:53,  1.26s/it] 47%|████▋     | 22881/48845 [8:06:13<9:05:37,  1.26s/it] 47%|████▋     | 22882/48845 [8:06:14<9:05:20,  1.26s/it] 47%|████▋     | 22883/48845 [8:06:16<9:05:08,  1.26s/it] 47%|████▋     | 22884/48845 [8:06:17<9:05:36,  1.26s/it] 47%|████▋     | 22885/48845 [8:06:18<9:05:39,  1.26s/it]                                                         {'loss': 2.1768, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22885/48845 [8:06:18<9:05:39,  1.26s/it] 47%|████▋     | 22886/48845 [8:06:20<9:05:58,  1.26s/it] 47%|████▋     | 22887/48845 [8:06:21<9:05:26,  1.26s/it] 47%|████▋     | 22888/48845 [8:06:22<9:05:36,  1.26s/it] 47%|████▋     | 22889/48845 [8:06:23<9:05:26,  1.26s/it] 47%|████▋     | 22890/48845 [8:06:25<9:04:59,  1.26s/it]                                                         {'loss': 2.1216, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22890/48845 [8:06:25<9:04:59,  1.26s/it] 47%|████▋     | 22891/48845 [8:06:26<9:05:15,  1.26s/it] 47%|████▋     | 22892/48845 [8:06:27<9:05:29,  1.26s/it] 47%|████▋     | 22893/48845 [8:06:28<9:05:15,  1.26s/it] 47%|████▋     | 22894/48845 [8:06:30<9:04:47,  1.26s/it] 47%|████▋     | 22895/48845 [8:06:31<9:05:13,  1.26s/it]                                                         {'loss': 1.9409, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22895/48845 [8:06:31<9:05:13,  1.26s/it] 47%|████▋     | 22896/48845 [8:06:32<9:05:04,  1.26s/it] 47%|████▋     | 22897/48845 [8:06:33<9:04:57,  1.26s/it] 47%|████▋     | 22898/48845 [8:06:35<9:04:48,  1.26s/it] 47%|████▋     | 22899/48845 [8:06:36<9:04:39,  1.26s/it] 47%|████▋     | 22900/48845 [8:06:37<9:04:39,  1.26s/it]                                                         {'loss': 2.0202, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22900/48845 [8:06:37<9:04:39,  1.26s/it] 47%|████▋     | 22901/48845 [8:06:38<9:04:37,  1.26s/it] 47%|████▋     | 22902/48845 [8:06:40<9:04:52,  1.26s/it] 47%|████▋     | 22903/48845 [8:06:41<9:04:19,  1.26s/it] 47%|████▋     | 22904/48845 [8:06:42<9:04:50,  1.26s/it] 47%|████▋     | 22905/48845 [8:06:43<9:04:58,  1.26s/it]                                                         {'loss': 2.1009, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.34}
+ 47%|████▋     | 22905/48845 [8:06:43<9:04:58,  1.26s/it] 47%|████▋     | 22906/48845 [8:06:45<9:05:43,  1.26s/it] 47%|████▋     | 22907/48845 [8:06:46<9:05:00,  1.26s/it] 47%|████▋     | 22908/48845 [8:06:47<9:04:51,  1.26s/it] 47%|████▋     | 22909/48845 [8:06:48<9:04:55,  1.26s/it] 47%|████▋     | 22910/48845 [8:06:50<9:05:02,  1.26s/it]                                                         {'loss': 2.2204, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22910/48845 [8:06:50<9:05:02,  1.26s/it] 47%|████▋     | 22911/48845 [8:06:51<9:05:08,  1.26s/it] 47%|████▋     | 22912/48845 [8:06:52<9:04:35,  1.26s/it] 47%|████▋     | 22913/48845 [8:06:54<9:04:19,  1.26s/it] 47%|████▋     | 22914/48845 [8:06:55<9:04:02,  1.26s/it] 47%|████▋     | 22915/48845 [8:06:56<9:04:16,  1.26s/it]                                                         {'loss': 2.0723, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22915/48845 [8:06:56<9:04:16,  1.26s/it] 47%|████▋     | 22916/48845 [8:06:57<9:04:20,  1.26s/it] 47%|████▋     | 22917/48845 [8:06:59<9:04:28,  1.26s/it] 47%|████▋     | 22918/48845 [8:07:00<9:04:41,  1.26s/it] 47%|████▋     | 22919/48845 [8:07:01<9:04:28,  1.26s/it] 47%|████▋     | 22920/48845 [8:07:02<9:04:38,  1.26s/it]                                                         {'loss': 2.1322, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22920/48845 [8:07:02<9:04:38,  1.26s/it] 47%|████▋     | 22921/48845 [8:07:04<9:04:45,  1.26s/it] 47%|████▋     | 22922/48845 [8:07:05<9:04:51,  1.26s/it] 47%|████▋     | 22923/48845 [8:07:06<9:04:55,  1.26s/it] 47%|████▋     | 22924/48845 [8:07:07<9:04:53,  1.26s/it] 47%|████▋     | 22925/48845 [8:07:09<9:11:37,  1.28s/it]                                                         {'loss': 2.0194, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22925/48845 [8:07:09<9:11:37,  1.28s/it] 47%|████▋     | 22926/48845 [8:07:10<9:09:57,  1.27s/it] 47%|████▋     | 22927/48845 [8:07:11<9:08:37,  1.27s/it] 47%|████▋     | 22928/48845 [8:07:13<9:07:37,  1.27s/it] 47%|████▋     | 22929/48845 [8:07:14<9:06:22,  1.26s/it] 47%|████▋     | 22930/48845 [8:07:15<9:06:00,  1.26s/it]                                                         {'loss': 2.0417, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22930/48845 [8:07:15<9:06:00,  1.26s/it] 47%|████▋     | 22931/48845 [8:07:16<9:05:59,  1.26s/it] 47%|████▋     | 22932/48845 [8:07:18<9:05:43,  1.26s/it] 47%|████▋     | 22933/48845 [8:07:19<9:05:42,  1.26s/it] 47%|████▋     | 22934/48845 [8:07:20<9:05:21,  1.26s/it] 47%|████▋     | 22935/48845 [8:07:21<9:04:59,  1.26s/it]                                                         {'loss': 2.0234, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22935/48845 [8:07:21<9:04:59,  1.26s/it] 47%|████▋     | 22936/48845 [8:07:23<9:05:57,  1.26s/it] 47%|████▋     | 22937/48845 [8:07:24<9:05:30,  1.26s/it] 47%|████▋     | 22938/48845 [8:07:25<9:05:04,  1.26s/it] 47%|████▋     | 22939/48845 [8:07:26<9:05:17,  1.26s/it] 47%|████▋     | 22940/48845 [8:07:28<9:04:31,  1.26s/it]                                                         {'loss': 2.1035, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22940/48845 [8:07:28<9:04:31,  1.26s/it] 47%|████▋     | 22941/48845 [8:07:29<9:04:18,  1.26s/it] 47%|████▋     | 22942/48845 [8:07:30<9:03:58,  1.26s/it] 47%|████▋     | 22943/48845 [8:07:31<9:04:21,  1.26s/it] 47%|████▋     | 22944/48845 [8:07:33<9:03:48,  1.26s/it] 47%|████▋     | 22945/48845 [8:07:34<9:03:42,  1.26s/it]                                                         {'loss': 2.0002, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22945/48845 [8:07:34<9:03:42,  1.26s/it] 47%|████▋     | 22946/48845 [8:07:35<9:04:26,  1.26s/it] 47%|████▋     | 22947/48845 [8:07:36<9:03:59,  1.26s/it] 47%|████▋     | 22948/48845 [8:07:38<9:04:00,  1.26s/it] 47%|████▋     | 22949/48845 [8:07:39<9:03:59,  1.26s/it] 47%|████▋     | 22950/48845 [8:07:40<9:03:38,  1.26s/it]                                                         {'loss': 2.1432, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22950/48845 [8:07:40<9:03:38,  1.26s/it] 47%|████▋     | 22951/48845 [8:07:42<9:04:06,  1.26s/it] 47%|████▋     | 22952/48845 [8:07:43<9:04:13,  1.26s/it] 47%|████▋     | 22953/48845 [8:07:44<9:04:24,  1.26s/it] 47%|████▋     | 22954/48845 [8:07:45<9:04:32,  1.26s/it] 47%|████▋     | 22955/48845 [8:07:47<9:04:33,  1.26s/it]                                                         {'loss': 2.1232, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22955/48845 [8:07:47<9:04:33,  1.26s/it] 47%|████▋     | 22956/48845 [8:07:48<9:04:39,  1.26s/it] 47%|████▋     | 22957/48845 [8:07:49<9:04:20,  1.26s/it] 47%|████▋     | 22958/48845 [8:07:50<9:04:36,  1.26s/it] 47%|████▋     | 22959/48845 [8:07:52<9:04:29,  1.26s/it] 47%|████▋     | 22960/48845 [8:07:53<9:04:01,  1.26s/it]                                                         {'loss': 1.9643, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22960/48845 [8:07:53<9:04:01,  1.26s/it] 47%|████▋     | 22961/48845 [8:07:54<9:04:22,  1.26s/it] 47%|████▋     | 22962/48845 [8:07:55<9:04:27,  1.26s/it] 47%|████▋     | 22963/48845 [8:07:57<9:03:47,  1.26s/it] 47%|████▋     | 22964/48845 [8:07:58<9:03:56,  1.26s/it] 47%|████▋     | 22965/48845 [8:07:59<9:04:13,  1.26s/it]                                                         {'loss': 2.0717, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22965/48845 [8:07:59<9:04:13,  1.26s/it] 47%|████▋     | 22966/48845 [8:08:00<9:04:18,  1.26s/it] 47%|████▋     | 22967/48845 [8:08:02<9:04:46,  1.26s/it] 47%|████▋     | 22968/48845 [8:08:03<9:04:26,  1.26s/it] 47%|████▋     | 22969/48845 [8:08:04<9:03:46,  1.26s/it] 47%|████▋     | 22970/48845 [8:08:05<9:04:48,  1.26s/it]                                                         {'loss': 2.1931, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22970/48845 [8:08:05<9:04:48,  1.26s/it] 47%|████▋     | 22971/48845 [8:08:07<9:04:23,  1.26s/it] 47%|████▋     | 22972/48845 [8:08:08<9:04:14,  1.26s/it] 47%|████▋     | 22973/48845 [8:08:09<9:04:03,  1.26s/it] 47%|████▋     | 22974/48845 [8:08:11<9:03:44,  1.26s/it] 47%|████▋     | 22975/48845 [8:08:12<9:03:27,  1.26s/it]                                                         {'loss': 2.0884, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22975/48845 [8:08:12<9:03:27,  1.26s/it] 47%|████▋     | 22976/48845 [8:08:13<9:03:21,  1.26s/it] 47%|████▋     | 22977/48845 [8:08:14<9:03:15,  1.26s/it] 47%|████▋     | 22978/48845 [8:08:16<9:03:04,  1.26s/it] 47%|████▋     | 22979/48845 [8:08:17<9:03:00,  1.26s/it] 47%|████▋     | 22980/48845 [8:08:18<9:02:59,  1.26s/it]                                                         {'loss': 1.9589, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22980/48845 [8:08:18<9:02:59,  1.26s/it] 47%|████▋     | 22981/48845 [8:08:19<9:03:09,  1.26s/it] 47%|████▋     | 22982/48845 [8:08:21<9:03:34,  1.26s/it] 47%|████▋     | 22983/48845 [8:08:22<9:03:54,  1.26s/it] 47%|████▋     | 22984/48845 [8:08:23<9:03:43,  1.26s/it] 47%|████▋     | 22985/48845 [8:08:24<9:03:50,  1.26s/it]                                                         {'loss': 1.9709, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22985/48845 [8:08:24<9:03:50,  1.26s/it] 47%|████▋     | 22986/48845 [8:08:26<9:03:34,  1.26s/it] 47%|████▋     | 22987/48845 [8:08:27<9:03:31,  1.26s/it] 47%|████▋     | 22988/48845 [8:08:28<9:03:42,  1.26s/it] 47%|████▋     | 22989/48845 [8:08:29<9:03:31,  1.26s/it] 47%|████▋     | 22990/48845 [8:08:31<9:03:31,  1.26s/it]                                                         {'loss': 2.0197, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22990/48845 [8:08:31<9:03:31,  1.26s/it] 47%|████▋     | 22991/48845 [8:08:32<9:03:28,  1.26s/it] 47%|████▋     | 22992/48845 [8:08:33<9:03:19,  1.26s/it] 47%|████▋     | 22993/48845 [8:08:34<9:03:47,  1.26s/it] 47%|████▋     | 22994/48845 [8:08:36<9:03:44,  1.26s/it] 47%|████▋     | 22995/48845 [8:08:37<9:03:22,  1.26s/it]                                                         {'loss': 2.0514, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 22995/48845 [8:08:37<9:03:22,  1.26s/it] 47%|████▋     | 22996/48845 [8:08:38<9:03:58,  1.26s/it] 47%|████▋     | 22997/48845 [8:08:40<9:03:39,  1.26s/it] 47%|████▋     | 22998/48845 [8:08:41<9:03:42,  1.26s/it] 47%|████▋     | 22999/48845 [8:08:42<9:03:30,  1.26s/it] 47%|████▋     | 23000/48845 [8:08:43<9:03:19,  1.26s/it]                                                         {'loss': 2.0724, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 23000/48845 [8:08:43<9:03:19,  1.26s/it] 47%|████▋     | 23001/48845 [8:08:47<14:21:17,  2.00s/it] 47%|████▋     | 23002/48845 [8:08:48<12:45:43,  1.78s/it] 47%|████▋     | 23003/48845 [8:08:50<11:39:12,  1.62s/it] 47%|████▋     | 23004/48845 [8:08:51<10:51:59,  1.51s/it] 47%|████▋     | 23005/48845 [8:08:52<10:19:19,  1.44s/it]                                                          {'loss': 2.0069, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.35}
+ 47%|████▋     | 23005/48845 [8:08:52<10:19:19,  1.44s/it] 47%|████▋     | 23006/48845 [8:08:53<9:56:10,  1.38s/it]  47%|████▋     | 23007/48845 [8:08:55<9:40:04,  1.35s/it] 47%|████▋     | 23008/48845 [8:08:56<9:28:32,  1.32s/it] 47%|████▋     | 23009/48845 [8:08:57<9:20:20,  1.30s/it] 47%|████▋     | 23010/48845 [8:08:58<9:15:28,  1.29s/it]                                                         {'loss': 2.1247, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23010/48845 [8:08:58<9:15:28,  1.29s/it] 47%|████▋     | 23011/48845 [8:09:00<9:11:10,  1.28s/it] 47%|████▋     | 23012/48845 [8:09:01<9:08:38,  1.27s/it] 47%|████▋     | 23013/48845 [8:09:02<9:06:54,  1.27s/it] 47%|████▋     | 23014/48845 [8:09:03<9:05:19,  1.27s/it] 47%|████▋     | 23015/48845 [8:09:05<9:04:35,  1.27s/it]                                                         {'loss': 2.196, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23015/48845 [8:09:05<9:04:35,  1.27s/it] 47%|████▋     | 23016/48845 [8:09:06<9:04:48,  1.27s/it] 47%|████▋     | 23017/48845 [8:09:07<9:03:47,  1.26s/it] 47%|████▋     | 23018/48845 [8:09:08<9:06:27,  1.27s/it] 47%|████▋     | 23019/48845 [8:09:10<9:05:19,  1.27s/it] 47%|████▋     | 23020/48845 [8:09:11<9:04:56,  1.27s/it]                                                         {'loss': 2.0831, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23020/48845 [8:09:11<9:04:56,  1.27s/it] 47%|████▋     | 23021/48845 [8:09:12<9:04:30,  1.27s/it] 47%|████▋     | 23022/48845 [8:09:14<9:03:59,  1.26s/it] 47%|████▋     | 23023/48845 [8:09:15<9:04:08,  1.26s/it] 47%|████▋     | 23024/48845 [8:09:16<9:04:34,  1.27s/it] 47%|████▋     | 23025/48845 [8:09:17<9:03:36,  1.26s/it]                                                         {'loss': 1.8959, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23025/48845 [8:09:17<9:03:36,  1.26s/it] 47%|████▋     | 23026/48845 [8:09:19<9:03:24,  1.26s/it] 47%|████▋     | 23027/48845 [8:09:20<9:03:02,  1.26s/it] 47%|████▋     | 23028/48845 [8:09:21<9:02:34,  1.26s/it] 47%|████▋     | 23029/48845 [8:09:22<9:02:46,  1.26s/it] 47%|████▋     | 23030/48845 [8:09:24<9:02:56,  1.26s/it]                                                         {'loss': 2.0526, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23030/48845 [8:09:24<9:02:56,  1.26s/it] 47%|████▋     | 23031/48845 [8:09:25<9:03:41,  1.26s/it] 47%|████▋     | 23032/48845 [8:09:26<9:03:31,  1.26s/it] 47%|████▋     | 23033/48845 [8:09:27<9:03:07,  1.26s/it] 47%|████▋     | 23034/48845 [8:09:29<9:03:02,  1.26s/it] 47%|████▋     | 23035/48845 [8:09:30<9:02:23,  1.26s/it]                                                         {'loss': 2.0703, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23035/48845 [8:09:30<9:02:23,  1.26s/it] 47%|████▋     | 23036/48845 [8:09:31<9:02:20,  1.26s/it] 47%|████▋     | 23037/48845 [8:09:32<9:02:33,  1.26s/it] 47%|████▋     | 23038/48845 [8:09:34<9:02:02,  1.26s/it] 47%|████▋     | 23039/48845 [8:09:35<9:01:59,  1.26s/it] 47%|████▋     | 23040/48845 [8:09:36<9:01:55,  1.26s/it]                                                         {'loss': 2.2028, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23040/48845 [8:09:36<9:01:55,  1.26s/it] 47%|████▋     | 23041/48845 [8:09:38<9:02:17,  1.26s/it] 47%|████▋     | 23042/48845 [8:09:39<9:02:25,  1.26s/it] 47%|████▋     | 23043/48845 [8:09:40<9:01:59,  1.26s/it] 47%|████▋     | 23044/48845 [8:09:41<9:01:43,  1.26s/it] 47%|████▋     | 23045/48845 [8:09:43<9:01:33,  1.26s/it]                                                         {'loss': 1.9536, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23045/48845 [8:09:43<9:01:33,  1.26s/it] 47%|████▋     | 23046/48845 [8:09:44<9:01:46,  1.26s/it] 47%|████▋     | 23047/48845 [8:09:45<9:01:59,  1.26s/it] 47%|████▋     | 23048/48845 [8:09:46<9:01:58,  1.26s/it] 47%|████▋     | 23049/48845 [8:09:48<9:01:48,  1.26s/it] 47%|████▋     | 23050/48845 [8:09:49<9:01:40,  1.26s/it]                                                         {'loss': 1.8381, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23050/48845 [8:09:49<9:01:40,  1.26s/it] 47%|████▋     | 23051/48845 [8:09:50<9:01:39,  1.26s/it] 47%|████▋     | 23052/48845 [8:09:51<9:01:42,  1.26s/it] 47%|████▋     | 23053/48845 [8:09:53<9:01:45,  1.26s/it] 47%|████▋     | 23054/48845 [8:09:54<9:02:14,  1.26s/it] 47%|████▋     | 23055/48845 [8:09:55<9:02:07,  1.26s/it]                                                         {'loss': 1.9705, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23055/48845 [8:09:55<9:02:07,  1.26s/it] 47%|████▋     | 23056/48845 [8:09:56<9:02:12,  1.26s/it] 47%|████▋     | 23057/48845 [8:09:58<9:02:40,  1.26s/it] 47%|████▋     | 23058/48845 [8:09:59<9:02:03,  1.26s/it] 47%|████▋     | 23059/48845 [8:10:00<9:02:10,  1.26s/it] 47%|████▋     | 23060/48845 [8:10:01<9:01:53,  1.26s/it]                                                         {'loss': 1.9783, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23060/48845 [8:10:01<9:01:53,  1.26s/it] 47%|████▋     | 23061/48845 [8:10:03<9:02:29,  1.26s/it] 47%|████▋     | 23062/48845 [8:10:04<9:02:33,  1.26s/it] 47%|████▋     | 23063/48845 [8:10:05<9:02:42,  1.26s/it] 47%|████▋     | 23064/48845 [8:10:07<9:02:28,  1.26s/it] 47%|████▋     | 23065/48845 [8:10:08<9:02:30,  1.26s/it]                                                         {'loss': 1.9815, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23065/48845 [8:10:08<9:02:30,  1.26s/it] 47%|████▋     | 23066/48845 [8:10:09<9:02:17,  1.26s/it] 47%|████▋     | 23067/48845 [8:10:10<9:02:06,  1.26s/it] 47%|████▋     | 23068/48845 [8:10:12<9:01:58,  1.26s/it] 47%|████▋     | 23069/48845 [8:10:13<9:01:27,  1.26s/it] 47%|████▋     | 23070/48845 [8:10:14<9:01:16,  1.26s/it]                                                         {'loss': 1.9733, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23070/48845 [8:10:14<9:01:16,  1.26s/it] 47%|████▋     | 23071/48845 [8:10:15<9:01:12,  1.26s/it] 47%|████▋     | 23072/48845 [8:10:17<9:01:13,  1.26s/it] 47%|████▋     | 23073/48845 [8:10:18<9:01:10,  1.26s/it] 47%|████▋     | 23074/48845 [8:10:19<9:00:42,  1.26s/it] 47%|████▋     | 23075/48845 [8:10:20<9:00:45,  1.26s/it]                                                         {'loss': 2.1333, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23075/48845 [8:10:20<9:00:45,  1.26s/it] 47%|████▋     | 23076/48845 [8:10:22<9:01:10,  1.26s/it] 47%|████▋     | 23077/48845 [8:10:23<9:01:14,  1.26s/it] 47%|████▋     | 23078/48845 [8:10:24<9:01:07,  1.26s/it] 47%|████▋     | 23079/48845 [8:10:25<9:00:49,  1.26s/it] 47%|████▋     | 23080/48845 [8:10:27<9:00:53,  1.26s/it]                                                         {'loss': 2.0199, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23080/48845 [8:10:27<9:00:53,  1.26s/it] 47%|████▋     | 23081/48845 [8:10:28<9:01:26,  1.26s/it] 47%|████▋     | 23082/48845 [8:10:29<9:00:45,  1.26s/it] 47%|████▋     | 23083/48845 [8:10:30<9:01:39,  1.26s/it] 47%|████▋     | 23084/48845 [8:10:32<9:01:37,  1.26s/it] 47%|████▋     | 23085/48845 [8:10:33<9:01:28,  1.26s/it]                                                         {'loss': 1.9959, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23085/48845 [8:10:33<9:01:28,  1.26s/it] 47%|████▋     | 23086/48845 [8:10:34<9:01:23,  1.26s/it] 47%|████▋     | 23087/48845 [8:10:36<9:01:30,  1.26s/it] 47%|████▋     | 23088/48845 [8:10:37<9:01:12,  1.26s/it] 47%|████▋     | 23089/48845 [8:10:38<9:01:43,  1.26s/it] 47%|████▋     | 23090/48845 [8:10:39<9:00:46,  1.26s/it]                                                         {'loss': 2.0547, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23090/48845 [8:10:39<9:00:46,  1.26s/it] 47%|████▋     | 23091/48845 [8:10:41<9:01:17,  1.26s/it] 47%|████▋     | 23092/48845 [8:10:42<9:01:14,  1.26s/it] 47%|████▋     | 23093/48845 [8:10:43<9:01:02,  1.26s/it] 47%|████▋     | 23094/48845 [8:10:44<9:01:26,  1.26s/it] 47%|████▋     | 23095/48845 [8:10:46<9:01:18,  1.26s/it]                                                         {'loss': 2.0801, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23095/48845 [8:10:46<9:01:18,  1.26s/it] 47%|████▋     | 23096/48845 [8:10:47<9:01:27,  1.26s/it] 47%|████▋     | 23097/48845 [8:10:48<9:01:27,  1.26s/it] 47%|████▋     | 23098/48845 [8:10:49<9:01:08,  1.26s/it] 47%|████▋     | 23099/48845 [8:10:51<9:01:16,  1.26s/it] 47%|████▋     | 23100/48845 [8:10:52<9:00:50,  1.26s/it]                                                         {'loss': 2.0667, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.36}
+ 47%|████▋     | 23100/48845 [8:10:52<9:00:50,  1.26s/it] 47%|████▋     | 23101/48845 [8:10:53<9:01:14,  1.26s/it] 47%|████▋     | 23102/48845 [8:10:54<9:00:39,  1.26s/it] 47%|████▋     | 23103/48845 [8:10:56<9:00:34,  1.26s/it] 47%|████▋     | 23104/48845 [8:10:57<9:00:52,  1.26s/it] 47%|████▋     | 23105/48845 [8:10:58<9:00:46,  1.26s/it]                                                         {'loss': 2.0825, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23105/48845 [8:10:58<9:00:46,  1.26s/it] 47%|████▋     | 23106/48845 [8:10:59<9:01:03,  1.26s/it] 47%|████▋     | 23107/48845 [8:11:01<9:00:53,  1.26s/it] 47%|████▋     | 23108/48845 [8:11:02<9:00:46,  1.26s/it] 47%|████▋     | 23109/48845 [8:11:03<9:00:22,  1.26s/it] 47%|████▋     | 23110/48845 [8:11:05<9:00:05,  1.26s/it]                                                         {'loss': 2.2994, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23110/48845 [8:11:05<9:00:05,  1.26s/it] 47%|████▋     | 23111/48845 [8:11:06<8:59:51,  1.26s/it] 47%|████▋     | 23112/48845 [8:11:07<8:59:37,  1.26s/it] 47%|████▋     | 23113/48845 [8:11:08<8:59:27,  1.26s/it] 47%|████▋     | 23114/48845 [8:11:10<8:59:44,  1.26s/it] 47%|████▋     | 23115/48845 [8:11:11<8:59:39,  1.26s/it]                                                         {'loss': 1.9853, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23115/48845 [8:11:11<8:59:39,  1.26s/it] 47%|████▋     | 23116/48845 [8:11:12<9:00:18,  1.26s/it] 47%|████▋     | 23117/48845 [8:11:13<9:00:27,  1.26s/it] 47%|████▋     | 23118/48845 [8:11:15<8:59:58,  1.26s/it] 47%|████▋     | 23119/48845 [8:11:16<8:59:52,  1.26s/it] 47%|████▋     | 23120/48845 [8:11:17<8:59:48,  1.26s/it]                                                         {'loss': 1.9858, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23120/48845 [8:11:17<8:59:48,  1.26s/it] 47%|████▋     | 23121/48845 [8:11:18<8:59:41,  1.26s/it] 47%|████▋     | 23122/48845 [8:11:20<8:59:29,  1.26s/it] 47%|████▋     | 23123/48845 [8:11:21<8:59:43,  1.26s/it] 47%|████▋     | 23124/48845 [8:11:22<9:00:00,  1.26s/it] 47%|████▋     | 23125/48845 [8:11:23<9:00:20,  1.26s/it]                                                         {'loss': 2.0963, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23125/48845 [8:11:23<9:00:20,  1.26s/it] 47%|████▋     | 23126/48845 [8:11:25<9:00:29,  1.26s/it] 47%|████▋     | 23127/48845 [8:11:26<8:59:48,  1.26s/it] 47%|████▋     | 23128/48845 [8:11:27<8:59:46,  1.26s/it] 47%|████▋     | 23129/48845 [8:11:28<8:59:47,  1.26s/it] 47%|████▋     | 23130/48845 [8:11:30<8:59:36,  1.26s/it]                                                         {'loss': 1.9624, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23130/48845 [8:11:30<8:59:36,  1.26s/it] 47%|████▋     | 23131/48845 [8:11:31<8:59:32,  1.26s/it] 47%|████▋     | 23132/48845 [8:11:32<8:59:17,  1.26s/it] 47%|████▋     | 23133/48845 [8:11:33<8:59:22,  1.26s/it] 47%|████▋     | 23134/48845 [8:11:35<8:59:37,  1.26s/it] 47%|████▋     | 23135/48845 [8:11:36<8:59:48,  1.26s/it]                                                         {'loss': 2.1111, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23135/48845 [8:11:36<8:59:48,  1.26s/it] 47%|████▋     | 23136/48845 [8:11:37<9:00:02,  1.26s/it] 47%|████▋     | 23137/48845 [8:11:39<9:00:06,  1.26s/it] 47%|████▋     | 23138/48845 [8:11:40<8:59:59,  1.26s/it] 47%|████▋     | 23139/48845 [8:11:41<8:59:55,  1.26s/it] 47%|████▋     | 23140/48845 [8:11:42<8:59:33,  1.26s/it]                                                         {'loss': 2.1671, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23140/48845 [8:11:42<8:59:33,  1.26s/it] 47%|████▋     | 23141/48845 [8:11:44<8:59:33,  1.26s/it] 47%|████▋     | 23142/48845 [8:11:45<8:59:43,  1.26s/it] 47%|████▋     | 23143/48845 [8:11:46<8:59:29,  1.26s/it] 47%|████▋     | 23144/48845 [8:11:47<8:59:19,  1.26s/it] 47%|████▋     | 23145/48845 [8:11:49<8:59:11,  1.26s/it]                                                         {'loss': 1.9544, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23145/48845 [8:11:49<8:59:11,  1.26s/it] 47%|████▋     | 23146/48845 [8:11:50<8:59:28,  1.26s/it] 47%|████▋     | 23147/48845 [8:11:51<8:59:18,  1.26s/it] 47%|████▋     | 23148/48845 [8:11:52<8:59:23,  1.26s/it] 47%|████▋     | 23149/48845 [8:11:54<8:59:20,  1.26s/it] 47%|████▋     | 23150/48845 [8:11:55<8:59:30,  1.26s/it]                                                         {'loss': 2.0426, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23150/48845 [8:11:55<8:59:30,  1.26s/it] 47%|████▋     | 23151/48845 [8:11:56<8:59:28,  1.26s/it] 47%|████▋     | 23152/48845 [8:11:57<8:59:39,  1.26s/it] 47%|████▋     | 23153/48845 [8:11:59<8:59:22,  1.26s/it] 47%|████▋     | 23154/48845 [8:12:00<8:59:24,  1.26s/it] 47%|████▋     | 23155/48845 [8:12:01<8:59:17,  1.26s/it]                                                         {'loss': 2.1504, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23155/48845 [8:12:01<8:59:17,  1.26s/it] 47%|████▋     | 23156/48845 [8:12:02<8:59:58,  1.26s/it] 47%|████▋     | 23157/48845 [8:12:04<9:00:12,  1.26s/it] 47%|████▋     | 23158/48845 [8:12:05<8:59:47,  1.26s/it] 47%|████▋     | 23159/48845 [8:12:06<9:00:01,  1.26s/it] 47%|████▋     | 23160/48845 [8:12:07<8:59:40,  1.26s/it]                                                         {'loss': 2.1209, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23160/48845 [8:12:07<8:59:40,  1.26s/it] 47%|████▋     | 23161/48845 [8:12:09<9:00:37,  1.26s/it] 47%|████▋     | 23162/48845 [8:12:10<9:00:20,  1.26s/it] 47%|████▋     | 23163/48845 [8:12:11<9:00:13,  1.26s/it] 47%|████▋     | 23164/48845 [8:12:13<8:59:43,  1.26s/it] 47%|████▋     | 23165/48845 [8:12:14<8:59:36,  1.26s/it]                                                         {'loss': 2.0937, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23165/48845 [8:12:14<8:59:36,  1.26s/it] 47%|████▋     | 23166/48845 [8:12:15<8:59:49,  1.26s/it] 47%|████▋     | 23167/48845 [8:12:16<8:59:22,  1.26s/it] 47%|████▋     | 23168/48845 [8:12:18<8:58:59,  1.26s/it] 47%|████▋     | 23169/48845 [8:12:19<8:59:15,  1.26s/it] 47%|████▋     | 23170/48845 [8:12:20<8:59:07,  1.26s/it]                                                         {'loss': 2.0448, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23170/48845 [8:12:20<8:59:07,  1.26s/it] 47%|████▋     | 23171/48845 [8:12:21<8:58:59,  1.26s/it] 47%|████▋     | 23172/48845 [8:12:23<8:58:43,  1.26s/it] 47%|████▋     | 23173/48845 [8:12:24<8:58:34,  1.26s/it] 47%|████▋     | 23174/48845 [8:12:25<8:58:44,  1.26s/it] 47%|████▋     | 23175/48845 [8:12:26<8:58:19,  1.26s/it]                                                         {'loss': 2.0992, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23175/48845 [8:12:26<8:58:19,  1.26s/it] 47%|████▋     | 23176/48845 [8:12:28<8:58:53,  1.26s/it] 47%|████▋     | 23177/48845 [8:12:29<8:59:33,  1.26s/it] 47%|████▋     | 23178/48845 [8:12:30<8:58:42,  1.26s/it] 47%|████▋     | 23179/48845 [8:12:31<8:58:35,  1.26s/it] 47%|████▋     | 23180/48845 [8:12:33<8:58:39,  1.26s/it]                                                         {'loss': 2.084, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23180/48845 [8:12:33<8:58:39,  1.26s/it] 47%|████▋     | 23181/48845 [8:12:34<8:59:01,  1.26s/it] 47%|████▋     | 23182/48845 [8:12:35<8:59:15,  1.26s/it] 47%|████▋     | 23183/48845 [8:12:36<8:59:01,  1.26s/it] 47%|████▋     | 23184/48845 [8:12:38<8:58:50,  1.26s/it] 47%|████▋     | 23185/48845 [8:12:39<8:58:41,  1.26s/it]                                                         {'loss': 1.9407, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23185/48845 [8:12:39<8:58:41,  1.26s/it] 47%|████▋     | 23186/48845 [8:12:40<8:58:22,  1.26s/it] 47%|████▋     | 23187/48845 [8:12:42<8:58:27,  1.26s/it] 47%|████▋     | 23188/48845 [8:12:43<8:58:27,  1.26s/it] 47%|████▋     | 23189/48845 [8:12:44<8:58:30,  1.26s/it] 47%|████▋     | 23190/48845 [8:12:45<8:58:24,  1.26s/it]                                                         {'loss': 2.0075, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23190/48845 [8:12:45<8:58:24,  1.26s/it] 47%|████▋     | 23191/48845 [8:12:47<8:58:28,  1.26s/it] 47%|████▋     | 23192/48845 [8:12:48<8:58:27,  1.26s/it] 47%|████▋     | 23193/48845 [8:12:49<8:58:31,  1.26s/it] 47%|████▋     | 23194/48845 [8:12:50<8:58:18,  1.26s/it] 47%|████▋     | 23195/48845 [8:12:52<8:58:27,  1.26s/it]                                                         {'loss': 2.0755, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23195/48845 [8:12:52<8:58:27,  1.26s/it] 47%|████▋     | 23196/48845 [8:12:53<8:58:37,  1.26s/it] 47%|████▋     | 23197/48845 [8:12:54<8:58:57,  1.26s/it] 47%|████▋     | 23198/48845 [8:12:55<8:58:33,  1.26s/it] 47%|████▋     | 23199/48845 [8:12:57<8:58:42,  1.26s/it] 47%|████▋     | 23200/48845 [8:12:58<8:58:05,  1.26s/it]                                                         {'loss': 2.0704, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.37}
+ 47%|████▋     | 23200/48845 [8:12:58<8:58:05,  1.26s/it] 47%|████▋     | 23201/48845 [8:13:02<14:10:44,  1.99s/it] 48%|████▊     | 23202/48845 [8:13:03<12:36:22,  1.77s/it] 48%|████▊     | 23203/48845 [8:13:04<11:31:08,  1.62s/it] 48%|████▊     | 23204/48845 [8:13:05<10:44:53,  1.51s/it] 48%|████▊     | 23205/48845 [8:13:07<10:12:53,  1.43s/it]                                                          {'loss': 1.9026, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23205/48845 [8:13:07<10:12:53,  1.43s/it] 48%|████▊     | 23206/48845 [8:13:08<9:50:31,  1.38s/it]  48%|████▊     | 23207/48845 [8:13:09<9:35:54,  1.35s/it] 48%|████▊     | 23208/48845 [8:13:10<9:24:51,  1.32s/it] 48%|████▊     | 23209/48845 [8:13:12<9:16:58,  1.30s/it] 48%|████▊     | 23210/48845 [8:13:13<9:11:15,  1.29s/it]                                                         {'loss': 2.1742, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23210/48845 [8:13:13<9:11:15,  1.29s/it] 48%|████▊     | 23211/48845 [8:13:14<9:07:36,  1.28s/it] 48%|████▊     | 23212/48845 [8:13:15<9:05:13,  1.28s/it] 48%|████▊     | 23213/48845 [8:13:17<9:02:49,  1.27s/it] 48%|████▊     | 23214/48845 [8:13:18<9:01:35,  1.27s/it] 48%|████▊     | 23215/48845 [8:13:19<9:00:26,  1.27s/it]                                                         {'loss': 1.947, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23215/48845 [8:13:19<9:00:26,  1.27s/it] 48%|████▊     | 23216/48845 [8:13:20<8:59:36,  1.26s/it] 48%|████▊     | 23217/48845 [8:13:22<8:59:14,  1.26s/it] 48%|████▊     | 23218/48845 [8:13:23<8:59:47,  1.26s/it] 48%|████▊     | 23219/48845 [8:13:24<8:58:57,  1.26s/it] 48%|████▊     | 23220/48845 [8:13:26<8:58:37,  1.26s/it]                                                         {'loss': 2.0943, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23220/48845 [8:13:26<8:58:37,  1.26s/it] 48%|████▊     | 23221/48845 [8:13:27<8:58:56,  1.26s/it] 48%|████▊     | 23222/48845 [8:13:28<8:58:29,  1.26s/it] 48%|████▊     | 23223/48845 [8:13:29<8:58:25,  1.26s/it] 48%|████▊     | 23224/48845 [8:13:31<8:58:16,  1.26s/it] 48%|████▊     | 23225/48845 [8:13:32<8:57:48,  1.26s/it]                                                         {'loss': 2.0312, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23225/48845 [8:13:32<8:57:48,  1.26s/it] 48%|████▊     | 23226/48845 [8:13:33<8:59:09,  1.26s/it] 48%|████▊     | 23227/48845 [8:13:34<8:59:04,  1.26s/it] 48%|████▊     | 23228/48845 [8:13:36<8:58:28,  1.26s/it] 48%|████▊     | 23229/48845 [8:13:37<8:58:27,  1.26s/it] 48%|████▊     | 23230/48845 [8:13:38<8:57:59,  1.26s/it]                                                         {'loss': 2.1439, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23230/48845 [8:13:38<8:57:59,  1.26s/it] 48%|████▊     | 23231/48845 [8:13:39<9:00:31,  1.27s/it] 48%|████▊     | 23232/48845 [8:13:41<9:00:02,  1.27s/it] 48%|████▊     | 23233/48845 [8:13:42<8:59:39,  1.26s/it] 48%|████▊     | 23234/48845 [8:13:43<8:59:10,  1.26s/it] 48%|████▊     | 23235/48845 [8:13:44<8:59:19,  1.26s/it]                                                         {'loss': 2.163, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23235/48845 [8:13:44<8:59:19,  1.26s/it] 48%|████▊     | 23236/48845 [8:13:46<8:58:54,  1.26s/it] 48%|████▊     | 23237/48845 [8:13:47<8:59:23,  1.26s/it] 48%|████▊     | 23238/48845 [8:13:48<8:59:15,  1.26s/it] 48%|████▊     | 23239/48845 [8:13:50<8:59:52,  1.27s/it] 48%|████▊     | 23240/48845 [8:13:51<8:59:12,  1.26s/it]                                                         {'loss': 2.0236, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23240/48845 [8:13:51<8:59:12,  1.26s/it] 48%|████▊     | 23241/48845 [8:13:52<8:58:32,  1.26s/it] 48%|████▊     | 23242/48845 [8:13:53<8:58:11,  1.26s/it] 48%|████▊     | 23243/48845 [8:13:55<9:14:28,  1.30s/it] 48%|████▊     | 23244/48845 [8:13:56<9:09:08,  1.29s/it] 48%|████▊     | 23245/48845 [8:13:57<9:06:06,  1.28s/it]                                                         {'loss': 2.0604, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23245/48845 [8:13:57<9:06:06,  1.28s/it] 48%|████▊     | 23246/48845 [8:13:58<9:03:54,  1.27s/it] 48%|████▊     | 23247/48845 [8:14:00<9:02:11,  1.27s/it] 48%|████▊     | 23248/48845 [8:14:01<9:00:57,  1.27s/it] 48%|████▊     | 23249/48845 [8:14:02<8:59:52,  1.27s/it] 48%|████▊     | 23250/48845 [8:14:04<8:59:06,  1.26s/it]                                                         {'loss': 1.8943, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23250/48845 [8:14:04<8:59:06,  1.26s/it] 48%|████▊     | 23251/48845 [8:14:05<8:59:41,  1.27s/it] 48%|████▊     | 23252/48845 [8:14:06<8:59:11,  1.26s/it] 48%|████▊     | 23253/48845 [8:14:07<8:58:53,  1.26s/it] 48%|████▊     | 23254/48845 [8:14:09<8:58:23,  1.26s/it] 48%|████▊     | 23255/48845 [8:14:10<9:06:27,  1.28s/it]                                                         {'loss': 2.1016, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23255/48845 [8:14:10<9:06:27,  1.28s/it] 48%|████▊     | 23256/48845 [8:14:11<9:04:22,  1.28s/it] 48%|████▊     | 23257/48845 [8:14:12<9:02:23,  1.27s/it] 48%|████▊     | 23258/48845 [8:14:14<9:01:18,  1.27s/it] 48%|████▊     | 23259/48845 [8:14:15<9:01:14,  1.27s/it] 48%|████▊     | 23260/48845 [8:14:16<8:59:57,  1.27s/it]                                                         {'loss': 2.0006, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23260/48845 [8:14:16<8:59:57,  1.27s/it] 48%|████▊     | 23261/48845 [8:14:17<9:00:00,  1.27s/it] 48%|████▊     | 23262/48845 [8:14:19<8:59:12,  1.26s/it] 48%|████▊     | 23263/48845 [8:14:20<9:00:06,  1.27s/it] 48%|████▊     | 23264/48845 [8:14:21<8:59:44,  1.27s/it] 48%|████▊     | 23265/48845 [8:14:23<8:58:39,  1.26s/it]                                                         {'loss': 2.1551, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23265/48845 [8:14:23<8:58:39,  1.26s/it] 48%|████▊     | 23266/48845 [8:14:24<8:58:21,  1.26s/it] 48%|████▊     | 23267/48845 [8:14:25<8:58:02,  1.26s/it] 48%|████▊     | 23268/48845 [8:14:26<8:57:28,  1.26s/it] 48%|████▊     | 23269/48845 [8:14:28<8:57:21,  1.26s/it] 48%|████▊     | 23270/48845 [8:14:29<8:57:19,  1.26s/it]                                                         {'loss': 2.0226, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23270/48845 [8:14:29<8:57:19,  1.26s/it] 48%|████▊     | 23271/48845 [8:14:30<8:58:28,  1.26s/it] 48%|████▊     | 23272/48845 [8:14:31<8:58:14,  1.26s/it] 48%|████▊     | 23273/48845 [8:14:33<8:58:14,  1.26s/it] 48%|████▊     | 23274/48845 [8:14:34<8:58:01,  1.26s/it] 48%|████▊     | 23275/48845 [8:14:35<8:57:53,  1.26s/it]                                                         {'loss': 2.0196, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23275/48845 [8:14:35<8:57:53,  1.26s/it] 48%|████▊     | 23276/48845 [8:14:36<8:58:05,  1.26s/it] 48%|████▊     | 23277/48845 [8:14:38<8:58:20,  1.26s/it] 48%|████▊     | 23278/48845 [8:14:39<8:58:31,  1.26s/it] 48%|████▊     | 23279/48845 [8:14:40<8:58:25,  1.26s/it] 48%|████▊     | 23280/48845 [8:14:41<8:58:01,  1.26s/it]                                                         {'loss': 2.0161, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23280/48845 [8:14:41<8:58:01,  1.26s/it] 48%|████▊     | 23281/48845 [8:14:43<8:57:23,  1.26s/it] 48%|████▊     | 23282/48845 [8:14:44<8:57:22,  1.26s/it] 48%|████▊     | 23283/48845 [8:14:45<8:57:44,  1.26s/it] 48%|████▊     | 23284/48845 [8:14:47<8:57:11,  1.26s/it] 48%|████▊     | 23285/48845 [8:14:48<8:57:45,  1.26s/it]                                                         {'loss': 1.9921, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23285/48845 [8:14:48<8:57:45,  1.26s/it] 48%|████▊     | 23286/48845 [8:14:49<8:57:26,  1.26s/it] 48%|████▊     | 23287/48845 [8:14:50<8:56:33,  1.26s/it] 48%|████▊     | 23288/48845 [8:14:52<8:56:36,  1.26s/it] 48%|████▊     | 23289/48845 [8:14:53<8:56:32,  1.26s/it] 48%|████▊     | 23290/48845 [8:14:54<8:56:47,  1.26s/it]                                                         {'loss': 2.1296, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23290/48845 [8:14:54<8:56:47,  1.26s/it] 48%|████▊     | 23291/48845 [8:14:55<8:56:52,  1.26s/it] 48%|████▊     | 23292/48845 [8:14:57<8:56:49,  1.26s/it] 48%|████▊     | 23293/48845 [8:14:58<8:56:59,  1.26s/it] 48%|████▊     | 23294/48845 [8:14:59<8:57:02,  1.26s/it] 48%|████▊     | 23295/48845 [8:15:00<8:57:17,  1.26s/it]                                                         {'loss': 2.1309, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.38}
+ 48%|████▊     | 23295/48845 [8:15:00<8:57:17,  1.26s/it] 48%|████▊     | 23296/48845 [8:15:02<8:57:10,  1.26s/it] 48%|████▊     | 23297/48845 [8:15:03<8:56:25,  1.26s/it] 48%|████▊     | 23298/48845 [8:15:04<8:56:00,  1.26s/it] 48%|████▊     | 23299/48845 [8:15:05<8:55:42,  1.26s/it] 48%|████▊     | 23300/48845 [8:15:07<8:55:44,  1.26s/it]                                                         {'loss': 2.0196, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23300/48845 [8:15:07<8:55:44,  1.26s/it] 48%|████▊     | 23301/48845 [8:15:08<8:56:43,  1.26s/it] 48%|████▊     | 23302/48845 [8:15:09<8:57:00,  1.26s/it] 48%|████▊     | 23303/48845 [8:15:10<8:56:44,  1.26s/it] 48%|████▊     | 23304/48845 [8:15:12<8:56:35,  1.26s/it] 48%|████▊     | 23305/48845 [8:15:13<8:56:29,  1.26s/it]                                                         {'loss': 2.1713, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23305/48845 [8:15:13<8:56:29,  1.26s/it] 48%|████▊     | 23306/48845 [8:15:14<8:56:30,  1.26s/it] 48%|████▊     | 23307/48845 [8:15:16<8:56:14,  1.26s/it] 48%|████▊     | 23308/48845 [8:15:17<8:56:07,  1.26s/it] 48%|████▊     | 23309/48845 [8:15:18<8:56:12,  1.26s/it] 48%|████▊     | 23310/48845 [8:15:19<8:56:19,  1.26s/it]                                                         {'loss': 2.0473, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23310/48845 [8:15:19<8:56:19,  1.26s/it] 48%|████▊     | 23311/48845 [8:15:21<8:56:28,  1.26s/it] 48%|████▊     | 23312/48845 [8:15:22<8:56:21,  1.26s/it] 48%|████▊     | 23313/48845 [8:15:23<8:55:59,  1.26s/it] 48%|████▊     | 23314/48845 [8:15:24<8:55:56,  1.26s/it] 48%|████▊     | 23315/48845 [8:15:26<8:55:50,  1.26s/it]                                                         {'loss': 1.9501, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23315/48845 [8:15:26<8:55:50,  1.26s/it] 48%|████▊     | 23316/48845 [8:15:27<8:55:52,  1.26s/it] 48%|████▊     | 23317/48845 [8:15:28<8:55:58,  1.26s/it] 48%|████▊     | 23318/48845 [8:15:29<8:56:58,  1.26s/it] 48%|████▊     | 23319/48845 [8:15:31<8:57:32,  1.26s/it] 48%|████▊     | 23320/48845 [8:15:32<8:57:14,  1.26s/it]                                                         {'loss': 2.0003, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23320/48845 [8:15:32<8:57:14,  1.26s/it] 48%|████▊     | 23321/48845 [8:15:33<8:57:23,  1.26s/it] 48%|████▊     | 23322/48845 [8:15:34<8:56:39,  1.26s/it] 48%|████▊     | 23323/48845 [8:15:36<8:56:19,  1.26s/it] 48%|████▊     | 23324/48845 [8:15:37<8:56:06,  1.26s/it] 48%|████▊     | 23325/48845 [8:15:38<8:56:10,  1.26s/it]                                                         {'loss': 1.9879, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23325/48845 [8:15:38<8:56:10,  1.26s/it] 48%|████▊     | 23326/48845 [8:15:39<8:55:55,  1.26s/it] 48%|████▊     | 23327/48845 [8:15:41<8:55:45,  1.26s/it] 48%|████▊     | 23328/48845 [8:15:42<8:55:37,  1.26s/it] 48%|████▊     | 23329/48845 [8:15:43<8:55:36,  1.26s/it] 48%|████▊     | 23330/48845 [8:15:44<8:55:27,  1.26s/it]                                                         {'loss': 2.0996, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23330/48845 [8:15:44<8:55:27,  1.26s/it] 48%|████▊     | 23331/48845 [8:15:46<8:56:12,  1.26s/it] 48%|████▊     | 23332/48845 [8:15:47<8:55:37,  1.26s/it] 48%|████▊     | 23333/48845 [8:15:48<8:55:44,  1.26s/it] 48%|████▊     | 23334/48845 [8:15:50<8:55:20,  1.26s/it] 48%|████▊     | 23335/48845 [8:15:51<8:55:34,  1.26s/it]                                                         {'loss': 2.0397, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23335/48845 [8:15:51<8:55:34,  1.26s/it] 48%|████▊     | 23336/48845 [8:15:52<8:55:46,  1.26s/it] 48%|████▊     | 23337/48845 [8:15:53<8:55:14,  1.26s/it] 48%|████▊     | 23338/48845 [8:15:55<8:55:23,  1.26s/it] 48%|████▊     | 23339/48845 [8:15:56<8:55:15,  1.26s/it] 48%|████▊     | 23340/48845 [8:15:57<8:55:33,  1.26s/it]                                                         {'loss': 2.0513, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23340/48845 [8:15:57<8:55:33,  1.26s/it] 48%|████▊     | 23341/48845 [8:15:58<8:55:21,  1.26s/it] 48%|████▊     | 23342/48845 [8:16:00<8:55:49,  1.26s/it] 48%|████▊     | 23343/48845 [8:16:01<9:08:07,  1.29s/it] 48%|████▊     | 23344/48845 [8:16:02<9:04:18,  1.28s/it] 48%|████▊     | 23345/48845 [8:16:03<9:01:21,  1.27s/it]                                                         {'loss': 2.248, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23345/48845 [8:16:03<9:01:21,  1.27s/it] 48%|████▊     | 23346/48845 [8:16:05<8:59:46,  1.27s/it] 48%|████▊     | 23347/48845 [8:16:06<8:58:23,  1.27s/it] 48%|████▊     | 23348/48845 [8:16:07<8:57:01,  1.26s/it] 48%|████▊     | 23349/48845 [8:16:09<8:56:33,  1.26s/it] 48%|████▊     | 23350/48845 [8:16:10<8:56:16,  1.26s/it]                                                         {'loss': 2.2559, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23350/48845 [8:16:10<8:56:16,  1.26s/it] 48%|████▊     | 23351/48845 [8:16:11<8:56:26,  1.26s/it] 48%|████▊     | 23352/48845 [8:16:12<8:55:38,  1.26s/it] 48%|████▊     | 23353/48845 [8:16:14<8:55:57,  1.26s/it] 48%|████▊     | 23354/48845 [8:16:15<8:55:25,  1.26s/it] 48%|████▊     | 23355/48845 [8:16:16<8:55:35,  1.26s/it]                                                         {'loss': 2.0206, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23355/48845 [8:16:16<8:55:35,  1.26s/it] 48%|████▊     | 23356/48845 [8:16:17<8:55:43,  1.26s/it] 48%|████▊     | 23357/48845 [8:16:19<8:55:12,  1.26s/it] 48%|████▊     | 23358/48845 [8:16:20<8:54:49,  1.26s/it] 48%|████▊     | 23359/48845 [8:16:21<8:54:52,  1.26s/it] 48%|████▊     | 23360/48845 [8:16:22<8:55:41,  1.26s/it]                                                         {'loss': 1.8424, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23360/48845 [8:16:22<8:55:41,  1.26s/it] 48%|████▊     | 23361/48845 [8:16:24<8:55:51,  1.26s/it] 48%|████▊     | 23362/48845 [8:16:25<8:55:43,  1.26s/it] 48%|████▊     | 23363/48845 [8:16:26<8:55:22,  1.26s/it] 48%|████▊     | 23364/48845 [8:16:27<8:54:59,  1.26s/it] 48%|████▊     | 23365/48845 [8:16:29<8:54:25,  1.26s/it]                                                         {'loss': 1.9654, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23365/48845 [8:16:29<8:54:25,  1.26s/it] 48%|████▊     | 23366/48845 [8:16:30<8:54:37,  1.26s/it] 48%|████▊     | 23367/48845 [8:16:31<8:54:09,  1.26s/it] 48%|████▊     | 23368/48845 [8:16:32<8:53:57,  1.26s/it] 48%|████▊     | 23369/48845 [8:16:34<8:53:57,  1.26s/it] 48%|████▊     | 23370/48845 [8:16:35<8:54:24,  1.26s/it]                                                         {'loss': 1.9985, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23370/48845 [8:16:35<8:54:24,  1.26s/it] 48%|████▊     | 23371/48845 [8:16:36<8:54:49,  1.26s/it] 48%|████▊     | 23372/48845 [8:16:37<8:54:32,  1.26s/it] 48%|████▊     | 23373/48845 [8:16:39<8:54:23,  1.26s/it] 48%|████▊     | 23374/48845 [8:16:40<8:54:52,  1.26s/it] 48%|████▊     | 23375/48845 [8:16:41<8:54:43,  1.26s/it]                                                         {'loss': 1.9085, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23375/48845 [8:16:41<8:54:43,  1.26s/it] 48%|████▊     | 23376/48845 [8:16:43<8:54:52,  1.26s/it] 48%|████▊     | 23377/48845 [8:16:44<8:54:27,  1.26s/it] 48%|████▊     | 23378/48845 [8:16:45<8:54:32,  1.26s/it] 48%|████▊     | 23379/48845 [8:16:46<8:54:42,  1.26s/it] 48%|████▊     | 23380/48845 [8:16:48<8:54:25,  1.26s/it]                                                         {'loss': 2.0276, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23380/48845 [8:16:48<8:54:25,  1.26s/it] 48%|████▊     | 23381/48845 [8:16:49<8:54:22,  1.26s/it] 48%|████▊     | 23382/48845 [8:16:50<8:54:51,  1.26s/it] 48%|████▊     | 23383/48845 [8:16:51<8:54:37,  1.26s/it] 48%|████▊     | 23384/48845 [8:16:53<8:54:24,  1.26s/it] 48%|████▊     | 23385/48845 [8:16:54<8:54:42,  1.26s/it]                                                         {'loss': 2.0247, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23385/48845 [8:16:54<8:54:42,  1.26s/it] 48%|████▊     | 23386/48845 [8:16:55<8:54:23,  1.26s/it] 48%|████▊     | 23387/48845 [8:16:56<8:54:26,  1.26s/it] 48%|████▊     | 23388/48845 [8:16:58<8:54:15,  1.26s/it] 48%|████▊     | 23389/48845 [8:16:59<8:54:35,  1.26s/it] 48%|████▊     | 23390/48845 [8:17:00<8:54:35,  1.26s/it]                                                         {'loss': 1.9784, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23390/48845 [8:17:00<8:54:35,  1.26s/it] 48%|████▊     | 23391/48845 [8:17:01<8:54:20,  1.26s/it] 48%|████▊     | 23392/48845 [8:17:03<8:54:36,  1.26s/it] 48%|████▊     | 23393/48845 [8:17:04<8:54:31,  1.26s/it] 48%|████▊     | 23394/48845 [8:17:05<8:54:12,  1.26s/it] 48%|████▊     | 23395/48845 [8:17:06<8:54:03,  1.26s/it]                                                         {'loss': 2.1269, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.39}
+ 48%|████▊     | 23395/48845 [8:17:06<8:54:03,  1.26s/it] 48%|████▊     | 23396/48845 [8:17:08<8:54:12,  1.26s/it] 48%|████▊     | 23397/48845 [8:17:09<8:54:10,  1.26s/it] 48%|████▊     | 23398/48845 [8:17:10<8:53:47,  1.26s/it] 48%|████▊     | 23399/48845 [8:17:11<8:53:26,  1.26s/it] 48%|████▊     | 23400/48845 [8:17:13<8:53:23,  1.26s/it]                                                         {'loss': 1.9091, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23400/48845 [8:17:13<8:53:23,  1.26s/it] 48%|████▊     | 23401/48845 [8:17:16<14:08:22,  2.00s/it] 48%|████▊     | 23402/48845 [8:17:18<12:33:39,  1.78s/it] 48%|████▊     | 23403/48845 [8:17:19<11:27:54,  1.62s/it] 48%|████▊     | 23404/48845 [8:17:20<10:41:53,  1.51s/it] 48%|████▊     | 23405/48845 [8:17:22<10:09:31,  1.44s/it]                                                          {'loss': 1.9596, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23405/48845 [8:17:22<10:09:31,  1.44s/it] 48%|████▊     | 23406/48845 [8:17:23<9:46:49,  1.38s/it]  48%|████▊     | 23407/48845 [8:17:24<9:30:52,  1.35s/it] 48%|████▊     | 23408/48845 [8:17:25<9:20:04,  1.32s/it] 48%|████▊     | 23409/48845 [8:17:27<9:12:23,  1.30s/it] 48%|████▊     | 23410/48845 [8:17:28<9:07:22,  1.29s/it]                                                         {'loss': 2.1827, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23410/48845 [8:17:28<9:07:22,  1.29s/it] 48%|████▊     | 23411/48845 [8:17:29<9:03:17,  1.28s/it] 48%|████▊     | 23412/48845 [8:17:30<9:00:17,  1.27s/it] 48%|████▊     | 23413/48845 [8:17:32<8:58:24,  1.27s/it] 48%|████▊     | 23414/48845 [8:17:33<8:57:28,  1.27s/it] 48%|████▊     | 23415/48845 [8:17:34<8:56:42,  1.27s/it]                                                         {'loss': 2.0506, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23415/48845 [8:17:34<8:56:42,  1.27s/it] 48%|████▊     | 23416/48845 [8:17:35<8:55:50,  1.26s/it] 48%|████▊     | 23417/48845 [8:17:37<8:54:49,  1.26s/it] 48%|████▊     | 23418/48845 [8:17:38<8:56:25,  1.27s/it] 48%|████▊     | 23419/48845 [8:17:39<8:55:20,  1.26s/it] 48%|████▊     | 23420/48845 [8:17:40<8:54:53,  1.26s/it]                                                         {'loss': 2.1646, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23420/48845 [8:17:40<8:54:53,  1.26s/it] 48%|████▊     | 23421/48845 [8:17:42<8:54:42,  1.26s/it] 48%|████▊     | 23422/48845 [8:17:43<8:54:29,  1.26s/it] 48%|████▊     | 23423/48845 [8:17:44<8:54:21,  1.26s/it] 48%|████▊     | 23424/48845 [8:17:45<8:53:43,  1.26s/it] 48%|████▊     | 23425/48845 [8:17:47<8:53:55,  1.26s/it]                                                         {'loss': 2.1836, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23425/48845 [8:17:47<8:53:55,  1.26s/it] 48%|████▊     | 23426/48845 [8:17:48<8:54:11,  1.26s/it] 48%|████▊     | 23427/48845 [8:17:49<8:54:44,  1.26s/it] 48%|████▊     | 23428/48845 [8:17:51<8:54:25,  1.26s/it] 48%|████▊     | 23429/48845 [8:17:52<8:54:15,  1.26s/it] 48%|████▊     | 23430/48845 [8:17:53<8:53:53,  1.26s/it]                                                         {'loss': 1.9948, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23430/48845 [8:17:53<8:53:53,  1.26s/it] 48%|████▊     | 23431/48845 [8:17:54<8:54:03,  1.26s/it] 48%|████▊     | 23432/48845 [8:17:56<8:53:48,  1.26s/it] 48%|████▊     | 23433/48845 [8:17:57<8:53:47,  1.26s/it] 48%|████▊     | 23434/48845 [8:17:58<8:54:28,  1.26s/it] 48%|████▊     | 23435/48845 [8:17:59<8:55:48,  1.27s/it]                                                         {'loss': 2.0488, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23435/48845 [8:17:59<8:55:48,  1.27s/it] 48%|████▊     | 23436/48845 [8:18:01<8:55:13,  1.26s/it] 48%|████▊     | 23437/48845 [8:18:02<8:54:32,  1.26s/it] 48%|████▊     | 23438/48845 [8:18:03<8:54:07,  1.26s/it] 48%|████▊     | 23439/48845 [8:18:04<8:54:02,  1.26s/it] 48%|████▊     | 23440/48845 [8:18:06<8:53:45,  1.26s/it]                                                         {'loss': 2.0152, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23440/48845 [8:18:06<8:53:45,  1.26s/it] 48%|████▊     | 23441/48845 [8:18:07<8:53:47,  1.26s/it] 48%|████▊     | 23442/48845 [8:18:08<8:53:34,  1.26s/it] 48%|████▊     | 23443/48845 [8:18:09<8:53:53,  1.26s/it] 48%|████▊     | 23444/48845 [8:18:11<8:53:47,  1.26s/it] 48%|████▊     | 23445/48845 [8:18:12<8:53:42,  1.26s/it]                                                         {'loss': 1.9237, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23445/48845 [8:18:12<8:53:42,  1.26s/it] 48%|████▊     | 23446/48845 [8:18:13<8:53:24,  1.26s/it] 48%|████▊     | 23447/48845 [8:18:14<8:52:46,  1.26s/it] 48%|████▊     | 23448/48845 [8:18:16<8:52:51,  1.26s/it] 48%|████▊     | 23449/48845 [8:18:17<8:52:58,  1.26s/it] 48%|████▊     | 23450/48845 [8:18:18<8:52:59,  1.26s/it]                                                         {'loss': 1.9369, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23450/48845 [8:18:18<8:52:59,  1.26s/it] 48%|████▊     | 23451/48845 [8:18:20<8:54:11,  1.26s/it] 48%|████▊     | 23452/48845 [8:18:21<8:53:40,  1.26s/it] 48%|████▊     | 23453/48845 [8:18:22<8:53:19,  1.26s/it] 48%|████▊     | 23454/48845 [8:18:23<8:53:23,  1.26s/it] 48%|████▊     | 23455/48845 [8:18:25<8:52:47,  1.26s/it]                                                         {'loss': 2.2037, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23455/48845 [8:18:25<8:52:47,  1.26s/it] 48%|████▊     | 23456/48845 [8:18:26<8:53:00,  1.26s/it] 48%|████▊     | 23457/48845 [8:18:27<8:52:51,  1.26s/it] 48%|████▊     | 23458/48845 [8:18:28<8:52:26,  1.26s/it] 48%|████▊     | 23459/48845 [8:18:30<8:52:27,  1.26s/it] 48%|████▊     | 23460/48845 [8:18:31<8:52:43,  1.26s/it]                                                         {'loss': 2.1399, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23460/48845 [8:18:31<8:52:43,  1.26s/it] 48%|████▊     | 23461/48845 [8:18:32<8:53:18,  1.26s/it] 48%|████▊     | 23462/48845 [8:18:33<8:52:33,  1.26s/it] 48%|████▊     | 23463/48845 [8:18:35<8:52:44,  1.26s/it] 48%|████▊     | 23464/48845 [8:18:36<8:52:56,  1.26s/it] 48%|████▊     | 23465/48845 [8:18:37<8:52:45,  1.26s/it]                                                         {'loss': 1.9439, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23465/48845 [8:18:37<8:52:45,  1.26s/it] 48%|████▊     | 23466/48845 [8:18:38<8:52:53,  1.26s/it] 48%|████▊     | 23467/48845 [8:18:40<8:53:00,  1.26s/it] 48%|████▊     | 23468/48845 [8:18:41<8:53:29,  1.26s/it] 48%|████▊     | 23469/48845 [8:18:42<8:53:17,  1.26s/it] 48%|████▊     | 23470/48845 [8:18:43<8:52:45,  1.26s/it]                                                         {'loss': 2.1177, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23470/48845 [8:18:43<8:52:45,  1.26s/it] 48%|████▊     | 23471/48845 [8:18:45<8:52:47,  1.26s/it] 48%|████▊     | 23472/48845 [8:18:46<8:52:58,  1.26s/it] 48%|████▊     | 23473/48845 [8:18:47<8:52:52,  1.26s/it] 48%|████▊     | 23474/48845 [8:18:49<8:53:01,  1.26s/it] 48%|████▊     | 23475/48845 [8:18:50<8:52:43,  1.26s/it]                                                         {'loss': 2.0956, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23475/48845 [8:18:50<8:52:43,  1.26s/it] 48%|████▊     | 23476/48845 [8:18:51<8:53:48,  1.26s/it] 48%|████▊     | 23477/48845 [8:18:52<8:53:23,  1.26s/it] 48%|████▊     | 23478/48845 [8:18:54<8:53:22,  1.26s/it] 48%|████▊     | 23479/48845 [8:18:55<8:53:05,  1.26s/it] 48%|████▊     | 23480/48845 [8:18:56<8:52:53,  1.26s/it]                                                         {'loss': 2.0624, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23480/48845 [8:18:56<8:52:53,  1.26s/it] 48%|████▊     | 23481/48845 [8:18:57<8:53:00,  1.26s/it] 48%|████▊     | 23482/48845 [8:18:59<8:53:32,  1.26s/it] 48%|████▊     | 23483/48845 [8:19:00<8:53:24,  1.26s/it] 48%|████▊     | 23484/48845 [8:19:01<8:52:54,  1.26s/it] 48%|████▊     | 23485/48845 [8:19:02<8:52:52,  1.26s/it]                                                         {'loss': 2.0652, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23485/48845 [8:19:02<8:52:52,  1.26s/it] 48%|████▊     | 23486/48845 [8:19:04<8:53:05,  1.26s/it] 48%|████▊     | 23487/48845 [8:19:05<8:52:45,  1.26s/it] 48%|████▊     | 23488/48845 [8:19:06<8:52:40,  1.26s/it] 48%|████▊     | 23489/48845 [8:19:07<8:53:09,  1.26s/it] 48%|████▊     | 23490/48845 [8:19:09<8:53:02,  1.26s/it]                                                         {'loss': 2.0417, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.4}
+ 48%|████▊     | 23490/48845 [8:19:09<8:53:02,  1.26s/it] 48%|████▊     | 23491/48845 [8:19:10<8:53:06,  1.26s/it] 48%|████▊     | 23492/48845 [8:19:11<8:52:53,  1.26s/it] 48%|████▊     | 23493/48845 [8:19:12<8:52:57,  1.26s/it] 48%|████▊     | 23494/48845 [8:19:14<8:52:37,  1.26s/it] 48%|████▊     | 23495/48845 [8:19:15<8:52:33,  1.26s/it]                                                         {'loss': 2.0832, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23495/48845 [8:19:15<8:52:33,  1.26s/it] 48%|████▊     | 23496/48845 [8:19:16<8:52:45,  1.26s/it] 48%|████▊     | 23497/48845 [8:19:18<8:52:26,  1.26s/it] 48%|████▊     | 23498/48845 [8:19:19<8:52:09,  1.26s/it] 48%|████▊     | 23499/48845 [8:19:20<8:52:11,  1.26s/it] 48%|████▊     | 23500/48845 [8:19:21<8:52:34,  1.26s/it]                                                         {'loss': 1.8939, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23500/48845 [8:19:21<8:52:34,  1.26s/it] 48%|████▊     | 23501/48845 [8:19:23<8:52:18,  1.26s/it] 48%|████▊     | 23502/48845 [8:19:24<8:52:20,  1.26s/it] 48%|████▊     | 23503/48845 [8:19:25<8:52:12,  1.26s/it] 48%|████▊     | 23504/48845 [8:19:26<8:52:17,  1.26s/it] 48%|████▊     | 23505/48845 [8:19:28<8:52:28,  1.26s/it]                                                         {'loss': 2.0821, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23505/48845 [8:19:28<8:52:28,  1.26s/it] 48%|████▊     | 23506/48845 [8:19:29<8:52:53,  1.26s/it] 48%|████▊     | 23507/48845 [8:19:30<8:52:24,  1.26s/it] 48%|████▊     | 23508/48845 [8:19:31<8:52:44,  1.26s/it] 48%|████▊     | 23509/48845 [8:19:33<8:52:36,  1.26s/it] 48%|████▊     | 23510/48845 [8:19:34<8:52:24,  1.26s/it]                                                         {'loss': 2.2578, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23510/48845 [8:19:34<8:52:24,  1.26s/it] 48%|████▊     | 23511/48845 [8:19:35<8:52:07,  1.26s/it] 48%|████▊     | 23512/48845 [8:19:36<8:52:13,  1.26s/it] 48%|████▊     | 23513/48845 [8:19:38<8:52:12,  1.26s/it] 48%|████▊     | 23514/48845 [8:19:39<8:52:30,  1.26s/it] 48%|████▊     | 23515/48845 [8:19:40<8:51:58,  1.26s/it]                                                         {'loss': 1.9498, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23515/48845 [8:19:40<8:51:58,  1.26s/it] 48%|████▊     | 23516/48845 [8:19:41<8:52:12,  1.26s/it] 48%|████▊     | 23517/48845 [8:19:43<8:51:40,  1.26s/it] 48%|████▊     | 23518/48845 [8:19:44<8:51:37,  1.26s/it] 48%|████▊     | 23519/48845 [8:19:45<8:51:43,  1.26s/it] 48%|████▊     | 23520/48845 [8:19:47<8:51:39,  1.26s/it]                                                         {'loss': 2.0142, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23520/48845 [8:19:47<8:51:39,  1.26s/it] 48%|████▊     | 23521/48845 [8:19:48<8:51:14,  1.26s/it] 48%|████▊     | 23522/48845 [8:19:49<8:51:24,  1.26s/it] 48%|████▊     | 23523/48845 [8:19:50<8:51:27,  1.26s/it] 48%|████▊     | 23524/48845 [8:19:52<8:51:30,  1.26s/it] 48%|████▊     | 23525/48845 [8:19:53<8:51:26,  1.26s/it]                                                         {'loss': 2.0782, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23525/48845 [8:19:53<8:51:26,  1.26s/it] 48%|████▊     | 23526/48845 [8:19:54<8:51:29,  1.26s/it] 48%|████▊     | 23527/48845 [8:19:55<8:51:23,  1.26s/it] 48%|████▊     | 23528/48845 [8:19:57<8:51:16,  1.26s/it] 48%|████▊     | 23529/48845 [8:19:58<8:51:14,  1.26s/it] 48%|████▊     | 23530/48845 [8:19:59<8:51:21,  1.26s/it]                                                         {'loss': 2.0275, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23530/48845 [8:19:59<8:51:21,  1.26s/it] 48%|████▊     | 23531/48845 [8:20:00<8:51:55,  1.26s/it] 48%|████▊     | 23532/48845 [8:20:02<8:51:56,  1.26s/it] 48%|████▊     | 23533/48845 [8:20:03<8:51:25,  1.26s/it] 48%|████▊     | 23534/48845 [8:20:04<8:51:04,  1.26s/it] 48%|████▊     | 23535/48845 [8:20:05<8:51:39,  1.26s/it]                                                         {'loss': 2.0281, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23535/48845 [8:20:05<8:51:39,  1.26s/it] 48%|████▊     | 23536/48845 [8:20:07<8:51:40,  1.26s/it] 48%|████▊     | 23537/48845 [8:20:08<8:52:17,  1.26s/it] 48%|████▊     | 23538/48845 [8:20:09<8:51:55,  1.26s/it] 48%|████▊     | 23539/48845 [8:20:10<8:51:41,  1.26s/it] 48%|████▊     | 23540/48845 [8:20:12<8:51:12,  1.26s/it]                                                         {'loss': 2.166, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23540/48845 [8:20:12<8:51:12,  1.26s/it] 48%|████▊     | 23541/48845 [8:20:13<8:51:39,  1.26s/it] 48%|████▊     | 23542/48845 [8:20:14<8:51:44,  1.26s/it] 48%|████▊     | 23543/48845 [8:20:15<8:51:42,  1.26s/it] 48%|████▊     | 23544/48845 [8:20:17<8:51:49,  1.26s/it] 48%|████▊     | 23545/48845 [8:20:18<8:51:55,  1.26s/it]                                                         {'loss': 2.0694, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23545/48845 [8:20:18<8:51:55,  1.26s/it] 48%|████▊     | 23546/48845 [8:20:19<8:52:11,  1.26s/it] 48%|████▊     | 23547/48845 [8:20:21<8:52:12,  1.26s/it] 48%|████▊     | 23548/48845 [8:20:22<8:51:30,  1.26s/it] 48%|████▊     | 23549/48845 [8:20:23<8:55:56,  1.27s/it] 48%|████▊     | 23550/48845 [8:20:24<8:54:32,  1.27s/it]                                                         {'loss': 2.1694, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23550/48845 [8:20:24<8:54:32,  1.27s/it] 48%|████▊     | 23551/48845 [8:20:26<8:53:44,  1.27s/it] 48%|████▊     | 23552/48845 [8:20:27<8:53:18,  1.27s/it] 48%|████▊     | 23553/48845 [8:20:28<9:02:07,  1.29s/it] 48%|████▊     | 23554/48845 [8:20:29<8:58:59,  1.28s/it] 48%|████▊     | 23555/48845 [8:20:31<8:56:14,  1.27s/it]                                                         {'loss': 2.0294, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23555/48845 [8:20:31<8:56:14,  1.27s/it] 48%|████▊     | 23556/48845 [8:20:32<8:54:37,  1.27s/it] 48%|████▊     | 23557/48845 [8:20:33<8:53:39,  1.27s/it] 48%|████▊     | 23558/48845 [8:20:35<8:52:40,  1.26s/it] 48%|████▊     | 23559/48845 [8:20:36<8:52:11,  1.26s/it] 48%|████▊     | 23560/48845 [8:20:37<8:51:41,  1.26s/it]                                                         {'loss': 1.9759, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23560/48845 [8:20:37<8:51:41,  1.26s/it] 48%|████▊     | 23561/48845 [8:20:38<8:51:59,  1.26s/it] 48%|████▊     | 23562/48845 [8:20:40<8:51:25,  1.26s/it] 48%|████▊     | 23563/48845 [8:20:41<8:51:10,  1.26s/it] 48%|████▊     | 23564/48845 [8:20:42<8:52:18,  1.26s/it] 48%|████▊     | 23565/48845 [8:20:43<8:52:09,  1.26s/it]                                                         {'loss': 2.1572, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23565/48845 [8:20:43<8:52:09,  1.26s/it] 48%|████▊     | 23566/48845 [8:20:45<8:51:59,  1.26s/it] 48%|████▊     | 23567/48845 [8:20:46<8:51:44,  1.26s/it] 48%|████▊     | 23568/48845 [8:20:47<8:51:24,  1.26s/it] 48%|████▊     | 23569/48845 [8:20:48<8:51:21,  1.26s/it] 48%|████▊     | 23570/48845 [8:20:50<8:50:59,  1.26s/it]                                                         {'loss': 2.1566, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23570/48845 [8:20:50<8:50:59,  1.26s/it] 48%|████▊     | 23571/48845 [8:20:51<8:50:52,  1.26s/it] 48%|████▊     | 23572/48845 [8:20:52<8:50:41,  1.26s/it] 48%|████▊     | 23573/48845 [8:20:53<8:50:47,  1.26s/it] 48%|████▊     | 23574/48845 [8:20:55<8:50:46,  1.26s/it] 48%|████▊     | 23575/48845 [8:20:56<8:51:08,  1.26s/it]                                                         {'loss': 2.1617, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23575/48845 [8:20:56<8:51:08,  1.26s/it] 48%|████▊     | 23576/48845 [8:20:57<8:51:01,  1.26s/it] 48%|████▊     | 23577/48845 [8:20:58<8:51:18,  1.26s/it] 48%|████▊     | 23578/48845 [8:21:00<8:51:05,  1.26s/it] 48%|████▊     | 23579/48845 [8:21:01<8:50:42,  1.26s/it] 48%|████▊     | 23580/48845 [8:21:02<8:50:52,  1.26s/it]                                                         {'loss': 2.064, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23580/48845 [8:21:02<8:50:52,  1.26s/it] 48%|████▊     | 23581/48845 [8:21:04<8:50:41,  1.26s/it] 48%|████▊     | 23582/48845 [8:21:05<8:50:45,  1.26s/it] 48%|████▊     | 23583/48845 [8:21:06<8:50:52,  1.26s/it] 48%|████▊     | 23584/48845 [8:21:07<8:50:45,  1.26s/it] 48%|████▊     | 23585/48845 [8:21:09<8:51:05,  1.26s/it]                                                         {'loss': 1.8953, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23585/48845 [8:21:09<8:51:05,  1.26s/it] 48%|████▊     | 23586/48845 [8:21:10<8:50:53,  1.26s/it] 48%|████▊     | 23587/48845 [8:21:11<8:51:02,  1.26s/it] 48%|████▊     | 23588/48845 [8:21:12<8:51:39,  1.26s/it] 48%|████▊     | 23589/48845 [8:21:14<8:51:32,  1.26s/it] 48%|████▊     | 23590/48845 [8:21:15<8:51:17,  1.26s/it]                                                         {'loss': 2.1265, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.41}
+ 48%|████▊     | 23590/48845 [8:21:15<8:51:17,  1.26s/it] 48%|████▊     | 23591/48845 [8:21:16<8:51:13,  1.26s/it] 48%|████▊     | 23592/48845 [8:21:17<8:50:42,  1.26s/it] 48%|████▊     | 23593/48845 [8:21:19<8:50:41,  1.26s/it] 48%|████▊     | 23594/48845 [8:21:20<8:50:23,  1.26s/it] 48%|████▊     | 23595/48845 [8:21:21<8:50:50,  1.26s/it]                                                         {'loss': 2.074, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23595/48845 [8:21:21<8:50:50,  1.26s/it] 48%|████▊     | 23596/48845 [8:21:22<8:51:20,  1.26s/it] 48%|████▊     | 23597/48845 [8:21:24<8:51:07,  1.26s/it] 48%|████▊     | 23598/48845 [8:21:25<8:51:28,  1.26s/it] 48%|████▊     | 23599/48845 [8:21:26<8:51:01,  1.26s/it] 48%|████▊     | 23600/48845 [8:21:27<8:50:59,  1.26s/it]                                                         {'loss': 2.0481, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23600/48845 [8:21:27<8:50:59,  1.26s/it] 48%|████▊     | 23601/48845 [8:21:31<13:57:14,  1.99s/it] 48%|████▊     | 23602/48845 [8:21:32<12:24:51,  1.77s/it] 48%|████▊     | 23603/48845 [8:21:34<11:20:11,  1.62s/it] 48%|████▊     | 23604/48845 [8:21:35<10:35:39,  1.51s/it] 48%|████▊     | 23605/48845 [8:21:36<10:04:01,  1.44s/it]                                                          {'loss': 1.99, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23605/48845 [8:21:36<10:04:01,  1.44s/it] 48%|████▊     | 23606/48845 [8:21:37<9:41:55,  1.38s/it]  48%|████▊     | 23607/48845 [8:21:39<9:27:11,  1.35s/it] 48%|████▊     | 23608/48845 [8:21:40<9:15:59,  1.32s/it] 48%|████▊     | 23609/48845 [8:21:41<9:08:21,  1.30s/it] 48%|████▊     | 23610/48845 [8:21:43<9:02:36,  1.29s/it]                                                         {'loss': 1.9047, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23610/48845 [8:21:43<9:02:36,  1.29s/it] 48%|████▊     | 23611/48845 [8:21:44<8:58:52,  1.28s/it] 48%|████▊     | 23612/48845 [8:21:45<8:56:56,  1.28s/it] 48%|████▊     | 23613/48845 [8:21:46<8:54:57,  1.27s/it] 48%|████▊     | 23614/48845 [8:21:48<8:53:30,  1.27s/it] 48%|████▊     | 23615/48845 [8:21:49<8:52:19,  1.27s/it]                                                         {'loss': 2.0587, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23615/48845 [8:21:49<8:52:19,  1.27s/it] 48%|████▊     | 23616/48845 [8:21:50<9:15:02,  1.32s/it] 48%|████▊     | 23617/48845 [8:21:52<9:07:51,  1.30s/it] 48%|████▊     | 23618/48845 [8:21:53<9:02:34,  1.29s/it] 48%|████▊     | 23619/48845 [8:21:54<8:58:38,  1.28s/it] 48%|████▊     | 23620/48845 [8:21:55<8:56:17,  1.28s/it]                                                         {'loss': 2.0903, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23620/48845 [8:21:55<8:56:17,  1.28s/it] 48%|████▊     | 23621/48845 [8:21:57<8:54:45,  1.27s/it] 48%|████▊     | 23622/48845 [8:21:58<8:53:25,  1.27s/it] 48%|████▊     | 23623/48845 [8:21:59<8:52:38,  1.27s/it] 48%|████▊     | 23624/48845 [8:22:00<8:51:34,  1.26s/it] 48%|████▊     | 23625/48845 [8:22:02<8:51:41,  1.26s/it]                                                         {'loss': 2.0517, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23625/48845 [8:22:02<8:51:41,  1.26s/it] 48%|████▊     | 23626/48845 [8:22:03<8:51:19,  1.26s/it] 48%|████▊     | 23627/48845 [8:22:04<8:50:49,  1.26s/it] 48%|████▊     | 23628/48845 [8:22:05<8:50:22,  1.26s/it] 48%|████▊     | 23629/48845 [8:22:07<8:50:05,  1.26s/it] 48%|████▊     | 23630/48845 [8:22:08<8:50:32,  1.26s/it]                                                         {'loss': 1.9356, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23630/48845 [8:22:08<8:50:32,  1.26s/it] 48%|████▊     | 23631/48845 [8:22:09<8:50:17,  1.26s/it] 48%|████▊     | 23632/48845 [8:22:10<8:50:22,  1.26s/it] 48%|████▊     | 23633/48845 [8:22:12<8:50:20,  1.26s/it] 48%|████▊     | 23634/48845 [8:22:13<8:50:20,  1.26s/it] 48%|████▊     | 23635/48845 [8:22:14<8:50:12,  1.26s/it]                                                         {'loss': 2.0361, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23635/48845 [8:22:14<8:50:12,  1.26s/it] 48%|████▊     | 23636/48845 [8:22:16<8:50:13,  1.26s/it] 48%|████▊     | 23637/48845 [8:22:17<8:50:16,  1.26s/it] 48%|████▊     | 23638/48845 [8:22:18<8:50:20,  1.26s/it] 48%|████▊     | 23639/48845 [8:22:19<8:50:04,  1.26s/it] 48%|████▊     | 23640/48845 [8:22:21<8:49:58,  1.26s/it]                                                         {'loss': 2.1499, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23640/48845 [8:22:21<8:49:58,  1.26s/it] 48%|████▊     | 23641/48845 [8:22:22<8:50:00,  1.26s/it] 48%|████▊     | 23642/48845 [8:22:23<8:49:36,  1.26s/it] 48%|████▊     | 23643/48845 [8:22:24<8:49:57,  1.26s/it] 48%|████▊     | 23644/48845 [8:22:26<8:50:03,  1.26s/it] 48%|████▊     | 23645/48845 [8:22:27<8:50:10,  1.26s/it]                                                         {'loss': 2.1273, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23645/48845 [8:22:27<8:50:10,  1.26s/it] 48%|████▊     | 23646/48845 [8:22:28<8:50:04,  1.26s/it] 48%|████▊     | 23647/48845 [8:22:29<8:49:25,  1.26s/it] 48%|████▊     | 23648/48845 [8:22:31<8:49:23,  1.26s/it] 48%|████▊     | 23649/48845 [8:22:32<8:49:19,  1.26s/it] 48%|████▊     | 23650/48845 [8:22:33<8:49:03,  1.26s/it]                                                         {'loss': 2.0082, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23650/48845 [8:22:33<8:49:03,  1.26s/it] 48%|████▊     | 23651/48845 [8:22:34<8:49:27,  1.26s/it] 48%|████▊     | 23652/48845 [8:22:36<8:49:27,  1.26s/it] 48%|████▊     | 23653/48845 [8:22:37<8:49:47,  1.26s/it] 48%|████▊     | 23654/48845 [8:22:38<8:48:48,  1.26s/it] 48%|████▊     | 23655/48845 [8:22:39<8:49:27,  1.26s/it]                                                         {'loss': 1.99, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23655/48845 [8:22:39<8:49:27,  1.26s/it] 48%|████▊     | 23656/48845 [8:22:41<8:50:12,  1.26s/it] 48%|████▊     | 23657/48845 [8:22:42<8:49:53,  1.26s/it] 48%|████▊     | 23658/48845 [8:22:43<8:49:42,  1.26s/it] 48%|████▊     | 23659/48845 [8:22:45<8:49:38,  1.26s/it] 48%|████▊     | 23660/48845 [8:22:46<8:49:31,  1.26s/it]                                                         {'loss': 2.0125, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23660/48845 [8:22:46<8:49:31,  1.26s/it] 48%|████▊     | 23661/48845 [8:22:47<8:49:20,  1.26s/it] 48%|████▊     | 23662/48845 [8:22:48<8:49:59,  1.26s/it] 48%|████▊     | 23663/48845 [8:22:50<8:49:40,  1.26s/it] 48%|████▊     | 23664/48845 [8:22:51<8:49:27,  1.26s/it] 48%|████▊     | 23665/48845 [8:22:52<8:49:49,  1.26s/it]                                                         {'loss': 2.1628, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23665/48845 [8:22:52<8:49:49,  1.26s/it] 48%|████▊     | 23666/48845 [8:22:53<8:49:39,  1.26s/it] 48%|████▊     | 23667/48845 [8:22:55<8:49:44,  1.26s/it] 48%|████▊     | 23668/48845 [8:22:56<8:49:19,  1.26s/it] 48%|████▊     | 23669/48845 [8:22:57<8:49:49,  1.26s/it] 48%|████▊     | 23670/48845 [8:22:58<8:49:50,  1.26s/it]                                                         {'loss': 2.0207, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23670/48845 [8:22:58<8:49:50,  1.26s/it] 48%|████▊     | 23671/48845 [8:23:00<8:49:40,  1.26s/it] 48%|████▊     | 23672/48845 [8:23:01<8:49:31,  1.26s/it] 48%|████▊     | 23673/48845 [8:23:02<8:49:00,  1.26s/it] 48%|████▊     | 23674/48845 [8:23:03<8:49:12,  1.26s/it] 48%|████▊     | 23675/48845 [8:23:05<8:49:36,  1.26s/it]                                                         {'loss': 2.0655, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23675/48845 [8:23:05<8:49:36,  1.26s/it] 48%|████▊     | 23676/48845 [8:23:06<8:50:09,  1.26s/it] 48%|████▊     | 23677/48845 [8:23:07<8:49:53,  1.26s/it] 48%|████▊     | 23678/48845 [8:23:09<8:49:24,  1.26s/it] 48%|████▊     | 23679/48845 [8:23:10<8:49:27,  1.26s/it] 48%|████▊     | 23680/48845 [8:23:11<8:49:30,  1.26s/it]                                                         {'loss': 2.0417, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23680/48845 [8:23:11<8:49:30,  1.26s/it] 48%|████▊     | 23681/48845 [8:23:12<8:49:24,  1.26s/it] 48%|████▊     | 23682/48845 [8:23:14<8:48:56,  1.26s/it] 48%|████▊     | 23683/48845 [8:23:15<8:48:54,  1.26s/it] 48%|████▊     | 23684/48845 [8:23:16<8:49:14,  1.26s/it] 48%|████▊     | 23685/48845 [8:23:17<8:48:52,  1.26s/it]                                                         {'loss': 2.1189, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.42}
+ 48%|████▊     | 23685/48845 [8:23:17<8:48:52,  1.26s/it] 48%|████▊     | 23686/48845 [8:23:19<8:49:02,  1.26s/it] 48%|████▊     | 23687/48845 [8:23:20<8:48:51,  1.26s/it] 48%|████▊     | 23688/48845 [8:23:21<9:07:40,  1.31s/it] 48%|████▊     | 23689/48845 [8:23:23<9:02:16,  1.29s/it] 49%|████▊     | 23690/48845 [8:23:24<8:57:40,  1.28s/it]                                                         {'loss': 1.9807, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23690/48845 [8:23:24<8:57:40,  1.28s/it] 49%|████▊     | 23691/48845 [8:23:25<8:54:43,  1.28s/it] 49%|████▊     | 23692/48845 [8:23:26<8:53:40,  1.27s/it] 49%|████▊     | 23693/48845 [8:23:28<8:51:56,  1.27s/it] 49%|████▊     | 23694/48845 [8:23:29<8:51:08,  1.27s/it] 49%|████▊     | 23695/48845 [8:23:30<8:50:16,  1.27s/it]                                                         {'loss': 2.1291, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23695/48845 [8:23:30<8:50:16,  1.27s/it] 49%|████▊     | 23696/48845 [8:23:31<8:49:43,  1.26s/it] 49%|████▊     | 23697/48845 [8:23:33<8:49:00,  1.26s/it] 49%|████▊     | 23698/48845 [8:23:34<8:48:34,  1.26s/it] 49%|████▊     | 23699/48845 [8:23:35<8:48:08,  1.26s/it] 49%|████▊     | 23700/48845 [8:23:36<8:48:01,  1.26s/it]                                                         {'loss': 1.9182, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23700/48845 [8:23:36<8:48:01,  1.26s/it] 49%|████▊     | 23701/48845 [8:23:38<8:48:52,  1.26s/it] 49%|████▊     | 23702/48845 [8:23:39<8:48:49,  1.26s/it] 49%|████▊     | 23703/48845 [8:23:40<8:48:37,  1.26s/it] 49%|████▊     | 23704/48845 [8:23:41<8:48:09,  1.26s/it] 49%|████▊     | 23705/48845 [8:23:43<8:49:05,  1.26s/it]                                                         {'loss': 2.0451, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23705/48845 [8:23:43<8:49:05,  1.26s/it] 49%|████▊     | 23706/48845 [8:23:44<8:49:00,  1.26s/it] 49%|████▊     | 23707/48845 [8:23:45<8:48:58,  1.26s/it] 49%|████▊     | 23708/48845 [8:23:46<8:48:30,  1.26s/it] 49%|████▊     | 23709/48845 [8:23:48<8:48:04,  1.26s/it] 49%|████▊     | 23710/48845 [8:23:49<8:48:00,  1.26s/it]                                                         {'loss': 2.0156, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23710/48845 [8:23:49<8:48:00,  1.26s/it] 49%|████▊     | 23711/48845 [8:23:50<8:47:52,  1.26s/it] 49%|████▊     | 23712/48845 [8:23:52<8:48:05,  1.26s/it] 49%|████▊     | 23713/48845 [8:23:53<8:48:09,  1.26s/it] 49%|████▊     | 23714/48845 [8:23:54<8:48:28,  1.26s/it] 49%|████▊     | 23715/48845 [8:23:55<8:48:05,  1.26s/it]                                                         {'loss': 2.0792, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23715/48845 [8:23:55<8:48:05,  1.26s/it] 49%|████▊     | 23716/48845 [8:23:57<8:47:50,  1.26s/it] 49%|████▊     | 23717/48845 [8:23:58<8:47:50,  1.26s/it] 49%|████▊     | 23718/48845 [8:23:59<8:48:43,  1.26s/it] 49%|████▊     | 23719/48845 [8:24:00<8:47:54,  1.26s/it] 49%|████▊     | 23720/48845 [8:24:02<8:47:43,  1.26s/it]                                                         {'loss': 2.0588, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23720/48845 [8:24:02<8:47:43,  1.26s/it] 49%|████▊     | 23721/48845 [8:24:03<8:47:15,  1.26s/it] 49%|████▊     | 23722/48845 [8:24:04<8:47:08,  1.26s/it] 49%|████▊     | 23723/48845 [8:24:05<8:47:02,  1.26s/it] 49%|████▊     | 23724/48845 [8:24:07<8:47:27,  1.26s/it] 49%|████▊     | 23725/48845 [8:24:08<8:47:15,  1.26s/it]                                                         {'loss': 2.0311, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23725/48845 [8:24:08<8:47:15,  1.26s/it] 49%|████▊     | 23726/48845 [8:24:09<8:47:13,  1.26s/it] 49%|████▊     | 23727/48845 [8:24:10<8:47:30,  1.26s/it] 49%|████▊     | 23728/48845 [8:24:12<8:47:37,  1.26s/it] 49%|████▊     | 23729/48845 [8:24:13<8:47:09,  1.26s/it] 49%|████▊     | 23730/48845 [8:24:14<8:47:20,  1.26s/it]                                                         {'loss': 2.1511, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23730/48845 [8:24:14<8:47:20,  1.26s/it] 49%|████▊     | 23731/48845 [8:24:15<8:47:17,  1.26s/it] 49%|████▊     | 23732/48845 [8:24:17<8:47:26,  1.26s/it] 49%|████▊     | 23733/48845 [8:24:18<8:47:58,  1.26s/it] 49%|████▊     | 23734/48845 [8:24:19<8:48:24,  1.26s/it] 49%|████▊     | 23735/48845 [8:24:21<8:48:15,  1.26s/it]                                                         {'loss': 2.1262, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23735/48845 [8:24:21<8:48:15,  1.26s/it] 49%|████▊     | 23736/48845 [8:24:22<8:48:07,  1.26s/it] 49%|████▊     | 23737/48845 [8:24:23<8:47:07,  1.26s/it] 49%|████▊     | 23738/48845 [8:24:24<8:46:50,  1.26s/it] 49%|████▊     | 23739/48845 [8:24:26<8:47:05,  1.26s/it] 49%|████▊     | 23740/48845 [8:24:27<8:47:27,  1.26s/it]                                                         {'loss': 2.0752, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23740/48845 [8:24:27<8:47:27,  1.26s/it] 49%|████▊     | 23741/48845 [8:24:28<8:47:36,  1.26s/it] 49%|████▊     | 23742/48845 [8:24:29<8:47:24,  1.26s/it] 49%|████▊     | 23743/48845 [8:24:31<8:47:40,  1.26s/it] 49%|████▊     | 23744/48845 [8:24:32<8:47:18,  1.26s/it] 49%|████▊     | 23745/48845 [8:24:33<8:47:12,  1.26s/it]                                                         {'loss': 1.9744, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23745/48845 [8:24:33<8:47:12,  1.26s/it] 49%|████▊     | 23746/48845 [8:24:34<8:47:09,  1.26s/it] 49%|████▊     | 23747/48845 [8:24:36<8:47:02,  1.26s/it] 49%|████▊     | 23748/48845 [8:24:37<8:47:17,  1.26s/it] 49%|████▊     | 23749/48845 [8:24:38<8:46:59,  1.26s/it] 49%|████▊     | 23750/48845 [8:24:39<8:46:46,  1.26s/it]                                                         {'loss': 1.9637, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23750/48845 [8:24:39<8:46:46,  1.26s/it] 49%|████▊     | 23751/48845 [8:24:41<8:47:06,  1.26s/it] 49%|████▊     | 23752/48845 [8:24:42<8:46:52,  1.26s/it] 49%|████▊     | 23753/48845 [8:24:43<8:47:22,  1.26s/it] 49%|████▊     | 23754/48845 [8:24:44<8:47:17,  1.26s/it] 49%|████▊     | 23755/48845 [8:24:46<8:46:53,  1.26s/it]                                                         {'loss': 2.0962, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23755/48845 [8:24:46<8:46:53,  1.26s/it] 49%|████▊     | 23756/48845 [8:24:47<8:46:41,  1.26s/it] 49%|████▊     | 23757/48845 [8:24:48<8:46:39,  1.26s/it] 49%|████▊     | 23758/48845 [8:24:50<8:46:57,  1.26s/it] 49%|████▊     | 23759/48845 [8:24:51<8:46:39,  1.26s/it] 49%|████▊     | 23760/48845 [8:24:52<8:46:16,  1.26s/it]                                                         {'loss': 2.0506, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23760/48845 [8:24:52<8:46:16,  1.26s/it] 49%|████▊     | 23761/48845 [8:24:53<8:46:35,  1.26s/it] 49%|████▊     | 23762/48845 [8:24:55<8:46:22,  1.26s/it] 49%|████▊     | 23763/48845 [8:24:56<8:46:43,  1.26s/it] 49%|████▊     | 23764/48845 [8:24:57<8:46:20,  1.26s/it] 49%|████▊     | 23765/48845 [8:24:58<8:46:16,  1.26s/it]                                                         {'loss': 2.01, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23765/48845 [8:24:58<8:46:16,  1.26s/it] 49%|████▊     | 23766/48845 [8:25:00<8:46:34,  1.26s/it] 49%|████▊     | 23767/48845 [8:25:01<8:46:27,  1.26s/it] 49%|████▊     | 23768/48845 [8:25:02<8:46:07,  1.26s/it] 49%|████▊     | 23769/48845 [8:25:03<8:46:04,  1.26s/it] 49%|████▊     | 23770/48845 [8:25:05<8:46:16,  1.26s/it]                                                         {'loss': 2.1866, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23770/48845 [8:25:05<8:46:16,  1.26s/it] 49%|████▊     | 23771/48845 [8:25:06<8:46:45,  1.26s/it] 49%|████▊     | 23772/48845 [8:25:07<8:46:03,  1.26s/it] 49%|████▊     | 23773/48845 [8:25:08<8:46:13,  1.26s/it] 49%|████▊     | 23774/48845 [8:25:10<8:46:14,  1.26s/it] 49%|████▊     | 23775/48845 [8:25:11<8:46:02,  1.26s/it]                                                         {'loss': 2.0301, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23775/48845 [8:25:11<8:46:02,  1.26s/it] 49%|████▊     | 23776/48845 [8:25:12<8:46:22,  1.26s/it] 49%|████▊     | 23777/48845 [8:25:13<8:46:06,  1.26s/it] 49%|████▊     | 23778/48845 [8:25:15<8:46:05,  1.26s/it] 49%|████▊     | 23779/48845 [8:25:16<8:46:10,  1.26s/it] 49%|████▊     | 23780/48845 [8:25:17<8:46:05,  1.26s/it]                                                         {'loss': 2.1125, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23780/48845 [8:25:17<8:46:05,  1.26s/it] 49%|████▊     | 23781/48845 [8:25:18<8:46:16,  1.26s/it] 49%|████▊     | 23782/48845 [8:25:20<8:46:20,  1.26s/it] 49%|████▊     | 23783/48845 [8:25:21<8:46:25,  1.26s/it] 49%|████▊     | 23784/48845 [8:25:22<8:46:46,  1.26s/it] 49%|████▊     | 23785/48845 [8:25:24<8:46:07,  1.26s/it]                                                         {'loss': 1.977, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.43}
+ 49%|████▊     | 23785/48845 [8:25:24<8:46:07,  1.26s/it] 49%|████▊     | 23786/48845 [8:25:25<8:46:25,  1.26s/it] 49%|████▊     | 23787/48845 [8:25:26<8:46:19,  1.26s/it] 49%|████▊     | 23788/48845 [8:25:27<8:46:22,  1.26s/it] 49%|████▊     | 23789/48845 [8:25:29<8:46:03,  1.26s/it] 49%|████▊     | 23790/48845 [8:25:30<8:45:48,  1.26s/it]                                                         {'loss': 2.1307, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▊     | 23790/48845 [8:25:30<8:45:48,  1.26s/it] 49%|████▊     | 23791/48845 [8:25:31<8:46:01,  1.26s/it] 49%|████▊     | 23792/48845 [8:25:32<8:46:00,  1.26s/it] 49%|████▊     | 23793/48845 [8:25:34<8:46:04,  1.26s/it] 49%|████▊     | 23794/48845 [8:25:35<8:46:27,  1.26s/it] 49%|████▊     | 23795/48845 [8:25:36<8:45:29,  1.26s/it]                                                         {'loss': 2.0168, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▊     | 23795/48845 [8:25:36<8:45:29,  1.26s/it] 49%|████▊     | 23796/48845 [8:25:37<8:46:14,  1.26s/it] 49%|████▊     | 23797/48845 [8:25:39<8:47:11,  1.26s/it] 49%|████▊     | 23798/48845 [8:25:40<8:46:55,  1.26s/it] 49%|████▊     | 23799/48845 [8:25:41<8:46:33,  1.26s/it] 49%|████▊     | 23800/48845 [8:25:42<8:46:32,  1.26s/it]                                                         {'loss': 1.9777, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▊     | 23800/48845 [8:25:42<8:46:32,  1.26s/it] 49%|████▊     | 23801/48845 [8:25:46<13:52:02,  1.99s/it] 49%|████▊     | 23802/48845 [8:25:47<12:20:28,  1.77s/it] 49%|████▊     | 23803/48845 [8:25:49<11:15:37,  1.62s/it] 49%|████▊     | 23804/48845 [8:25:50<10:30:22,  1.51s/it] 49%|████▊     | 23805/48845 [8:25:51<9:59:08,  1.44s/it]                                                          {'loss': 1.9037, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▊     | 23805/48845 [8:25:51<9:59:08,  1.44s/it] 49%|████▊     | 23806/48845 [8:25:52<9:36:46,  1.38s/it] 49%|████▊     | 23807/48845 [8:25:54<9:20:52,  1.34s/it] 49%|████▊     | 23808/48845 [8:25:55<9:10:46,  1.32s/it] 49%|████▊     | 23809/48845 [8:25:56<9:02:58,  1.30s/it] 49%|████▊     | 23810/48845 [8:25:57<8:58:39,  1.29s/it]                                                         {'loss': 2.007, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▊     | 23810/48845 [8:25:57<8:58:39,  1.29s/it] 49%|████▊     | 23811/48845 [8:25:59<8:56:33,  1.29s/it] 49%|████▉     | 23812/48845 [8:26:00<8:52:48,  1.28s/it] 49%|████▉     | 23813/48845 [8:26:01<8:50:43,  1.27s/it] 49%|████▉     | 23814/48845 [8:26:03<8:48:50,  1.27s/it] 49%|████▉     | 23815/48845 [8:26:04<8:47:38,  1.26s/it]                                                         {'loss': 2.0883, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23815/48845 [8:26:04<8:47:38,  1.26s/it] 49%|████▉     | 23816/48845 [8:26:05<8:47:04,  1.26s/it] 49%|████▉     | 23817/48845 [8:26:06<8:47:04,  1.26s/it] 49%|████▉     | 23818/48845 [8:26:08<8:46:32,  1.26s/it] 49%|████▉     | 23819/48845 [8:26:09<8:46:15,  1.26s/it] 49%|████▉     | 23820/48845 [8:26:10<8:46:09,  1.26s/it]                                                         {'loss': 1.9485, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23820/48845 [8:26:10<8:46:09,  1.26s/it] 49%|████▉     | 23821/48845 [8:26:11<8:45:49,  1.26s/it] 49%|████▉     | 23822/48845 [8:26:13<8:45:46,  1.26s/it] 49%|████▉     | 23823/48845 [8:26:14<8:46:13,  1.26s/it] 49%|████▉     | 23824/48845 [8:26:15<8:45:44,  1.26s/it] 49%|████▉     | 23825/48845 [8:26:16<8:45:53,  1.26s/it]                                                         {'loss': 2.0578, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23825/48845 [8:26:16<8:45:53,  1.26s/it] 49%|████▉     | 23826/48845 [8:26:18<8:45:33,  1.26s/it] 49%|████▉     | 23827/48845 [8:26:19<8:45:38,  1.26s/it] 49%|████▉     | 23828/48845 [8:26:20<8:45:26,  1.26s/it] 49%|████▉     | 23829/48845 [8:26:21<8:44:57,  1.26s/it] 49%|████▉     | 23830/48845 [8:26:23<8:44:37,  1.26s/it]                                                         {'loss': 2.0807, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23830/48845 [8:26:23<8:44:37,  1.26s/it] 49%|████▉     | 23831/48845 [8:26:24<8:44:43,  1.26s/it] 49%|████▉     | 23832/48845 [8:26:25<8:44:59,  1.26s/it] 49%|████▉     | 23833/48845 [8:26:26<8:45:05,  1.26s/it] 49%|████▉     | 23834/48845 [8:26:28<8:44:31,  1.26s/it] 49%|████▉     | 23835/48845 [8:26:29<8:45:00,  1.26s/it]                                                         {'loss': 2.0677, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23835/48845 [8:26:29<8:45:00,  1.26s/it] 49%|████▉     | 23836/48845 [8:26:30<8:45:45,  1.26s/it] 49%|████▉     | 23837/48845 [8:26:31<8:44:43,  1.26s/it] 49%|████▉     | 23838/48845 [8:26:33<8:45:19,  1.26s/it] 49%|████▉     | 23839/48845 [8:26:34<8:44:40,  1.26s/it] 49%|████▉     | 23840/48845 [8:26:35<8:54:13,  1.28s/it]                                                         {'loss': 2.1007, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23840/48845 [8:26:35<8:54:13,  1.28s/it] 49%|████▉     | 23841/48845 [8:26:37<8:50:57,  1.27s/it] 49%|████▉     | 23842/48845 [8:26:38<8:50:02,  1.27s/it] 49%|████▉     | 23843/48845 [8:26:39<8:48:16,  1.27s/it] 49%|████▉     | 23844/48845 [8:26:40<8:47:12,  1.27s/it] 49%|████▉     | 23845/48845 [8:26:42<8:46:24,  1.26s/it]                                                         {'loss': 2.0753, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23845/48845 [8:26:42<8:46:24,  1.26s/it] 49%|████▉     | 23846/48845 [8:26:43<8:46:05,  1.26s/it] 49%|████▉     | 23847/48845 [8:26:44<8:45:27,  1.26s/it] 49%|████▉     | 23848/48845 [8:26:45<8:45:28,  1.26s/it] 49%|████▉     | 23849/48845 [8:26:47<8:44:42,  1.26s/it] 49%|████▉     | 23850/48845 [8:26:48<8:44:52,  1.26s/it]                                                         {'loss': 2.2048, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23850/48845 [8:26:48<8:44:52,  1.26s/it] 49%|████▉     | 23851/48845 [8:26:49<8:45:00,  1.26s/it] 49%|████▉     | 23852/48845 [8:26:50<8:45:02,  1.26s/it] 49%|████▉     | 23853/48845 [8:26:52<8:44:32,  1.26s/it] 49%|████▉     | 23854/48845 [8:26:53<8:44:55,  1.26s/it] 49%|████▉     | 23855/48845 [8:26:54<8:44:53,  1.26s/it]                                                         {'loss': 1.9131, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23855/48845 [8:26:54<8:44:53,  1.26s/it] 49%|████▉     | 23856/48845 [8:26:56<8:44:41,  1.26s/it] 49%|████▉     | 23857/48845 [8:26:57<8:44:45,  1.26s/it] 49%|████▉     | 23858/48845 [8:26:58<8:44:34,  1.26s/it] 49%|████▉     | 23859/48845 [8:26:59<8:44:37,  1.26s/it] 49%|████▉     | 23860/48845 [8:27:01<8:44:50,  1.26s/it]                                                         {'loss': 1.9909, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23860/48845 [8:27:01<8:44:50,  1.26s/it] 49%|████▉     | 23861/48845 [8:27:02<8:44:42,  1.26s/it] 49%|████▉     | 23862/48845 [8:27:03<8:44:31,  1.26s/it] 49%|████▉     | 23863/48845 [8:27:04<8:44:18,  1.26s/it] 49%|████▉     | 23864/48845 [8:27:06<8:43:58,  1.26s/it] 49%|████▉     | 23865/48845 [8:27:07<8:44:25,  1.26s/it]                                                         {'loss': 2.013, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23865/48845 [8:27:07<8:44:25,  1.26s/it] 49%|████▉     | 23866/48845 [8:27:08<8:44:23,  1.26s/it] 49%|████▉     | 23867/48845 [8:27:09<8:44:26,  1.26s/it] 49%|████▉     | 23868/48845 [8:27:11<8:44:27,  1.26s/it] 49%|████▉     | 23869/48845 [8:27:12<8:44:08,  1.26s/it] 49%|████▉     | 23870/48845 [8:27:13<8:44:13,  1.26s/it]                                                         {'loss': 2.1026, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23870/48845 [8:27:13<8:44:13,  1.26s/it] 49%|████▉     | 23871/48845 [8:27:14<8:44:34,  1.26s/it] 49%|████▉     | 23872/48845 [8:27:16<8:45:09,  1.26s/it] 49%|████▉     | 23873/48845 [8:27:17<8:45:03,  1.26s/it] 49%|████▉     | 23874/48845 [8:27:18<8:45:03,  1.26s/it] 49%|████▉     | 23875/48845 [8:27:19<8:44:49,  1.26s/it]                                                         {'loss': 1.9137, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23875/48845 [8:27:19<8:44:49,  1.26s/it] 49%|████▉     | 23876/48845 [8:27:21<8:44:29,  1.26s/it] 49%|████▉     | 23877/48845 [8:27:22<8:44:20,  1.26s/it] 49%|████▉     | 23878/48845 [8:27:23<8:44:25,  1.26s/it] 49%|████▉     | 23879/48845 [8:27:24<8:43:41,  1.26s/it] 49%|████▉     | 23880/48845 [8:27:26<8:43:42,  1.26s/it]                                                         {'loss': 2.0836, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23880/48845 [8:27:26<8:43:42,  1.26s/it] 49%|████▉     | 23881/48845 [8:27:27<8:43:34,  1.26s/it] 49%|████▉     | 23882/48845 [8:27:28<8:43:18,  1.26s/it] 49%|████▉     | 23883/48845 [8:27:30<8:43:28,  1.26s/it] 49%|████▉     | 23884/48845 [8:27:31<8:43:41,  1.26s/it] 49%|████▉     | 23885/48845 [8:27:32<8:43:45,  1.26s/it]                                                         {'loss': 2.0114, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.44}
+ 49%|████▉     | 23885/48845 [8:27:32<8:43:45,  1.26s/it] 49%|████▉     | 23886/48845 [8:27:33<8:43:53,  1.26s/it] 49%|████▉     | 23887/48845 [8:27:35<8:43:41,  1.26s/it] 49%|████▉     | 23888/48845 [8:27:36<8:44:20,  1.26s/it] 49%|████▉     | 23889/48845 [8:27:37<8:43:45,  1.26s/it] 49%|████▉     | 23890/48845 [8:27:38<8:43:57,  1.26s/it]                                                         {'loss': 2.165, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23890/48845 [8:27:38<8:43:57,  1.26s/it] 49%|████▉     | 23891/48845 [8:27:40<8:44:25,  1.26s/it] 49%|████▉     | 23892/48845 [8:27:41<8:43:55,  1.26s/it] 49%|████▉     | 23893/48845 [8:27:42<8:43:21,  1.26s/it] 49%|████▉     | 23894/48845 [8:27:43<8:43:20,  1.26s/it] 49%|████▉     | 23895/48845 [8:27:45<8:43:38,  1.26s/it]                                                         {'loss': 1.8544, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23895/48845 [8:27:45<8:43:38,  1.26s/it] 49%|████▉     | 23896/48845 [8:27:46<8:43:40,  1.26s/it] 49%|████▉     | 23897/48845 [8:27:47<8:43:36,  1.26s/it] 49%|████▉     | 23898/48845 [8:27:48<8:43:45,  1.26s/it] 49%|████▉     | 23899/48845 [8:27:50<8:43:39,  1.26s/it] 49%|████▉     | 23900/48845 [8:27:51<8:43:50,  1.26s/it]                                                         {'loss': 1.9583, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23900/48845 [8:27:51<8:43:50,  1.26s/it] 49%|████▉     | 23901/48845 [8:27:52<8:43:42,  1.26s/it] 49%|████▉     | 23902/48845 [8:27:53<8:43:44,  1.26s/it] 49%|████▉     | 23903/48845 [8:27:55<8:43:43,  1.26s/it] 49%|████▉     | 23904/48845 [8:27:56<8:43:40,  1.26s/it] 49%|████▉     | 23905/48845 [8:27:57<8:43:24,  1.26s/it]                                                         {'loss': 1.9887, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23905/48845 [8:27:57<8:43:24,  1.26s/it] 49%|████▉     | 23906/48845 [8:27:58<8:43:19,  1.26s/it] 49%|████▉     | 23907/48845 [8:28:00<8:43:30,  1.26s/it] 49%|████▉     | 23908/48845 [8:28:01<8:43:12,  1.26s/it] 49%|████▉     | 23909/48845 [8:28:02<8:43:21,  1.26s/it] 49%|████▉     | 23910/48845 [8:28:04<8:43:40,  1.26s/it]                                                         {'loss': 2.1538, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23910/48845 [8:28:04<8:43:40,  1.26s/it] 49%|████▉     | 23911/48845 [8:28:05<8:43:32,  1.26s/it] 49%|████▉     | 23912/48845 [8:28:06<8:43:13,  1.26s/it] 49%|████▉     | 23913/48845 [8:28:07<8:43:16,  1.26s/it] 49%|████▉     | 23914/48845 [8:28:09<8:42:59,  1.26s/it] 49%|████▉     | 23915/48845 [8:28:10<8:43:12,  1.26s/it]                                                         {'loss': 2.1662, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23915/48845 [8:28:10<8:43:12,  1.26s/it] 49%|████▉     | 23916/48845 [8:28:11<8:43:27,  1.26s/it] 49%|████▉     | 23917/48845 [8:28:12<8:43:27,  1.26s/it] 49%|████▉     | 23918/48845 [8:28:14<8:43:29,  1.26s/it] 49%|████▉     | 23919/48845 [8:28:15<8:43:34,  1.26s/it] 49%|████▉     | 23920/48845 [8:28:16<8:43:26,  1.26s/it]                                                         {'loss': 1.9089, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23920/48845 [8:28:16<8:43:26,  1.26s/it] 49%|████▉     | 23921/48845 [8:28:17<8:43:19,  1.26s/it] 49%|████▉     | 23922/48845 [8:28:19<8:42:57,  1.26s/it] 49%|████▉     | 23923/48845 [8:28:20<8:43:20,  1.26s/it] 49%|████▉     | 23924/48845 [8:28:21<8:43:52,  1.26s/it] 49%|████▉     | 23925/48845 [8:28:22<8:43:30,  1.26s/it]                                                         {'loss': 2.2025, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23925/48845 [8:28:22<8:43:30,  1.26s/it] 49%|████▉     | 23926/48845 [8:28:24<8:43:21,  1.26s/it] 49%|████▉     | 23927/48845 [8:28:25<8:43:09,  1.26s/it] 49%|████▉     | 23928/48845 [8:28:26<8:43:21,  1.26s/it] 49%|████▉     | 23929/48845 [8:28:27<8:43:18,  1.26s/it] 49%|████▉     | 23930/48845 [8:28:29<8:43:16,  1.26s/it]                                                         {'loss': 2.0376, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23930/48845 [8:28:29<8:43:16,  1.26s/it] 49%|████▉     | 23931/48845 [8:28:30<8:43:38,  1.26s/it] 49%|████▉     | 23932/48845 [8:28:31<8:43:34,  1.26s/it] 49%|████▉     | 23933/48845 [8:28:33<8:43:23,  1.26s/it] 49%|████▉     | 23934/48845 [8:28:34<8:43:24,  1.26s/it] 49%|████▉     | 23935/48845 [8:28:35<8:43:41,  1.26s/it]                                                         {'loss': 2.1385, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23935/48845 [8:28:35<8:43:41,  1.26s/it] 49%|████▉     | 23936/48845 [8:28:36<8:44:01,  1.26s/it] 49%|████▉     | 23937/48845 [8:28:38<8:44:14,  1.26s/it] 49%|████▉     | 23938/48845 [8:28:39<8:43:44,  1.26s/it] 49%|████▉     | 23939/48845 [8:28:40<8:43:23,  1.26s/it] 49%|████▉     | 23940/48845 [8:28:41<8:42:58,  1.26s/it]                                                         {'loss': 2.2803, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23940/48845 [8:28:41<8:42:58,  1.26s/it] 49%|████▉     | 23941/48845 [8:28:43<8:47:41,  1.27s/it] 49%|████▉     | 23942/48845 [8:28:44<8:46:18,  1.27s/it] 49%|████▉     | 23943/48845 [8:28:45<8:45:47,  1.27s/it] 49%|████▉     | 23944/48845 [8:28:46<8:44:57,  1.26s/it] 49%|████▉     | 23945/48845 [8:28:48<8:44:14,  1.26s/it]                                                         {'loss': 2.116, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23945/48845 [8:28:48<8:44:14,  1.26s/it] 49%|████▉     | 23946/48845 [8:28:49<8:44:07,  1.26s/it] 49%|████▉     | 23947/48845 [8:28:50<8:44:02,  1.26s/it] 49%|████▉     | 23948/48845 [8:28:51<8:43:02,  1.26s/it] 49%|████▉     | 23949/48845 [8:28:53<8:42:53,  1.26s/it] 49%|████▉     | 23950/48845 [8:28:54<8:43:24,  1.26s/it]                                                         {'loss': 2.0896, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23950/48845 [8:28:54<8:43:24,  1.26s/it] 49%|████▉     | 23951/48845 [8:28:55<8:43:32,  1.26s/it] 49%|████▉     | 23952/48845 [8:28:57<8:43:36,  1.26s/it] 49%|████▉     | 23953/48845 [8:28:58<8:43:22,  1.26s/it] 49%|████▉     | 23954/48845 [8:28:59<8:43:23,  1.26s/it] 49%|████▉     | 23955/48845 [8:29:00<8:43:05,  1.26s/it]                                                         {'loss': 1.9623, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23955/48845 [8:29:00<8:43:05,  1.26s/it] 49%|████▉     | 23956/48845 [8:29:02<8:42:59,  1.26s/it] 49%|████▉     | 23957/48845 [8:29:03<8:43:27,  1.26s/it] 49%|████▉     | 23958/48845 [8:29:04<8:43:05,  1.26s/it] 49%|████▉     | 23959/48845 [8:29:05<8:42:37,  1.26s/it] 49%|████▉     | 23960/48845 [8:29:07<8:42:23,  1.26s/it]                                                         {'loss': 2.1132, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23960/48845 [8:29:07<8:42:23,  1.26s/it] 49%|████▉     | 23961/48845 [8:29:08<8:42:06,  1.26s/it] 49%|████▉     | 23962/48845 [8:29:09<8:42:28,  1.26s/it] 49%|████▉     | 23963/48845 [8:29:10<8:42:15,  1.26s/it] 49%|████▉     | 23964/48845 [8:29:12<8:42:03,  1.26s/it] 49%|████▉     | 23965/48845 [8:29:13<8:42:01,  1.26s/it]                                                         {'loss': 2.0588, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23965/48845 [8:29:13<8:42:01,  1.26s/it] 49%|████▉     | 23966/48845 [8:29:14<8:42:53,  1.26s/it] 49%|████▉     | 23967/48845 [8:29:15<8:42:40,  1.26s/it] 49%|████▉     | 23968/48845 [8:29:17<8:43:00,  1.26s/it] 49%|████▉     | 23969/48845 [8:29:18<8:42:51,  1.26s/it] 49%|████▉     | 23970/48845 [8:29:19<8:42:44,  1.26s/it]                                                         {'loss': 2.1114, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23970/48845 [8:29:19<8:42:44,  1.26s/it] 49%|████▉     | 23971/48845 [8:29:20<8:43:29,  1.26s/it] 49%|████▉     | 23972/48845 [8:29:22<8:43:16,  1.26s/it] 49%|████▉     | 23973/48845 [8:29:23<8:42:45,  1.26s/it] 49%|████▉     | 23974/48845 [8:29:24<8:42:39,  1.26s/it] 49%|████▉     | 23975/48845 [8:29:25<8:42:48,  1.26s/it]                                                         {'loss': 2.1547, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23975/48845 [8:29:25<8:42:48,  1.26s/it] 49%|████▉     | 23976/48845 [8:29:27<8:42:24,  1.26s/it] 49%|████▉     | 23977/48845 [8:29:28<8:42:47,  1.26s/it] 49%|████▉     | 23978/48845 [8:29:29<8:42:22,  1.26s/it] 49%|████▉     | 23979/48845 [8:29:31<8:41:59,  1.26s/it] 49%|████▉     | 23980/48845 [8:29:32<8:41:47,  1.26s/it]                                                         {'loss': 2.1351, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.45}
+ 49%|████▉     | 23980/48845 [8:29:32<8:41:47,  1.26s/it] 49%|████▉     | 23981/48845 [8:29:33<8:41:50,  1.26s/it] 49%|████▉     | 23982/48845 [8:29:34<8:41:45,  1.26s/it] 49%|████▉     | 23983/48845 [8:29:36<8:41:28,  1.26s/it] 49%|████▉     | 23984/48845 [8:29:37<8:41:49,  1.26s/it] 49%|████▉     | 23985/48845 [8:29:38<8:41:50,  1.26s/it]                                                         {'loss': 2.0764, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 23985/48845 [8:29:38<8:41:50,  1.26s/it] 49%|████▉     | 23986/48845 [8:29:39<8:42:06,  1.26s/it] 49%|████▉     | 23987/48845 [8:29:41<8:41:57,  1.26s/it] 49%|████▉     | 23988/48845 [8:29:42<8:41:45,  1.26s/it] 49%|████▉     | 23989/48845 [8:29:43<8:41:42,  1.26s/it] 49%|████▉     | 23990/48845 [8:29:44<8:42:04,  1.26s/it]                                                         {'loss': 2.1575, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 23990/48845 [8:29:44<8:42:04,  1.26s/it] 49%|████▉     | 23991/48845 [8:29:46<8:42:15,  1.26s/it] 49%|████▉     | 23992/48845 [8:29:47<8:42:14,  1.26s/it] 49%|████▉     | 23993/48845 [8:29:48<8:42:30,  1.26s/it] 49%|████▉     | 23994/48845 [8:29:49<8:42:20,  1.26s/it] 49%|████▉     | 23995/48845 [8:29:51<8:42:01,  1.26s/it]                                                         {'loss': 1.9958, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 23995/48845 [8:29:51<8:42:01,  1.26s/it] 49%|████▉     | 23996/48845 [8:29:52<8:42:03,  1.26s/it] 49%|████▉     | 23997/48845 [8:29:53<8:41:58,  1.26s/it] 49%|████▉     | 23998/48845 [8:29:54<8:41:59,  1.26s/it] 49%|████▉     | 23999/48845 [8:29:56<8:41:46,  1.26s/it] 49%|████▉     | 24000/48845 [8:29:57<8:41:47,  1.26s/it]                                                         {'loss': 1.9201, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24000/48845 [8:29:57<8:41:47,  1.26s/it] 49%|████▉     | 24001/48845 [8:30:01<13:47:02,  2.00s/it] 49%|████▉     | 24002/48845 [8:30:02<12:14:24,  1.77s/it] 49%|████▉     | 24003/48845 [8:30:03<11:10:49,  1.62s/it] 49%|████▉     | 24004/48845 [8:30:04<10:26:39,  1.51s/it] 49%|████▉     | 24005/48845 [8:30:06<9:54:33,  1.44s/it]                                                          {'loss': 2.2495, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24005/48845 [8:30:06<9:54:33,  1.44s/it] 49%|████▉     | 24006/48845 [8:30:07<9:32:44,  1.38s/it] 49%|████▉     | 24007/48845 [8:30:08<9:17:05,  1.35s/it] 49%|████▉     | 24008/48845 [8:30:10<9:06:04,  1.32s/it] 49%|████▉     | 24009/48845 [8:30:11<8:58:54,  1.30s/it] 49%|████▉     | 24010/48845 [8:30:12<8:53:40,  1.29s/it]                                                         {'loss': 2.0015, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24010/48845 [8:30:12<8:53:40,  1.29s/it] 49%|████▉     | 24011/48845 [8:30:13<8:50:19,  1.28s/it] 49%|████▉     | 24012/48845 [8:30:15<8:47:18,  1.27s/it] 49%|████▉     | 24013/48845 [8:30:16<8:45:17,  1.27s/it] 49%|████▉     | 24014/48845 [8:30:17<8:44:24,  1.27s/it] 49%|████▉     | 24015/48845 [8:30:18<8:43:36,  1.27s/it]                                                         {'loss': 1.9199, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24015/48845 [8:30:18<8:43:36,  1.27s/it] 49%|████▉     | 24016/48845 [8:30:20<8:42:59,  1.26s/it] 49%|████▉     | 24017/48845 [8:30:21<8:42:47,  1.26s/it] 49%|████▉     | 24018/48845 [8:30:22<8:42:05,  1.26s/it] 49%|████▉     | 24019/48845 [8:30:23<8:41:38,  1.26s/it] 49%|████▉     | 24020/48845 [8:30:25<8:42:23,  1.26s/it]                                                         {'loss': 2.0298, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24020/48845 [8:30:25<8:42:23,  1.26s/it] 49%|████▉     | 24021/48845 [8:30:26<8:42:02,  1.26s/it] 49%|████▉     | 24022/48845 [8:30:27<8:42:16,  1.26s/it] 49%|████▉     | 24023/48845 [8:30:28<8:41:41,  1.26s/it] 49%|████▉     | 24024/48845 [8:30:30<8:41:36,  1.26s/it] 49%|████▉     | 24025/48845 [8:30:31<8:41:44,  1.26s/it]                                                         {'loss': 2.0008, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24025/48845 [8:30:31<8:41:44,  1.26s/it] 49%|████▉     | 24026/48845 [8:30:32<8:41:53,  1.26s/it] 49%|████▉     | 24027/48845 [8:30:33<8:41:47,  1.26s/it] 49%|████▉     | 24028/48845 [8:30:35<8:41:32,  1.26s/it] 49%|████▉     | 24029/48845 [8:30:36<8:41:26,  1.26s/it] 49%|████▉     | 24030/48845 [8:30:37<8:41:04,  1.26s/it]                                                         {'loss': 2.066, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24030/48845 [8:30:37<8:41:04,  1.26s/it] 49%|████▉     | 24031/48845 [8:30:39<8:41:10,  1.26s/it] 49%|████▉     | 24032/48845 [8:30:40<8:41:05,  1.26s/it] 49%|████▉     | 24033/48845 [8:30:41<8:40:40,  1.26s/it] 49%|████▉     | 24034/48845 [8:30:42<8:40:53,  1.26s/it] 49%|████▉     | 24035/48845 [8:30:44<8:40:55,  1.26s/it]                                                         {'loss': 2.0574, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24035/48845 [8:30:44<8:40:55,  1.26s/it] 49%|████▉     | 24036/48845 [8:30:45<8:41:03,  1.26s/it] 49%|████▉     | 24037/48845 [8:30:46<8:41:16,  1.26s/it] 49%|████▉     | 24038/48845 [8:30:47<8:40:59,  1.26s/it] 49%|████▉     | 24039/48845 [8:30:49<8:40:48,  1.26s/it] 49%|████▉     | 24040/48845 [8:30:50<8:40:27,  1.26s/it]                                                         {'loss': 2.0274, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24040/48845 [8:30:50<8:40:27,  1.26s/it] 49%|████▉     | 24041/48845 [8:30:51<8:40:16,  1.26s/it] 49%|████▉     | 24042/48845 [8:30:52<8:40:26,  1.26s/it] 49%|████▉     | 24043/48845 [8:30:54<8:40:58,  1.26s/it] 49%|████▉     | 24044/48845 [8:30:55<8:41:06,  1.26s/it] 49%|████▉     | 24045/48845 [8:30:56<8:40:57,  1.26s/it]                                                         {'loss': 2.0751, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24045/48845 [8:30:56<8:40:57,  1.26s/it] 49%|████▉     | 24046/48845 [8:30:57<8:41:15,  1.26s/it] 49%|████▉     | 24047/48845 [8:30:59<8:41:18,  1.26s/it] 49%|████▉     | 24048/48845 [8:31:00<8:41:21,  1.26s/it] 49%|████▉     | 24049/48845 [8:31:01<8:41:19,  1.26s/it] 49%|████▉     | 24050/48845 [8:31:02<8:40:52,  1.26s/it]                                                         {'loss': 2.1323, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|██���█▉     | 24050/48845 [8:31:02<8:40:52,  1.26s/it] 49%|████▉     | 24051/48845 [8:31:04<8:41:00,  1.26s/it] 49%|████▉     | 24052/48845 [8:31:05<8:40:55,  1.26s/it] 49%|████▉     | 24053/48845 [8:31:06<8:40:34,  1.26s/it] 49%|████▉     | 24054/48845 [8:31:08<8:40:30,  1.26s/it] 49%|████▉     | 24055/48845 [8:31:09<8:40:25,  1.26s/it]                                                         {'loss': 2.0371, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24055/48845 [8:31:09<8:40:25,  1.26s/it] 49%|████▉     | 24056/48845 [8:31:10<8:40:40,  1.26s/it] 49%|████▉     | 24057/48845 [8:31:11<8:40:14,  1.26s/it] 49%|████▉     | 24058/48845 [8:31:13<8:40:26,  1.26s/it] 49%|████▉     | 24059/48845 [8:31:14<8:40:25,  1.26s/it] 49%|████▉     | 24060/48845 [8:31:15<8:40:40,  1.26s/it]                                                         {'loss': 2.0969, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24060/48845 [8:31:15<8:40:40,  1.26s/it] 49%|████▉     | 24061/48845 [8:31:16<8:40:36,  1.26s/it] 49%|████▉     | 24062/48845 [8:31:18<8:40:02,  1.26s/it] 49%|████▉     | 24063/48845 [8:31:19<8:40:24,  1.26s/it] 49%|████▉     | 24064/48845 [8:31:20<8:40:12,  1.26s/it] 49%|████▉     | 24065/48845 [8:31:21<8:40:21,  1.26s/it]                                                         {'loss': 1.9424, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24065/48845 [8:31:21<8:40:21,  1.26s/it] 49%|████▉     | 24066/48845 [8:31:23<8:40:02,  1.26s/it] 49%|████▉     | 24067/48845 [8:31:24<8:40:10,  1.26s/it] 49%|████▉     | 24068/48845 [8:31:25<8:39:52,  1.26s/it] 49%|████▉     | 24069/48845 [8:31:26<8:39:39,  1.26s/it] 49%|████▉     | 24070/48845 [8:31:28<8:39:48,  1.26s/it]                                                         {'loss': 1.8986, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24070/48845 [8:31:28<8:39:48,  1.26s/it] 49%|████▉     | 24071/48845 [8:31:29<8:40:17,  1.26s/it] 49%|████▉     | 24072/48845 [8:31:30<8:40:17,  1.26s/it] 49%|████▉     | 24073/48845 [8:31:31<8:39:56,  1.26s/it] 49%|████▉     | 24074/48845 [8:31:33<8:39:45,  1.26s/it] 49%|████▉     | 24075/48845 [8:31:34<8:40:04,  1.26s/it]                                                         {'loss': 2.1287, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24075/48845 [8:31:34<8:40:04,  1.26s/it] 49%|████▉     | 24076/48845 [8:31:35<8:40:27,  1.26s/it] 49%|████▉     | 24077/48845 [8:31:36<8:39:56,  1.26s/it] 49%|████▉     | 24078/48845 [8:31:38<8:39:43,  1.26s/it] 49%|████▉     | 24079/48845 [8:31:39<8:40:09,  1.26s/it] 49%|████▉     | 24080/48845 [8:31:40<8:40:10,  1.26s/it]                                                         {'loss': 1.9923, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.46}
+ 49%|████▉     | 24080/48845 [8:31:40<8:40:10,  1.26s/it] 49%|████▉     | 24081/48845 [8:31:42<8:39:51,  1.26s/it] 49%|████▉     | 24082/48845 [8:31:43<8:39:34,  1.26s/it] 49%|████▉     | 24083/48845 [8:31:44<8:39:08,  1.26s/it] 49%|████▉     | 24084/48845 [8:31:45<8:39:32,  1.26s/it] 49%|████▉     | 24085/48845 [8:31:47<8:43:16,  1.27s/it]                                                         {'loss': 2.0015, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24085/48845 [8:31:47<8:43:16,  1.27s/it] 49%|████▉     | 24086/48845 [8:31:48<8:42:12,  1.27s/it] 49%|████▉     | 24087/48845 [8:31:49<8:41:39,  1.26s/it] 49%|████▉     | 24088/48845 [8:31:50<8:41:29,  1.26s/it] 49%|████▉     | 24089/48845 [8:31:52<8:40:19,  1.26s/it] 49%|████▉     | 24090/48845 [8:31:53<8:39:53,  1.26s/it]                                                         {'loss': 1.9929, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24090/48845 [8:31:53<8:39:53,  1.26s/it] 49%|████▉     | 24091/48845 [8:31:54<8:39:48,  1.26s/it] 49%|████▉     | 24092/48845 [8:31:55<8:39:42,  1.26s/it] 49%|████▉     | 24093/48845 [8:31:57<8:39:25,  1.26s/it] 49%|████▉     | 24094/48845 [8:31:58<8:39:14,  1.26s/it] 49%|████▉     | 24095/48845 [8:31:59<8:39:31,  1.26s/it]                                                         {'loss': 2.081, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24095/48845 [8:31:59<8:39:31,  1.26s/it] 49%|████▉     | 24096/48845 [8:32:00<8:39:43,  1.26s/it] 49%|████▉     | 24097/48845 [8:32:02<8:39:18,  1.26s/it] 49%|████▉     | 24098/48845 [8:32:03<8:39:31,  1.26s/it] 49%|████▉     | 24099/48845 [8:32:04<8:39:19,  1.26s/it] 49%|████▉     | 24100/48845 [8:32:05<8:39:51,  1.26s/it]                                                         {'loss': 2.1906, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24100/48845 [8:32:05<8:39:51,  1.26s/it] 49%|████▉     | 24101/48845 [8:32:07<8:39:33,  1.26s/it] 49%|████▉     | 24102/48845 [8:32:08<8:39:33,  1.26s/it] 49%|████▉     | 24103/48845 [8:32:09<8:39:25,  1.26s/it] 49%|████▉     | 24104/48845 [8:32:11<8:39:17,  1.26s/it] 49%|████▉     | 24105/48845 [8:32:12<8:39:09,  1.26s/it]                                                         {'loss': 2.106, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24105/48845 [8:32:12<8:39:09,  1.26s/it] 49%|████▉     | 24106/48845 [8:32:13<8:39:13,  1.26s/it] 49%|████▉     | 24107/48845 [8:32:14<8:39:15,  1.26s/it] 49%|████▉     | 24108/48845 [8:32:16<8:39:31,  1.26s/it] 49%|████▉     | 24109/48845 [8:32:17<8:39:22,  1.26s/it] 49%|████▉     | 24110/48845 [8:32:18<8:39:07,  1.26s/it]                                                         {'loss': 2.1042, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24110/48845 [8:32:18<8:39:07,  1.26s/it] 49%|████▉     | 24111/48845 [8:32:19<8:39:02,  1.26s/it] 49%|████▉     | 24112/48845 [8:32:21<8:39:03,  1.26s/it] 49%|████▉     | 24113/48845 [8:32:22<8:38:58,  1.26s/it] 49%|████▉     | 24114/48845 [8:32:23<8:38:53,  1.26s/it] 49%|████▉     | 24115/48845 [8:32:24<8:39:11,  1.26s/it]                                                         {'loss': 1.9935, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24115/48845 [8:32:24<8:39:11,  1.26s/it] 49%|████▉     | 24116/48845 [8:32:26<8:39:29,  1.26s/it] 49%|████▉     | 24117/48845 [8:32:27<8:39:08,  1.26s/it] 49%|████▉     | 24118/48845 [8:32:28<8:39:12,  1.26s/it] 49%|████▉     | 24119/48845 [8:32:29<8:38:55,  1.26s/it] 49%|████▉     | 24120/48845 [8:32:31<8:39:00,  1.26s/it]                                                         {'loss': 2.0356, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24120/48845 [8:32:31<8:39:00,  1.26s/it] 49%|████▉     | 24121/48845 [8:32:32<8:38:56,  1.26s/it] 49%|████▉     | 24122/48845 [8:32:33<8:39:05,  1.26s/it] 49%|████▉     | 24123/48845 [8:32:34<8:39:10,  1.26s/it] 49%|████▉     | 24124/48845 [8:32:36<8:39:47,  1.26s/it] 49%|████▉     | 24125/48845 [8:32:37<8:39:40,  1.26s/it]                                                         {'loss': 2.0899, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24125/48845 [8:32:37<8:39:40,  1.26s/it] 49%|████▉     | 24126/48845 [8:32:38<8:39:52,  1.26s/it] 49%|████▉     | 24127/48845 [8:32:39<8:39:08,  1.26s/it] 49%|████▉     | 24128/48845 [8:32:41<8:39:00,  1.26s/it] 49%|████▉     | 24129/48845 [8:32:42<8:38:57,  1.26s/it] 49%|████▉     | 24130/48845 [8:32:43<8:39:06,  1.26s/it]                                                         {'loss': 1.9434, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24130/48845 [8:32:43<8:39:06,  1.26s/it] 49%|████▉     | 24131/48845 [8:32:45<8:38:30,  1.26s/it] 49%|████▉     | 24132/48845 [8:32:46<8:38:31,  1.26s/it] 49%|████▉     | 24133/48845 [8:32:47<8:38:14,  1.26s/it] 49%|████▉     | 24134/48845 [8:32:48<8:38:19,  1.26s/it] 49%|████▉     | 24135/48845 [8:32:50<8:38:12,  1.26s/it]                                                         {'loss': 1.9929, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24135/48845 [8:32:50<8:38:12,  1.26s/it] 49%|████▉     | 24136/48845 [8:32:51<8:38:17,  1.26s/it] 49%|████▉     | 24137/48845 [8:32:52<8:38:28,  1.26s/it] 49%|████▉     | 24138/48845 [8:32:53<8:38:36,  1.26s/it] 49%|████▉     | 24139/48845 [8:32:55<8:38:43,  1.26s/it] 49%|████▉     | 24140/48845 [8:32:56<8:39:03,  1.26s/it]                                                         {'loss': 1.9955, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24140/48845 [8:32:56<8:39:03,  1.26s/it] 49%|████▉     | 24141/48845 [8:32:57<8:39:05,  1.26s/it] 49%|████▉     | 24142/48845 [8:32:58<8:38:35,  1.26s/it] 49%|████▉     | 24143/48845 [8:33:00<8:38:28,  1.26s/it] 49%|████▉     | 24144/48845 [8:33:01<8:38:20,  1.26s/it] 49%|████▉     | 24145/48845 [8:33:02<8:38:11,  1.26s/it]                                                         {'loss': 2.0324, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24145/48845 [8:33:02<8:38:11,  1.26s/it] 49%|████▉     | 24146/48845 [8:33:03<8:38:17,  1.26s/it] 49%|████▉     | 24147/48845 [8:33:05<8:38:20,  1.26s/it] 49%|████▉     | 24148/48845 [8:33:06<8:38:17,  1.26s/it] 49%|████▉     | 24149/48845 [8:33:07<8:38:19,  1.26s/it] 49%|████▉     | 24150/48845 [8:33:08<8:38:58,  1.26s/it]                                                         {'loss': 2.0417, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24150/48845 [8:33:08<8:38:58,  1.26s/it] 49%|████▉     | 24151/48845 [8:33:10<8:39:24,  1.26s/it] 49%|████▉     | 24152/48845 [8:33:11<8:39:07,  1.26s/it] 49%|████▉     | 24153/48845 [8:33:12<8:38:58,  1.26s/it] 49%|████▉     | 24154/48845 [8:33:13<8:38:31,  1.26s/it] 49%|████▉     | 24155/48845 [8:33:15<8:38:41,  1.26s/it]                                                         {'loss': 2.0909, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24155/48845 [8:33:15<8:38:41,  1.26s/it] 49%|████▉     | 24156/48845 [8:33:16<8:38:44,  1.26s/it] 49%|████▉     | 24157/48845 [8:33:17<8:38:24,  1.26s/it] 49%|████▉     | 24158/48845 [8:33:19<8:39:09,  1.26s/it] 49%|████▉     | 24159/48845 [8:33:20<8:39:10,  1.26s/it] 49%|████▉     | 24160/48845 [8:33:21<8:39:04,  1.26s/it]                                                         {'loss': 2.1377, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24160/48845 [8:33:21<8:39:04,  1.26s/it] 49%|████▉     | 24161/48845 [8:33:22<8:39:14,  1.26s/it] 49%|████▉     | 24162/48845 [8:33:24<8:39:02,  1.26s/it] 49%|████▉     | 24163/48845 [8:33:25<8:41:05,  1.27s/it] 49%|████▉     | 24164/48845 [8:33:26<8:40:08,  1.26s/it] 49%|████▉     | 24165/48845 [8:33:27<8:40:10,  1.26s/it]                                                         {'loss': 2.051, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24165/48845 [8:33:27<8:40:10,  1.26s/it] 49%|████▉     | 24166/48845 [8:33:29<8:39:42,  1.26s/it] 49%|████▉     | 24167/48845 [8:33:30<8:38:59,  1.26s/it] 49%|████▉     | 24168/48845 [8:33:31<8:38:06,  1.26s/it] 49%|████▉     | 24169/48845 [8:33:32<8:37:40,  1.26s/it] 49%|████▉     | 24170/48845 [8:33:34<8:37:33,  1.26s/it]                                                         {'loss': 2.1354, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24170/48845 [8:33:34<8:37:33,  1.26s/it] 49%|████▉     | 24171/48845 [8:33:35<8:38:00,  1.26s/it] 49%|████▉     | 24172/48845 [8:33:36<8:37:44,  1.26s/it] 49%|████▉     | 24173/48845 [8:33:37<8:38:07,  1.26s/it] 49%|████▉     | 24174/48845 [8:33:39<8:37:54,  1.26s/it] 49%|████▉     | 24175/48845 [8:33:40<8:37:41,  1.26s/it]                                                         {'loss': 2.1613, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.47}
+ 49%|████▉     | 24175/48845 [8:33:40<8:37:41,  1.26s/it] 49%|████▉     | 24176/48845 [8:33:41<8:37:44,  1.26s/it] 49%|████▉     | 24177/48845 [8:33:42<8:37:44,  1.26s/it] 49%|████▉     | 24178/48845 [8:33:44<8:37:48,  1.26s/it] 50%|████▉     | 24179/48845 [8:33:45<8:38:05,  1.26s/it] 50%|████▉     | 24180/48845 [8:33:46<8:37:35,  1.26s/it]                                                         {'loss': 2.1901, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24180/48845 [8:33:46<8:37:35,  1.26s/it] 50%|████▉     | 24181/48845 [8:33:48<8:38:22,  1.26s/it] 50%|████▉     | 24182/48845 [8:33:49<8:38:33,  1.26s/it] 50%|████▉     | 24183/48845 [8:33:50<8:38:45,  1.26s/it] 50%|████▉     | 24184/48845 [8:33:51<8:39:01,  1.26s/it] 50%|████▉     | 24185/48845 [8:33:53<8:39:06,  1.26s/it]                                                         {'loss': 2.1448, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24185/48845 [8:33:53<8:39:06,  1.26s/it] 50%|████▉     | 24186/48845 [8:33:54<8:38:50,  1.26s/it] 50%|████▉     | 24187/48845 [8:33:55<8:38:41,  1.26s/it] 50%|████▉     | 24188/48845 [8:33:56<8:38:32,  1.26s/it] 50%|████▉     | 24189/48845 [8:33:58<8:38:25,  1.26s/it] 50%|████▉     | 24190/48845 [8:33:59<8:38:07,  1.26s/it]                                                         {'loss': 1.9694, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24190/48845 [8:33:59<8:38:07,  1.26s/it] 50%|████▉     | 24191/48845 [8:34:00<8:38:19,  1.26s/it] 50%|████▉     | 24192/48845 [8:34:01<8:38:53,  1.26s/it] 50%|████▉     | 24193/48845 [8:34:03<8:38:35,  1.26s/it] 50%|████▉     | 24194/48845 [8:34:04<8:38:32,  1.26s/it] 50%|████▉     | 24195/48845 [8:34:05<8:38:43,  1.26s/it]                                                         {'loss': 1.9796, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24195/48845 [8:34:05<8:38:43,  1.26s/it] 50%|████▉     | 24196/48845 [8:34:06<8:38:22,  1.26s/it] 50%|████▉     | 24197/48845 [8:34:08<8:39:34,  1.26s/it] 50%|████▉     | 24198/48845 [8:34:09<8:39:50,  1.27s/it] 50%|████▉     | 24199/48845 [8:34:10<8:39:04,  1.26s/it] 50%|████▉     | 24200/48845 [8:34:12<8:38:32,  1.26s/it]                                                         {'loss': 2.0731, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24200/48845 [8:34:12<8:38:32,  1.26s/it] 50%|████▉     | 24201/48845 [8:34:15<13:52:14,  2.03s/it] 50%|████▉     | 24202/48845 [8:34:17<12:17:32,  1.80s/it] 50%|████▉     | 24203/48845 [8:34:18<11:11:00,  1.63s/it] 50%|████▉     | 24204/48845 [8:34:19<10:25:01,  1.52s/it] 50%|████▉     | 24205/48845 [8:34:20<9:52:05,  1.44s/it]                                                          {'loss': 2.0896, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24205/48845 [8:34:20<9:52:05,  1.44s/it] 50%|████▉     | 24206/48845 [8:34:22<9:29:53,  1.39s/it] 50%|████▉     | 24207/48845 [8:34:23<9:13:53,  1.35s/it] 50%|████▉     | 24208/48845 [8:34:24<9:02:53,  1.32s/it] 50%|████▉     | 24209/48845 [8:34:25<8:55:49,  1.30s/it] 50%|████▉     | 24210/48845 [8:34:27<8:50:15,  1.29s/it]                                                         {'loss': 2.18, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24210/48845 [8:34:27<8:50:15,  1.29s/it] 50%|████▉     | 24211/48845 [8:34:28<8:47:00,  1.28s/it] 50%|████▉     | 24212/48845 [8:34:29<8:44:16,  1.28s/it] 50%|████▉     | 24213/48845 [8:34:30<8:41:52,  1.27s/it] 50%|████▉     | 24214/48845 [8:34:32<8:40:52,  1.27s/it] 50%|████▉     | 24215/48845 [8:34:33<8:40:23,  1.27s/it]                                                         {'loss': 2.0606, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24215/48845 [8:34:33<8:40:23,  1.27s/it] 50%|████▉     | 24216/48845 [8:34:34<8:39:23,  1.27s/it] 50%|████▉     | 24217/48845 [8:34:36<8:38:23,  1.26s/it] 50%|████▉     | 24218/48845 [8:34:37<8:37:52,  1.26s/it] 50%|████▉     | 24219/48845 [8:34:38<8:37:47,  1.26s/it] 50%|████▉     | 24220/48845 [8:34:39<8:37:13,  1.26s/it]                                                         {'loss': 1.9984, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24220/48845 [8:34:39<8:37:13,  1.26s/it] 50%|████▉     | 24221/48845 [8:34:41<8:36:45,  1.26s/it] 50%|████▉     | 24222/48845 [8:34:42<8:36:30,  1.26s/it] 50%|████▉     | 24223/48845 [8:34:43<8:35:48,  1.26s/it] 50%|████▉     | 24224/48845 [8:34:44<8:36:04,  1.26s/it] 50%|████▉     | 24225/48845 [8:34:46<8:36:14,  1.26s/it]                                                         {'loss': 2.1401, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24225/48845 [8:34:46<8:36:14,  1.26s/it] 50%|████▉     | 24226/48845 [8:34:47<8:36:23,  1.26s/it] 50%|████▉     | 24227/48845 [8:34:48<8:36:26,  1.26s/it] 50%|████▉     | 24228/48845 [8:34:49<8:35:48,  1.26s/it] 50%|████▉     | 24229/48845 [8:34:51<8:36:40,  1.26s/it] 50%|████▉     | 24230/48845 [8:34:52<8:36:29,  1.26s/it]                                                         {'loss': 2.1426, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24230/48845 [8:34:52<8:36:29,  1.26s/it] 50%|████▉     | 24231/48845 [8:34:53<8:36:25,  1.26s/it] 50%|████▉     | 24232/48845 [8:34:54<8:36:32,  1.26s/it] 50%|████▉     | 24233/48845 [8:34:56<8:36:01,  1.26s/it] 50%|████▉     | 24234/48845 [8:34:57<8:36:15,  1.26s/it] 50%|████▉     | 24235/48845 [8:34:58<8:36:06,  1.26s/it]                                                         {'loss': 2.0391, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24235/48845 [8:34:58<8:36:06,  1.26s/it] 50%|████▉     | 24236/48845 [8:34:59<8:36:28,  1.26s/it] 50%|████▉     | 24237/48845 [8:35:01<8:36:10,  1.26s/it] 50%|████▉     | 24238/48845 [8:35:02<8:36:02,  1.26s/it] 50%|████▉     | 24239/48845 [8:35:03<8:36:11,  1.26s/it] 50%|████▉     | 24240/48845 [8:35:04<8:36:14,  1.26s/it]                                                         {'loss': 2.151, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24240/48845 [8:35:04<8:36:14,  1.26s/it] 50%|████▉     | 24241/48845 [8:35:06<8:36:36,  1.26s/it] 50%|████▉     | 24242/48845 [8:35:07<8:36:45,  1.26s/it] 50%|████▉     | 24243/48845 [8:35:08<8:36:37,  1.26s/it] 50%|████▉     | 24244/48845 [8:35:09<8:36:59,  1.26s/it] 50%|████▉     | 24245/48845 [8:35:11<8:36:25,  1.26s/it]                                                         {'loss': 1.9727, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24245/48845 [8:35:11<8:36:25,  1.26s/it] 50%|████▉     | 24246/48845 [8:35:12<8:36:19,  1.26s/it] 50%|████▉     | 24247/48845 [8:35:13<8:36:09,  1.26s/it] 50%|████▉     | 24248/48845 [8:35:15<8:36:07,  1.26s/it] 50%|████▉     | 24249/48845 [8:35:16<8:36:17,  1.26s/it] 50%|████▉     | 24250/48845 [8:35:17<8:36:20,  1.26s/it]                                                         {'loss': 2.1333, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24250/48845 [8:35:17<8:36:20,  1.26s/it] 50%|████▉     | 24251/48845 [8:35:18<8:36:18,  1.26s/it] 50%|████▉     | 24252/48845 [8:35:20<8:35:55,  1.26s/it] 50%|████▉     | 24253/48845 [8:35:21<8:36:08,  1.26s/it] 50%|████▉     | 24254/48845 [8:35:22<8:36:18,  1.26s/it] 50%|████▉     | 24255/48845 [8:35:23<8:36:14,  1.26s/it]                                                         {'loss': 2.0472, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24255/48845 [8:35:23<8:36:14,  1.26s/it] 50%|████▉     | 24256/48845 [8:35:25<8:36:19,  1.26s/it] 50%|████▉     | 24257/48845 [8:35:26<8:36:24,  1.26s/it] 50%|████▉     | 24258/48845 [8:35:27<8:36:36,  1.26s/it] 50%|████▉     | 24259/48845 [8:35:28<8:36:25,  1.26s/it] 50%|████▉     | 24260/48845 [8:35:30<8:35:50,  1.26s/it]                                                         {'loss': 2.0571, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24260/48845 [8:35:30<8:35:50,  1.26s/it] 50%|████▉     | 24261/48845 [8:35:31<8:37:04,  1.26s/it] 50%|████▉     | 24262/48845 [8:35:32<8:36:45,  1.26s/it] 50%|████▉     | 24263/48845 [8:35:33<8:35:57,  1.26s/it] 50%|████▉     | 24264/48845 [8:35:35<8:36:07,  1.26s/it] 50%|████▉     | 24265/48845 [8:35:36<8:35:20,  1.26s/it]                                                         {'loss': 2.0847, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24265/48845 [8:35:36<8:35:20,  1.26s/it] 50%|████▉     | 24266/48845 [8:35:37<8:35:39,  1.26s/it] 50%|████▉     | 24267/48845 [8:35:38<8:35:39,  1.26s/it] 50%|████▉     | 24268/48845 [8:35:40<8:35:41,  1.26s/it] 50%|████▉     | 24269/48845 [8:35:41<8:35:43,  1.26s/it] 50%|████▉     | 24270/48845 [8:35:42<8:35:54,  1.26s/it]                                                         {'loss': 2.0136, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24270/48845 [8:35:42<8:35:54,  1.26s/it] 50%|████▉     | 24271/48845 [8:35:43<8:35:41,  1.26s/it] 50%|████▉     | 24272/48845 [8:35:45<8:35:57,  1.26s/it] 50%|████▉     | 24273/48845 [8:35:46<8:35:24,  1.26s/it] 50%|████▉     | 24274/48845 [8:35:47<8:35:08,  1.26s/it] 50%|████▉     | 24275/48845 [8:35:49<8:35:39,  1.26s/it]                                                         {'loss': 2.1535, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.48}
+ 50%|████▉     | 24275/48845 [8:35:49<8:35:39,  1.26s/it] 50%|████▉     | 24276/48845 [8:35:50<8:36:16,  1.26s/it] 50%|████▉     | 24277/48845 [8:35:51<8:35:52,  1.26s/it] 50%|████▉     | 24278/48845 [8:35:52<8:35:27,  1.26s/it] 50%|████▉     | 24279/48845 [8:35:54<8:36:06,  1.26s/it] 50%|████▉     | 24280/48845 [8:35:55<8:36:11,  1.26s/it]                                                         {'loss': 2.1124, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24280/48845 [8:35:55<8:36:11,  1.26s/it] 50%|████▉     | 24281/48845 [8:35:56<8:35:55,  1.26s/it] 50%|████▉     | 24282/48845 [8:35:57<8:35:53,  1.26s/it] 50%|████▉     | 24283/48845 [8:35:59<8:35:38,  1.26s/it] 50%|████▉     | 24284/48845 [8:36:00<8:36:17,  1.26s/it] 50%|████▉     | 24285/48845 [8:36:01<8:35:32,  1.26s/it]                                                         {'loss': 2.1183, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24285/48845 [8:36:01<8:35:32,  1.26s/it] 50%|████▉     | 24286/48845 [8:36:02<8:35:51,  1.26s/it] 50%|████▉     | 24287/48845 [8:36:04<8:36:04,  1.26s/it] 50%|████▉     | 24288/48845 [8:36:05<8:36:04,  1.26s/it] 50%|████▉     | 24289/48845 [8:36:06<8:36:10,  1.26s/it] 50%|████▉     | 24290/48845 [8:36:07<8:35:41,  1.26s/it]                                                         {'loss': 1.9769, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24290/48845 [8:36:07<8:35:41,  1.26s/it] 50%|████▉     | 24291/48845 [8:36:09<8:36:19,  1.26s/it] 50%|████▉     | 24292/48845 [8:36:10<8:36:21,  1.26s/it] 50%|████▉     | 24293/48845 [8:36:11<8:36:37,  1.26s/it] 50%|████▉     | 24294/48845 [8:36:12<8:35:52,  1.26s/it] 50%|████▉     | 24295/48845 [8:36:14<8:35:47,  1.26s/it]                                                         {'loss': 2.2222, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24295/48845 [8:36:14<8:35:47,  1.26s/it] 50%|████▉     | 24296/48845 [8:36:15<8:36:14,  1.26s/it] 50%|████▉     | 24297/48845 [8:36:16<8:35:56,  1.26s/it] 50%|████▉     | 24298/48845 [8:36:18<8:35:27,  1.26s/it] 50%|████▉     | 24299/48845 [8:36:19<8:35:21,  1.26s/it] 50%|████▉     | 24300/48845 [8:36:20<8:35:20,  1.26s/it]                                                         {'loss': 1.949, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24300/48845 [8:36:20<8:35:20,  1.26s/it] 50%|████▉     | 24301/48845 [8:36:21<8:35:05,  1.26s/it] 50%|████▉     | 24302/48845 [8:36:23<8:35:15,  1.26s/it] 50%|████▉     | 24303/48845 [8:36:24<8:35:44,  1.26s/it] 50%|████▉     | 24304/48845 [8:36:25<8:35:40,  1.26s/it] 50%|████▉     | 24305/48845 [8:36:26<8:35:49,  1.26s/it]                                                         {'loss': 2.0673, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24305/48845 [8:36:26<8:35:49,  1.26s/it] 50%|████▉     | 24306/48845 [8:36:28<8:36:18,  1.26s/it] 50%|████▉     | 24307/48845 [8:36:29<8:35:49,  1.26s/it] 50%|████▉     | 24308/48845 [8:36:30<8:35:27,  1.26s/it] 50%|████▉     | 24309/48845 [8:36:31<8:35:37,  1.26s/it] 50%|████▉     | 24310/48845 [8:36:33<8:35:36,  1.26s/it]                                                         {'loss': 1.9546, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24310/48845 [8:36:33<8:35:36,  1.26s/it] 50%|████▉     | 24311/48845 [8:36:34<8:35:57,  1.26s/it] 50%|████▉     | 24312/48845 [8:36:35<8:35:27,  1.26s/it] 50%|████▉     | 24313/48845 [8:36:36<8:35:35,  1.26s/it] 50%|████▉     | 24314/48845 [8:36:38<8:35:52,  1.26s/it] 50%|████▉     | 24315/48845 [8:36:39<8:35:32,  1.26s/it]                                                         {'loss': 2.0957, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24315/48845 [8:36:39<8:35:32,  1.26s/it] 50%|████▉     | 24316/48845 [8:36:40<8:35:23,  1.26s/it] 50%|████▉     | 24317/48845 [8:36:41<8:35:04,  1.26s/it] 50%|████▉     | 24318/48845 [8:36:43<8:34:51,  1.26s/it] 50%|████▉     | 24319/48845 [8:36:44<8:35:25,  1.26s/it] 50%|████▉     | 24320/48845 [8:36:45<8:35:34,  1.26s/it]                                                         {'loss': 1.9952, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24320/48845 [8:36:45<8:35:34,  1.26s/it] 50%|████▉     | 24321/48845 [8:36:47<8:35:24,  1.26s/it] 50%|████▉     | 24322/48845 [8:36:48<8:35:22,  1.26s/it] 50%|████▉     | 24323/48845 [8:36:49<8:35:10,  1.26s/it] 50%|████▉     | 24324/48845 [8:36:50<8:35:08,  1.26s/it] 50%|████▉     | 24325/48845 [8:36:52<8:34:56,  1.26s/it]                                                         {'loss': 2.0123, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24325/48845 [8:36:52<8:34:56,  1.26s/it] 50%|████▉     | 24326/48845 [8:36:53<8:34:55,  1.26s/it] 50%|████▉     | 24327/48845 [8:36:54<8:36:08,  1.26s/it] 50%|████▉     | 24328/48845 [8:36:55<8:35:57,  1.26s/it] 50%|████▉     | 24329/48845 [8:36:57<8:35:46,  1.26s/it] 50%|████▉     | 24330/48845 [8:36:58<8:35:23,  1.26s/it]                                                         {'loss': 2.0496, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24330/48845 [8:36:58<8:35:23,  1.26s/it] 50%|████▉     | 24331/48845 [8:36:59<8:36:47,  1.26s/it] 50%|████▉     | 24332/48845 [8:37:00<8:36:25,  1.26s/it] 50%|████▉     | 24333/48845 [8:37:02<8:38:00,  1.27s/it] 50%|████▉     | 24334/48845 [8:37:03<8:37:41,  1.27s/it] 50%|████▉     | 24335/48845 [8:37:04<8:37:18,  1.27s/it]                                                         {'loss': 2.0506, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24335/48845 [8:37:04<8:37:18,  1.27s/it] 50%|████▉     | 24336/48845 [8:37:05<8:36:31,  1.26s/it] 50%|████▉     | 24337/48845 [8:37:07<8:39:42,  1.27s/it] 50%|████▉     | 24338/48845 [8:37:08<8:38:21,  1.27s/it] 50%|████▉     | 24339/48845 [8:37:09<8:37:18,  1.27s/it] 50%|████▉     | 24340/48845 [8:37:11<8:36:47,  1.27s/it]                                                         {'loss': 1.938, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24340/48845 [8:37:11<8:36:47,  1.27s/it] 50%|████▉     | 24341/48845 [8:37:12<8:36:19,  1.26s/it] 50%|████▉     | 24342/48845 [8:37:13<8:35:53,  1.26s/it] 50%|████▉     | 24343/48845 [8:37:14<8:34:57,  1.26s/it] 50%|████▉     | 24344/48845 [8:37:16<8:35:03,  1.26s/it] 50%|████▉     | 24345/48845 [8:37:17<8:35:08,  1.26s/it]                                                         {'loss': 2.0156, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24345/48845 [8:37:17<8:35:08,  1.26s/it] 50%|████▉     | 24346/48845 [8:37:18<8:34:46,  1.26s/it] 50%|████▉     | 24347/48845 [8:37:19<8:34:39,  1.26s/it] 50%|████▉     | 24348/48845 [8:37:21<8:34:33,  1.26s/it] 50%|████▉     | 24349/48845 [8:37:22<8:34:23,  1.26s/it] 50%|████▉     | 24350/48845 [8:37:23<8:34:35,  1.26s/it]                                                         {'loss': 2.1103, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24350/48845 [8:37:23<8:34:35,  1.26s/it] 50%|████▉     | 24351/48845 [8:37:25<8:50:56,  1.30s/it] 50%|████▉     | 24352/48845 [8:37:26<8:45:36,  1.29s/it] 50%|████▉     | 24353/48845 [8:37:27<8:42:08,  1.28s/it] 50%|████▉     | 24354/48845 [8:37:28<8:39:24,  1.27s/it] 50%|████▉     | 24355/48845 [8:37:30<8:37:59,  1.27s/it]                                                         {'loss': 2.0334, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24355/48845 [8:37:30<8:37:59,  1.27s/it] 50%|████▉     | 24356/48845 [8:37:31<8:37:21,  1.27s/it] 50%|████▉     | 24357/48845 [8:37:32<8:36:05,  1.26s/it] 50%|████▉     | 24358/48845 [8:37:33<8:35:49,  1.26s/it] 50%|████▉     | 24359/48845 [8:37:35<8:35:21,  1.26s/it] 50%|████▉     | 24360/48845 [8:37:36<8:34:59,  1.26s/it]                                                         {'loss': 2.0314, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24360/48845 [8:37:36<8:34:59,  1.26s/it] 50%|████▉     | 24361/48845 [8:37:37<8:34:45,  1.26s/it] 50%|████▉     | 24362/48845 [8:37:38<8:34:36,  1.26s/it] 50%|████▉     | 24363/48845 [8:37:40<8:34:15,  1.26s/it] 50%|████▉     | 24364/48845 [8:37:41<8:34:07,  1.26s/it] 50%|████▉     | 24365/48845 [8:37:42<8:34:34,  1.26s/it]                                                         {'loss': 2.0853, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24365/48845 [8:37:42<8:34:34,  1.26s/it] 50%|████▉     | 24366/48845 [8:37:43<8:34:48,  1.26s/it] 50%|████▉     | 24367/48845 [8:37:45<8:34:49,  1.26s/it] 50%|████▉     | 24368/48845 [8:37:46<8:35:53,  1.26s/it] 50%|████▉     | 24369/48845 [8:37:47<8:35:43,  1.26s/it] 50%|████▉     | 24370/48845 [8:37:49<8:35:30,  1.26s/it]                                                         {'loss': 2.1324, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.49}
+ 50%|████▉     | 24370/48845 [8:37:49<8:35:30,  1.26s/it] 50%|████▉     | 24371/48845 [8:37:50<8:35:15,  1.26s/it] 50%|████▉     | 24372/48845 [8:37:51<8:35:16,  1.26s/it] 50%|████▉     | 24373/48845 [8:37:52<8:34:40,  1.26s/it] 50%|████▉     | 24374/48845 [8:37:54<8:34:28,  1.26s/it] 50%|████▉     | 24375/48845 [8:37:55<8:34:06,  1.26s/it]                                                         {'loss': 1.9577, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24375/48845 [8:37:55<8:34:06,  1.26s/it] 50%|████▉     | 24376/48845 [8:37:56<8:33:50,  1.26s/it] 50%|████▉     | 24377/48845 [8:37:57<8:33:39,  1.26s/it] 50%|████▉     | 24378/48845 [8:37:59<8:33:42,  1.26s/it] 50%|████▉     | 24379/48845 [8:38:00<8:34:23,  1.26s/it] 50%|████▉     | 24380/48845 [8:38:01<8:34:33,  1.26s/it]                                                         {'loss': 2.1056, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24380/48845 [8:38:01<8:34:33,  1.26s/it] 50%|████▉     | 24381/48845 [8:38:02<8:34:31,  1.26s/it] 50%|████▉     | 24382/48845 [8:38:04<8:35:00,  1.26s/it] 50%|██��█▉     | 24383/48845 [8:38:05<8:34:28,  1.26s/it] 50%|████▉     | 24384/48845 [8:38:06<8:34:42,  1.26s/it] 50%|████▉     | 24385/48845 [8:38:07<8:34:41,  1.26s/it]                                                         {'loss': 2.1287, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24385/48845 [8:38:07<8:34:41,  1.26s/it] 50%|████▉     | 24386/48845 [8:38:09<8:34:50,  1.26s/it] 50%|████▉     | 24387/48845 [8:38:10<8:34:18,  1.26s/it] 50%|████▉     | 24388/48845 [8:38:11<8:34:05,  1.26s/it] 50%|████▉     | 24389/48845 [8:38:12<8:34:05,  1.26s/it] 50%|████▉     | 24390/48845 [8:38:14<8:34:27,  1.26s/it]                                                         {'loss': 2.0906, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24390/48845 [8:38:14<8:34:27,  1.26s/it] 50%|████▉     | 24391/48845 [8:38:15<8:34:26,  1.26s/it] 50%|████▉     | 24392/48845 [8:38:16<8:34:04,  1.26s/it] 50%|████▉     | 24393/48845 [8:38:18<8:33:59,  1.26s/it] 50%|████▉     | 24394/48845 [8:38:19<8:33:36,  1.26s/it] 50%|████▉     | 24395/48845 [8:38:20<8:33:35,  1.26s/it]                                                         {'loss': 2.0283, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24395/48845 [8:38:20<8:33:35,  1.26s/it] 50%|████▉     | 24396/48845 [8:38:21<8:33:32,  1.26s/it] 50%|████▉     | 24397/48845 [8:38:23<8:33:45,  1.26s/it] 50%|████▉     | 24398/48845 [8:38:24<8:33:55,  1.26s/it] 50%|████▉     | 24399/48845 [8:38:25<8:33:33,  1.26s/it] 50%|████▉     | 24400/48845 [8:38:26<8:33:34,  1.26s/it]                                                         {'loss': 2.1852, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24400/48845 [8:38:26<8:33:34,  1.26s/it] 50%|████▉     | 24401/48845 [8:38:30<13:34:06,  2.00s/it] 50%|████▉     | 24402/48845 [8:38:31<12:04:00,  1.78s/it] 50%|████▉     | 24403/48845 [8:38:33<11:00:32,  1.62s/it] 50%|████▉     | 24404/48845 [8:38:34<10:16:00,  1.51s/it] 50%|████▉     | 24405/48845 [8:38:35<9:44:49,  1.44s/it]                                                          {'loss': 2.0581, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24405/48845 [8:38:35<9:44:49,  1.44s/it] 50%|████▉     | 24406/48845 [8:38:36<9:23:10,  1.38s/it] 50%|████▉     | 24407/48845 [8:38:38<9:08:01,  1.35s/it] 50%|████▉     | 24408/48845 [8:38:39<8:57:16,  1.32s/it] 50%|████▉     | 24409/48845 [8:38:40<8:49:52,  1.30s/it] 50%|████▉     | 24410/48845 [8:38:41<8:44:59,  1.29s/it]                                                         {'loss': 2.1018, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24410/48845 [8:38:41<8:44:59,  1.29s/it] 50%|████▉     | 24411/48845 [8:38:43<8:41:21,  1.28s/it] 50%|████▉     | 24412/48845 [8:38:44<8:39:10,  1.27s/it] 50%|████▉     | 24413/48845 [8:38:45<8:37:27,  1.27s/it] 50%|████▉     | 24414/48845 [8:38:46<8:36:31,  1.27s/it] 50%|████▉     | 24415/48845 [8:38:48<8:35:39,  1.27s/it]                                                         {'loss': 2.1888, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24415/48845 [8:38:48<8:35:39,  1.27s/it] 50%|████▉     | 24416/48845 [8:38:49<8:35:24,  1.27s/it] 50%|████▉     | 24417/48845 [8:38:50<8:34:49,  1.26s/it] 50%|████▉     | 24418/48845 [8:38:51<8:34:10,  1.26s/it] 50%|████▉     | 24419/48845 [8:38:53<8:33:55,  1.26s/it] 50%|████▉     | 24420/48845 [8:38:54<8:33:56,  1.26s/it]                                                         {'loss': 2.0707, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|████▉     | 24420/48845 [8:38:54<8:33:56,  1.26s/it] 50%|████▉     | 24421/48845 [8:38:55<8:33:26,  1.26s/it] 50%|████▉     | 24422/48845 [8:38:57<8:34:11,  1.26s/it] 50%|█████     | 24423/48845 [8:38:58<8:34:08,  1.26s/it] 50%|█████     | 24424/48845 [8:38:59<8:34:37,  1.26s/it] 50%|█████     | 24425/48845 [8:39:00<8:33:58,  1.26s/it]                                                         {'loss': 1.9357, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24425/48845 [8:39:00<8:33:58,  1.26s/it] 50%|█████     | 24426/48845 [8:39:02<8:33:47,  1.26s/it] 50%|█████     | 24427/48845 [8:39:03<8:33:29,  1.26s/it] 50%|█████     | 24428/48845 [8:39:04<8:33:15,  1.26s/it] 50%|█████     | 24429/48845 [8:39:05<8:32:46,  1.26s/it] 50%|█████     | 24430/48845 [8:39:07<8:33:01,  1.26s/it]                                                         {'loss': 2.0543, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24430/48845 [8:39:07<8:33:01,  1.26s/it] 50%|█████     | 24431/48845 [8:39:08<8:32:39,  1.26s/it] 50%|█████     | 24432/48845 [8:39:09<8:32:24,  1.26s/it] 50%|█████     | 24433/48845 [8:39:10<8:32:59,  1.26s/it] 50%|█████     | 24434/48845 [8:39:12<8:32:35,  1.26s/it] 50%|█████     | 24435/48845 [8:39:13<8:32:35,  1.26s/it]                                                         {'loss': 1.9717, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24435/48845 [8:39:13<8:32:35,  1.26s/it] 50%|█████     | 24436/48845 [8:39:14<8:32:24,  1.26s/it] 50%|█████     | 24437/48845 [8:39:15<8:32:30,  1.26s/it] 50%|█████     | 24438/48845 [8:39:17<8:32:39,  1.26s/it] 50%|█████     | 24439/48845 [8:39:18<8:32:07,  1.26s/it] 50%|█████     | 24440/48845 [8:39:19<8:32:05,  1.26s/it]                                                         {'loss': 2.091, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24440/48845 [8:39:19<8:32:05,  1.26s/it] 50%|█████     | 24441/48845 [8:39:20<8:32:11,  1.26s/it] 50%|█████     | 24442/48845 [8:39:22<8:32:13,  1.26s/it] 50%|█████     | 24443/48845 [8:39:23<8:32:26,  1.26s/it] 50%|█████     | 24444/48845 [8:39:24<8:33:04,  1.26s/it] 50%|█████     | 24445/48845 [8:39:26<8:33:01,  1.26s/it]                                                         {'loss': 2.1281, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24445/48845 [8:39:26<8:33:01,  1.26s/it] 50%|█████     | 24446/48845 [8:39:27<8:33:28,  1.26s/it] 50%|█████     | 24447/48845 [8:39:28<8:33:01,  1.26s/it] 50%|█████     | 24448/48845 [8:39:29<8:33:09,  1.26s/it] 50%|█████     | 24449/48845 [8:39:31<8:33:01,  1.26s/it] 50%|█████     | 24450/48845 [8:39:32<8:32:40,  1.26s/it]                                                         {'loss': 2.0218, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24450/48845 [8:39:32<8:32:40,  1.26s/it] 50%|█████     | 24451/48845 [8:39:33<8:32:38,  1.26s/it] 50%|█████     | 24452/48845 [8:39:34<8:32:48,  1.26s/it] 50%|█████     | 24453/48845 [8:39:36<8:32:38,  1.26s/it] 50%|█████     | 24454/48845 [8:39:37<8:32:24,  1.26s/it] 50%|█████     | 24455/48845 [8:39:38<8:32:02,  1.26s/it]                                                         {'loss': 2.1716, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24455/48845 [8:39:38<8:32:02,  1.26s/it] 50%|█████     | 24456/48845 [8:39:39<8:32:34,  1.26s/it] 50%|█████     | 24457/48845 [8:39:41<8:31:57,  1.26s/it] 50%|█████     | 24458/48845 [8:39:42<8:31:57,  1.26s/it] 50%|█████     | 24459/48845 [8:39:43<8:31:44,  1.26s/it] 50%|█████     | 24460/48845 [8:39:44<8:31:34,  1.26s/it]                                                         {'loss': 2.0629, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24460/48845 [8:39:44<8:31:34,  1.26s/it] 50%|█████     | 24461/48845 [8:39:46<8:31:43,  1.26s/it] 50%|█████     | 24462/48845 [8:39:47<8:31:43,  1.26s/it] 50%|█████     | 24463/48845 [8:39:48<8:32:34,  1.26s/it] 50%|█████     | 24464/48845 [8:39:49<8:31:57,  1.26s/it] 50%|█████     | 24465/48845 [8:39:51<8:31:27,  1.26s/it]                                                         {'loss': 2.2583, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24465/48845 [8:39:51<8:31:27,  1.26s/it] 50%|█████     | 24466/48845 [8:39:52<8:31:23,  1.26s/it] 50%|█████     | 24467/48845 [8:39:53<8:31:36,  1.26s/it] 50%|█████     | 24468/48845 [8:39:55<8:31:28,  1.26s/it] 50%|█████     | 24469/48845 [8:39:56<8:31:40,  1.26s/it] 50%|█████     | 24470/48845 [8:39:57<8:31:16,  1.26s/it]                                                         {'loss': 1.9107, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.5}
+ 50%|█████     | 24470/48845 [8:39:57<8:31:16,  1.26s/it] 50%|█████     | 24471/48845 [8:39:58<8:32:22,  1.26s/it] 50%|█████     | 24472/48845 [8:40:00<8:31:53,  1.26s/it] 50%|█████     | 24473/48845 [8:40:01<8:31:32,  1.26s/it] 50%|█████     | 24474/48845 [8:40:02<8:31:30,  1.26s/it] 50%|█████     | 24475/48845 [8:40:03<8:31:40,  1.26s/it]                                                         {'loss': 1.9728, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24475/48845 [8:40:03<8:31:40,  1.26s/it] 50%|█████     | 24476/48845 [8:40:05<8:31:47,  1.26s/it] 50%|█████     | 24477/48845 [8:40:06<8:32:08,  1.26s/it] 50%|��████     | 24478/48845 [8:40:07<8:31:54,  1.26s/it] 50%|█████     | 24479/48845 [8:40:08<8:31:07,  1.26s/it] 50%|█████     | 24480/48845 [8:40:10<8:31:21,  1.26s/it]                                                         {'loss': 2.1699, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24480/48845 [8:40:10<8:31:21,  1.26s/it] 50%|█████     | 24481/48845 [8:40:11<8:31:26,  1.26s/it] 50%|█████     | 24482/48845 [8:40:12<8:31:30,  1.26s/it] 50%|█████     | 24483/48845 [8:40:13<8:31:53,  1.26s/it] 50%|█████     | 24484/48845 [8:40:15<8:32:16,  1.26s/it] 50%|█████     | 24485/48845 [8:40:16<8:32:12,  1.26s/it]                                                         {'loss': 2.0165, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24485/48845 [8:40:16<8:32:12,  1.26s/it] 50%|█████     | 24486/48845 [8:40:17<8:32:49,  1.26s/it] 50%|█████     | 24487/48845 [8:40:18<8:32:37,  1.26s/it] 50%|█████     | 24488/48845 [8:40:20<8:32:07,  1.26s/it] 50%|█████     | 24489/48845 [8:40:21<8:31:48,  1.26s/it] 50%|█████     | 24490/48845 [8:40:22<8:31:49,  1.26s/it]                                                         {'loss': 2.1772, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24490/48845 [8:40:22<8:31:49,  1.26s/it] 50%|█████     | 24491/48845 [8:40:24<8:31:58,  1.26s/it] 50%|█████     | 24492/48845 [8:40:25<8:31:51,  1.26s/it] 50%|█████     | 24493/48845 [8:40:26<8:31:41,  1.26s/it] 50%|█████     | 24494/48845 [8:40:27<8:31:14,  1.26s/it] 50%|█████     | 24495/48845 [8:40:29<8:31:50,  1.26s/it]                                                         {'loss': 2.0922, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24495/48845 [8:40:29<8:31:50,  1.26s/it] 50%|█████     | 24496/48845 [8:40:30<8:32:09,  1.26s/it] 50%|█████     | 24497/48845 [8:40:31<8:31:51,  1.26s/it] 50%|█████     | 24498/48845 [8:40:32<8:31:20,  1.26s/it] 50%|█████     | 24499/48845 [8:40:34<8:31:34,  1.26s/it] 50%|█████     | 24500/48845 [8:40:35<8:31:34,  1.26s/it]                                                         {'loss': 2.1704, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24500/48845 [8:40:35<8:31:34,  1.26s/it] 50%|█████     | 24501/48845 [8:40:36<8:31:42,  1.26s/it] 50%|█████     | 24502/48845 [8:40:37<8:31:55,  1.26s/it] 50%|█████     | 24503/48845 [8:40:39<8:32:16,  1.26s/it] 50%|█████     | 24504/48845 [8:40:40<8:31:59,  1.26s/it] 50%|█████     | 24505/48845 [8:40:41<8:32:07,  1.26s/it]                                                         {'loss': 2.1996, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24505/48845 [8:40:41<8:32:07,  1.26s/it] 50%|█████     | 24506/48845 [8:40:42<8:32:28,  1.26s/it] 50%|█████     | 24507/48845 [8:40:44<8:32:21,  1.26s/it] 50%|█████     | 24508/48845 [8:40:45<8:31:51,  1.26s/it] 50%|█████     | 24509/48845 [8:40:46<8:31:46,  1.26s/it] 50%|█████     | 24510/48845 [8:40:47<8:31:29,  1.26s/it]                                                         {'loss': 2.182, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24510/48845 [8:40:47<8:31:29,  1.26s/it] 50%|█████     | 24511/48845 [8:40:49<8:31:34,  1.26s/it] 50%|█████     | 24512/48845 [8:40:50<8:31:09,  1.26s/it] 50%|█████     | 24513/48845 [8:40:51<8:30:52,  1.26s/it] 50%|█████     | 24514/48845 [8:40:53<8:30:43,  1.26s/it] 50%|█████     | 24515/48845 [8:40:54<8:31:16,  1.26s/it]                                                         {'loss': 2.0237, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24515/48845 [8:40:54<8:31:16,  1.26s/it] 50%|█████     | 24516/48845 [8:40:55<8:31:31,  1.26s/it] 50%|█████     | 24517/48845 [8:40:56<8:31:25,  1.26s/it] 50%|█████     | 24518/48845 [8:40:58<8:31:27,  1.26s/it] 50%|█████     | 24519/48845 [8:40:59<8:30:52,  1.26s/it] 50%|█████     | 24520/48845 [8:41:00<8:31:07,  1.26s/it]                                                         {'loss': 2.113, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24520/48845 [8:41:00<8:31:07,  1.26s/it] 50%|█████     | 24521/48845 [8:41:01<8:31:09,  1.26s/it] 50%|█████     | 24522/48845 [8:41:03<8:31:33,  1.26s/it] 50%|█████     | 24523/48845 [8:41:04<8:31:47,  1.26s/it] 50%|█████     | 24524/48845 [8:41:05<8:31:56,  1.26s/it] 50%|█████     | 24525/48845 [8:41:06<8:31:40,  1.26s/it]                                                         {'loss': 1.9394, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24525/48845 [8:41:06<8:31:40,  1.26s/it] 50%|█████     | 24526/48845 [8:41:08<8:31:37,  1.26s/it] 50%|█████     | 24527/48845 [8:41:09<8:31:14,  1.26s/it] 50%|█████     | 24528/48845 [8:41:10<8:31:41,  1.26s/it] 50%|█████     | 24529/48845 [8:41:11<8:31:17,  1.26s/it] 50%|█████     | 24530/48845 [8:41:13<8:31:32,  1.26s/it]                                                         {'loss': 2.1289, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24530/48845 [8:41:13<8:31:32,  1.26s/it] 50%|█████     | 24531/48845 [8:41:14<8:31:37,  1.26s/it] 50%|█████     | 24532/48845 [8:41:15<8:31:38,  1.26s/it] 50%|█████     | 24533/48845 [8:41:17<8:31:45,  1.26s/it] 50%|█████     | 24534/48845 [8:41:18<8:31:38,  1.26s/it] 50%|█████     | 24535/48845 [8:41:19<8:31:46,  1.26s/it]                                                         {'loss': 2.0089, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24535/48845 [8:41:19<8:31:46,  1.26s/it] 50%|█████     | 24536/48845 [8:41:20<8:31:36,  1.26s/it] 50%|█████     | 24537/48845 [8:41:22<8:31:28,  1.26s/it] 50%|█████     | 24538/48845 [8:41:23<8:31:09,  1.26s/it] 50%|█████     | 24539/48845 [8:41:24<8:33:23,  1.27s/it] 50%|█████     | 24540/48845 [8:41:25<8:32:18,  1.26s/it]                                                         {'loss': 2.0405, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24540/48845 [8:41:25<8:32:18,  1.26s/it] 50%|█████     | 24541/48845 [8:41:27<8:31:51,  1.26s/it] 50%|█████     | 24542/48845 [8:41:28<8:31:14,  1.26s/it] 50%|█████     | 24543/48845 [8:41:29<8:30:56,  1.26s/it] 50%|█████     | 24544/48845 [8:41:30<8:31:17,  1.26s/it] 50%|█████     | 24545/48845 [8:41:32<8:31:10,  1.26s/it]                                                         {'loss': 1.9246, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24545/48845 [8:41:32<8:31:10,  1.26s/it] 50%|█████     | 24546/48845 [8:41:33<8:31:09,  1.26s/it] 50%|█████     | 24547/48845 [8:41:34<8:30:59,  1.26s/it] 50%|█████     | 24548/48845 [8:41:35<8:30:46,  1.26s/it] 50%|█████     | 24549/48845 [8:41:37<8:30:58,  1.26s/it] 50%|█████     | 24550/48845 [8:41:38<8:31:07,  1.26s/it]                                                         {'loss': 2.0048, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24550/48845 [8:41:38<8:31:07,  1.26s/it] 50%|█████     | 24551/48845 [8:41:39<8:31:09,  1.26s/it] 50%|█████     | 24552/48845 [8:41:40<8:30:58,  1.26s/it] 50%|█████     | 24553/48845 [8:41:42<8:31:04,  1.26s/it] 50%|█████     | 24554/48845 [8:41:43<8:31:18,  1.26s/it] 50%|█████     | 24555/48845 [8:41:44<8:31:21,  1.26s/it]                                                         {'loss': 2.1094, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24555/48845 [8:41:44<8:31:21,  1.26s/it] 50%|█████     | 24556/48845 [8:41:46<8:31:49,  1.26s/it] 50%|█████     | 24557/48845 [8:41:47<8:31:20,  1.26s/it] 50%|█████     | 24558/48845 [8:41:48<8:30:55,  1.26s/it] 50%|█████     | 24559/48845 [8:41:49<8:30:35,  1.26s/it] 50%|█████     | 24560/48845 [8:41:51<8:30:18,  1.26s/it]                                                         {'loss': 2.0686, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24560/48845 [8:41:51<8:30:18,  1.26s/it] 50%|█████     | 24561/48845 [8:41:52<8:30:14,  1.26s/it] 50%|█████     | 24562/48845 [8:41:53<8:29:38,  1.26s/it] 50%|█████     | 24563/48845 [8:41:54<8:29:59,  1.26s/it] 50%|█████     | 24564/48845 [8:41:56<8:38:46,  1.28s/it] 50%|█████     | 24565/48845 [8:41:57<8:36:12,  1.28s/it]                                                         {'loss': 2.1705, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.51}
+ 50%|█████     | 24565/48845 [8:41:57<8:36:12,  1.28s/it] 50%|█████     | 24566/48845 [8:41:58<8:34:07,  1.27s/it] 50%|█████     | 24567/48845 [8:41:59<8:32:45,  1.27s/it] 50%|█████     | 24568/48845 [8:42:01<8:31:42,  1.26s/it] 50%|█████     | 24569/48845 [8:42:02<8:31:02,  1.26s/it] 50%|█████     | 24570/48845 [8:42:03<8:30:37,  1.26s/it]                                                         {'loss': 2.1618, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24570/48845 [8:42:03<8:30:37,  1.26s/it] 50%|█████     | 24571/48845 [8:42:05<8:30:20,  1.26s/it] 50%|█████     | 24572/48845 [8:42:06<8:30:08,  1.26s/it] 50%|█████     | 24573/48845 [8:42:07<8:30:10,  1.26s/it] 50%|█████     | 24574/48845 [8:42:08<8:29:43,  1.26s/it] 50%|█████     | 24575/48845 [8:42:10<8:29:50,  1.26s/it]                                                         {'loss': 2.07, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24575/48845 [8:42:10<8:29:50,  1.26s/it] 50%|█████     | 24576/48845 [8:42:11<8:29:43,  1.26s/it] 50%|█████     | 24577/48845 [8:42:12<8:30:00,  1.26s/it] 50%|█████     | 24578/48845 [8:42:13<8:29:54,  1.26s/it] 50%|█████     | 24579/48845 [8:42:15<8:29:52,  1.26s/it] 50%|█████     | 24580/48845 [8:42:16<8:30:01,  1.26s/it]                                                         {'loss': 2.0775, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24580/48845 [8:42:16<8:30:01,  1.26s/it] 50%|█████     | 24581/48845 [8:42:17<8:29:37,  1.26s/it] 50%|█████     | 24582/48845 [8:42:18<8:29:40,  1.26s/it] 50%|█████     | 24583/48845 [8:42:20<8:29:53,  1.26s/it] 50%|█████     | 24584/48845 [8:42:21<8:30:36,  1.26s/it] 50%|█████     | 24585/48845 [8:42:22<8:30:19,  1.26s/it]                                                         {'loss': 2.0507, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24585/48845 [8:42:22<8:30:19,  1.26s/it] 50%|█████     | 24586/48845 [8:42:23<8:30:21,  1.26s/it] 50%|█████     | 24587/48845 [8:42:25<8:29:46,  1.26s/it] 50%|█████     | 24588/48845 [8:42:26<8:29:41,  1.26s/it] 50%|█████     | 24589/48845 [8:42:27<8:29:30,  1.26s/it] 50%|█████     | 24590/48845 [8:42:28<8:29:21,  1.26s/it]                                                         {'loss': 1.8343, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24590/48845 [8:42:28<8:29:21,  1.26s/it] 50%|█████     | 24591/48845 [8:42:30<8:29:26,  1.26s/it] 50%|█████     | 24592/48845 [8:42:31<8:29:08,  1.26s/it] 50%|█████     | 24593/48845 [8:42:32<8:29:40,  1.26s/it] 50%|█████     | 24594/48845 [8:42:34<8:29:32,  1.26s/it] 50%|█████     | 24595/48845 [8:42:35<8:29:24,  1.26s/it]                                                         {'loss': 2.0411, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24595/48845 [8:42:35<8:29:24,  1.26s/it] 50%|█████     | 24596/48845 [8:42:36<8:29:48,  1.26s/it] 50%|█████     | 24597/48845 [8:42:37<8:30:23,  1.26s/it] 50%|█████     | 24598/48845 [8:42:39<8:30:24,  1.26s/it] 50%|█████     | 24599/48845 [8:42:40<8:30:05,  1.26s/it] 50%|█████     | 24600/48845 [8:42:41<8:29:46,  1.26s/it]                                                         {'loss': 2.0747, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24600/48845 [8:42:41<8:29:46,  1.26s/it] 50%|█████     | 24601/48845 [8:42:45<13:26:50,  2.00s/it] 50%|█████     | 24602/48845 [8:42:46<11:57:06,  1.77s/it] 50%|█████     | 24603/48845 [8:42:47<10:54:38,  1.62s/it] 50%|█████     | 24604/48845 [8:42:49<10:11:23,  1.51s/it] 50%|█████     | 24605/48845 [8:42:50<9:41:33,  1.44s/it]                                                          {'loss': 2.1134, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24605/48845 [8:42:50<9:41:33,  1.44s/it] 50%|█████     | 24606/48845 [8:42:51<9:19:25,  1.38s/it] 50%|█████     | 24607/48845 [8:42:52<9:04:17,  1.35s/it] 50%|█████     | 24608/48845 [8:42:54<8:53:26,  1.32s/it] 50%|█████     | 24609/48845 [8:42:55<8:45:51,  1.30s/it] 50%|█████     | 24610/48845 [8:42:56<8:40:48,  1.29s/it]                                                         {'loss': 1.9343, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24610/48845 [8:42:56<8:40:48,  1.29s/it] 50%|█████     | 24611/48845 [8:42:57<8:37:02,  1.28s/it] 50%|█████     | 24612/48845 [8:42:59<8:34:25,  1.27s/it] 50%|█████     | 24613/48845 [8:43:00<8:32:51,  1.27s/it] 50%|█████     | 24614/48845 [8:43:01<8:32:34,  1.27s/it] 50%|█████     | 24615/48845 [8:43:02<8:31:37,  1.27s/it]                                                         {'loss': 2.0636, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24615/48845 [8:43:02<8:31:37,  1.27s/it] 50%|█████     | 24616/48845 [8:43:04<8:30:49,  1.26s/it] 50%|█████     | 24617/48845 [8:43:05<8:30:00,  1.26s/it] 50%|█████     | 24618/48845 [8:43:06<8:29:38,  1.26s/it] 50%|█████     | 24619/48845 [8:43:07<8:29:17,  1.26s/it] 50%|█████     | 24620/48845 [8:43:09<8:29:05,  1.26s/it]                                                         {'loss': 2.0272, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24620/48845 [8:43:09<8:29:05,  1.26s/it] 50%|█████     | 24621/48845 [8:43:10<8:28:28,  1.26s/it] 50%|█████     | 24622/48845 [8:43:11<8:28:01,  1.26s/it] 50%|█████     | 24623/48845 [8:43:13<8:28:46,  1.26s/it] 50%|█████     | 24624/48845 [8:43:14<8:28:52,  1.26s/it] 50%|█████     | 24625/48845 [8:43:15<8:28:44,  1.26s/it]                                                         {'loss': 1.9898, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24625/48845 [8:43:15<8:28:44,  1.26s/it] 50%|█████     | 24626/48845 [8:43:16<8:28:31,  1.26s/it] 50%|█████     | 24627/48845 [8:43:18<8:27:54,  1.26s/it] 50%|█████     | 24628/48845 [8:43:19<8:28:13,  1.26s/it] 50%|█████     | 24629/48845 [8:43:20<8:28:30,  1.26s/it] 50%|█████     | 24630/48845 [8:43:21<8:28:25,  1.26s/it]                                                         {'loss': 2.2335, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24630/48845 [8:43:21<8:28:25,  1.26s/it] 50%|█████     | 24631/48845 [8:43:23<8:28:04,  1.26s/it] 50%|█████     | 24632/48845 [8:43:24<8:27:49,  1.26s/it] 50%|█████     | 24633/48845 [8:43:25<8:28:17,  1.26s/it] 50%|█████     | 24634/48845 [8:43:26<8:27:58,  1.26s/it] 50%|█████     | 24635/48845 [8:43:28<8:27:42,  1.26s/it]                                                         {'loss': 1.9401, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24635/48845 [8:43:28<8:27:42,  1.26s/it] 50%|█████     | 24636/48845 [8:43:29<8:27:50,  1.26s/it] 50%|█████     | 24637/48845 [8:43:30<8:27:52,  1.26s/it] 50%|█████     | 24638/48845 [8:43:31<8:28:01,  1.26s/it] 50%|█████     | 24639/48845 [8:43:33<8:27:45,  1.26s/it] 50%|█████     | 24640/48845 [8:43:34<8:27:57,  1.26s/it]                                                         {'loss': 2.1018, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24640/48845 [8:43:34<8:27:57,  1.26s/it] 50%|█████     | 24641/48845 [8:43:35<8:28:08,  1.26s/it] 50%|█████     | 24642/48845 [8:43:36<8:27:55,  1.26s/it] 50%|█████     | 24643/48845 [8:43:38<8:28:18,  1.26s/it] 50%|█████     | 24644/48845 [8:43:39<8:28:13,  1.26s/it] 50%|█████     | 24645/48845 [8:43:40<8:28:11,  1.26s/it]                                                         {'loss': 2.012, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24645/48845 [8:43:40<8:28:11,  1.26s/it] 50%|█████     | 24646/48845 [8:43:41<8:28:04,  1.26s/it] 50%|█████     | 24647/48845 [8:43:43<8:27:57,  1.26s/it] 50%|█████     | 24648/48845 [8:43:44<8:27:52,  1.26s/it] 50%|█████     | 24649/48845 [8:43:45<8:27:43,  1.26s/it] 50%|█████     | 24650/48845 [8:43:47<8:27:59,  1.26s/it]                                                         {'loss': 2.0262, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24650/48845 [8:43:47<8:27:59,  1.26s/it] 50%|█████     | 24651/48845 [8:43:48<8:28:05,  1.26s/it] 50%|█████     | 24652/48845 [8:43:49<8:28:20,  1.26s/it] 50%|█████     | 24653/48845 [8:43:50<8:27:59,  1.26s/it] 50%|█████     | 24654/48845 [8:43:52<8:27:34,  1.26s/it] 50%|█████     | 24655/48845 [8:43:53<8:28:23,  1.26s/it]                                                         {'loss': 2.1213, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24655/48845 [8:43:53<8:28:23,  1.26s/it] 50%|█████     | 24656/48845 [8:43:54<8:28:25,  1.26s/it] 50%|█████     | 24657/48845 [8:43:55<8:28:09,  1.26s/it] 50%|█████     | 24658/48845 [8:43:57<8:27:38,  1.26s/it] 50%|█████     | 24659/48845 [8:43:58<8:27:31,  1.26s/it] 50%|█████     | 24660/48845 [8:43:59<8:27:28,  1.26s/it]                                                         {'loss': 2.1392, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24660/48845 [8:43:59<8:27:28,  1.26s/it] 50%|█████     | 24661/48845 [8:44:00<8:27:41,  1.26s/it] 50%|█████     | 24662/48845 [8:44:02<8:27:29,  1.26s/it] 50%|█████     | 24663/48845 [8:44:03<8:27:40,  1.26s/it] 50%|█████     | 24664/48845 [8:44:04<8:27:38,  1.26s/it] 50%|█████     | 24665/48845 [8:44:05<8:27:22,  1.26s/it]                                                         {'loss': 2.069, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.52}
+ 50%|█████     | 24665/48845 [8:44:05<8:27:22,  1.26s/it] 50%|█████     | 24666/48845 [8:44:07<8:27:26,  1.26s/it] 51%|█████     | 24667/48845 [8:44:08<8:27:45,  1.26s/it] 51%|█████     | 24668/48845 [8:44:09<8:27:41,  1.26s/it] 51%|█████     | 24669/48845 [8:44:10<8:27:38,  1.26s/it] 51%|█████     | 24670/48845 [8:44:12<8:27:33,  1.26s/it]                                                         {'loss': 2.0975, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24670/48845 [8:44:12<8:27:33,  1.26s/it] 51%|█████     | 24671/48845 [8:44:13<8:43:45,  1.30s/it] 51%|█████     | 24672/48845 [8:44:14<8:39:12,  1.29s/it] 51%|█████     | 24673/48845 [8:44:16<8:35:35,  1.28s/it] 51%|█████     | 24674/48845 [8:44:17<8:33:19,  1.27s/it] 51%|█████     | 24675/48845 [8:44:18<8:50:28,  1.32s/it]                                                         {'loss': 2.1826, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24675/48845 [8:44:18<8:50:28,  1.32s/it] 51%|█████     | 24676/48845 [8:44:20<8:44:14,  1.30s/it] 51%|█████     | 24677/48845 [8:44:21<8:39:09,  1.29s/it] 51%|█████     | 24678/48845 [8:44:22<8:35:16,  1.28s/it] 51%|█████     | 24679/48845 [8:44:23<8:32:45,  1.27s/it] 51%|█████     | 24680/48845 [8:44:25<8:31:08,  1.27s/it]                                                         {'loss': 2.1532, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24680/48845 [8:44:25<8:31:08,  1.27s/it] 51%|█████     | 24681/48845 [8:44:26<8:29:56,  1.27s/it] 51%|█████     | 24682/48845 [8:44:27<8:29:19,  1.26s/it] 51%|█████     | 24683/48845 [8:44:28<8:28:29,  1.26s/it] 51%|█████     | 24684/48845 [8:44:30<8:27:57,  1.26s/it] 51%|█████     | 24685/48845 [8:44:31<8:27:59,  1.26s/it]                                                         {'loss': 2.0568, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24685/48845 [8:44:31<8:27:59,  1.26s/it] 51%|█████     | 24686/48845 [8:44:32<8:27:43,  1.26s/it] 51%|█████     | 24687/48845 [8:44:33<8:27:44,  1.26s/it] 51%|█████     | 24688/48845 [8:44:35<8:27:20,  1.26s/it] 51%|█████     | 24689/48845 [8:44:36<8:27:00,  1.26s/it] 51%|█████     | 24690/48845 [8:44:37<8:27:05,  1.26s/it]                                                         {'loss': 2.0754, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24690/48845 [8:44:37<8:27:05,  1.26s/it] 51%|█████     | 24691/48845 [8:44:38<8:27:30,  1.26s/it] 51%|█████     | 24692/48845 [8:44:40<8:27:42,  1.26s/it] 51%|█████     | 24693/48845 [8:44:41<8:27:05,  1.26s/it] 51%|█████     | 24694/48845 [8:44:42<8:26:54,  1.26s/it] 51%|█████     | 24695/48845 [8:44:44<8:27:00,  1.26s/it]                                                         {'loss': 2.0084, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24695/48845 [8:44:44<8:27:00,  1.26s/it] 51%|█████     | 24696/48845 [8:44:45<8:27:08,  1.26s/it] 51%|█████     | 24697/48845 [8:44:46<8:27:08,  1.26s/it] 51%|█████     | 24698/48845 [8:44:47<8:26:42,  1.26s/it] 51%|█████     | 24699/48845 [8:44:49<8:26:57,  1.26s/it] 51%|█████     | 24700/48845 [8:44:50<8:27:01,  1.26s/it]                                                         {'loss': 1.9091, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24700/48845 [8:44:50<8:27:01,  1.26s/it] 51%|█████     | 24701/48845 [8:44:51<8:26:54,  1.26s/it] 51%|█████     | 24702/48845 [8:44:52<8:26:55,  1.26s/it] 51%|█████     | 24703/48845 [8:44:54<8:26:57,  1.26s/it] 51%|█████     | 24704/48845 [8:44:55<8:26:57,  1.26s/it] 51%|█████     | 24705/48845 [8:44:56<8:26:45,  1.26s/it]                                                         {'loss': 2.157, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24705/48845 [8:44:56<8:26:45,  1.26s/it] 51%|█████     | 24706/48845 [8:44:57<8:26:32,  1.26s/it] 51%|█████     | 24707/48845 [8:44:59<8:26:42,  1.26s/it] 51%|█████     | 24708/48845 [8:45:00<8:26:19,  1.26s/it] 51%|█████     | 24709/48845 [8:45:01<8:26:40,  1.26s/it] 51%|█████     | 24710/48845 [8:45:02<8:26:57,  1.26s/it]                                                         {'loss': 1.9288, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24710/48845 [8:45:02<8:26:57,  1.26s/it] 51%|█████     | 24711/48845 [8:45:04<8:26:53,  1.26s/it] 51%|█████     | 24712/48845 [8:45:05<8:27:02,  1.26s/it] 51%|█████     | 24713/48845 [8:45:06<8:27:08,  1.26s/it] 51%|█████     | 24714/48845 [8:45:07<8:26:59,  1.26s/it] 51%|█████     | 24715/48845 [8:45:09<8:26:54,  1.26s/it]                                                         {'loss': 2.1629, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24715/48845 [8:45:09<8:26:54,  1.26s/it] 51%|█████     | 24716/48845 [8:45:10<8:26:31,  1.26s/it] 51%|█████     | 24717/48845 [8:45:11<8:26:22,  1.26s/it] 51%|█████     | 24718/48845 [8:45:12<8:26:25,  1.26s/it] 51%|█████     | 24719/48845 [8:45:14<8:26:00,  1.26s/it] 51%|█████     | 24720/48845 [8:45:15<8:26:49,  1.26s/it]                                                         {'loss': 1.9529, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24720/48845 [8:45:15<8:26:49,  1.26s/it] 51%|█████     | 24721/48845 [8:45:16<8:26:52,  1.26s/it] 51%|█████     | 24722/48845 [8:45:18<8:26:55,  1.26s/it] 51%|█████     | 24723/48845 [8:45:19<8:27:18,  1.26s/it] 51%|█████     | 24724/48845 [8:45:20<8:26:57,  1.26s/it] 51%|█████     | 24725/48845 [8:45:21<8:26:44,  1.26s/it]                                                         {'loss': 1.951, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24725/48845 [8:45:21<8:26:44,  1.26s/it] 51%|█████     | 24726/48845 [8:45:23<8:26:39,  1.26s/it] 51%|█████     | 24727/48845 [8:45:24<8:26:34,  1.26s/it] 51%|█████     | 24728/48845 [8:45:25<8:26:48,  1.26s/it] 51%|█████     | 24729/48845 [8:45:26<8:26:37,  1.26s/it] 51%|█████     | 24730/48845 [8:45:28<8:26:32,  1.26s/it]                                                         {'loss': 1.9832, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24730/48845 [8:45:28<8:26:32,  1.26s/it] 51%|█████     | 24731/48845 [8:45:29<8:26:35,  1.26s/it] 51%|█████     | 24732/48845 [8:45:30<8:26:10,  1.26s/it] 51%|█████     | 24733/48845 [8:45:31<8:26:06,  1.26s/it] 51%|█████     | 24734/48845 [8:45:33<8:25:51,  1.26s/it] 51%|█████     | 24735/48845 [8:45:34<8:26:24,  1.26s/it]                                                         {'loss': 1.9604, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24735/48845 [8:45:34<8:26:24,  1.26s/it] 51%|█████     | 24736/48845 [8:45:35<8:26:28,  1.26s/it] 51%|█████     | 24737/48845 [8:45:36<8:26:36,  1.26s/it] 51%|█████     | 24738/48845 [8:45:38<8:27:02,  1.26s/it] 51%|█████     | 24739/48845 [8:45:39<8:26:59,  1.26s/it] 51%|█████     | 24740/48845 [8:45:40<8:27:14,  1.26s/it]                                                         {'loss': 1.9545, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24740/48845 [8:45:40<8:27:14,  1.26s/it] 51%|█████     | 24741/48845 [8:45:41<8:28:14,  1.27s/it] 51%|█████     | 24742/48845 [8:45:43<8:28:56,  1.27s/it] 51%|█████     | 24743/48845 [8:45:44<8:28:34,  1.27s/it] 51%|█████     | 24744/48845 [8:45:45<8:27:56,  1.26s/it] 51%|█████     | 24745/48845 [8:45:47<8:27:37,  1.26s/it]                                                         {'loss': 2.1717, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24745/48845 [8:45:47<8:27:37,  1.26s/it] 51%|█████     | 24746/48845 [8:45:48<8:27:09,  1.26s/it] 51%|█████     | 24747/48845 [8:45:49<8:26:46,  1.26s/it] 51%|█████     | 24748/48845 [8:45:50<8:26:46,  1.26s/it] 51%|█████     | 24749/48845 [8:45:52<8:26:27,  1.26s/it] 51%|█████     | 24750/48845 [8:45:53<8:26:58,  1.26s/it]                                                         {'loss': 2.0204, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24750/48845 [8:45:53<8:26:58,  1.26s/it] 51%|█████     | 24751/48845 [8:45:54<8:26:56,  1.26s/it] 51%|█████     | 24752/48845 [8:45:55<8:26:55,  1.26s/it] 51%|█████     | 24753/48845 [8:45:57<8:26:23,  1.26s/it] 51%|█████     | 24754/48845 [8:45:58<8:33:12,  1.28s/it] 51%|█████     | 24755/48845 [8:45:59<8:30:52,  1.27s/it]                                                         {'loss': 2.1027, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24755/48845 [8:45:59<8:30:52,  1.27s/it] 51%|█████     | 24756/48845 [8:46:00<8:29:17,  1.27s/it] 51%|█████     | 24757/48845 [8:46:02<8:28:08,  1.27s/it] 51%|█████     | 24758/48845 [8:46:03<8:27:46,  1.26s/it] 51%|█████     | 24759/48845 [8:46:04<8:27:11,  1.26s/it] 51%|█████     | 24760/48845 [8:46:06<8:26:36,  1.26s/it]                                                         {'loss': 1.9291, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.53}
+ 51%|█████     | 24760/48845 [8:46:06<8:26:36,  1.26s/it] 51%|█████     | 24761/48845 [8:46:07<8:26:23,  1.26s/it] 51%|████���     | 24762/48845 [8:46:08<8:26:02,  1.26s/it] 51%|█████     | 24763/48845 [8:46:09<8:26:00,  1.26s/it] 51%|█████     | 24764/48845 [8:46:11<8:25:44,  1.26s/it] 51%|█████     | 24765/48845 [8:46:12<8:25:48,  1.26s/it]                                                         {'loss': 2.0489, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24765/48845 [8:46:12<8:25:48,  1.26s/it] 51%|█████     | 24766/48845 [8:46:13<8:25:47,  1.26s/it] 51%|█████     | 24767/48845 [8:46:14<8:25:36,  1.26s/it] 51%|█████     | 24768/48845 [8:46:16<8:25:47,  1.26s/it] 51%|█████     | 24769/48845 [8:46:17<8:26:32,  1.26s/it] 51%|█████     | 24770/48845 [8:46:18<8:26:05,  1.26s/it]                                                         {'loss': 2.2425, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24770/48845 [8:46:18<8:26:05,  1.26s/it] 51%|█████     | 24771/48845 [8:46:19<8:26:18,  1.26s/it] 51%|█████     | 24772/48845 [8:46:21<8:26:19,  1.26s/it] 51%|█████     | 24773/48845 [8:46:22<8:25:47,  1.26s/it] 51%|█████     | 24774/48845 [8:46:23<8:26:02,  1.26s/it] 51%|█████     | 24775/48845 [8:46:24<8:25:54,  1.26s/it]                                                         {'loss': 2.0577, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24775/48845 [8:46:24<8:25:54,  1.26s/it] 51%|█████     | 24776/48845 [8:46:26<8:25:57,  1.26s/it] 51%|█████     | 24777/48845 [8:46:27<8:25:44,  1.26s/it] 51%|█████     | 24778/48845 [8:46:28<8:25:33,  1.26s/it] 51%|█████     | 24779/48845 [8:46:29<8:25:48,  1.26s/it] 51%|█████     | 24780/48845 [8:46:31<8:25:33,  1.26s/it]                                                         {'loss': 2.1471, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24780/48845 [8:46:31<8:25:33,  1.26s/it] 51%|█████     | 24781/48845 [8:46:32<8:25:19,  1.26s/it] 51%|█████     | 24782/48845 [8:46:33<8:25:28,  1.26s/it] 51%|█████     | 24783/48845 [8:46:35<8:24:54,  1.26s/it] 51%|█████     | 24784/48845 [8:46:36<8:24:57,  1.26s/it] 51%|█████     | 24785/48845 [8:46:37<8:24:51,  1.26s/it]                                                         {'loss': 2.1344, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24785/48845 [8:46:37<8:24:51,  1.26s/it] 51%|█████     | 24786/48845 [8:46:38<8:24:58,  1.26s/it] 51%|█████     | 24787/48845 [8:46:40<8:24:57,  1.26s/it] 51%|█████     | 24788/48845 [8:46:41<8:26:05,  1.26s/it] 51%|█████     | 24789/48845 [8:46:42<8:25:55,  1.26s/it] 51%|█████     | 24790/48845 [8:46:43<8:25:30,  1.26s/it]                                                         {'loss': 2.204, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24790/48845 [8:46:43<8:25:30,  1.26s/it] 51%|█████     | 24791/48845 [8:46:45<8:25:32,  1.26s/it] 51%|█████     | 24792/48845 [8:46:46<8:25:23,  1.26s/it] 51%|█████     | 24793/48845 [8:46:47<8:25:18,  1.26s/it] 51%|█████     | 24794/48845 [8:46:48<8:25:18,  1.26s/it] 51%|█████     | 24795/48845 [8:46:50<8:25:08,  1.26s/it]                                                         {'loss': 1.9982, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24795/48845 [8:46:50<8:25:08,  1.26s/it] 51%|█████     | 24796/48845 [8:46:51<8:25:04,  1.26s/it] 51%|█████     | 24797/48845 [8:46:52<8:25:20,  1.26s/it] 51%|█████     | 24798/48845 [8:46:53<8:25:26,  1.26s/it] 51%|█████     | 24799/48845 [8:46:55<8:25:13,  1.26s/it] 51%|█████     | 24800/48845 [8:46:56<8:25:13,  1.26s/it]                                                         {'loss': 1.9238, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24800/48845 [8:46:56<8:25:13,  1.26s/it] 51%|█████     | 24801/48845 [8:47:00<13:20:13,  2.00s/it] 51%|█████     | 24802/48845 [8:47:01<11:51:28,  1.78s/it] 51%|█████     | 24803/48845 [8:47:02<10:49:17,  1.62s/it] 51%|█████     | 24804/48845 [8:47:03<10:05:46,  1.51s/it] 51%|█████     | 24805/48845 [8:47:05<9:34:58,  1.44s/it]                                                          {'loss': 2.0195, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24805/48845 [8:47:05<9:34:58,  1.44s/it] 51%|█████     | 24806/48845 [8:47:06<9:14:31,  1.38s/it] 51%|█████     | 24807/48845 [8:47:07<9:00:37,  1.35s/it] 51%|█████     | 24808/48845 [8:47:08<8:49:44,  1.32s/it] 51%|█████     | 24809/48845 [8:47:10<8:41:53,  1.30s/it] 51%|█████     | 24810/48845 [8:47:11<8:36:30,  1.29s/it]                                                         {'loss': 1.9854, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24810/48845 [8:47:11<8:36:30,  1.29s/it] 51%|█████     | 24811/48845 [8:47:12<8:33:13,  1.28s/it] 51%|█████     | 24812/48845 [8:47:14<8:30:39,  1.27s/it] 51%|█████     | 24813/48845 [8:47:15<8:29:11,  1.27s/it] 51%|█████     | 24814/48845 [8:47:16<8:27:19,  1.27s/it] 51%|█████     | 24815/48845 [8:47:17<8:26:57,  1.27s/it]                                                         {'loss': 2.0333, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24815/48845 [8:47:17<8:26:57,  1.27s/it] 51%|█████     | 24816/48845 [8:47:19<8:26:29,  1.26s/it] 51%|█████     | 24817/48845 [8:47:20<8:25:44,  1.26s/it] 51%|█████     | 24818/48845 [8:47:21<8:24:59,  1.26s/it] 51%|█████     | 24819/48845 [8:47:22<8:24:20,  1.26s/it] 51%|█████     | 24820/48845 [8:47:24<8:24:16,  1.26s/it]                                                         {'loss': 2.1652, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24820/48845 [8:47:24<8:24:16,  1.26s/it] 51%|█████     | 24821/48845 [8:47:25<8:24:43,  1.26s/it] 51%|█████     | 24822/48845 [8:47:26<8:24:33,  1.26s/it] 51%|█████     | 24823/48845 [8:47:27<8:24:51,  1.26s/it] 51%|█████     | 24824/48845 [8:47:29<8:24:12,  1.26s/it] 51%|█████     | 24825/48845 [8:47:30<8:24:08,  1.26s/it]                                                         {'loss': 2.0598, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24825/48845 [8:47:30<8:24:08,  1.26s/it] 51%|█████     | 24826/48845 [8:47:31<8:24:20,  1.26s/it] 51%|█████     | 24827/48845 [8:47:32<8:23:58,  1.26s/it] 51%|█████     | 24828/48845 [8:47:34<8:23:51,  1.26s/it] 51%|█████     | 24829/48845 [8:47:35<8:23:57,  1.26s/it] 51%|█████     | 24830/48845 [8:47:36<8:24:04,  1.26s/it]                                                         {'loss': 1.9993, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24830/48845 [8:47:36<8:24:04,  1.26s/it] 51%|█████     | 24831/48845 [8:47:37<8:24:08,  1.26s/it] 51%|█████     | 24832/48845 [8:47:39<8:24:33,  1.26s/it] 51%|█████     | 24833/48845 [8:47:40<8:24:14,  1.26s/it] 51%|█████     | 24834/48845 [8:47:41<8:23:47,  1.26s/it] 51%|█████     | 24835/48845 [8:47:42<8:23:54,  1.26s/it]                                                         {'loss': 2.1336, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24835/48845 [8:47:42<8:23:54,  1.26s/it] 51%|█████     | 24836/48845 [8:47:44<8:24:35,  1.26s/it] 51%|█████     | 24837/48845 [8:47:45<8:24:06,  1.26s/it] 51%|█████     | 24838/48845 [8:47:46<8:24:39,  1.26s/it] 51%|█████     | 24839/48845 [8:47:48<8:25:37,  1.26s/it] 51%|█████     | 24840/48845 [8:47:49<8:25:18,  1.26s/it]                                                         {'loss': 2.0685, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24840/48845 [8:47:49<8:25:18,  1.26s/it] 51%|█████     | 24841/48845 [8:47:50<8:25:26,  1.26s/it] 51%|█████     | 24842/48845 [8:47:51<8:24:34,  1.26s/it] 51%|█████     | 24843/48845 [8:47:53<8:43:09,  1.31s/it] 51%|█████     | 24844/48845 [8:47:54<8:37:27,  1.29s/it] 51%|█████     | 24845/48845 [8:47:55<8:33:31,  1.28s/it]                                                         {'loss': 2.0119, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24845/48845 [8:47:55<8:33:31,  1.28s/it] 51%|█████     | 24846/48845 [8:47:57<8:30:42,  1.28s/it] 51%|█████     | 24847/48845 [8:47:58<8:28:27,  1.27s/it] 51%|█████     | 24848/48845 [8:47:59<8:27:19,  1.27s/it] 51%|█████     | 24849/48845 [8:48:00<8:26:31,  1.27s/it] 51%|█████     | 24850/48845 [8:48:02<8:26:03,  1.27s/it]                                                         {'loss': 2.0692, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24850/48845 [8:48:02<8:26:03,  1.27s/it] 51%|█████     | 24851/48845 [8:48:03<8:26:49,  1.27s/it] 51%|█████     | 24852/48845 [8:48:04<8:25:56,  1.27s/it] 51%|█████     | 24853/48845 [8:48:05<8:25:06,  1.26s/it] 51%|█████     | 24854/48845 [8:48:07<8:24:36,  1.26s/it] 51%|█████     | 24855/48845 [8:48:08<8:24:24,  1.26s/it]                                                         {'loss': 1.9638, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24855/48845 [8:48:08<8:24:24,  1.26s/it] 51%|█████     | 24856/48845 [8:48:09<8:24:25,  1.26s/it] 51%|█████     | 24857/48845 [8:48:10<8:25:41,  1.26s/it] 51%|█████     | 24858/48845 [8:48:12<8:24:56,  1.26s/it] 51%|█████     | 24859/48845 [8:48:13<8:36:55,  1.29s/it] 51%|█████     | 24860/48845 [8:48:14<8:33:02,  1.28s/it]                                                         {'loss': 1.9587, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.54}
+ 51%|█████     | 24860/48845 [8:48:14<8:33:02,  1.28s/it] 51%|█████     | 24861/48845 [8:48:16<8:30:47,  1.28s/it] 51%|█████     | 24862/48845 [8:48:17<8:28:53,  1.27s/it] 51%|█████     | 24863/48845 [8:48:18<8:27:28,  1.27s/it] 51%|█████     | 24864/48845 [8:48:19<8:26:39,  1.27s/it] 51%|█████     | 24865/48845 [8:48:21<8:26:05,  1.27s/it]                                                         {'loss': 1.9156, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24865/48845 [8:48:21<8:26:05,  1.27s/it] 51%|█████     | 24866/48845 [8:48:22<8:25:41,  1.27s/it] 51%|█████     | 24867/48845 [8:48:23<8:25:23,  1.26s/it] 51%|█████     | 24868/48845 [8:48:24<8:24:59,  1.26s/it] 51%|█████     | 24869/48845 [8:48:26<8:24:43,  1.26s/it] 51%|█████     | 24870/48845 [8:48:27<8:23:53,  1.26s/it]                                                         {'loss': 1.9197, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24870/48845 [8:48:27<8:23:53,  1.26s/it] 51%|█████     | 24871/48845 [8:48:28<8:23:44,  1.26s/it] 51%|█████     | 24872/48845 [8:48:29<8:23:42,  1.26s/it] 51%|█████     | 24873/48845 [8:48:31<8:23:40,  1.26s/it] 51%|█████     | 24874/48845 [8:48:32<8:23:18,  1.26s/it] 51%|█████     | 24875/48845 [8:48:33<8:23:05,  1.26s/it]                                                         {'loss': 2.1368, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24875/48845 [8:48:33<8:23:05,  1.26s/it] 51%|█████     | 24876/48845 [8:48:34<8:22:50,  1.26s/it] 51%|█████     | 24877/48845 [8:48:36<8:23:06,  1.26s/it] 51%|█████     | 24878/48845 [8:48:37<8:22:53,  1.26s/it] 51%|█████     | 24879/48845 [8:48:38<8:22:51,  1.26s/it] 51%|█████     | 24880/48845 [8:48:40<8:22:53,  1.26s/it]                                                         {'loss': 2.0882, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24880/48845 [8:48:40<8:22:53,  1.26s/it] 51%|█████     | 24881/48845 [8:48:41<8:22:56,  1.26s/it] 51%|█████     | 24882/48845 [8:48:42<8:23:02,  1.26s/it] 51%|█████     | 24883/48845 [8:48:43<8:28:39,  1.27s/it] 51%|█████     | 24884/48845 [8:48:45<8:27:20,  1.27s/it] 51%|█████     | 24885/48845 [8:48:46<8:25:55,  1.27s/it]                                                         {'loss': 2.0338, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24885/48845 [8:48:46<8:25:55,  1.27s/it] 51%|█████     | 24886/48845 [8:48:47<8:25:09,  1.27s/it] 51%|█████     | 24887/48845 [8:48:48<8:35:06,  1.29s/it] 51%|█████     | 24888/48845 [8:48:50<8:31:35,  1.28s/it] 51%|█████     | 24889/48845 [8:48:51<8:28:50,  1.27s/it] 51%|█████     | 24890/48845 [8:48:52<8:27:06,  1.27s/it]                                                         {'loss': 1.932, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24890/48845 [8:48:52<8:27:06,  1.27s/it] 51%|█████     | 24891/48845 [8:48:54<8:29:46,  1.28s/it] 51%|█████     | 24892/48845 [8:48:55<8:27:49,  1.27s/it] 51%|█████     | 24893/48845 [8:48:56<8:26:16,  1.27s/it] 51%|█████     | 24894/48845 [8:48:57<8:25:14,  1.27s/it] 51%|█████     | 24895/48845 [8:48:59<8:24:33,  1.26s/it]                                                         {'loss': 1.9958, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24895/48845 [8:48:59<8:24:33,  1.26s/it] 51%|█████     | 24896/48845 [8:49:00<8:24:16,  1.26s/it] 51%|█████     | 24897/48845 [8:49:01<8:24:01,  1.26s/it] 51%|█████     | 24898/48845 [8:49:02<8:23:40,  1.26s/it] 51%|█████     | 24899/48845 [8:49:04<8:23:32,  1.26s/it] 51%|█████     | 24900/48845 [8:49:05<8:23:24,  1.26s/it]                                                         {'loss': 2.0392, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24900/48845 [8:49:05<8:23:24,  1.26s/it] 51%|█████     | 24901/48845 [8:49:06<8:23:27,  1.26s/it] 51%|█████     | 24902/48845 [8:49:07<8:23:11,  1.26s/it] 51%|█████     | 24903/48845 [8:49:09<8:22:44,  1.26s/it] 51%|█████     | 24904/48845 [8:49:10<8:22:53,  1.26s/it] 51%|█████     | 24905/48845 [8:49:11<8:22:21,  1.26s/it]                                                         {'loss': 1.9932, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24905/48845 [8:49:11<8:22:21,  1.26s/it] 51%|█████     | 24906/48845 [8:49:12<8:22:25,  1.26s/it] 51%|█████     | 24907/48845 [8:49:14<8:22:51,  1.26s/it] 51%|█████     | 24908/48845 [8:49:15<8:23:23,  1.26s/it] 51%|█████     | 24909/48845 [8:49:16<8:23:31,  1.26s/it] 51%|█████     | 24910/48845 [8:49:17<8:23:22,  1.26s/it]                                                         {'loss': 2.2906, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24910/48845 [8:49:17<8:23:22,  1.26s/it] 51%|█████     | 24911/48845 [8:49:19<8:23:18,  1.26s/it] 51%|█████     | 24912/48845 [8:49:20<8:22:56,  1.26s/it] 51%|█████     | 24913/48845 [8:49:21<8:22:34,  1.26s/it] 51%|█████     | 24914/48845 [8:49:23<8:22:19,  1.26s/it] 51%|█████     | 24915/48845 [8:49:24<8:22:01,  1.26s/it]                                                         {'loss': 2.0288, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24915/48845 [8:49:24<8:22:01,  1.26s/it] 51%|█████     | 24916/48845 [8:49:25<8:22:06,  1.26s/it] 51%|█████     | 24917/48845 [8:49:26<8:22:23,  1.26s/it] 51%|█████     | 24918/48845 [8:49:28<8:22:20,  1.26s/it] 51%|█████     | 24919/48845 [8:49:29<8:22:32,  1.26s/it] 51%|█████     | 24920/48845 [8:49:30<8:22:15,  1.26s/it]                                                         {'loss': 1.9701, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24920/48845 [8:49:30<8:22:15,  1.26s/it] 51%|█████     | 24921/48845 [8:49:31<8:22:50,  1.26s/it] 51%|█████     | 24922/48845 [8:49:33<8:23:14,  1.26s/it] 51%|█████     | 24923/48845 [8:49:34<8:22:55,  1.26s/it] 51%|█████     | 24924/48845 [8:49:35<8:22:45,  1.26s/it] 51%|█████     | 24925/48845 [8:49:36<8:22:20,  1.26s/it]                                                         {'loss': 2.0147, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24925/48845 [8:49:36<8:22:20,  1.26s/it] 51%|█████     | 24926/48845 [8:49:38<8:22:39,  1.26s/it] 51%|█████     | 24927/48845 [8:49:39<8:22:37,  1.26s/it] 51%|█████     | 24928/48845 [8:49:40<8:22:20,  1.26s/it] 51%|█████     | 24929/48845 [8:49:41<8:22:17,  1.26s/it] 51%|█████     | 24930/48845 [8:49:43<8:22:01,  1.26s/it]                                                         {'loss': 2.0509, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24930/48845 [8:49:43<8:22:01,  1.26s/it] 51%|█████     | 24931/48845 [8:49:44<8:21:54,  1.26s/it] 51%|█████     | 24932/48845 [8:49:45<8:22:11,  1.26s/it] 51%|█████     | 24933/48845 [8:49:46<8:22:07,  1.26s/it] 51%|█████     | 24934/48845 [8:49:48<8:21:33,  1.26s/it] 51%|█████     | 24935/48845 [8:49:49<8:21:43,  1.26s/it]                                                         {'loss': 2.1112, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24935/48845 [8:49:49<8:21:43,  1.26s/it] 51%|█████     | 24936/48845 [8:49:50<8:21:42,  1.26s/it] 51%|█████     | 24937/48845 [8:49:52<8:21:55,  1.26s/it] 51%|█████     | 24938/48845 [8:49:53<8:21:54,  1.26s/it] 51%|█████     | 24939/48845 [8:49:54<8:22:02,  1.26s/it] 51%|█████     | 24940/48845 [8:49:55<8:21:48,  1.26s/it]                                                         {'loss': 1.9738, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24940/48845 [8:49:55<8:21:48,  1.26s/it] 51%|█████     | 24941/48845 [8:49:57<8:21:33,  1.26s/it] 51%|█████     | 24942/48845 [8:49:58<8:21:54,  1.26s/it] 51%|█████     | 24943/48845 [8:49:59<8:21:51,  1.26s/it] 51%|█████     | 24944/48845 [8:50:00<8:21:44,  1.26s/it] 51%|█████     | 24945/48845 [8:50:02<8:21:38,  1.26s/it]                                                         {'loss': 1.9494, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24945/48845 [8:50:02<8:21:38,  1.26s/it] 51%|█████     | 24946/48845 [8:50:03<8:21:37,  1.26s/it] 51%|█████     | 24947/48845 [8:50:04<8:21:45,  1.26s/it] 51%|█████     | 24948/48845 [8:50:05<8:21:34,  1.26s/it] 51%|█████     | 24949/48845 [8:50:07<8:21:30,  1.26s/it] 51%|█████     | 24950/48845 [8:50:08<8:21:43,  1.26s/it]                                                         {'loss': 2.1991, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24950/48845 [8:50:08<8:21:43,  1.26s/it] 51%|█████     | 24951/48845 [8:50:09<8:21:53,  1.26s/it] 51%|█████     | 24952/48845 [8:50:10<8:21:36,  1.26s/it] 51%|█████     | 24953/48845 [8:50:12<8:21:23,  1.26s/it] 51%|█████     | 24954/48845 [8:50:13<8:21:53,  1.26s/it] 51%|█████     | 24955/48845 [8:50:14<8:21:26,  1.26s/it]                                                         {'loss': 1.9325, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.55}
+ 51%|█████     | 24955/48845 [8:50:14<8:21:26,  1.26s/it] 51%|█████     | 24956/48845 [8:50:15<8:21:38,  1.26s/it] 51%|█████     | 24957/48845 [8:50:17<8:21:46,  1.26s/it] 51%|█████     | 24958/48845 [8:50:18<8:21:28,  1.26s/it] 51%|█████     | 24959/48845 [8:50:19<8:21:32,  1.26s/it] 51%|█████     | 24960/48845 [8:50:20<8:21:30,  1.26s/it]                                                         {'loss': 2.0823, 'learning_rate': 4.098207095391904e-05, 'epoch': 2.56}
+ 51%|█████     | 24960/48845 [8:50:20<8:21:30,  1.26s/it] 51%|█████     | 24961/48845 [8:50:22<8:21:39,  1.26s/it] 51%|█████     | 24962/48845 [8:50:23<8:21:33,  1.26s/it] 51%|█████     | 24963/48845 [8:50:24<8:46:08,  1.32s/it] 51%|█████     | 24964/48845 [8:50:26<8:38:32,  1.30s/it] 51%|█████     | 24965/48845 [8:50:27<8:33:19,  1.29s/it]                                                         {'loss': 2.2133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24965/48845 [8:50:27<8:33:19,  1.29s/it] 51%|█████     | 24966/48845 [8:50:28<8:29:45,  1.28s/it] 51%|█████     | 24967/48845 [8:50:30<8:27:07,  1.27s/it] 51%|█████     | 24968/48845 [8:50:31<8:25:34,  1.27s/it] 51%|█████     | 24969/48845 [8:50:32<8:25:03,  1.27s/it] 51%|█████     | 24970/48845 [8:50:33<8:28:39,  1.28s/it]                                                         {'loss': 1.963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24970/48845 [8:50:33<8:28:39,  1.28s/it] 51%|█████     | 24971/48845 [8:50:35<8:26:43,  1.27s/it] 51%|█████     | 24972/48845 [8:50:36<8:24:56,  1.27s/it] 51%|█████     | 24973/48845 [8:50:37<8:24:09,  1.27s/it] 51%|█████     | 24974/48845 [8:50:38<8:23:17,  1.27s/it] 51%|█████     | 24975/48845 [8:50:40<8:22:13,  1.26s/it]                                                         {'loss': 1.962, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24975/48845 [8:50:40<8:22:13,  1.26s/it] 51%|█████     | 24976/48845 [8:50:41<8:22:10,  1.26s/it] 51%|█████     | 24977/48845 [8:50:42<8:21:50,  1.26s/it] 51%|█████     | 24978/48845 [8:50:43<8:21:23,  1.26s/it] 51%|█████     | 24979/48845 [8:50:45<8:21:15,  1.26s/it] 51%|█████     | 24980/48845 [8:50:46<8:21:11,  1.26s/it]                                                         {'loss': 2.0528, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24980/48845 [8:50:46<8:21:11,  1.26s/it] 51%|█████     | 24981/48845 [8:50:47<8:21:23,  1.26s/it] 51%|█████     | 24982/48845 [8:50:48<8:21:47,  1.26s/it] 51%|█████     | 24983/48845 [8:50:50<8:21:31,  1.26s/it] 51%|█████     | 24984/48845 [8:50:51<8:21:34,  1.26s/it] 51%|█████     | 24985/48845 [8:50:52<8:21:16,  1.26s/it]                                                         {'loss': 1.9836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24985/48845 [8:50:52<8:21:16,  1.26s/it] 51%|█████     | 24986/48845 [8:50:53<8:21:05,  1.26s/it] 51%|█████     | 24987/48845 [8:50:55<8:21:13,  1.26s/it] 51%|█████     | 24988/48845 [8:50:56<8:21:00,  1.26s/it] 51%|█████     | 24989/48845 [8:50:57<8:21:31,  1.26s/it] 51%|█████     | 24990/48845 [8:50:59<8:21:44,  1.26s/it]                                                         {'loss': 1.9902, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24990/48845 [8:50:59<8:21:44,  1.26s/it] 51%|█████     | 24991/48845 [8:51:00<8:21:28,  1.26s/it] 51%|█████     | 24992/48845 [8:51:01<8:21:09,  1.26s/it] 51%|█████     | 24993/48845 [8:51:02<8:21:13,  1.26s/it] 51%|█████     | 24994/48845 [8:51:04<8:21:05,  1.26s/it] 51%|█████     | 24995/48845 [8:51:05<8:20:59,  1.26s/it]                                                         {'loss': 2.0364, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 24995/48845 [8:51:05<8:20:59,  1.26s/it] 51%|█████     | 24996/48845 [8:51:06<8:21:34,  1.26s/it] 51%|█████     | 24997/48845 [8:51:07<8:21:01,  1.26s/it] 51%|█████     | 24998/48845 [8:51:09<8:21:19,  1.26s/it] 51%|█████     | 24999/48845 [8:51:10<8:21:06,  1.26s/it] 51%|█████     | 25000/48845 [8:51:11<8:20:50,  1.26s/it]                                                         {'loss': 1.9407, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25000/48845 [8:51:11<8:20:50,  1.26s/it] 51%|█████     | 25001/48845 [8:51:15<13:12:53,  2.00s/it] 51%|█████     | 25002/48845 [8:51:16<11:44:45,  1.77s/it] 51%|█████     | 25003/48845 [8:51:17<10:44:40,  1.62s/it] 51%|█████     | 25004/48845 [8:51:19<10:00:56,  1.51s/it] 51%|█████     | 25005/48845 [8:51:20<9:31:23,  1.44s/it]                                                          {'loss': 1.9941, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25005/48845 [8:51:20<9:31:23,  1.44s/it] 51%|█████     | 25006/48845 [8:51:21<9:10:14,  1.38s/it] 51%|█████     | 25007/48845 [8:51:22<8:54:46,  1.35s/it] 51%|█████     | 25008/48845 [8:51:24<8:44:32,  1.32s/it] 51%|█████     | 25009/48845 [8:51:25<8:37:09,  1.30s/it] 51%|█████     | 25010/48845 [8:51:26<8:31:57,  1.29s/it]                                                         {'loss': 1.815, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25010/48845 [8:51:26<8:31:57,  1.29s/it] 51%|█████     | 25011/48845 [8:51:27<8:28:22,  1.28s/it] 51%|█████     | 25012/48845 [8:51:29<8:26:01,  1.27s/it] 51%|█████     | 25013/48845 [8:51:30<8:24:33,  1.27s/it] 51%|█████     | 25014/48845 [8:51:31<8:23:18,  1.27s/it] 51%|█████     | 25015/48845 [8:51:33<8:22:49,  1.27s/it]                                                         {'loss': 2.1379, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25015/48845 [8:51:33<8:22:49,  1.27s/it] 51%|█████     | 25016/48845 [8:51:34<8:22:25,  1.27s/it] 51%|█████     | 25017/48845 [8:51:35<8:21:39,  1.26s/it] 51%|█████     | 25018/48845 [8:51:36<8:21:16,  1.26s/it] 51%|█████     | 25019/48845 [8:51:38<8:21:27,  1.26s/it] 51%|█████     | 25020/48845 [8:51:39<8:21:28,  1.26s/it]                                                         {'loss': 2.0616, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25020/48845 [8:51:39<8:21:28,  1.26s/it] 51%|█████     | 25021/48845 [8:51:40<8:21:06,  1.26s/it] 51%|█████     | 25022/48845 [8:51:41<8:20:41,  1.26s/it] 51%|█████     | 25023/48845 [8:51:43<8:20:32,  1.26s/it] 51%|█████     | 25024/48845 [8:51:44<8:20:53,  1.26s/it] 51%|█████     | 25025/48845 [8:51:45<8:20:27,  1.26s/it]                                                         {'loss': 1.9141, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25025/48845 [8:51:45<8:20:27,  1.26s/it] 51%|█████     | 25026/48845 [8:51:46<8:21:24,  1.26s/it] 51%|█████     | 25027/48845 [8:51:48<8:21:21,  1.26s/it] 51%|█████     | 25028/48845 [8:51:49<8:20:48,  1.26s/it] 51%|█████     | 25029/48845 [8:51:50<8:21:09,  1.26s/it] 51%|█████     | 25030/48845 [8:51:51<8:20:43,  1.26s/it]                                                         {'loss': 2.0195, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████     | 25030/48845 [8:51:51<8:20:43,  1.26s/it] 51%|█████     | 25031/48845 [8:51:53<8:20:21,  1.26s/it] 51%|█████     | 25032/48845 [8:51:54<8:20:15,  1.26s/it] 51%|█████     | 25033/48845 [8:51:55<8:19:44,  1.26s/it] 51%|█████▏    | 25034/48845 [8:51:56<8:20:15,  1.26s/it] 51%|█████▏    | 25035/48845 [8:51:58<8:20:08,  1.26s/it]                                                         {'loss': 1.9544, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████▏    | 25035/48845 [8:51:58<8:20:08,  1.26s/it] 51%|█████▏    | 25036/48845 [8:51:59<8:20:41,  1.26s/it] 51%|█████▏    | 25037/48845 [8:52:00<8:20:18,  1.26s/it] 51%|█████▏    | 25038/48845 [8:52:02<8:20:07,  1.26s/it] 51%|█████▏    | 25039/48845 [8:52:03<8:19:56,  1.26s/it] 51%|█████▏    | 25040/48845 [8:52:04<8:19:52,  1.26s/it]                                                         {'loss': 1.8441, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████▏    | 25040/48845 [8:52:04<8:19:52,  1.26s/it] 51%|█████▏    | 25041/48845 [8:52:05<8:20:11,  1.26s/it] 51%|█████▏    | 25042/48845 [8:52:07<8:19:50,  1.26s/it] 51%|█████▏    | 25043/48845 [8:52:08<8:20:12,  1.26s/it] 51%|█████▏    | 25044/48845 [8:52:09<8:20:26,  1.26s/it] 51%|█████▏    | 25045/48845 [8:52:10<8:20:02,  1.26s/it]                                                         {'loss': 2.053, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████▏    | 25045/48845 [8:52:10<8:20:02,  1.26s/it] 51%|█████▏    | 25046/48845 [8:52:12<8:20:35,  1.26s/it] 51%|█████▏    | 25047/48845 [8:52:13<8:20:29,  1.26s/it] 51%|█████▏    | 25048/48845 [8:52:14<8:21:03,  1.26s/it] 51%|█████▏    | 25049/48845 [8:52:15<8:21:53,  1.27s/it] 51%|█████▏    | 25050/48845 [8:52:17<8:21:11,  1.26s/it]                                                         {'loss': 1.9873, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████▏    | 25050/48845 [8:52:17<8:21:11,  1.26s/it] 51%|█████▏    | 25051/48845 [8:52:18<8:21:01,  1.26s/it] 51%|█████▏    | 25052/48845 [8:52:19<8:20:50,  1.26s/it] 51%|█████▏    | 25053/48845 [8:52:20<8:20:15,  1.26s/it] 51%|█████▏    | 25054/48845 [8:52:22<8:19:50,  1.26s/it] 51%|█████▏    | 25055/48845 [8:52:23<8:20:07,  1.26s/it]                                                         {'loss': 2.1104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.56}
+ 51%|█████▏    | 25055/48845 [8:52:23<8:20:07,  1.26s/it] 51%|█████▏    | 25056/48845 [8:52:24<8:19:39,  1.26s/it] 51%|█████▏    | 25057/48845 [8:52:25<8:19:29,  1.26s/it] 51%|█████▏    | 25058/48845 [8:52:27<8:19:34,  1.26s/it] 51%|█████▏    | 25059/48845 [8:52:28<8:19:36,  1.26s/it] 51%|█████▏    | 25060/48845 [8:52:29<8:19:23,  1.26s/it]                                                         {'loss': 2.0643, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25060/48845 [8:52:29<8:19:23,  1.26s/it] 51%|█████▏    | 25061/48845 [8:52:31<8:19:23,  1.26s/it] 51%|█████▏    | 25062/48845 [8:52:32<8:19:35,  1.26s/it] 51%|█████▏    | 25063/48845 [8:52:33<8:19:14,  1.26s/it] 51%|█████▏    | 25064/48845 [8:52:34<8:18:52,  1.26s/it] 51%|█████▏    | 25065/48845 [8:52:36<8:19:07,  1.26s/it]                                                         {'loss': 2.0186, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25065/48845 [8:52:36<8:19:07,  1.26s/it] 51%|█████▏    | 25066/48845 [8:52:37<8:18:58,  1.26s/it] 51%|█████▏    | 25067/48845 [8:52:38<8:19:03,  1.26s/it] 51%|█████▏    | 25068/48845 [8:52:39<8:19:11,  1.26s/it] 51%|█████▏    | 25069/48845 [8:52:41<8:19:00,  1.26s/it] 51%|█████▏    | 25070/48845 [8:52:42<8:18:59,  1.26s/it]                                                         {'loss': 2.1442, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25070/48845 [8:52:42<8:18:59,  1.26s/it] 51%|█████▏    | 25071/48845 [8:52:43<8:18:59,  1.26s/it] 51%|█████▏    | 25072/48845 [8:52:44<8:18:47,  1.26s/it] 51%|█████▏    | 25073/48845 [8:52:46<8:18:34,  1.26s/it] 51%|█████▏    | 25074/48845 [8:52:47<8:18:31,  1.26s/it] 51%|█████▏    | 25075/48845 [8:52:48<8:18:51,  1.26s/it]                                                         {'loss': 2.0359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25075/48845 [8:52:48<8:18:51,  1.26s/it] 51%|█████▏    | 25076/48845 [8:52:49<8:19:27,  1.26s/it] 51%|█████▏    | 25077/48845 [8:52:51<8:19:18,  1.26s/it] 51%|█████▏    | 25078/48845 [8:52:52<8:19:12,  1.26s/it] 51%|█████▏    | 25079/48845 [8:52:53<8:19:14,  1.26s/it] 51%|█████▏    | 25080/48845 [8:52:54<8:19:11,  1.26s/it]                                                         {'loss': 1.8794, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25080/48845 [8:52:54<8:19:11,  1.26s/it] 51%|█████▏    | 25081/48845 [8:52:56<8:19:02,  1.26s/it] 51%|█████▏    | 25082/48845 [8:52:57<8:18:57,  1.26s/it] 51%|█████▏    | 25083/48845 [8:52:58<8:19:08,  1.26s/it] 51%|█████▏    | 25084/48845 [8:52:59<8:18:43,  1.26s/it] 51%|█████▏    | 25085/48845 [8:53:01<8:18:45,  1.26s/it]                                                         {'loss': 1.8866, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25085/48845 [8:53:01<8:18:45,  1.26s/it] 51%|█████▏    | 25086/48845 [8:53:02<8:19:02,  1.26s/it] 51%|█████▏    | 25087/48845 [8:53:03<8:18:35,  1.26s/it] 51%|█████▏    | 25088/48845 [8:53:05<8:18:29,  1.26s/it] 51%|█████▏    | 25089/48845 [8:53:06<8:18:44,  1.26s/it] 51%|█████▏    | 25090/48845 [8:53:07<8:18:44,  1.26s/it]                                                         {'loss': 2.011, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25090/48845 [8:53:07<8:18:44,  1.26s/it] 51%|█████▏    | 25091/48845 [8:53:08<8:18:46,  1.26s/it] 51%|█████▏    | 25092/48845 [8:53:10<8:18:56,  1.26s/it] 51%|█████▏    | 25093/48845 [8:53:11<8:18:28,  1.26s/it] 51%|█████▏    | 25094/48845 [8:53:12<8:18:38,  1.26s/it] 51%|█████▏    | 25095/48845 [8:53:13<8:18:21,  1.26s/it]                                                         {'loss': 1.952, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25095/48845 [8:53:13<8:18:21,  1.26s/it] 51%|█████▏    | 25096/48845 [8:53:15<8:18:31,  1.26s/it] 51%|█████▏    | 25097/48845 [8:53:16<8:18:29,  1.26s/it] 51%|█████▏    | 25098/48845 [8:53:17<8:18:30,  1.26s/it] 51%|█████▏    | 25099/48845 [8:53:18<8:18:20,  1.26s/it] 51%|█████▏    | 25100/48845 [8:53:20<8:18:24,  1.26s/it]                                                         {'loss': 2.0456, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25100/48845 [8:53:20<8:18:24,  1.26s/it] 51%|█████▏    | 25101/48845 [8:53:21<8:18:50,  1.26s/it] 51%|█████▏    | 25102/48845 [8:53:22<8:18:53,  1.26s/it] 51%|█████▏    | 25103/48845 [8:53:23<8:18:37,  1.26s/it] 51%|█████▏    | 25104/48845 [8:53:25<8:18:30,  1.26s/it] 51%|█████▏    | 25105/48845 [8:53:26<8:18:26,  1.26s/it]                                                         {'loss': 2.104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25105/48845 [8:53:26<8:18:26,  1.26s/it] 51%|█████▏    | 25106/48845 [8:53:27<8:18:31,  1.26s/it] 51%|█████▏    | 25107/48845 [8:53:28<8:18:43,  1.26s/it] 51%|█████▏    | 25108/48845 [8:53:30<8:18:54,  1.26s/it] 51%|█████▏    | 25109/48845 [8:53:31<8:18:46,  1.26s/it] 51%|█████▏    | 25110/48845 [8:53:32<8:18:59,  1.26s/it]                                                         {'loss': 2.1404, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25110/48845 [8:53:32<8:18:59,  1.26s/it] 51%|█████▏    | 25111/48845 [8:53:34<8:19:20,  1.26s/it] 51%|█████▏    | 25112/48845 [8:53:35<8:19:14,  1.26s/it] 51%|█████▏    | 25113/48845 [8:53:36<8:18:49,  1.26s/it] 51%|█████▏    | 25114/48845 [8:53:37<8:18:27,  1.26s/it] 51%|█████▏    | 25115/48845 [8:53:39<8:18:43,  1.26s/it]                                                         {'loss': 2.0117, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25115/48845 [8:53:39<8:18:43,  1.26s/it] 51%|█████▏    | 25116/48845 [8:53:40<8:18:30,  1.26s/it] 51%|█████▏    | 25117/48845 [8:53:41<8:18:23,  1.26s/it] 51%|█████▏    | 25118/48845 [8:53:42<8:18:29,  1.26s/it] 51%|█████▏    | 25119/48845 [8:53:44<8:18:29,  1.26s/it] 51%|█████▏    | 25120/48845 [8:53:45<8:18:16,  1.26s/it]                                                         {'loss': 2.0969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25120/48845 [8:53:45<8:18:16,  1.26s/it] 51%|█████▏    | 25121/48845 [8:53:46<8:18:27,  1.26s/it] 51%|█████▏    | 25122/48845 [8:53:47<8:18:11,  1.26s/it] 51%|█████▏    | 25123/48845 [8:53:49<8:18:38,  1.26s/it] 51%|█████▏    | 25124/48845 [8:53:50<8:18:23,  1.26s/it] 51%|█████▏    | 25125/48845 [8:53:51<8:18:20,  1.26s/it]                                                         {'loss': 1.9346, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25125/48845 [8:53:51<8:18:20,  1.26s/it] 51%|█████▏    | 25126/48845 [8:53:52<8:18:10,  1.26s/it] 51%|█████▏    | 25127/48845 [8:53:54<8:17:45,  1.26s/it] 51%|█████▏    | 25128/48845 [8:53:55<8:17:59,  1.26s/it] 51%|█████▏    | 25129/48845 [8:53:56<8:18:03,  1.26s/it] 51%|█████▏    | 25130/48845 [8:53:57<8:17:42,  1.26s/it]                                                         {'loss': 2.0227, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25130/48845 [8:53:57<8:17:42,  1.26s/it] 51%|█████▏    | 25131/48845 [8:53:59<8:17:40,  1.26s/it] 51%|█████▏    | 25132/48845 [8:54:00<8:17:20,  1.26s/it] 51%|█████▏    | 25133/48845 [8:54:01<8:17:30,  1.26s/it] 51%|█████▏    | 25134/48845 [8:54:02<8:17:17,  1.26s/it] 51%|█████▏    | 25135/48845 [8:54:04<8:17:32,  1.26s/it]                                                         {'loss': 1.9857, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25135/48845 [8:54:04<8:17:32,  1.26s/it] 51%|█████▏    | 25136/48845 [8:54:05<8:19:40,  1.26s/it] 51%|█████▏    | 25137/48845 [8:54:06<8:19:25,  1.26s/it] 51%|█████▏    | 25138/48845 [8:54:08<8:19:28,  1.26s/it] 51%|█████▏    | 25139/48845 [8:54:09<8:19:03,  1.26s/it] 51%|█████▏    | 25140/48845 [8:54:10<8:18:20,  1.26s/it]                                                         {'loss': 1.9939, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25140/48845 [8:54:10<8:18:20,  1.26s/it] 51%|█████▏    | 25141/48845 [8:54:11<8:18:06,  1.26s/it] 51%|█████▏    | 25142/48845 [8:54:13<8:18:11,  1.26s/it] 51%|█████▏    | 25143/48845 [8:54:14<8:18:15,  1.26s/it] 51%|█████▏    | 25144/48845 [8:54:15<8:18:05,  1.26s/it] 51%|█████▏    | 25145/48845 [8:54:16<8:18:05,  1.26s/it]                                                         {'loss': 1.9228, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25145/48845 [8:54:16<8:18:05,  1.26s/it] 51%|█████▏    | 25146/48845 [8:54:18<8:18:44,  1.26s/it] 51%|█████▏    | 25147/48845 [8:54:19<8:18:34,  1.26s/it] 51%|█████▏    | 25148/48845 [8:54:20<8:18:14,  1.26s/it] 51%|█████▏    | 25149/48845 [8:54:21<8:17:58,  1.26s/it] 51%|█████▏    | 25150/48845 [8:54:23<8:18:03,  1.26s/it]                                                         {'loss': 2.0311, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25150/48845 [8:54:23<8:18:03,  1.26s/it] 51%|█████▏    | 25151/48845 [8:54:24<8:18:16,  1.26s/it] 51%|█████▏    | 25152/48845 [8:54:25<8:17:53,  1.26s/it] 51%|█████▏    | 25153/48845 [8:54:26<8:17:45,  1.26s/it] 51%|█████▏    | 25154/48845 [8:54:28<8:17:49,  1.26s/it] 51%|█████▏    | 25155/48845 [8:54:29<8:17:55,  1.26s/it]                                                         {'loss': 2.0227, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.57}
+ 51%|█████▏    | 25155/48845 [8:54:29<8:17:55,  1.26s/it] 52%|█████▏    | 25156/48845 [8:54:30<8:18:11,  1.26s/it] 52%|█████▏    | 25157/48845 [8:54:32<8:18:14,  1.26s/it] 52%|█████▏    | 25158/48845 [8:54:33<8:18:33,  1.26s/it] 52%|█████▏    | 25159/48845 [8:54:34<8:18:32,  1.26s/it] 52%|█████▏    | 25160/48845 [8:54:35<8:18:11,  1.26s/it]                                                         {'loss': 2.0716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25160/48845 [8:54:35<8:18:11,  1.26s/it] 52%|█████▏    | 25161/48845 [8:54:37<8:17:40,  1.26s/it] 52%|█████▏    | 25162/48845 [8:54:38<8:17:53,  1.26s/it] 52%|█████▏    | 25163/48845 [8:54:39<8:17:37,  1.26s/it] 52%|█████▏    | 25164/48845 [8:54:40<8:17:00,  1.26s/it] 52%|█████▏    | 25165/48845 [8:54:42<8:17:03,  1.26s/it]                                                         {'loss': 2.0217, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25165/48845 [8:54:42<8:17:03,  1.26s/it] 52%|█████▏    | 25166/48845 [8:54:43<8:16:59,  1.26s/it] 52%|█████▏    | 25167/48845 [8:54:44<8:17:00,  1.26s/it] 52%|█████▏    | 25168/48845 [8:54:45<8:17:10,  1.26s/it] 52%|█████▏    | 25169/48845 [8:54:47<8:17:28,  1.26s/it] 52%|█████▏    | 25170/48845 [8:54:48<8:16:52,  1.26s/it]                                                         {'loss': 2.0637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25170/48845 [8:54:48<8:16:52,  1.26s/it] 52%|█████▏    | 25171/48845 [8:54:49<8:17:01,  1.26s/it] 52%|█████▏    | 25172/48845 [8:54:50<8:17:19,  1.26s/it] 52%|█████▏    | 25173/48845 [8:54:52<8:17:00,  1.26s/it] 52%|█████▏    | 25174/48845 [8:54:53<8:16:59,  1.26s/it] 52%|█████▏    | 25175/48845 [8:54:54<8:16:50,  1.26s/it]                                                         {'loss': 2.1951, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25175/48845 [8:54:54<8:16:50,  1.26s/it] 52%|█████▏    | 25176/48845 [8:54:55<8:16:36,  1.26s/it] 52%|█████▏    | 25177/48845 [8:54:57<8:16:48,  1.26s/it] 52%|█████▏    | 25178/48845 [8:54:58<8:16:35,  1.26s/it] 52%|█████▏    | 25179/48845 [8:54:59<8:16:45,  1.26s/it] 52%|█████▏    | 25180/48845 [8:55:00<8:16:28,  1.26s/it]                                                         {'loss': 2.042, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25180/48845 [8:55:00<8:16:28,  1.26s/it] 52%|█████▏    | 25181/48845 [8:55:02<8:16:42,  1.26s/it] 52%|█████▏    | 25182/48845 [8:55:03<8:16:26,  1.26s/it] 52%|█████▏    | 25183/48845 [8:55:04<8:16:28,  1.26s/it] 52%|█████▏    | 25184/48845 [8:55:06<8:16:27,  1.26s/it] 52%|█████▏    | 25185/48845 [8:55:07<8:16:34,  1.26s/it]                                                         {'loss': 1.9359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25185/48845 [8:55:07<8:16:34,  1.26s/it] 52%|█████▏    | 25186/48845 [8:55:08<8:16:31,  1.26s/it] 52%|█████▏    | 25187/48845 [8:55:09<8:16:36,  1.26s/it] 52%|█████▏    | 25188/48845 [8:55:11<8:16:40,  1.26s/it] 52%|█████▏    | 25189/48845 [8:55:12<8:16:26,  1.26s/it] 52%|█████▏    | 25190/48845 [8:55:13<8:16:43,  1.26s/it]                                                         {'loss': 2.0793, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25190/48845 [8:55:13<8:16:43,  1.26s/it] 52%|█████▏    | 25191/48845 [8:55:14<8:16:39,  1.26s/it] 52%|█████▏    | 25192/48845 [8:55:16<8:16:54,  1.26s/it] 52%|█████▏    | 25193/48845 [8:55:17<8:16:41,  1.26s/it] 52%|█████▏    | 25194/48845 [8:55:18<8:16:33,  1.26s/it] 52%|█████▏    | 25195/48845 [8:55:19<8:16:22,  1.26s/it]                                                         {'loss': 1.9248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25195/48845 [8:55:19<8:16:22,  1.26s/it] 52%|█████▏    | 25196/48845 [8:55:21<8:16:49,  1.26s/it] 52%|█████▏    | 25197/48845 [8:55:22<8:17:01,  1.26s/it] 52%|█████▏    | 25198/48845 [8:55:23<8:16:25,  1.26s/it] 52%|█████▏    | 25199/48845 [8:55:24<8:16:14,  1.26s/it] 52%|█████▏    | 25200/48845 [8:55:26<8:15:48,  1.26s/it]                                                         {'loss': 1.9734, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25200/48845 [8:55:26<8:15:48,  1.26s/it] 52%|█████▏    | 25201/48845 [8:55:29<13:06:54,  2.00s/it] 52%|█████▏    | 25202/48845 [8:55:31<11:39:38,  1.78s/it] 52%|█████▏    | 25203/48845 [8:55:32<10:39:26,  1.62s/it] 52%|█████▏    | 25204/48845 [8:55:33<9:56:27,  1.51s/it]  52%|█████▏    | 25205/48845 [8:55:34<9:26:14,  1.44s/it]                                                         {'loss': 1.9455, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25205/48845 [8:55:34<9:26:14,  1.44s/it] 52%|█████▏    | 25206/48845 [8:55:36<9:06:53,  1.39s/it] 52%|█████▏    | 25207/48845 [8:55:37<8:51:25,  1.35s/it] 52%|█████▏    | 25208/48845 [8:55:38<8:41:00,  1.32s/it] 52%|█████▏    | 25209/48845 [8:55:40<8:34:29,  1.31s/it] 52%|█████▏    | 25210/48845 [8:55:41<8:29:04,  1.29s/it]                                                         {'loss': 1.9242, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25210/48845 [8:55:41<8:29:04,  1.29s/it] 52%|█████▏    | 25211/48845 [8:55:42<8:25:05,  1.28s/it] 52%|█████▏    | 25212/48845 [8:55:43<8:22:03,  1.27s/it] 52%|█████▏    | 25213/48845 [8:55:45<8:20:04,  1.27s/it] 52%|█████▏    | 25214/48845 [8:55:46<8:19:42,  1.27s/it] 52%|█████▏    | 25215/48845 [8:55:47<8:18:25,  1.27s/it]                                                         {'loss': 1.9806, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25215/48845 [8:55:47<8:18:25,  1.27s/it] 52%|█████▏    | 25216/48845 [8:55:48<8:17:17,  1.26s/it] 52%|█████▏    | 25217/48845 [8:55:50<8:16:30,  1.26s/it] 52%|█████▏    | 25218/48845 [8:55:51<8:16:37,  1.26s/it] 52%|█████▏    | 25219/48845 [8:55:52<8:16:27,  1.26s/it] 52%|█████▏    | 25220/48845 [8:55:53<8:15:49,  1.26s/it]                                                         {'loss': 2.0045, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25220/48845 [8:55:53<8:15:49,  1.26s/it] 52%|█████▏    | 25221/48845 [8:55:55<8:15:56,  1.26s/it] 52%|█████▏    | 25222/48845 [8:55:56<8:15:38,  1.26s/it] 52%|█████▏    | 25223/48845 [8:55:57<8:15:57,  1.26s/it] 52%|█████▏    | 25224/48845 [8:55:58<8:15:51,  1.26s/it] 52%|█████▏    | 25225/48845 [8:56:00<8:15:50,  1.26s/it]                                                         {'loss': 1.8785, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25225/48845 [8:56:00<8:15:50,  1.26s/it] 52%|█████▏    | 25226/48845 [8:56:01<8:15:58,  1.26s/it] 52%|█████▏    | 25227/48845 [8:56:02<8:15:57,  1.26s/it] 52%|█████▏    | 25228/48845 [8:56:03<8:15:44,  1.26s/it] 52%|█████▏    | 25229/48845 [8:56:05<8:15:39,  1.26s/it] 52%|█████▏    | 25230/48845 [8:56:06<8:15:39,  1.26s/it]                                                         {'loss': 2.0154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25230/48845 [8:56:06<8:15:39,  1.26s/it] 52%|█████▏    | 25231/48845 [8:56:07<8:15:54,  1.26s/it] 52%|█████▏    | 25232/48845 [8:56:08<8:15:39,  1.26s/it] 52%|█████▏    | 25233/48845 [8:56:10<8:15:55,  1.26s/it] 52%|█████▏    | 25234/48845 [8:56:11<8:15:53,  1.26s/it] 52%|█████▏    | 25235/48845 [8:56:12<8:15:35,  1.26s/it]                                                         {'loss': 2.1217, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25235/48845 [8:56:12<8:15:35,  1.26s/it] 52%|█████▏    | 25236/48845 [8:56:14<8:15:27,  1.26s/it] 52%|█████▏    | 25237/48845 [8:56:15<8:15:40,  1.26s/it] 52%|█████▏    | 25238/48845 [8:56:16<8:15:38,  1.26s/it] 52%|█████▏    | 25239/48845 [8:56:17<8:15:58,  1.26s/it] 52%|█████▏    | 25240/48845 [8:56:19<8:15:36,  1.26s/it]                                                         {'loss': 1.9376, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25240/48845 [8:56:19<8:15:36,  1.26s/it] 52%|█████▏    | 25241/48845 [8:56:20<8:15:38,  1.26s/it] 52%|█████▏    | 25242/48845 [8:56:21<8:15:24,  1.26s/it] 52%|█████▏    | 25243/48845 [8:56:22<8:15:26,  1.26s/it] 52%|█████▏    | 25244/48845 [8:56:24<8:15:21,  1.26s/it] 52%|█████▏    | 25245/48845 [8:56:25<8:15:24,  1.26s/it]                                                         {'loss': 2.0976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25245/48845 [8:56:25<8:15:24,  1.26s/it] 52%|█████▏    | 25246/48845 [8:56:26<8:15:45,  1.26s/it] 52%|█████▏    | 25247/48845 [8:56:27<8:15:47,  1.26s/it] 52%|█████▏    | 25248/48845 [8:56:29<8:15:32,  1.26s/it] 52%|█████▏    | 25249/48845 [8:56:30<8:15:23,  1.26s/it] 52%|█████▏    | 25250/48845 [8:56:31<8:15:46,  1.26s/it]                                                         {'loss': 2.2321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.58}
+ 52%|█████▏    | 25250/48845 [8:56:31<8:15:46,  1.26s/it] 52%|█████▏    | 25251/48845 [8:56:32<8:15:34,  1.26s/it] 52%|█████▏    | 25252/48845 [8:56:34<8:15:22,  1.26s/it] 52%|█████▏    | 25253/48845 [8:56:35<8:15:14,  1.26s/it] 52%|█████▏    | 25254/48845 [8:56:36<8:14:55,  1.26s/it] 52%|█████▏    | 25255/48845 [8:56:37<8:15:24,  1.26s/it]                                                         {'loss': 2.0327, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25255/48845 [8:56:37<8:15:24,  1.26s/it] 52%|█████▏    | 25256/48845 [8:56:39<8:15:42,  1.26s/it] 52%|█████▏    | 25257/48845 [8:56:40<8:15:48,  1.26s/it] 52%|█████▏    | 25258/48845 [8:56:41<8:15:28,  1.26s/it] 52%|█████▏    | 25259/48845 [8:56:42<8:15:59,  1.26s/it] 52%|█████▏    | 25260/48845 [8:56:44<8:22:09,  1.28s/it]                                                         {'loss': 1.9355, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25260/48845 [8:56:44<8:22:09,  1.28s/it] 52%|█████▏    | 25261/48845 [8:56:45<8:20:40,  1.27s/it] 52%|█████▏    | 25262/48845 [8:56:46<8:19:23,  1.27s/it] 52%|█████▏    | 25263/48845 [8:56:48<8:18:00,  1.27s/it] 52%|█████▏    | 25264/48845 [8:56:49<8:16:58,  1.26s/it] 52%|█████▏    | 25265/48845 [8:56:50<8:16:45,  1.26s/it]                                                         {'loss': 2.125, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25265/48845 [8:56:50<8:16:45,  1.26s/it] 52%|█████▏    | 25266/48845 [8:56:51<8:16:46,  1.26s/it] 52%|█████▏    | 25267/48845 [8:56:53<8:15:44,  1.26s/it] 52%|█████▏    | 25268/48845 [8:56:54<8:15:27,  1.26s/it] 52%|█████▏    | 25269/48845 [8:56:55<8:15:34,  1.26s/it] 52%|█████▏    | 25270/48845 [8:56:56<8:15:02,  1.26s/it]                                                         {'loss': 1.9635, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25270/48845 [8:56:56<8:15:02,  1.26s/it] 52%|█████▏    | 25271/48845 [8:56:58<8:15:26,  1.26s/it] 52%|█████▏    | 25272/48845 [8:56:59<8:15:34,  1.26s/it] 52%|█████▏    | 25273/48845 [8:57:00<8:15:33,  1.26s/it] 52%|█████▏    | 25274/48845 [8:57:01<8:15:44,  1.26s/it] 52%|█████▏    | 25275/48845 [8:57:03<8:15:18,  1.26s/it]                                                         {'loss': 1.9556, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25275/48845 [8:57:03<8:15:18,  1.26s/it] 52%|█████▏    | 25276/48845 [8:57:04<8:15:40,  1.26s/it] 52%|█████▏    | 25277/48845 [8:57:05<8:15:38,  1.26s/it] 52%|█████▏    | 25278/48845 [8:57:07<8:15:23,  1.26s/it] 52%|█████▏    | 25279/48845 [8:57:08<8:15:13,  1.26s/it] 52%|█████▏    | 25280/48845 [8:57:09<8:15:27,  1.26s/it]                                                         {'loss': 2.0085, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25280/48845 [8:57:09<8:15:27,  1.26s/it] 52%|█████▏    | 25281/48845 [8:57:10<8:15:28,  1.26s/it] 52%|█████▏    | 25282/48845 [8:57:12<8:14:54,  1.26s/it] 52%|█████▏    | 25283/48845 [8:57:13<8:14:48,  1.26s/it] 52%|█████▏    | 25284/48845 [8:57:14<8:14:42,  1.26s/it] 52%|█████▏    | 25285/48845 [8:57:15<8:14:25,  1.26s/it]                                                         {'loss': 1.9287, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25285/48845 [8:57:15<8:14:25,  1.26s/it] 52%|█████▏    | 25286/48845 [8:57:17<8:14:17,  1.26s/it] 52%|█████▏    | 25287/48845 [8:57:18<8:14:27,  1.26s/it] 52%|█████▏    | 25288/48845 [8:57:19<8:14:34,  1.26s/it] 52%|█████▏    | 25289/48845 [8:57:20<8:14:27,  1.26s/it] 52%|█████▏    | 25290/48845 [8:57:22<8:14:35,  1.26s/it]                                                         {'loss': 2.0313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25290/48845 [8:57:22<8:14:35,  1.26s/it] 52%|█████▏    | 25291/48845 [8:57:23<8:14:23,  1.26s/it] 52%|█████▏    | 25292/48845 [8:57:24<8:14:22,  1.26s/it] 52%|█████▏    | 25293/48845 [8:57:25<8:14:20,  1.26s/it] 52%|█████▏    | 25294/48845 [8:57:27<8:14:33,  1.26s/it] 52%|█████▏    | 25295/48845 [8:57:28<8:14:44,  1.26s/it]                                                         {'loss': 2.133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25295/48845 [8:57:28<8:14:44,  1.26s/it] 52%|█████▏    | 25296/48845 [8:57:29<8:15:07,  1.26s/it] 52%|█████▏    | 25297/48845 [8:57:30<8:15:17,  1.26s/it] 52%|█████▏    | 25298/48845 [8:57:32<8:14:46,  1.26s/it] 52%|█████▏    | 25299/48845 [8:57:33<8:14:42,  1.26s/it] 52%|█████▏    | 25300/48845 [8:57:34<8:14:34,  1.26s/it]                                                         {'loss': 2.0098, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25300/48845 [8:57:34<8:14:34,  1.26s/it] 52%|█████▏    | 25301/48845 [8:57:35<8:14:22,  1.26s/it] 52%|█████▏    | 25302/48845 [8:57:37<8:14:57,  1.26s/it] 52%|█████▏    | 25303/48845 [8:57:38<8:14:35,  1.26s/it] 52%|█████▏    | 25304/48845 [8:57:39<8:14:40,  1.26s/it] 52%|█████▏    | 25305/48845 [8:57:41<8:14:38,  1.26s/it]                                                         {'loss': 2.0327, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25305/48845 [8:57:41<8:14:38,  1.26s/it] 52%|█████▏    | 25306/48845 [8:57:42<8:14:28,  1.26s/it] 52%|█████▏    | 25307/48845 [8:57:43<8:14:11,  1.26s/it] 52%|█████▏    | 25308/48845 [8:57:44<8:13:56,  1.26s/it] 52%|█████▏    | 25309/48845 [8:57:46<8:13:53,  1.26s/it] 52%|█████▏    | 25310/48845 [8:57:47<8:14:41,  1.26s/it]                                                         {'loss': 2.0597, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25310/48845 [8:57:47<8:14:41,  1.26s/it] 52%|█████▏    | 25311/48845 [8:57:48<8:14:39,  1.26s/it] 52%|█████▏    | 25312/48845 [8:57:49<8:14:38,  1.26s/it] 52%|█████▏    | 25313/48845 [8:57:51<8:14:04,  1.26s/it] 52%|█████▏    | 25314/48845 [8:57:52<8:14:17,  1.26s/it] 52%|█████▏    | 25315/48845 [8:57:53<8:13:59,  1.26s/it]                                                         {'loss': 2.0302, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25315/48845 [8:57:53<8:13:59,  1.26s/it] 52%|█████▏    | 25316/48845 [8:57:54<8:14:09,  1.26s/it] 52%|█████▏    | 25317/48845 [8:57:56<8:14:03,  1.26s/it] 52%|█████▏    | 25318/48845 [8:57:57<8:14:05,  1.26s/it] 52%|█████▏    | 25319/48845 [8:57:58<8:13:55,  1.26s/it] 52%|█████▏    | 25320/48845 [8:57:59<8:13:51,  1.26s/it]                                                         {'loss': 1.9444, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25320/48845 [8:57:59<8:13:51,  1.26s/it] 52%|█████▏    | 25321/48845 [8:58:01<8:14:19,  1.26s/it] 52%|█████▏    | 25322/48845 [8:58:02<8:13:54,  1.26s/it] 52%|█████▏    | 25323/48845 [8:58:03<8:13:31,  1.26s/it] 52%|█████▏    | 25324/48845 [8:58:04<8:13:30,  1.26s/it] 52%|█████▏    | 25325/48845 [8:58:06<8:13:40,  1.26s/it]                                                         {'loss': 2.0575, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25325/48845 [8:58:06<8:13:40,  1.26s/it] 52%|█████▏    | 25326/48845 [8:58:07<8:13:54,  1.26s/it] 52%|█████▏    | 25327/48845 [8:58:08<8:13:51,  1.26s/it] 52%|█████▏    | 25328/48845 [8:58:10<8:13:28,  1.26s/it] 52%|█████▏    | 25329/48845 [8:58:11<8:13:29,  1.26s/it] 52%|█████▏    | 25330/48845 [8:58:12<8:13:35,  1.26s/it]                                                         {'loss': 1.843, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25330/48845 [8:58:12<8:13:35,  1.26s/it] 52%|█████▏    | 25331/48845 [8:58:13<8:13:31,  1.26s/it] 52%|█████▏    | 25332/48845 [8:58:15<8:13:32,  1.26s/it] 52%|█████▏    | 25333/48845 [8:58:16<8:13:38,  1.26s/it] 52%|█████▏    | 25334/48845 [8:58:17<8:13:43,  1.26s/it] 52%|█████▏    | 25335/48845 [8:58:18<8:13:47,  1.26s/it]                                                         {'loss': 1.974, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25335/48845 [8:58:18<8:13:47,  1.26s/it] 52%|█████▏    | 25336/48845 [8:58:20<8:13:37,  1.26s/it] 52%|█████▏    | 25337/48845 [8:58:21<8:13:40,  1.26s/it] 52%|█████▏    | 25338/48845 [8:58:22<8:13:41,  1.26s/it] 52%|█████▏    | 25339/48845 [8:58:23<8:14:12,  1.26s/it] 52%|█████▏    | 25340/48845 [8:58:25<8:14:55,  1.26s/it]                                                         {'loss': 2.0472, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25340/48845 [8:58:25<8:14:55,  1.26s/it] 52%|█████▏    | 25341/48845 [8:58:26<8:14:29,  1.26s/it] 52%|█████▏    | 25342/48845 [8:58:27<8:14:32,  1.26s/it] 52%|█████▏    | 25343/48845 [8:58:28<8:14:11,  1.26s/it] 52%|█████▏    | 25344/48845 [8:58:30<8:13:29,  1.26s/it] 52%|█████▏    | 25345/48845 [8:58:31<8:14:00,  1.26s/it]                                                         {'loss': 2.0092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25345/48845 [8:58:31<8:14:00,  1.26s/it] 52%|█████▏    | 25346/48845 [8:58:32<8:14:03,  1.26s/it] 52%|█████▏    | 25347/48845 [8:58:33<8:13:34,  1.26s/it] 52%|█████▏    | 25348/48845 [8:58:35<8:13:31,  1.26s/it] 52%|█████▏    | 25349/48845 [8:58:36<8:13:13,  1.26s/it] 52%|█████▏    | 25350/48845 [8:58:37<8:13:48,  1.26s/it]                                                         {'loss': 2.0092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.59}
+ 52%|█████▏    | 25350/48845 [8:58:37<8:13:48,  1.26s/it] 52%|█████▏    | 25351/48845 [8:58:39<8:13:46,  1.26s/it] 52%|█████▏    | 25352/48845 [8:58:40<8:13:54,  1.26s/it] 52%|█████▏    | 25353/48845 [8:58:41<8:13:50,  1.26s/it] 52%|█████▏    | 25354/48845 [8:58:42<8:14:22,  1.26s/it] 52%|█████▏    | 25355/48845 [8:58:44<8:14:06,  1.26s/it]                                                         {'loss': 2.0346, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25355/48845 [8:58:44<8:14:06,  1.26s/it] 52%|█████▏    | 25356/48845 [8:58:45<8:14:15,  1.26s/it] 52%|█████▏    | 25357/48845 [8:58:46<8:13:44,  1.26s/it] 52%|█████▏    | 25358/48845 [8:58:48<8:39:07,  1.33s/it] 52%|█████▏    | 25359/48845 [8:58:49<8:38:54,  1.33s/it] 52%|█████▏    | 25360/48845 [8:58:50<8:31:03,  1.31s/it]                                                         {'loss': 2.2937, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25360/48845 [8:58:50<8:31:03,  1.31s/it] 52%|█████▏    | 25361/48845 [8:58:51<8:25:46,  1.29s/it] 52%|█████▏    | 25362/48845 [8:58:53<8:21:51,  1.28s/it] 52%|█████▏    | 25363/48845 [8:58:54<8:18:54,  1.27s/it] 52%|█████▏    | 25364/48845 [8:58:55<8:17:32,  1.27s/it] 52%|█████▏    | 25365/48845 [8:58:56<8:15:58,  1.27s/it]                                                         {'loss': 2.0301, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25365/48845 [8:58:56<8:15:58,  1.27s/it] 52%|█████▏    | 25366/48845 [8:58:58<8:15:11,  1.27s/it] 52%|█████▏    | 25367/48845 [8:58:59<8:15:07,  1.27s/it] 52%|█████▏    | 25368/48845 [8:59:00<8:14:27,  1.26s/it] 52%|█████▏    | 25369/48845 [8:59:01<8:13:48,  1.26s/it] 52%|█████▏    | 25370/48845 [8:59:03<8:13:38,  1.26s/it]                                                         {'loss': 2.1021, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25370/48845 [8:59:03<8:13:38,  1.26s/it] 52%|█████▏    | 25371/48845 [8:59:04<8:14:01,  1.26s/it] 52%|█████▏    | 25372/48845 [8:59:05<8:13:44,  1.26s/it] 52%|█████▏    | 25373/48845 [8:59:07<8:13:48,  1.26s/it] 52%|█████▏    | 25374/48845 [8:59:08<8:13:23,  1.26s/it] 52%|█████▏    | 25375/48845 [8:59:09<8:13:37,  1.26s/it]                                                         {'loss': 2.0436, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25375/48845 [8:59:09<8:13:37,  1.26s/it] 52%|█████▏    | 25376/48845 [8:59:10<8:13:23,  1.26s/it] 52%|█████▏    | 25377/48845 [8:59:12<8:13:09,  1.26s/it] 52%|█████▏    | 25378/48845 [8:59:13<8:13:13,  1.26s/it] 52%|█████▏    | 25379/48845 [8:59:14<8:12:48,  1.26s/it] 52%|█████▏    | 25380/48845 [8:59:15<8:13:00,  1.26s/it]                                                         {'loss': 2.1283, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25380/48845 [8:59:15<8:13:00,  1.26s/it] 52%|█████▏    | 25381/48845 [8:59:17<8:12:51,  1.26s/it] 52%|█████▏    | 25382/48845 [8:59:18<8:12:38,  1.26s/it] 52%|█████▏    | 25383/48845 [8:59:19<8:12:40,  1.26s/it] 52%|█████▏    | 25384/48845 [8:59:20<8:13:02,  1.26s/it] 52%|█████▏    | 25385/48845 [8:59:22<8:13:28,  1.26s/it]                                                         {'loss': 2.0449, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25385/48845 [8:59:22<8:13:28,  1.26s/it] 52%|█████▏    | 25386/48845 [8:59:23<8:13:43,  1.26s/it] 52%|█████▏    | 25387/48845 [8:59:24<8:13:30,  1.26s/it] 52%|█████▏    | 25388/48845 [8:59:25<8:13:00,  1.26s/it] 52%|█████▏    | 25389/48845 [8:59:27<8:12:46,  1.26s/it] 52%|█████▏    | 25390/48845 [8:59:28<8:12:50,  1.26s/it]                                                         {'loss': 2.0564, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25390/48845 [8:59:28<8:12:50,  1.26s/it] 52%|█████▏    | 25391/48845 [8:59:29<8:12:54,  1.26s/it] 52%|█████▏    | 25392/48845 [8:59:30<8:12:36,  1.26s/it] 52%|█████▏    | 25393/48845 [8:59:32<8:12:17,  1.26s/it] 52%|█████▏    | 25394/48845 [8:59:33<8:12:15,  1.26s/it] 52%|█████▏    | 25395/48845 [8:59:34<8:12:21,  1.26s/it]                                                         {'loss': 1.9846, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25395/48845 [8:59:34<8:12:21,  1.26s/it] 52%|█████▏    | 25396/48845 [8:59:36<8:12:15,  1.26s/it] 52%|█████▏    | 25397/48845 [8:59:37<8:12:08,  1.26s/it] 52%|█████▏    | 25398/48845 [8:59:38<8:12:07,  1.26s/it] 52%|█████▏    | 25399/48845 [8:59:39<8:12:02,  1.26s/it] 52%|█████▏    | 25400/48845 [8:59:41<8:12:15,  1.26s/it]                                                         {'loss': 2.1041, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25400/48845 [8:59:41<8:12:15,  1.26s/it] 52%|█████▏    | 25401/48845 [8:59:44<12:59:22,  1.99s/it] 52%|█████▏    | 25402/48845 [8:59:46<11:33:14,  1.77s/it] 52%|█████▏    | 25403/48845 [8:59:47<10:32:42,  1.62s/it] 52%|█████▏    | 25404/48845 [8:59:48<9:50:25,  1.51s/it]  52%|█████▏    | 25405/48845 [8:59:49<9:21:03,  1.44s/it]                                                         {'loss': 2.1044, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25405/48845 [8:59:49<9:21:03,  1.44s/it] 52%|█████▏    | 25406/48845 [8:59:51<8:59:29,  1.38s/it] 52%|█████▏    | 25407/48845 [8:59:52<8:45:04,  1.34s/it] 52%|█████▏    | 25408/48845 [8:59:53<8:34:49,  1.32s/it] 52%|█████▏    | 25409/48845 [8:59:54<8:27:48,  1.30s/it] 52%|█████▏    | 25410/48845 [8:59:56<8:22:47,  1.29s/it]                                                         {'loss': 2.1244, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25410/48845 [8:59:56<8:22:47,  1.29s/it] 52%|█████▏    | 25411/48845 [8:59:57<8:19:58,  1.28s/it] 52%|█████▏    | 25412/48845 [8:59:58<8:17:36,  1.27s/it] 52%|█████▏    | 25413/48845 [8:59:59<8:15:32,  1.27s/it] 52%|█████▏    | 25414/48845 [9:00:01<8:14:19,  1.27s/it] 52%|█████▏    | 25415/48845 [9:00:02<8:13:55,  1.26s/it]                                                         {'loss': 2.0432, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25415/48845 [9:00:02<8:13:55,  1.26s/it] 52%|█████▏    | 25416/48845 [9:00:03<8:13:11,  1.26s/it] 52%|█████▏    | 25417/48845 [9:00:04<8:13:02,  1.26s/it] 52%|█████▏    | 25418/48845 [9:00:06<8:12:50,  1.26s/it] 52%|█████▏    | 25419/48845 [9:00:07<8:12:30,  1.26s/it] 52%|█████▏    | 25420/48845 [9:00:08<8:12:05,  1.26s/it]                                                         {'loss': 2.0095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25420/48845 [9:00:08<8:12:05,  1.26s/it] 52%|█████▏    | 25421/48845 [9:00:09<8:12:09,  1.26s/it] 52%|█████▏    | 25422/48845 [9:00:11<8:12:05,  1.26s/it] 52%|█████▏    | 25423/48845 [9:00:12<8:11:33,  1.26s/it] 52%|█████▏    | 25424/48845 [9:00:13<8:11:29,  1.26s/it] 52%|█████▏    | 25425/48845 [9:00:14<8:11:45,  1.26s/it]                                                         {'loss': 2.0697, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25425/48845 [9:00:14<8:11:45,  1.26s/it] 52%|█████▏    | 25426/48845 [9:00:16<8:13:00,  1.26s/it] 52%|█████▏    | 25427/48845 [9:00:17<8:12:54,  1.26s/it] 52%|█████▏    | 25428/48845 [9:00:18<8:12:15,  1.26s/it] 52%|█████▏    | 25429/48845 [9:00:20<8:11:50,  1.26s/it] 52%|█████▏    | 25430/48845 [9:00:21<8:11:40,  1.26s/it]                                                         {'loss': 1.9808, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25430/48845 [9:00:21<8:11:40,  1.26s/it] 52%|█████▏    | 25431/48845 [9:00:22<8:14:44,  1.27s/it] 52%|█████▏    | 25432/48845 [9:00:23<8:13:29,  1.26s/it] 52%|█████▏    | 25433/48845 [9:00:25<8:12:46,  1.26s/it] 52%|█████▏    | 25434/48845 [9:00:26<8:11:47,  1.26s/it] 52%|█████▏    | 25435/48845 [9:00:27<8:12:12,  1.26s/it]                                                         {'loss': 1.9516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25435/48845 [9:00:27<8:12:12,  1.26s/it] 52%|█████▏    | 25436/48845 [9:00:28<8:12:00,  1.26s/it] 52%|█████▏    | 25437/48845 [9:00:30<8:11:19,  1.26s/it] 52%|█████▏    | 25438/48845 [9:00:31<8:11:24,  1.26s/it] 52%|█████▏    | 25439/48845 [9:00:32<8:10:52,  1.26s/it] 52%|█████▏    | 25440/48845 [9:00:33<8:10:38,  1.26s/it]                                                         {'loss': 1.9791, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25440/48845 [9:00:33<8:10:38,  1.26s/it] 52%|█████▏    | 25441/48845 [9:00:35<8:10:35,  1.26s/it] 52%|█████▏    | 25442/48845 [9:00:36<8:10:36,  1.26s/it] 52%|█████▏    | 25443/48845 [9:00:37<8:10:56,  1.26s/it] 52%|█████▏    | 25444/48845 [9:00:38<8:10:53,  1.26s/it] 52%|█████▏    | 25445/48845 [9:00:40<8:10:57,  1.26s/it]                                                         {'loss': 2.1803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.6}
+ 52%|█████▏    | 25445/48845 [9:00:40<8:10:57,  1.26s/it] 52%|█████▏    | 25446/48845 [9:00:41<8:11:19,  1.26s/it] 52%|█████▏    | 25447/48845 [9:00:42<8:11:14,  1.26s/it] 52%|█████▏    | 25448/48845 [9:00:43<8:11:04,  1.26s/it] 52%|█████▏    | 25449/48845 [9:00:45<8:11:06,  1.26s/it] 52%|█████▏    | 25450/48845 [9:00:46<8:11:08,  1.26s/it]                                                         {'loss': 1.9802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25450/48845 [9:00:46<8:11:08,  1.26s/it] 52%|█████▏    | 25451/48845 [9:00:47<8:11:19,  1.26s/it] 52%|█████▏    | 25452/48845 [9:00:49<8:11:03,  1.26s/it] 52%|█████▏    | 25453/48845 [9:00:50<8:11:07,  1.26s/it] 52%|█████▏    | 25454/48845 [9:00:51<8:10:51,  1.26s/it] 52%|█████▏    | 25455/48845 [9:00:52<8:10:45,  1.26s/it]                                                         {'loss': 2.0416, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25455/48845 [9:00:52<8:10:45,  1.26s/it] 52%|█████▏    | 25456/48845 [9:00:54<8:11:12,  1.26s/it] 52%|█████▏    | 25457/48845 [9:00:55<8:11:04,  1.26s/it] 52%|█████▏    | 25458/48845 [9:00:56<8:12:21,  1.26s/it] 52%|█████▏    | 25459/48845 [9:00:57<8:11:33,  1.26s/it] 52%|█████▏    | 25460/48845 [9:00:59<8:11:19,  1.26s/it]                                                         {'loss': 1.9175, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25460/48845 [9:00:59<8:11:19,  1.26s/it] 52%|█████▏    | 25461/48845 [9:01:00<8:11:21,  1.26s/it] 52%|█████▏    | 25462/48845 [9:01:01<8:11:17,  1.26s/it] 52%|█████▏    | 25463/48845 [9:01:02<8:11:00,  1.26s/it] 52%|█████▏    | 25464/48845 [9:01:04<8:11:06,  1.26s/it] 52%|█████▏    | 25465/48845 [9:01:05<8:10:52,  1.26s/it]                                                         {'loss': 1.9331, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25465/48845 [9:01:05<8:10:52,  1.26s/it] 52%|█████▏    | 25466/48845 [9:01:06<8:10:55,  1.26s/it] 52%|█████▏    | 25467/48845 [9:01:07<8:10:42,  1.26s/it] 52%|█████▏    | 25468/48845 [9:01:09<8:10:41,  1.26s/it] 52%|█████▏    | 25469/48845 [9:01:10<8:10:41,  1.26s/it] 52%|█████▏    | 25470/48845 [9:01:11<8:10:41,  1.26s/it]                                                         {'loss': 2.1054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25470/48845 [9:01:11<8:10:41,  1.26s/it] 52%|█████▏    | 25471/48845 [9:01:12<8:10:39,  1.26s/it] 52%|█████▏    | 25472/48845 [9:01:14<8:10:41,  1.26s/it] 52%|█████▏    | 25473/48845 [9:01:15<8:10:53,  1.26s/it] 52%|█████▏    | 25474/48845 [9:01:16<8:10:35,  1.26s/it] 52%|█████▏    | 25475/48845 [9:01:17<8:10:05,  1.26s/it]                                                         {'loss': 2.0814, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25475/48845 [9:01:17<8:10:05,  1.26s/it] 52%|█████▏    | 25476/48845 [9:01:19<8:10:14,  1.26s/it] 52%|█████▏    | 25477/48845 [9:01:20<8:10:52,  1.26s/it] 52%|█████▏    | 25478/48845 [9:01:21<8:10:28,  1.26s/it] 52%|█████▏    | 25479/48845 [9:01:23<8:10:10,  1.26s/it] 52%|█████▏    | 25480/48845 [9:01:24<8:10:36,  1.26s/it]                                                         {'loss': 1.935, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25480/48845 [9:01:24<8:10:36,  1.26s/it] 52%|█████▏    | 25481/48845 [9:01:25<8:10:32,  1.26s/it] 52%|█████▏    | 25482/48845 [9:01:26<8:10:18,  1.26s/it] 52%|█████▏    | 25483/48845 [9:01:28<8:09:43,  1.26s/it] 52%|█████▏    | 25484/48845 [9:01:29<8:09:57,  1.26s/it] 52%|█████▏    | 25485/48845 [9:01:30<8:10:50,  1.26s/it]                                                         {'loss': 2.0901, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25485/48845 [9:01:30<8:10:50,  1.26s/it] 52%|█████▏    | 25486/48845 [9:01:31<8:10:55,  1.26s/it] 52%|█████▏    | 25487/48845 [9:01:33<8:10:51,  1.26s/it] 52%|█████▏    | 25488/48845 [9:01:34<8:11:48,  1.26s/it] 52%|█████▏    | 25489/48845 [9:01:35<8:11:11,  1.26s/it] 52%|█████▏    | 25490/48845 [9:01:36<8:10:42,  1.26s/it]                                                         {'loss': 2.158, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25490/48845 [9:01:36<8:10:42,  1.26s/it] 52%|█████▏    | 25491/48845 [9:01:38<8:10:48,  1.26s/it] 52%|█████▏    | 25492/48845 [9:01:39<8:10:49,  1.26s/it] 52%|█████▏    | 25493/48845 [9:01:40<8:10:35,  1.26s/it] 52%|█████▏    | 25494/48845 [9:01:41<8:10:15,  1.26s/it] 52%|█████▏    | 25495/48845 [9:01:43<8:10:15,  1.26s/it]                                                         {'loss': 2.0463, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25495/48845 [9:01:43<8:10:15,  1.26s/it] 52%|█████▏    | 25496/48845 [9:01:44<8:10:24,  1.26s/it] 52%|█████▏    | 25497/48845 [9:01:45<8:10:25,  1.26s/it] 52%|█████▏    | 25498/48845 [9:01:46<8:10:30,  1.26s/it] 52%|█████▏    | 25499/48845 [9:01:48<8:10:10,  1.26s/it] 52%|█████▏    | 25500/48845 [9:01:49<8:10:19,  1.26s/it]                                                         {'loss': 2.0429, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25500/48845 [9:01:49<8:10:19,  1.26s/it] 52%|█████▏    | 25501/48845 [9:01:50<8:09:58,  1.26s/it] 52%|█████▏    | 25502/48845 [9:01:52<8:09:48,  1.26s/it] 52%|█████▏    | 25503/48845 [9:01:53<8:09:36,  1.26s/it] 52%|█████▏    | 25504/48845 [9:01:54<8:09:58,  1.26s/it] 52%|█████▏    | 25505/48845 [9:01:55<8:09:56,  1.26s/it]                                                         {'loss': 2.1378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25505/48845 [9:01:55<8:09:56,  1.26s/it] 52%|█████▏    | 25506/48845 [9:01:57<8:09:56,  1.26s/it] 52%|█████▏    | 25507/48845 [9:01:58<8:09:45,  1.26s/it] 52%|█████▏    | 25508/48845 [9:01:59<8:10:16,  1.26s/it] 52%|█████▏    | 25509/48845 [9:02:00<8:09:54,  1.26s/it] 52%|█████▏    | 25510/48845 [9:02:02<8:10:19,  1.26s/it]                                                         {'loss': 2.0582, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25510/48845 [9:02:02<8:10:19,  1.26s/it] 52%|█████▏    | 25511/48845 [9:02:03<8:10:36,  1.26s/it] 52%|█████▏    | 25512/48845 [9:02:04<8:10:06,  1.26s/it] 52%|█████▏    | 25513/48845 [9:02:05<8:10:01,  1.26s/it] 52%|█████▏    | 25514/48845 [9:02:07<8:10:18,  1.26s/it] 52%|█████▏    | 25515/48845 [9:02:08<8:09:55,  1.26s/it]                                                         {'loss': 2.11, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25515/48845 [9:02:08<8:09:55,  1.26s/it] 52%|█████▏    | 25516/48845 [9:02:09<8:10:03,  1.26s/it] 52%|█████▏    | 25517/48845 [9:02:10<8:09:56,  1.26s/it] 52%|█████▏    | 25518/48845 [9:02:12<8:09:58,  1.26s/it] 52%|█████▏    | 25519/48845 [9:02:13<8:09:30,  1.26s/it] 52%|█████▏    | 25520/48845 [9:02:14<8:08:56,  1.26s/it]                                                         {'loss': 2.1138, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25520/48845 [9:02:14<8:08:56,  1.26s/it] 52%|█████▏    | 25521/48845 [9:02:15<8:08:57,  1.26s/it] 52%|█████▏    | 25522/48845 [9:02:17<8:09:14,  1.26s/it] 52%|█████▏    | 25523/48845 [9:02:18<8:09:12,  1.26s/it] 52%|█████▏    | 25524/48845 [9:02:19<8:09:20,  1.26s/it] 52%|█████▏    | 25525/48845 [9:02:20<8:09:17,  1.26s/it]                                                         {'loss': 1.8433, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25525/48845 [9:02:20<8:09:17,  1.26s/it] 52%|█████▏    | 25526/48845 [9:02:22<8:09:03,  1.26s/it] 52%|█████▏    | 25527/48845 [9:02:23<8:09:31,  1.26s/it] 52%|█████▏    | 25528/48845 [9:02:24<8:09:11,  1.26s/it] 52%|█████▏    | 25529/48845 [9:02:26<8:09:30,  1.26s/it] 52%|█████▏    | 25530/48845 [9:02:27<8:09:39,  1.26s/it]                                                         {'loss': 2.0329, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25530/48845 [9:02:27<8:09:39,  1.26s/it] 52%|█████▏    | 25531/48845 [9:02:28<8:09:21,  1.26s/it] 52%|█████▏    | 25532/48845 [9:02:29<8:09:07,  1.26s/it] 52%|█████▏    | 25533/48845 [9:02:31<8:09:16,  1.26s/it] 52%|█████▏    | 25534/48845 [9:02:32<8:09:50,  1.26s/it] 52%|█████▏    | 25535/48845 [9:02:33<8:09:22,  1.26s/it]                                                         {'loss': 2.0759, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25535/48845 [9:02:33<8:09:22,  1.26s/it] 52%|█████▏    | 25536/48845 [9:02:34<8:09:18,  1.26s/it] 52%|█████▏    | 25537/48845 [9:02:36<8:09:17,  1.26s/it] 52%|█████▏    | 25538/48845 [9:02:37<8:09:08,  1.26s/it] 52%|█████▏    | 25539/48845 [9:02:38<8:08:58,  1.26s/it] 52%|█████▏    | 25540/48845 [9:02:39<8:09:18,  1.26s/it]                                                         {'loss': 2.0642, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25540/48845 [9:02:39<8:09:18,  1.26s/it] 52%|█████▏    | 25541/48845 [9:02:41<8:09:17,  1.26s/it] 52%|█████▏    | 25542/48845 [9:02:42<8:12:08,  1.27s/it] 52%|█████▏    | 25543/48845 [9:02:43<8:11:05,  1.26s/it] 52%|█████▏    | 25544/48845 [9:02:44<8:10:19,  1.26s/it] 52%|█████▏    | 25545/48845 [9:02:46<8:09:49,  1.26s/it]                                                         {'loss': 1.9898, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.61}
+ 52%|█████▏    | 25545/48845 [9:02:46<8:09:49,  1.26s/it] 52%|█████▏    | 25546/48845 [9:02:47<8:09:34,  1.26s/it] 52%|█████▏    | 25547/48845 [9:02:48<8:09:04,  1.26s/it] 52%|█████▏    | 25548/48845 [9:02:49<8:09:11,  1.26s/it] 52%|█████▏    | 25549/48845 [9:02:51<8:09:16,  1.26s/it] 52%|█████▏    | 25550/48845 [9:02:52<8:09:05,  1.26s/it]                                                         {'loss': 2.0657, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25550/48845 [9:02:52<8:09:05,  1.26s/it] 52%|█████▏    | 25551/48845 [9:02:53<8:09:03,  1.26s/it] 52%|█████▏    | 25552/48845 [9:02:55<8:08:55,  1.26s/it] 52%|█████▏    | 25553/48845 [9:02:56<8:09:09,  1.26s/it] 52%|█████▏    | 25554/48845 [9:02:57<8:08:55,  1.26s/it] 52%|█████▏    | 25555/48845 [9:02:58<8:09:28,  1.26s/it]                                                         {'loss': 1.9925, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25555/48845 [9:02:58<8:09:28,  1.26s/it] 52%|█████▏    | 25556/48845 [9:03:00<8:09:20,  1.26s/it] 52%|█████▏    | 25557/48845 [9:03:01<8:09:05,  1.26s/it] 52%|█████▏    | 25558/48845 [9:03:02<8:08:53,  1.26s/it] 52%|█████▏    | 25559/48845 [9:03:03<8:08:26,  1.26s/it] 52%|█████▏    | 25560/48845 [9:03:05<8:08:07,  1.26s/it]                                                         {'loss': 2.0958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25560/48845 [9:03:05<8:08:07,  1.26s/it] 52%|█████▏    | 25561/48845 [9:03:06<8:07:57,  1.26s/it] 52%|█████▏    | 25562/48845 [9:03:07<8:08:17,  1.26s/it] 52%|█████▏    | 25563/48845 [9:03:08<8:08:05,  1.26s/it] 52%|█████▏    | 25564/48845 [9:03:10<8:08:07,  1.26s/it] 52%|█████▏    | 25565/48845 [9:03:11<8:08:52,  1.26s/it]                                                         {'loss': 2.1336, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25565/48845 [9:03:11<8:08:52,  1.26s/it] 52%|█████▏    | 25566/48845 [9:03:12<8:08:51,  1.26s/it] 52%|█████▏    | 25567/48845 [9:03:13<8:08:30,  1.26s/it] 52%|█████▏    | 25568/48845 [9:03:15<8:08:21,  1.26s/it] 52%|█████▏    | 25569/48845 [9:03:16<8:08:52,  1.26s/it] 52%|█████▏    | 25570/48845 [9:03:17<8:08:43,  1.26s/it]                                                         {'loss': 1.9779, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25570/48845 [9:03:17<8:08:43,  1.26s/it] 52%|█████▏    | 25571/48845 [9:03:18<8:08:40,  1.26s/it] 52%|█████▏    | 25572/48845 [9:03:20<8:08:11,  1.26s/it] 52%|█████▏    | 25573/48845 [9:03:21<8:07:51,  1.26s/it] 52%|█████▏    | 25574/48845 [9:03:22<8:07:52,  1.26s/it] 52%|█████▏    | 25575/48845 [9:03:23<8:07:56,  1.26s/it]                                                         {'loss': 2.0173, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25575/48845 [9:03:23<8:07:56,  1.26s/it] 52%|█████▏    | 25576/48845 [9:03:25<8:07:58,  1.26s/it] 52%|█████▏    | 25577/48845 [9:03:26<8:07:53,  1.26s/it] 52%|█████▏    | 25578/48845 [9:03:27<8:08:04,  1.26s/it] 52%|█████▏    | 25579/48845 [9:03:29<8:08:02,  1.26s/it] 52%|█████▏    | 25580/48845 [9:03:30<8:08:17,  1.26s/it]                                                         {'loss': 2.1513, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25580/48845 [9:03:30<8:08:17,  1.26s/it] 52%|█████▏    | 25581/48845 [9:03:31<8:08:21,  1.26s/it] 52%|█████▏    | 25582/48845 [9:03:32<8:08:18,  1.26s/it] 52%|█████▏    | 25583/48845 [9:03:34<8:08:29,  1.26s/it] 52%|█████▏    | 25584/48845 [9:03:35<8:08:10,  1.26s/it] 52%|█████▏    | 25585/48845 [9:03:36<8:08:04,  1.26s/it]                                                         {'loss': 2.0306, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25585/48845 [9:03:36<8:08:04,  1.26s/it] 52%|█████▏    | 25586/48845 [9:03:37<8:08:30,  1.26s/it] 52%|█████▏    | 25587/48845 [9:03:39<8:08:13,  1.26s/it] 52%|█████▏    | 25588/48845 [9:03:40<8:08:13,  1.26s/it] 52%|█████▏    | 25589/48845 [9:03:41<8:09:20,  1.26s/it] 52%|█████▏    | 25590/48845 [9:03:42<8:09:23,  1.26s/it]                                                         {'loss': 2.0077, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25590/48845 [9:03:42<8:09:23,  1.26s/it] 52%|█████▏    | 25591/48845 [9:03:44<8:09:11,  1.26s/it] 52%|█████▏    | 25592/48845 [9:03:45<8:08:54,  1.26s/it] 52%|█████▏    | 25593/48845 [9:03:46<8:08:57,  1.26s/it] 52%|█████▏    | 25594/48845 [9:03:47<8:08:37,  1.26s/it] 52%|█████▏    | 25595/48845 [9:03:49<8:08:31,  1.26s/it]                                                         {'loss': 2.124, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25595/48845 [9:03:49<8:08:31,  1.26s/it] 52%|█████▏    | 25596/48845 [9:03:50<8:08:29,  1.26s/it] 52%|█████▏    | 25597/48845 [9:03:51<8:08:21,  1.26s/it] 52%|█████▏    | 25598/48845 [9:03:52<8:08:11,  1.26s/it] 52%|█████▏    | 25599/48845 [9:03:54<8:08:07,  1.26s/it] 52%|█████▏    | 25600/48845 [9:03:55<8:08:15,  1.26s/it]                                                         {'loss': 1.9234, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25600/48845 [9:03:55<8:08:15,  1.26s/it] 52%|█████▏    | 25601/48845 [9:03:59<12:53:51,  2.00s/it] 52%|█████▏    | 25602/48845 [9:04:00<11:27:48,  1.78s/it] 52%|█████▏    | 25603/48845 [9:04:01<10:27:28,  1.62s/it] 52%|█████▏    | 25604/48845 [9:04:02<9:45:10,  1.51s/it]  52%|█████▏    | 25605/48845 [9:04:04<9:16:16,  1.44s/it]                                                         {'loss': 2.0976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25605/48845 [9:04:04<9:16:16,  1.44s/it] 52%|█████▏    | 25606/48845 [9:04:05<8:55:40,  1.38s/it] 52%|█████▏    | 25607/48845 [9:04:06<8:41:11,  1.35s/it] 52%|█████▏    | 25608/48845 [9:04:08<8:30:42,  1.32s/it] 52%|█████▏    | 25609/48845 [9:04:09<8:24:02,  1.30s/it] 52%|█████▏    | 25610/48845 [9:04:10<8:19:13,  1.29s/it]                                                         {'loss': 2.075, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25610/48845 [9:04:10<8:19:13,  1.29s/it] 52%|█████▏    | 25611/48845 [9:04:11<8:16:02,  1.28s/it] 52%|█████▏    | 25612/48845 [9:04:13<8:13:09,  1.27s/it] 52%|█████▏    | 25613/48845 [9:04:14<8:11:42,  1.27s/it] 52%|█████▏    | 25614/48845 [9:04:15<8:10:49,  1.27s/it] 52%|█████▏    | 25615/48845 [9:04:16<8:10:02,  1.27s/it]                                                         {'loss': 2.1328, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25615/48845 [9:04:16<8:10:02,  1.27s/it] 52%|█████▏    | 25616/48845 [9:04:18<8:09:28,  1.26s/it] 52%|█████▏    | 25617/48845 [9:04:19<8:09:00,  1.26s/it] 52%|█████▏    | 25618/48845 [9:04:20<8:08:40,  1.26s/it] 52%|█████▏    | 25619/48845 [9:04:21<8:08:29,  1.26s/it] 52%|█████▏    | 25620/48845 [9:04:23<8:07:49,  1.26s/it]                                                         {'loss': 1.9818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25620/48845 [9:04:23<8:07:49,  1.26s/it] 52%|█████▏    | 25621/48845 [9:04:24<8:08:09,  1.26s/it] 52%|█████▏    | 25622/48845 [9:04:25<8:08:03,  1.26s/it] 52%|█████▏    | 25623/48845 [9:04:26<8:07:37,  1.26s/it] 52%|█████▏    | 25624/48845 [9:04:28<8:07:26,  1.26s/it] 52%|█████▏    | 25625/48845 [9:04:29<8:07:49,  1.26s/it]                                                         {'loss': 2.1665, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25625/48845 [9:04:29<8:07:49,  1.26s/it] 52%|█████▏    | 25626/48845 [9:04:30<8:07:45,  1.26s/it] 52%|█████▏    | 25627/48845 [9:04:31<8:07:19,  1.26s/it] 52%|█████▏    | 25628/48845 [9:04:33<8:07:28,  1.26s/it] 52%|█████▏    | 25629/48845 [9:04:34<8:07:33,  1.26s/it] 52%|█████▏    | 25630/48845 [9:04:35<8:07:24,  1.26s/it]                                                         {'loss': 2.2104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25630/48845 [9:04:35<8:07:24,  1.26s/it] 52%|█████▏    | 25631/48845 [9:04:36<8:07:07,  1.26s/it] 52%|█████▏    | 25632/48845 [9:04:38<8:07:19,  1.26s/it] 52%|█████▏    | 25633/48845 [9:04:39<8:07:21,  1.26s/it] 52%|█████▏    | 25634/48845 [9:04:40<8:07:20,  1.26s/it] 52%|█████▏    | 25635/48845 [9:04:42<8:07:57,  1.26s/it]                                                         {'loss': 2.0359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25635/48845 [9:04:42<8:07:57,  1.26s/it] 52%|█████▏    | 25636/48845 [9:04:43<8:07:36,  1.26s/it] 52%|█████▏    | 25637/48845 [9:04:44<8:07:19,  1.26s/it] 52%|█████▏    | 25638/48845 [9:04:45<8:06:50,  1.26s/it] 52%|█████▏    | 25639/48845 [9:04:47<8:06:44,  1.26s/it] 52%|█████▏    | 25640/48845 [9:04:48<8:06:37,  1.26s/it]                                                         {'loss': 2.01, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.62}
+ 52%|█████▏    | 25640/48845 [9:04:48<8:06:37,  1.26s/it] 52%|█████▏    | 25641/48845 [9:04:49<8:06:46,  1.26s/it] 52%|█████▏    | 25642/48845 [9:04:50<8:07:11,  1.26s/it] 52%|█████▏    | 25643/48845 [9:04:52<8:07:05,  1.26s/it] 53%|█████▎    | 25644/48845 [9:04:53<8:06:57,  1.26s/it] 53%|█████▎    | 25645/48845 [9:04:54<8:07:08,  1.26s/it]                                                         {'loss': 1.9927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25645/48845 [9:04:54<8:07:08,  1.26s/it] 53%|█████▎    | 25646/48845 [9:04:55<8:07:03,  1.26s/it] 53%|█████▎    | 25647/48845 [9:04:57<8:07:41,  1.26s/it] 53%|█████▎    | 25648/48845 [9:04:58<8:07:02,  1.26s/it] 53%|█████▎    | 25649/48845 [9:04:59<8:07:20,  1.26s/it] 53%|█████▎    | 25650/48845 [9:05:00<8:06:58,  1.26s/it]                                                         {'loss': 2.093, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25650/48845 [9:05:00<8:06:58,  1.26s/it] 53%|█████▎    | 25651/48845 [9:05:02<8:06:40,  1.26s/it] 53%|█████▎    | 25652/48845 [9:05:03<8:06:32,  1.26s/it] 53%|█████▎    | 25653/48845 [9:05:04<8:06:54,  1.26s/it] 53%|█████▎    | 25654/48845 [9:05:05<8:07:05,  1.26s/it] 53%|█████▎    | 25655/48845 [9:05:07<8:07:35,  1.26s/it]                                                         {'loss': 2.1018, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25655/48845 [9:05:07<8:07:35,  1.26s/it] 53%|█████▎    | 25656/48845 [9:05:08<8:07:24,  1.26s/it] 53%|█████▎    | 25657/48845 [9:05:09<8:07:24,  1.26s/it] 53%|█████▎    | 25658/48845 [9:05:11<8:08:34,  1.26s/it] 53%|█████▎    | 25659/48845 [9:05:12<8:07:42,  1.26s/it] 53%|█████▎    | 25660/48845 [9:05:13<8:07:25,  1.26s/it]                                                         {'loss': 2.0467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25660/48845 [9:05:13<8:07:25,  1.26s/it] 53%|█████▎    | 25661/48845 [9:05:14<8:07:14,  1.26s/it] 53%|█████▎    | 25662/48845 [9:05:16<8:07:10,  1.26s/it] 53%|█████▎    | 25663/48845 [9:05:17<8:06:55,  1.26s/it] 53%|█████▎    | 25664/48845 [9:05:18<8:06:48,  1.26s/it] 53%|█████▎    | 25665/48845 [9:05:19<8:06:47,  1.26s/it]                                                         {'loss': 1.9364, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25665/48845 [9:05:19<8:06:47,  1.26s/it] 53%|█████▎    | 25666/48845 [9:05:21<8:06:48,  1.26s/it] 53%|█████▎    | 25667/48845 [9:05:22<8:06:58,  1.26s/it] 53%|█████▎    | 25668/48845 [9:05:23<8:10:37,  1.27s/it] 53%|█████▎    | 25669/48845 [9:05:24<8:09:14,  1.27s/it] 53%|█████▎    | 25670/48845 [9:05:26<8:08:28,  1.26s/it]                                                         {'loss': 1.9719, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25670/48845 [9:05:26<8:08:28,  1.26s/it] 53%|█████▎    | 25671/48845 [9:05:27<8:08:21,  1.26s/it] 53%|█████▎    | 25672/48845 [9:05:28<8:07:57,  1.26s/it] 53%|█████▎    | 25673/48845 [9:05:29<8:07:12,  1.26s/it] 53%|█████▎    | 25674/48845 [9:05:31<8:07:09,  1.26s/it] 53%|█████▎    | 25675/48845 [9:05:32<8:06:47,  1.26s/it]                                                         {'loss': 2.0194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25675/48845 [9:05:32<8:06:47,  1.26s/it] 53%|█████▎    | 25676/48845 [9:05:33<8:06:45,  1.26s/it] 53%|█████▎    | 25677/48845 [9:05:34<8:06:38,  1.26s/it] 53%|█████▎    | 25678/48845 [9:05:36<8:06:26,  1.26s/it] 53%|█████▎    | 25679/48845 [9:05:37<8:06:41,  1.26s/it] 53%|█████▎    | 25680/48845 [9:05:38<8:06:37,  1.26s/it]                                                         {'loss': 2.0742, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25680/48845 [9:05:38<8:06:37,  1.26s/it] 53%|█████▎    | 25681/48845 [9:05:40<8:06:38,  1.26s/it] 53%|█████▎    | 25682/48845 [9:05:41<8:06:25,  1.26s/it] 53%|█████▎    | 25683/48845 [9:05:42<8:06:21,  1.26s/it] 53%|█████▎    | 25684/48845 [9:05:43<8:06:34,  1.26s/it] 53%|█████▎    | 25685/48845 [9:05:45<8:06:09,  1.26s/it]                                                         {'loss': 2.135, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25685/48845 [9:05:45<8:06:09,  1.26s/it] 53%|█████▎    | 25686/48845 [9:05:46<8:06:37,  1.26s/it] 53%|█████▎    | 25687/48845 [9:05:47<8:06:07,  1.26s/it] 53%|█████▎    | 25688/48845 [9:05:48<8:06:38,  1.26s/it] 53%|█████▎    | 25689/48845 [9:05:50<8:06:14,  1.26s/it] 53%|█████▎    | 25690/48845 [9:05:51<8:06:09,  1.26s/it]                                                         {'loss': 1.9827, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25690/48845 [9:05:51<8:06:09,  1.26s/it] 53%|█████▎    | 25691/48845 [9:05:52<8:06:03,  1.26s/it] 53%|█████▎    | 25692/48845 [9:05:53<8:06:53,  1.26s/it] 53%|█████▎    | 25693/48845 [9:05:55<8:06:52,  1.26s/it] 53%|█████▎    | 25694/48845 [9:05:56<8:06:55,  1.26s/it] 53%|█████▎    | 25695/48845 [9:05:57<8:06:51,  1.26s/it]                                                         {'loss': 2.0734, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25695/48845 [9:05:57<8:06:51,  1.26s/it] 53%|█████▎    | 25696/48845 [9:05:58<8:06:35,  1.26s/it] 53%|█████▎    | 25697/48845 [9:06:00<8:06:59,  1.26s/it] 53%|█████▎    | 25698/48845 [9:06:01<8:06:52,  1.26s/it] 53%|█████▎    | 25699/48845 [9:06:02<8:23:16,  1.30s/it] 53%|█████▎    | 25700/48845 [9:06:04<8:17:52,  1.29s/it]                                                         {'loss': 2.0782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25700/48845 [9:06:04<8:17:52,  1.29s/it] 53%|█████▎    | 25701/48845 [9:06:05<8:14:58,  1.28s/it] 53%|█████▎    | 25702/48845 [9:06:06<8:12:17,  1.28s/it] 53%|█████▎    | 25703/48845 [9:06:07<8:10:19,  1.27s/it] 53%|█████▎    | 25704/48845 [9:06:09<8:08:40,  1.27s/it] 53%|█████▎    | 25705/48845 [9:06:10<8:07:56,  1.27s/it]                                                         {'loss': 1.9222, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25705/48845 [9:06:10<8:07:56,  1.27s/it] 53%|█████▎    | 25706/48845 [9:06:11<8:07:40,  1.26s/it] 53%|█████▎    | 25707/48845 [9:06:12<8:07:13,  1.26s/it] 53%|█████▎    | 25708/48845 [9:06:14<8:06:52,  1.26s/it] 53%|█████▎    | 25709/48845 [9:06:15<8:06:51,  1.26s/it] 53%|█████▎    | 25710/48845 [9:06:16<8:06:57,  1.26s/it]                                                         {'loss': 2.0285, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25710/48845 [9:06:16<8:06:57,  1.26s/it] 53%|█████▎    | 25711/48845 [9:06:18<8:06:35,  1.26s/it] 53%|█████▎    | 25712/48845 [9:06:19<8:06:34,  1.26s/it] 53%|█████▎    | 25713/48845 [9:06:20<8:06:19,  1.26s/it] 53%|█████▎    | 25714/48845 [9:06:21<8:06:07,  1.26s/it] 53%|█████▎    | 25715/48845 [9:06:23<8:06:02,  1.26s/it]                                                         {'loss': 2.1057, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25715/48845 [9:06:23<8:06:02,  1.26s/it] 53%|█████▎    | 25716/48845 [9:06:24<8:06:10,  1.26s/it] 53%|█████▎    | 25717/48845 [9:06:25<8:06:15,  1.26s/it] 53%|█████▎    | 25718/48845 [9:06:26<8:06:20,  1.26s/it] 53%|█████▎    | 25719/48845 [9:06:28<8:06:09,  1.26s/it] 53%|█████▎    | 25720/48845 [9:06:29<8:05:57,  1.26s/it]                                                         {'loss': 2.0757, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25720/48845 [9:06:29<8:05:57,  1.26s/it] 53%|█████▎    | 25721/48845 [9:06:30<8:06:07,  1.26s/it] 53%|█████▎    | 25722/48845 [9:06:31<8:05:32,  1.26s/it] 53%|█████▎    | 25723/48845 [9:06:33<8:05:23,  1.26s/it] 53%|█████▎    | 25724/48845 [9:06:34<8:05:35,  1.26s/it] 53%|█████▎    | 25725/48845 [9:06:35<8:05:59,  1.26s/it]                                                         {'loss': 1.9447, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25725/48845 [9:06:35<8:05:59,  1.26s/it] 53%|█████▎    | 25726/48845 [9:06:36<8:06:12,  1.26s/it] 53%|█████▎    | 25727/48845 [9:06:38<8:06:05,  1.26s/it] 53%|█████▎    | 25728/48845 [9:06:39<8:05:51,  1.26s/it] 53%|█████▎    | 25729/48845 [9:06:40<8:05:55,  1.26s/it] 53%|█████▎    | 25730/48845 [9:06:41<8:06:23,  1.26s/it]                                                         {'loss': 1.973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25730/48845 [9:06:41<8:06:23,  1.26s/it] 53%|█████▎    | 25731/48845 [9:06:43<8:05:57,  1.26s/it] 53%|█████▎    | 25732/48845 [9:06:44<8:05:40,  1.26s/it] 53%|█████▎    | 25733/48845 [9:06:45<8:05:22,  1.26s/it] 53%|█████▎    | 25734/48845 [9:06:47<8:05:31,  1.26s/it] 53%|█████▎    | 25735/48845 [9:06:48<8:05:25,  1.26s/it]                                                         {'loss': 2.0411, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25735/48845 [9:06:48<8:05:25,  1.26s/it] 53%|█████▎    | 25736/48845 [9:06:49<8:05:31,  1.26s/it] 53%|█████▎    | 25737/48845 [9:06:50<8:05:35,  1.26s/it] 53%|█████▎    | 25738/48845 [9:06:52<8:05:27,  1.26s/it] 53%|█████▎    | 25739/48845 [9:06:53<8:05:05,  1.26s/it] 53%|█████▎    | 25740/48845 [9:06:54<8:05:06,  1.26s/it]                                                         {'loss': 1.9193, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.63}
+ 53%|█████▎    | 25740/48845 [9:06:54<8:05:06,  1.26s/it] 53%|█████▎    | 25741/48845 [9:06:55<8:05:04,  1.26s/it] 53%|█████▎    | 25742/48845 [9:06:57<8:05:03,  1.26s/it] 53%|█████▎    | 25743/48845 [9:06:58<8:05:21,  1.26s/it] 53%|█████▎    | 25744/48845 [9:06:59<8:05:06,  1.26s/it] 53%|█████▎    | 25745/48845 [9:07:00<8:04:43,  1.26s/it]                                                         {'loss': 2.0262, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25745/48845 [9:07:00<8:04:43,  1.26s/it] 53%|█████▎    | 25746/48845 [9:07:02<8:04:32,  1.26s/it] 53%|█████▎    | 25747/48845 [9:07:03<8:04:40,  1.26s/it] 53%|█████▎    | 25748/48845 [9:07:04<8:05:05,  1.26s/it] 53%|█████▎    | 25749/48845 [9:07:05<8:04:57,  1.26s/it] 53%|█████▎    | 25750/48845 [9:07:07<8:05:10,  1.26s/it]                                                         {'loss': 2.0313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25750/48845 [9:07:07<8:05:10,  1.26s/it] 53%|█████▎    | 25751/48845 [9:07:08<8:05:34,  1.26s/it] 53%|█████▎    | 25752/48845 [9:07:09<8:05:37,  1.26s/it] 53%|█████▎    | 25753/48845 [9:07:10<8:05:43,  1.26s/it] 53%|█████▎    | 25754/48845 [9:07:12<8:05:27,  1.26s/it] 53%|█████▎    | 25755/48845 [9:07:13<8:05:03,  1.26s/it]                                                         {'loss': 2.1266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25755/48845 [9:07:13<8:05:03,  1.26s/it] 53%|█████▎    | 25756/48845 [9:07:14<8:05:57,  1.26s/it] 53%|█████▎    | 25757/48845 [9:07:15<8:05:17,  1.26s/it] 53%|█████▎    | 25758/48845 [9:07:17<8:04:52,  1.26s/it] 53%|█████▎    | 25759/48845 [9:07:18<8:05:03,  1.26s/it] 53%|█████▎    | 25760/48845 [9:07:19<8:04:57,  1.26s/it]                                                         {'loss': 1.9273, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25760/48845 [9:07:19<8:04:57,  1.26s/it] 53%|█████▎    | 25761/48845 [9:07:21<8:04:55,  1.26s/it] 53%|█████▎    | 25762/48845 [9:07:22<8:05:32,  1.26s/it] 53%|█████▎    | 25763/48845 [9:07:23<8:05:24,  1.26s/it] 53%|█████▎    | 25764/48845 [9:07:24<8:04:24,  1.26s/it] 53%|█████▎    | 25765/48845 [9:07:26<8:04:55,  1.26s/it]                                                         {'loss': 2.1515, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25765/48845 [9:07:26<8:04:55,  1.26s/it] 53%|█████▎    | 25766/48845 [9:07:27<8:04:58,  1.26s/it] 53%|█████▎    | 25767/48845 [9:07:28<8:05:48,  1.26s/it] 53%|█████▎    | 25768/48845 [9:07:29<8:05:42,  1.26s/it] 53%|█████▎    | 25769/48845 [9:07:31<8:05:12,  1.26s/it] 53%|█████▎    | 25770/48845 [9:07:32<8:04:55,  1.26s/it]                                                         {'loss': 2.0991, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25770/48845 [9:07:32<8:04:55,  1.26s/it] 53%|█████▎    | 25771/48845 [9:07:33<8:04:42,  1.26s/it] 53%|█████▎    | 25772/48845 [9:07:34<8:04:34,  1.26s/it] 53%|█████▎    | 25773/48845 [9:07:36<8:04:48,  1.26s/it] 53%|█████▎    | 25774/48845 [9:07:37<8:04:27,  1.26s/it] 53%|█████▎    | 25775/48845 [9:07:38<8:10:03,  1.27s/it]                                                         {'loss': 1.978, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25775/48845 [9:07:38<8:10:03,  1.27s/it] 53%|█████▎    | 25776/48845 [9:07:40<8:08:26,  1.27s/it] 53%|█████▎    | 25777/48845 [9:07:41<8:06:26,  1.27s/it] 53%|█████▎    | 25778/48845 [9:07:42<8:05:35,  1.26s/it] 53%|█████▎    | 25779/48845 [9:07:43<8:05:52,  1.26s/it] 53%|█████▎    | 25780/48845 [9:07:45<8:05:28,  1.26s/it]                                                         {'loss': 2.0279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25780/48845 [9:07:45<8:05:28,  1.26s/it] 53%|█████▎    | 25781/48845 [9:07:46<8:05:14,  1.26s/it] 53%|█████▎    | 25782/48845 [9:07:47<8:04:49,  1.26s/it] 53%|█████▎    | 25783/48845 [9:07:48<8:05:15,  1.26s/it] 53%|█████▎    | 25784/48845 [9:07:50<8:05:08,  1.26s/it] 53%|█████▎    | 25785/48845 [9:07:51<8:04:29,  1.26s/it]                                                         {'loss': 2.105, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25785/48845 [9:07:51<8:04:29,  1.26s/it] 53%|█████▎    | 25786/48845 [9:07:52<8:04:19,  1.26s/it] 53%|█���███▎    | 25787/48845 [9:07:53<8:04:26,  1.26s/it] 53%|█████▎    | 25788/48845 [9:07:55<8:04:23,  1.26s/it] 53%|█████▎    | 25789/48845 [9:07:56<8:04:38,  1.26s/it] 53%|█████▎    | 25790/48845 [9:07:57<8:04:19,  1.26s/it]                                                         {'loss': 2.0266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25790/48845 [9:07:57<8:04:19,  1.26s/it] 53%|█████▎    | 25791/48845 [9:07:58<8:04:16,  1.26s/it] 53%|█████▎    | 25792/48845 [9:08:00<8:04:19,  1.26s/it] 53%|█████▎    | 25793/48845 [9:08:01<8:04:03,  1.26s/it] 53%|█████▎    | 25794/48845 [9:08:02<8:04:00,  1.26s/it] 53%|█████▎    | 25795/48845 [9:08:03<8:03:50,  1.26s/it]                                                         {'loss': 1.8956, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25795/48845 [9:08:03<8:03:50,  1.26s/it] 53%|█████▎    | 25796/48845 [9:08:05<8:03:55,  1.26s/it] 53%|█████▎    | 25797/48845 [9:08:06<8:04:13,  1.26s/it] 53%|█████▎    | 25798/48845 [9:08:07<8:04:15,  1.26s/it] 53%|█████▎    | 25799/48845 [9:08:08<8:04:03,  1.26s/it] 53%|█████▎    | 25800/48845 [9:08:10<8:03:35,  1.26s/it]                                                         {'loss': 2.1887, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25800/48845 [9:08:10<8:03:35,  1.26s/it] 53%|█████▎    | 25801/48845 [9:08:13<12:43:40,  1.99s/it] 53%|█████▎    | 25802/48845 [9:08:15<11:19:42,  1.77s/it] 53%|█████▎    | 25803/48845 [9:08:16<10:21:43,  1.62s/it] 53%|█████▎    | 25804/48845 [9:08:17<9:40:06,  1.51s/it]  53%|█████▎    | 25805/48845 [9:08:18<9:10:59,  1.43s/it]                                                         {'loss': 2.0869, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25805/48845 [9:08:18<9:10:59,  1.43s/it] 53%|█████▎    | 25806/48845 [9:08:20<8:50:31,  1.38s/it] 53%|█████▎    | 25807/48845 [9:08:21<8:36:35,  1.35s/it] 53%|█████▎    | 25808/48845 [9:08:22<8:27:02,  1.32s/it] 53%|█████▎    | 25809/48845 [9:08:24<8:20:00,  1.30s/it] 53%|█████▎    | 25810/48845 [9:08:25<8:15:07,  1.29s/it]                                                         {'loss': 2.069, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25810/48845 [9:08:25<8:15:07,  1.29s/it] 53%|█████▎    | 25811/48845 [9:08:26<8:11:30,  1.28s/it] 53%|█████▎    | 25812/48845 [9:08:27<8:08:40,  1.27s/it] 53%|█████▎    | 25813/48845 [9:08:29<8:07:30,  1.27s/it] 53%|█████▎    | 25814/48845 [9:08:30<8:06:17,  1.27s/it] 53%|█████▎    | 25815/48845 [9:08:31<8:05:31,  1.26s/it]                                                         {'loss': 2.0115, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25815/48845 [9:08:31<8:05:31,  1.26s/it] 53%|█████▎    | 25816/48845 [9:08:32<8:04:47,  1.26s/it] 53%|█████▎    | 25817/48845 [9:08:34<8:04:38,  1.26s/it] 53%|█████▎    | 25818/48845 [9:08:35<8:04:16,  1.26s/it] 53%|█████▎    | 25819/48845 [9:08:36<8:03:52,  1.26s/it] 53%|█████▎    | 25820/48845 [9:08:37<8:03:43,  1.26s/it]                                                         {'loss': 2.1073, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25820/48845 [9:08:37<8:03:43,  1.26s/it] 53%|█████▎    | 25821/48845 [9:08:39<8:03:38,  1.26s/it] 53%|█████▎    | 25822/48845 [9:08:40<8:03:38,  1.26s/it] 53%|█████▎    | 25823/48845 [9:08:41<8:03:35,  1.26s/it] 53%|█████▎    | 25824/48845 [9:08:42<8:03:09,  1.26s/it] 53%|█████▎    | 25825/48845 [9:08:44<8:03:25,  1.26s/it]                                                         {'loss': 1.9741, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25825/48845 [9:08:44<8:03:25,  1.26s/it] 53%|█████▎    | 25826/48845 [9:08:45<8:03:26,  1.26s/it] 53%|█████▎    | 25827/48845 [9:08:46<8:03:21,  1.26s/it] 53%|█████▎    | 25828/48845 [9:08:47<8:03:22,  1.26s/it] 53%|█████▎    | 25829/48845 [9:08:49<8:03:05,  1.26s/it] 53%|█████▎    | 25830/48845 [9:08:50<8:03:02,  1.26s/it]                                                         {'loss': 2.0991, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25830/48845 [9:08:50<8:03:02,  1.26s/it] 53%|█████▎    | 25831/48845 [9:08:51<8:02:56,  1.26s/it] 53%|█████▎    | 25832/48845 [9:08:52<8:03:11,  1.26s/it] 53%|█████▎    | 25833/48845 [9:08:54<8:03:17,  1.26s/it] 53%|█���███▎    | 25834/48845 [9:08:55<8:03:06,  1.26s/it] 53%|█████▎    | 25835/48845 [9:08:56<8:02:59,  1.26s/it]                                                         {'loss': 1.9319, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.64}
+ 53%|█████▎    | 25835/48845 [9:08:56<8:02:59,  1.26s/it] 53%|█████▎    | 25836/48845 [9:08:58<8:02:52,  1.26s/it] 53%|█████▎    | 25837/48845 [9:08:59<8:03:10,  1.26s/it] 53%|█████▎    | 25838/48845 [9:09:00<8:02:50,  1.26s/it] 53%|█████▎    | 25839/48845 [9:09:01<8:02:55,  1.26s/it] 53%|█████▎    | 25840/48845 [9:09:03<8:03:00,  1.26s/it]                                                         {'loss': 2.0541, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25840/48845 [9:09:03<8:03:00,  1.26s/it] 53%|█████▎    | 25841/48845 [9:09:04<8:03:09,  1.26s/it] 53%|█████▎    | 25842/48845 [9:09:05<8:03:02,  1.26s/it] 53%|█████▎    | 25843/48845 [9:09:06<8:02:44,  1.26s/it] 53%|█████▎    | 25844/48845 [9:09:08<8:02:47,  1.26s/it] 53%|█████▎    | 25845/48845 [9:09:09<8:03:06,  1.26s/it]                                                         {'loss': 2.0976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25845/48845 [9:09:09<8:03:06,  1.26s/it] 53%|█████▎    | 25846/48845 [9:09:10<8:03:15,  1.26s/it] 53%|█████▎    | 25847/48845 [9:09:11<8:03:28,  1.26s/it] 53%|█████▎    | 25848/48845 [9:09:13<8:03:18,  1.26s/it] 53%|█████▎    | 25849/48845 [9:09:14<8:03:20,  1.26s/it] 53%|█████▎    | 25850/48845 [9:09:15<8:03:16,  1.26s/it]                                                         {'loss': 2.0094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25850/48845 [9:09:15<8:03:16,  1.26s/it] 53%|█████▎    | 25851/48845 [9:09:16<8:03:32,  1.26s/it] 53%|█████▎    | 25852/48845 [9:09:18<8:03:25,  1.26s/it] 53%|█████▎    | 25853/48845 [9:09:19<8:03:25,  1.26s/it] 53%|█████▎    | 25854/48845 [9:09:20<8:03:12,  1.26s/it] 53%|█████▎    | 25855/48845 [9:09:21<8:03:01,  1.26s/it]                                                         {'loss': 1.9334, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25855/48845 [9:09:21<8:03:01,  1.26s/it] 53%|█████▎    | 25856/48845 [9:09:23<8:03:00,  1.26s/it] 53%|█████▎    | 25857/48845 [9:09:24<8:03:02,  1.26s/it] 53%|█████▎    | 25858/48845 [9:09:25<8:02:23,  1.26s/it] 53%|█████▎    | 25859/48845 [9:09:27<8:02:41,  1.26s/it] 53%|█████▎    | 25860/48845 [9:09:28<8:02:40,  1.26s/it]                                                         {'loss': 1.8452, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25860/48845 [9:09:28<8:02:40,  1.26s/it] 53%|█████▎    | 25861/48845 [9:09:29<8:03:27,  1.26s/it] 53%|█████▎    | 25862/48845 [9:09:30<8:03:29,  1.26s/it] 53%|█████▎    | 25863/48845 [9:09:32<8:02:50,  1.26s/it] 53%|█████▎    | 25864/48845 [9:09:33<8:02:05,  1.26s/it] 53%|█████▎    | 25865/48845 [9:09:34<8:02:10,  1.26s/it]                                                         {'loss': 1.9714, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25865/48845 [9:09:34<8:02:10,  1.26s/it] 53%|█████▎    | 25866/48845 [9:09:35<8:02:12,  1.26s/it] 53%|█████▎    | 25867/48845 [9:09:37<8:02:10,  1.26s/it] 53%|█████▎    | 25868/48845 [9:09:38<8:02:00,  1.26s/it] 53%|█████▎    | 25869/48845 [9:09:39<8:02:07,  1.26s/it] 53%|█████▎    | 25870/48845 [9:09:40<8:02:30,  1.26s/it]                                                         {'loss': 2.0314, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25870/48845 [9:09:40<8:02:30,  1.26s/it] 53%|█████▎    | 25871/48845 [9:09:42<8:02:34,  1.26s/it] 53%|█████▎    | 25872/48845 [9:09:43<8:02:40,  1.26s/it] 53%|█████▎    | 25873/48845 [9:09:44<8:02:56,  1.26s/it] 53%|█████▎    | 25874/48845 [9:09:45<8:02:26,  1.26s/it] 53%|█████▎    | 25875/48845 [9:09:47<8:01:50,  1.26s/it]                                                         {'loss': 2.0453, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25875/48845 [9:09:47<8:01:50,  1.26s/it] 53%|█████▎    | 25876/48845 [9:09:48<8:02:22,  1.26s/it] 53%|█████▎    | 25877/48845 [9:09:49<8:02:13,  1.26s/it] 53%|█████▎    | 25878/48845 [9:09:50<8:02:25,  1.26s/it] 53%|█████▎    | 25879/48845 [9:09:52<8:02:25,  1.26s/it] 53%|█████▎    | 25880/48845 [9:09:53<8:02:12,  1.26s/it]                                                         {'loss': 1.9545, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25880/48845 [9:09:53<8:02:12,  1.26s/it] 53%|█████▎    | 25881/48845 [9:09:54<8:02:28,  1.26s/it] 53%|█████▎    | 25882/48845 [9:09:55<8:02:08,  1.26s/it] 53%|█████▎    | 25883/48845 [9:09:57<8:02:09,  1.26s/it] 53%|█████▎    | 25884/48845 [9:09:58<8:01:29,  1.26s/it] 53%|█████▎    | 25885/48845 [9:09:59<8:01:29,  1.26s/it]                                                         {'loss': 2.0071, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25885/48845 [9:09:59<8:01:29,  1.26s/it] 53%|█████▎    | 25886/48845 [9:10:01<8:02:07,  1.26s/it] 53%|█████▎    | 25887/48845 [9:10:02<8:02:27,  1.26s/it] 53%|█████▎    | 25888/48845 [9:10:03<8:02:19,  1.26s/it] 53%|█████▎    | 25889/48845 [9:10:04<8:03:02,  1.26s/it] 53%|█████▎    | 25890/48845 [9:10:06<8:02:40,  1.26s/it]                                                         {'loss': 1.9532, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25890/48845 [9:10:06<8:02:40,  1.26s/it] 53%|█████▎    | 25891/48845 [9:10:07<8:02:19,  1.26s/it] 53%|█████▎    | 25892/48845 [9:10:08<8:01:54,  1.26s/it] 53%|█████▎    | 25893/48845 [9:10:09<8:02:26,  1.26s/it] 53%|█████▎    | 25894/48845 [9:10:11<8:02:20,  1.26s/it] 53%|█████▎    | 25895/48845 [9:10:12<8:02:07,  1.26s/it]                                                         {'loss': 1.9058, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25895/48845 [9:10:12<8:02:07,  1.26s/it] 53%|█████▎    | 25896/48845 [9:10:13<8:01:54,  1.26s/it] 53%|█████▎    | 25897/48845 [9:10:14<8:02:09,  1.26s/it] 53%|█████▎    | 25898/48845 [9:10:16<8:01:59,  1.26s/it] 53%|█████▎    | 25899/48845 [9:10:17<8:02:10,  1.26s/it] 53%|█████▎    | 25900/48845 [9:10:18<8:02:09,  1.26s/it]                                                         {'loss': 2.0243, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25900/48845 [9:10:18<8:02:09,  1.26s/it] 53%|█████▎    | 25901/48845 [9:10:19<8:01:34,  1.26s/it] 53%|█████▎    | 25902/48845 [9:10:21<8:01:30,  1.26s/it] 53%|█████▎    | 25903/48845 [9:10:22<8:01:37,  1.26s/it] 53%|█████▎    | 25904/48845 [9:10:23<8:01:31,  1.26s/it] 53%|█████▎    | 25905/48845 [9:10:24<8:01:36,  1.26s/it]                                                         {'loss': 2.1865, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25905/48845 [9:10:24<8:01:36,  1.26s/it] 53%|█████▎    | 25906/48845 [9:10:26<8:01:40,  1.26s/it] 53%|█████▎    | 25907/48845 [9:10:27<8:01:18,  1.26s/it] 53%|█████▎    | 25908/48845 [9:10:28<8:01:11,  1.26s/it] 53%|█████▎    | 25909/48845 [9:10:30<8:01:17,  1.26s/it] 53%|█████▎    | 25910/48845 [9:10:31<8:01:41,  1.26s/it]                                                         {'loss': 2.141, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25910/48845 [9:10:31<8:01:41,  1.26s/it] 53%|█████▎    | 25911/48845 [9:10:32<8:01:53,  1.26s/it] 53%|█████▎    | 25912/48845 [9:10:33<8:01:15,  1.26s/it] 53%|█████▎    | 25913/48845 [9:10:35<8:01:16,  1.26s/it] 53%|█████▎    | 25914/48845 [9:10:36<8:02:22,  1.26s/it] 53%|█████▎    | 25915/48845 [9:10:37<8:01:54,  1.26s/it]                                                         {'loss': 2.0268, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25915/48845 [9:10:37<8:01:54,  1.26s/it] 53%|█████▎    | 25916/48845 [9:10:38<8:01:58,  1.26s/it] 53%|█████▎    | 25917/48845 [9:10:40<8:02:06,  1.26s/it] 53%|█████▎    | 25918/48845 [9:10:41<8:01:36,  1.26s/it] 53%|█████▎    | 25919/48845 [9:10:42<8:01:24,  1.26s/it] 53%|█████▎    | 25920/48845 [9:10:43<8:01:37,  1.26s/it]                                                         {'loss': 2.105, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25920/48845 [9:10:43<8:01:37,  1.26s/it] 53%|█████▎    | 25921/48845 [9:10:45<8:02:01,  1.26s/it] 53%|█████▎    | 25922/48845 [9:10:46<8:01:46,  1.26s/it] 53%|█████▎    | 25923/48845 [9:10:47<8:01:40,  1.26s/it] 53%|█████▎    | 25924/48845 [9:10:48<8:01:37,  1.26s/it] 53%|█████▎    | 25925/48845 [9:10:50<8:01:32,  1.26s/it]                                                         {'loss': 2.1397, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25925/48845 [9:10:50<8:01:32,  1.26s/it] 53%|█████▎    | 25926/48845 [9:10:51<8:01:21,  1.26s/it] 53%|█████▎    | 25927/48845 [9:10:52<8:01:12,  1.26s/it] 53%|█████▎    | 25928/48845 [9:10:53<8:01:19,  1.26s/it] 53%|█████▎    | 25929/48845 [9:10:55<8:01:08,  1.26s/it] 53%|█████▎    | 25930/48845 [9:10:56<8:01:19,  1.26s/it]                                                         {'loss': 2.0535, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25930/48845 [9:10:56<8:01:19,  1.26s/it] 53%|█████▎    | 25931/48845 [9:10:57<8:01:04,  1.26s/it] 53%|█████▎    | 25932/48845 [9:10:59<8:00:49,  1.26s/it] 53%|█████▎    | 25933/48845 [9:11:00<8:01:00,  1.26s/it] 53%|█████▎    | 25934/48845 [9:11:01<8:01:10,  1.26s/it] 53%|█████▎    | 25935/48845 [9:11:02<8:00:52,  1.26s/it]                                                         {'loss': 2.0705, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.65}
+ 53%|█████▎    | 25935/48845 [9:11:02<8:00:52,  1.26s/it] 53%|█████▎    | 25936/48845 [9:11:04<8:00:51,  1.26s/it] 53%|█████▎    | 25937/48845 [9:11:05<8:01:12,  1.26s/it] 53%|█████▎    | 25938/48845 [9:11:06<8:00:56,  1.26s/it] 53%|█████▎    | 25939/48845 [9:11:07<8:00:53,  1.26s/it] 53%|█████▎    | 25940/48845 [9:11:09<8:00:47,  1.26s/it]                                                         {'loss': 2.0037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25940/48845 [9:11:09<8:00:47,  1.26s/it] 53%|█████▎    | 25941/48845 [9:11:10<8:01:15,  1.26s/it] 53%|█████▎    | 25942/48845 [9:11:11<8:00:51,  1.26s/it] 53%|█████▎    | 25943/48845 [9:11:12<8:00:37,  1.26s/it] 53%|█████▎    | 25944/48845 [9:11:14<8:00:24,  1.26s/it] 53%|█████▎    | 25945/48845 [9:11:15<8:00:49,  1.26s/it]                                                         {'loss': 1.9104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25945/48845 [9:11:15<8:00:49,  1.26s/it] 53%|█████▎    | 25946/48845 [9:11:16<8:00:49,  1.26s/it] 53%|█████▎    | 25947/48845 [9:11:17<8:00:47,  1.26s/it] 53%|█████▎    | 25948/48845 [9:11:19<8:00:26,  1.26s/it] 53%|█████▎    | 25949/48845 [9:11:20<8:00:38,  1.26s/it] 53%|█████▎    | 25950/48845 [9:11:21<8:00:35,  1.26s/it]                                                         {'loss': 2.0747, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25950/48845 [9:11:21<8:00:35,  1.26s/it] 53%|█████▎    | 25951/48845 [9:11:22<8:00:52,  1.26s/it] 53%|█████▎    | 25952/48845 [9:11:24<8:00:49,  1.26s/it] 53%|█████▎    | 25953/48845 [9:11:25<8:00:42,  1.26s/it] 53%|█████▎    | 25954/48845 [9:11:26<8:00:22,  1.26s/it] 53%|█████▎    | 25955/48845 [9:11:27<8:00:11,  1.26s/it]                                                         {'loss': 1.9645, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25955/48845 [9:11:27<8:00:11,  1.26s/it] 53%|█████▎    | 25956/48845 [9:11:29<8:00:07,  1.26s/it] 53%|█████▎    | 25957/48845 [9:11:30<8:00:27,  1.26s/it] 53%|█████▎    | 25958/48845 [9:11:31<8:00:27,  1.26s/it] 53%|█████▎    | 25959/48845 [9:11:33<8:00:20,  1.26s/it] 53%|█████▎    | 25960/48845 [9:11:34<8:00:00,  1.26s/it]                                                         {'loss': 2.0248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25960/48845 [9:11:34<8:00:00,  1.26s/it] 53%|█████▎    | 25961/48845 [9:11:35<8:00:36,  1.26s/it] 53%|█████▎    | 25962/48845 [9:11:36<8:00:31,  1.26s/it] 53%|█████▎    | 25963/48845 [9:11:38<8:00:34,  1.26s/it] 53%|█████▎    | 25964/48845 [9:11:39<8:00:35,  1.26s/it] 53%|█████▎    | 25965/48845 [9:11:40<8:00:30,  1.26s/it]                                                         {'loss': 2.0505, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25965/48845 [9:11:40<8:00:30,  1.26s/it] 53%|█████▎    | 25966/48845 [9:11:41<8:00:26,  1.26s/it] 53%|█████▎    | 25967/48845 [9:11:43<8:00:24,  1.26s/it] 53%|█████▎    | 25968/48845 [9:11:44<8:00:19,  1.26s/it] 53%|█████▎    | 25969/48845 [9:11:45<8:00:16,  1.26s/it] 53%|█████▎    | 25970/48845 [9:11:46<8:00:07,  1.26s/it]                                                         {'loss': 2.0867, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25970/48845 [9:11:46<8:00:07,  1.26s/it] 53%|█████▎    | 25971/48845 [9:11:48<8:00:04,  1.26s/it] 53%|█████▎    | 25972/48845 [9:11:49<8:00:18,  1.26s/it] 53%|█████▎    | 25973/48845 [9:11:50<8:00:19,  1.26s/it] 53%|█████▎    | 25974/48845 [9:11:51<8:00:19,  1.26s/it] 53%|█████▎    | 25975/48845 [9:11:53<7:59:55,  1.26s/it]                                                         {'loss': 1.8957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25975/48845 [9:11:53<7:59:55,  1.26s/it] 53%|█████▎    | 25976/48845 [9:11:54<8:00:16,  1.26s/it] 53%|█████▎    | 25977/48845 [9:11:55<8:00:20,  1.26s/it] 53%|█████▎    | 25978/48845 [9:11:56<8:00:16,  1.26s/it] 53%|█████▎    | 25979/48845 [9:11:58<7:59:49,  1.26s/it] 53%|█████▎    | 25980/48845 [9:11:59<7:59:51,  1.26s/it]                                                         {'loss': 2.0341, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25980/48845 [9:11:59<7:59:51,  1.26s/it] 53%|█████▎    | 25981/48845 [9:12:00<8:00:11,  1.26s/it] 53%|█████▎    | 25982/48845 [9:12:01<7:59:59,  1.26s/it] 53%|█████▎    | 25983/48845 [9:12:03<7:59:51,  1.26s/it] 53%|█████▎    | 25984/48845 [9:12:04<7:59:51,  1.26s/it] 53%|█████▎    | 25985/48845 [9:12:05<8:00:01,  1.26s/it]                                                         {'loss': 2.0654, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25985/48845 [9:12:05<8:00:01,  1.26s/it] 53%|█████▎    | 25986/48845 [9:12:07<7:59:51,  1.26s/it] 53%|█████▎    | 25987/48845 [9:12:08<7:59:44,  1.26s/it] 53%|█████▎    | 25988/48845 [9:12:09<7:59:49,  1.26s/it] 53%|█████▎    | 25989/48845 [9:12:10<7:59:44,  1.26s/it] 53%|█████▎    | 25990/48845 [9:12:12<7:59:50,  1.26s/it]                                                         {'loss': 2.0597, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25990/48845 [9:12:12<7:59:50,  1.26s/it] 53%|█████▎    | 25991/48845 [9:12:13<7:59:34,  1.26s/it] 53%|█████▎    | 25992/48845 [9:12:14<7:59:59,  1.26s/it] 53%|█████▎    | 25993/48845 [9:12:15<7:59:28,  1.26s/it] 53%|█████▎    | 25994/48845 [9:12:17<7:59:38,  1.26s/it] 53%|█████▎    | 25995/48845 [9:12:18<7:59:34,  1.26s/it]                                                         {'loss': 2.1624, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 25995/48845 [9:12:18<7:59:34,  1.26s/it] 53%|█████▎    | 25996/48845 [9:12:19<7:59:57,  1.26s/it] 53%|█████▎    | 25997/48845 [9:12:20<7:59:44,  1.26s/it] 53%|█████▎    | 25998/48845 [9:12:22<8:00:23,  1.26s/it] 53%|█████▎    | 25999/48845 [9:12:23<7:59:52,  1.26s/it] 53%|█████▎    | 26000/48845 [9:12:24<7:59:41,  1.26s/it]                                                         {'loss': 2.1043, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26000/48845 [9:12:24<7:59:41,  1.26s/it] 53%|█████▎    | 26001/48845 [9:12:28<12:52:22,  2.03s/it] 53%|█████▎    | 26002/48845 [9:12:29<11:23:47,  1.80s/it] 53%|█████▎    | 26003/48845 [9:12:31<10:22:12,  1.63s/it] 53%|█████▎    | 26004/48845 [9:12:32<9:39:09,  1.52s/it]  53%|█████▎    | 26005/48845 [9:12:33<9:09:37,  1.44s/it]                                                         {'loss': 1.9659, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26005/48845 [9:12:33<9:09:37,  1.44s/it] 53%|█████▎    | 26006/48845 [9:12:34<8:48:25,  1.39s/it] 53%|█████▎    | 26007/48845 [9:12:36<8:33:30,  1.35s/it] 53%|█████▎    | 26008/48845 [9:12:37<8:22:30,  1.32s/it] 53%|█████▎    | 26009/48845 [9:12:38<8:15:05,  1.30s/it] 53%|█████▎    | 26010/48845 [9:12:39<8:10:21,  1.29s/it]                                                         {'loss': 2.0514, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26010/48845 [9:12:39<8:10:21,  1.29s/it] 53%|█████▎    | 26011/48845 [9:12:41<8:06:52,  1.28s/it] 53%|█████▎    | 26012/48845 [9:12:42<8:03:54,  1.27s/it] 53%|█████▎    | 26013/48845 [9:12:43<8:01:54,  1.27s/it] 53%|█████▎    | 26014/48845 [9:12:44<8:00:28,  1.26s/it] 53%|█████▎    | 26015/48845 [9:12:46<7:59:43,  1.26s/it]                                                         {'loss': 1.916, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26015/48845 [9:12:46<7:59:43,  1.26s/it] 53%|█████▎    | 26016/48845 [9:12:47<7:59:00,  1.26s/it] 53%|█████▎    | 26017/48845 [9:12:48<7:59:01,  1.26s/it] 53%|█████▎    | 26018/48845 [9:12:49<7:58:38,  1.26s/it] 53%|█████▎    | 26019/48845 [9:12:51<7:59:05,  1.26s/it] 53%|█████▎    | 26020/48845 [9:12:52<7:59:01,  1.26s/it]                                                         {'loss': 2.0005, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26020/48845 [9:12:52<7:59:01,  1.26s/it] 53%|█████▎    | 26021/48845 [9:12:53<7:59:01,  1.26s/it] 53%|█████▎    | 26022/48845 [9:12:54<7:59:04,  1.26s/it] 53%|█████▎    | 26023/48845 [9:12:56<7:58:33,  1.26s/it] 53%|█████▎    | 26024/48845 [9:12:57<7:59:11,  1.26s/it] 53%|█████▎    | 26025/48845 [9:12:58<7:59:29,  1.26s/it]                                                         {'loss': 2.0124, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26025/48845 [9:12:58<7:59:29,  1.26s/it] 53%|█████▎    | 26026/48845 [9:12:59<8:00:19,  1.26s/it] 53%|█████▎    | 26027/48845 [9:13:01<7:59:21,  1.26s/it] 53%|█████▎    | 26028/48845 [9:13:02<7:59:22,  1.26s/it] 53%|█████▎    | 26029/48845 [9:13:03<7:59:28,  1.26s/it] 53%|█████▎    | 26030/48845 [9:13:04<7:59:21,  1.26s/it]                                                         {'loss': 2.0601, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.66}
+ 53%|█████▎    | 26030/48845 [9:13:04<7:59:21,  1.26s/it] 53%|█████▎    | 26031/48845 [9:13:06<7:59:21,  1.26s/it] 53%|█████▎    | 26032/48845 [9:13:07<7:58:39,  1.26s/it] 53%|█████▎    | 26033/48845 [9:13:08<7:58:34,  1.26s/it] 53%|█████▎    | 26034/48845 [9:13:10<7:58:06,  1.26s/it] 53%|█████▎    | 26035/48845 [9:13:11<7:58:18,  1.26s/it]                                                         {'loss': 2.0607, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26035/48845 [9:13:11<7:58:18,  1.26s/it] 53%|█████▎    | 26036/48845 [9:13:12<7:58:23,  1.26s/it] 53%|█████▎    | 26037/48845 [9:13:13<7:57:59,  1.26s/it] 53%|█████▎    | 26038/48845 [9:13:15<7:58:36,  1.26s/it] 53%|█████▎    | 26039/48845 [9:13:16<7:58:47,  1.26s/it] 53%|█████▎    | 26040/48845 [9:13:17<7:58:47,  1.26s/it]                                                         {'loss': 1.9759, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26040/48845 [9:13:17<7:58:47,  1.26s/it] 53%|█████▎    | 26041/48845 [9:13:18<7:58:46,  1.26s/it] 53%|█████▎    | 26042/48845 [9:13:20<7:58:44,  1.26s/it] 53%|█████▎    | 26043/48845 [9:13:21<7:58:36,  1.26s/it] 53%|█████▎    | 26044/48845 [9:13:22<7:58:45,  1.26s/it] 53%|█████▎    | 26045/48845 [9:13:23<7:58:38,  1.26s/it]                                                         {'loss': 1.9112, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26045/48845 [9:13:23<7:58:38,  1.26s/it] 53%|█████▎    | 26046/48845 [9:13:25<7:58:48,  1.26s/it] 53%|█████▎    | 26047/48845 [9:13:26<7:58:41,  1.26s/it] 53%|█████▎    | 26048/48845 [9:13:27<7:58:35,  1.26s/it] 53%|█████▎    | 26049/48845 [9:13:28<7:58:42,  1.26s/it] 53%|█████▎    | 26050/48845 [9:13:30<7:58:43,  1.26s/it]                                                         {'loss': 2.0947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26050/48845 [9:13:30<7:58:43,  1.26s/it] 53%|█████▎    | 26051/48845 [9:13:31<7:58:41,  1.26s/it] 53%|█████▎    | 26052/48845 [9:13:32<7:58:39,  1.26s/it] 53%|█████▎    | 26053/48845 [9:13:33<7:58:24,  1.26s/it] 53%|█████▎    | 26054/48845 [9:13:35<7:58:16,  1.26s/it] 53%|█████▎    | 26055/48845 [9:13:36<7:57:49,  1.26s/it]                                                         {'loss': 2.0487, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26055/48845 [9:13:36<7:57:49,  1.26s/it] 53%|█████▎    | 26056/48845 [9:13:37<7:57:52,  1.26s/it] 53%|█████▎    | 26057/48845 [9:13:38<7:57:58,  1.26s/it] 53%|█████▎    | 26058/48845 [9:13:40<7:58:31,  1.26s/it] 53%|█████▎    | 26059/48845 [9:13:41<7:57:59,  1.26s/it] 53%|█████▎    | 26060/48845 [9:13:42<7:58:01,  1.26s/it]                                                         {'loss': 1.9377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26060/48845 [9:13:42<7:58:01,  1.26s/it] 53%|█████▎    | 26061/48845 [9:13:44<7:58:18,  1.26s/it] 53%|█████▎    | 26062/48845 [9:13:45<7:58:33,  1.26s/it] 53%|█████▎    | 26063/48845 [9:13:46<7:58:08,  1.26s/it] 53%|█████▎    | 26064/48845 [9:13:47<7:58:38,  1.26s/it] 53%|█████▎    | 26065/48845 [9:13:49<7:58:44,  1.26s/it]                                                         {'loss': 1.9971, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26065/48845 [9:13:49<7:58:44,  1.26s/it] 53%|█████▎    | 26066/48845 [9:13:50<7:58:54,  1.26s/it] 53%|█████▎    | 26067/48845 [9:13:51<7:58:25,  1.26s/it] 53%|█████▎    | 26068/48845 [9:13:52<7:57:55,  1.26s/it] 53%|█████▎    | 26069/48845 [9:13:54<7:58:03,  1.26s/it] 53%|█████▎    | 26070/48845 [9:13:55<8:07:41,  1.28s/it]                                                         {'loss': 1.9802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26070/48845 [9:13:55<8:07:41,  1.28s/it] 53%|█████▎    | 26071/48845 [9:13:56<8:04:35,  1.28s/it] 53%|█████▎    | 26072/48845 [9:13:57<8:02:35,  1.27s/it] 53%|█████▎    | 26073/48845 [9:13:59<8:01:14,  1.27s/it] 53%|█████▎    | 26074/48845 [9:14:00<8:00:07,  1.27s/it] 53%|█████▎    | 26075/48845 [9:14:01<7:59:14,  1.26s/it]                                                         {'loss': 2.0249, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26075/48845 [9:14:01<7:59:14,  1.26s/it] 53%|█████▎    | 26076/48845 [9:14:02<7:58:58,  1.26s/it] 53%|█████▎    | 26077/48845 [9:14:04<7:58:39,  1.26s/it] 53%|█████▎    | 26078/48845 [9:14:05<7:58:41,  1.26s/it] 53%|█████▎    | 26079/48845 [9:14:06<7:58:06,  1.26s/it] 53%|█████▎    | 26080/48845 [9:14:08<7:57:54,  1.26s/it]                                                         {'loss': 2.0983, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26080/48845 [9:14:08<7:57:54,  1.26s/it] 53%|█████▎    | 26081/48845 [9:14:09<7:57:46,  1.26s/it] 53%|█████▎    | 26082/48845 [9:14:10<7:58:01,  1.26s/it] 53%|█████▎    | 26083/48845 [9:14:11<7:57:48,  1.26s/it] 53%|█████▎    | 26084/48845 [9:14:13<7:58:01,  1.26s/it] 53%|█████▎    | 26085/48845 [9:14:14<7:58:33,  1.26s/it]                                                         {'loss': 2.0497, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26085/48845 [9:14:14<7:58:33,  1.26s/it] 53%|█████▎    | 26086/48845 [9:14:15<7:58:20,  1.26s/it] 53%|█████▎    | 26087/48845 [9:14:16<7:58:12,  1.26s/it] 53%|█████▎    | 26088/48845 [9:14:18<7:58:08,  1.26s/it] 53%|█████▎    | 26089/48845 [9:14:19<7:58:12,  1.26s/it] 53%|█████▎    | 26090/48845 [9:14:20<7:58:19,  1.26s/it]                                                         {'loss': 1.9675, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26090/48845 [9:14:20<7:58:19,  1.26s/it] 53%|█████▎    | 26091/48845 [9:14:22<8:53:04,  1.41s/it] 53%|█████▎    | 26092/48845 [9:14:23<8:36:54,  1.36s/it] 53%|█████▎    | 26093/48845 [9:14:24<8:24:31,  1.33s/it] 53%|█████▎    | 26094/48845 [9:14:26<8:16:21,  1.31s/it] 53%|█████▎    | 26095/48845 [9:14:27<8:10:23,  1.29s/it]                                                         {'loss': 2.1204, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26095/48845 [9:14:27<8:10:23,  1.29s/it] 53%|█████▎    | 26096/48845 [9:14:28<8:06:36,  1.28s/it] 53%|█████▎    | 26097/48845 [9:14:29<8:03:43,  1.28s/it] 53%|█████▎    | 26098/48845 [9:14:31<8:01:56,  1.27s/it] 53%|█████▎    | 26099/48845 [9:14:32<8:00:33,  1.27s/it] 53%|█████▎    | 26100/48845 [9:14:33<7:58:47,  1.26s/it]                                                         {'loss': 1.9904, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26100/48845 [9:14:33<7:58:47,  1.26s/it] 53%|█████▎    | 26101/48845 [9:14:35<8:03:37,  1.28s/it] 53%|█████▎    | 26102/48845 [9:14:36<8:01:58,  1.27s/it] 53%|█████▎    | 26103/48845 [9:14:37<8:00:53,  1.27s/it] 53%|█████▎    | 26104/48845 [9:14:38<7:59:48,  1.27s/it] 53%|█████▎    | 26105/48845 [9:14:40<7:59:26,  1.27s/it]                                                         {'loss': 2.0016, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26105/48845 [9:14:40<7:59:26,  1.27s/it] 53%|█████▎    | 26106/48845 [9:14:41<7:58:46,  1.26s/it] 53%|█████▎    | 26107/48845 [9:14:42<7:58:23,  1.26s/it] 53%|█████▎    | 26108/48845 [9:14:43<7:58:08,  1.26s/it] 53%|█████▎    | 26109/48845 [9:14:45<7:59:03,  1.26s/it] 53%|█████▎    | 26110/48845 [9:14:46<7:58:43,  1.26s/it]                                                         {'loss': 1.9889, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26110/48845 [9:14:46<7:58:43,  1.26s/it] 53%|█████▎    | 26111/48845 [9:14:47<7:58:36,  1.26s/it] 53%|█████▎    | 26112/48845 [9:14:48<7:57:53,  1.26s/it] 53%|█████▎    | 26113/48845 [9:14:50<7:57:35,  1.26s/it] 53%|█████▎    | 26114/48845 [9:14:51<7:57:31,  1.26s/it] 53%|█████▎    | 26115/48845 [9:14:52<7:57:31,  1.26s/it]                                                         {'loss': 1.9044, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26115/48845 [9:14:52<7:57:31,  1.26s/it] 53%|█████▎    | 26116/48845 [9:14:53<7:57:26,  1.26s/it] 53%|█████▎    | 26117/48845 [9:14:55<7:57:00,  1.26s/it] 53%|█████▎    | 26118/48845 [9:14:56<7:57:07,  1.26s/it] 53%|█████▎    | 26119/48845 [9:14:57<7:57:05,  1.26s/it] 53%|█████▎    | 26120/48845 [9:14:58<7:57:07,  1.26s/it]                                                         {'loss': 2.1309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26120/48845 [9:14:58<7:57:07,  1.26s/it] 53%|█████▎    | 26121/48845 [9:15:00<7:57:25,  1.26s/it] 53%|█████▎    | 26122/48845 [9:15:01<7:57:15,  1.26s/it] 53%|█████▎    | 26123/48845 [9:15:02<7:57:39,  1.26s/it] 53%|█████▎    | 26124/48845 [9:15:04<7:57:32,  1.26s/it] 53%|█████▎    | 26125/48845 [9:15:05<7:57:07,  1.26s/it]                                                         {'loss': 1.9846, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26125/48845 [9:15:05<7:57:07,  1.26s/it] 53%|█████▎    | 26126/48845 [9:15:06<7:57:40,  1.26s/it] 53%|█████▎    | 26127/48845 [9:15:07<7:57:19,  1.26s/it] 53%|█████▎    | 26128/48845 [9:15:09<7:57:20,  1.26s/it] 53%|█████▎    | 26129/48845 [9:15:10<7:57:09,  1.26s/it] 53%|█████▎    | 26130/48845 [9:15:11<7:57:08,  1.26s/it]                                                         {'loss': 1.9652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.67}
+ 53%|█████▎    | 26130/48845 [9:15:11<7:57:08,  1.26s/it] 53%|█████▎    | 26131/48845 [9:15:12<7:57:03,  1.26s/it] 53%|█████▎    | 26132/48845 [9:15:14<7:56:56,  1.26s/it] 54%|█████▎    | 26133/48845 [9:15:15<7:56:55,  1.26s/it] 54%|█████▎    | 26134/48845 [9:15:16<7:56:18,  1.26s/it] 54%|█████▎    | 26135/48845 [9:15:17<7:56:26,  1.26s/it]                                                         {'loss': 2.0876, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26135/48845 [9:15:17<7:56:26,  1.26s/it] 54%|█████▎    | 26136/48845 [9:15:19<8:01:27,  1.27s/it] 54%|█████▎    | 26137/48845 [9:15:20<8:00:23,  1.27s/it] 54%|█████▎    | 26138/48845 [9:15:21<7:59:02,  1.27s/it] 54%|█████▎    | 26139/48845 [9:15:22<7:58:09,  1.26s/it] 54%|█████▎    | 26140/48845 [9:15:24<7:57:40,  1.26s/it]                                                         {'loss': 2.0905, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26140/48845 [9:15:24<7:57:40,  1.26s/it] 54%|█████▎    | 26141/48845 [9:15:25<7:57:24,  1.26s/it] 54%|█████▎    | 26142/48845 [9:15:26<7:57:01,  1.26s/it] 54%|█████▎    | 26143/48845 [9:15:27<7:57:04,  1.26s/it] 54%|█████▎    | 26144/48845 [9:15:29<7:56:49,  1.26s/it] 54%|█████▎    | 26145/48845 [9:15:30<7:56:47,  1.26s/it]                                                         {'loss': 2.0183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26145/48845 [9:15:30<7:56:47,  1.26s/it] 54%|█████▎    | 26146/48845 [9:15:31<7:56:35,  1.26s/it] 54%|█████▎    | 26147/48845 [9:15:33<7:56:22,  1.26s/it] 54%|█████▎    | 26148/48845 [9:15:34<7:56:38,  1.26s/it] 54%|█████▎    | 26149/48845 [9:15:35<7:56:44,  1.26s/it] 54%|█████▎    | 26150/48845 [9:15:36<7:56:24,  1.26s/it]                                                         {'loss': 2.1114, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26150/48845 [9:15:36<7:56:24,  1.26s/it] 54%|█████▎    | 26151/48845 [9:15:38<7:56:36,  1.26s/it] 54%|█████▎    | 26152/48845 [9:15:39<8:08:28,  1.29s/it] 54%|█████▎    | 26153/48845 [9:15:40<8:04:46,  1.28s/it] 54%|█████▎    | 26154/48845 [9:15:41<8:02:18,  1.28s/it] 54%|█████▎    | 26155/48845 [9:15:43<7:59:54,  1.27s/it]                                                         {'loss': 2.1414, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26155/48845 [9:15:43<7:59:54,  1.27s/it] 54%|█████▎    | 26156/48845 [9:15:44<7:59:05,  1.27s/it] 54%|█████▎    | 26157/48845 [9:15:45<7:58:18,  1.26s/it] 54%|█████▎    | 26158/48845 [9:15:46<7:58:12,  1.26s/it] 54%|█████▎    | 26159/48845 [9:15:48<7:57:46,  1.26s/it] 54%|█████▎    | 26160/48845 [9:15:49<7:57:26,  1.26s/it]                                                         {'loss': 1.9663, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26160/48845 [9:15:49<7:57:26,  1.26s/it] 54%|█████▎    | 26161/48845 [9:15:50<7:57:11,  1.26s/it] 54%|█████▎    | 26162/48845 [9:15:52<7:57:01,  1.26s/it] 54%|█████▎    | 26163/48845 [9:15:53<7:56:34,  1.26s/it] 54%|█████▎    | 26164/48845 [9:15:54<7:56:17,  1.26s/it] 54%|█████▎    | 26165/48845 [9:15:55<7:56:17,  1.26s/it]                                                         {'loss': 2.0032, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26165/48845 [9:15:55<7:56:17,  1.26s/it] 54%|█████▎    | 26166/48845 [9:15:57<7:56:40,  1.26s/it] 54%|█████▎    | 26167/48845 [9:15:58<7:56:47,  1.26s/it] 54%|█████▎    | 26168/48845 [9:15:59<7:56:52,  1.26s/it] 54%|█████▎    | 26169/48845 [9:16:00<7:56:34,  1.26s/it] 54%|█████▎    | 26170/48845 [9:16:02<7:56:22,  1.26s/it]                                                         {'loss': 2.0482, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26170/48845 [9:16:02<7:56:22,  1.26s/it] 54%|█████▎    | 26171/48845 [9:16:03<7:56:23,  1.26s/it] 54%|█████▎    | 26172/48845 [9:16:04<7:56:12,  1.26s/it] 54%|█████▎    | 26173/48845 [9:16:05<7:55:57,  1.26s/it] 54%|█████▎    | 26174/48845 [9:16:07<7:55:48,  1.26s/it] 54%|█████▎    | 26175/48845 [9:16:08<7:56:00,  1.26s/it]                                                         {'loss': 2.0584, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26175/48845 [9:16:08<7:56:00,  1.26s/it] 54%|█████▎    | 26176/48845 [9:16:09<7:56:42,  1.26s/it] 54%|█████▎    | 26177/48845 [9:16:10<7:56:56,  1.26s/it] 54%|█████▎    | 26178/48845 [9:16:12<7:56:20,  1.26s/it] 54%|█████▎    | 26179/48845 [9:16:13<7:56:23,  1.26s/it] 54%|█████▎    | 26180/48845 [9:16:14<7:56:29,  1.26s/it]                                                         {'loss': 1.9515, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26180/48845 [9:16:14<7:56:29,  1.26s/it] 54%|█████▎    | 26181/48845 [9:16:15<7:56:50,  1.26s/it] 54%|█████▎    | 26182/48845 [9:16:17<7:56:35,  1.26s/it] 54%|█████▎    | 26183/48845 [9:16:18<7:56:38,  1.26s/it] 54%|█████▎    | 26184/48845 [9:16:19<7:56:09,  1.26s/it] 54%|█████▎    | 26185/48845 [9:16:21<7:55:53,  1.26s/it]                                                         {'loss': 1.9447, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26185/48845 [9:16:21<7:55:53,  1.26s/it] 54%|█████▎    | 26186/48845 [9:16:22<7:55:47,  1.26s/it] 54%|█████▎    | 26187/48845 [9:16:23<7:55:47,  1.26s/it] 54%|█████▎    | 26188/48845 [9:16:24<7:55:59,  1.26s/it] 54%|█████▎    | 26189/48845 [9:16:26<7:55:51,  1.26s/it] 54%|█████▎    | 26190/48845 [9:16:27<7:55:33,  1.26s/it]                                                         {'loss': 2.1357, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26190/48845 [9:16:27<7:55:33,  1.26s/it] 54%|█████▎    | 26191/48845 [9:16:28<7:55:29,  1.26s/it] 54%|█████▎    | 26192/48845 [9:16:29<7:55:42,  1.26s/it] 54%|█████▎    | 26193/48845 [9:16:31<7:55:46,  1.26s/it] 54%|█████▎    | 26194/48845 [9:16:32<7:55:30,  1.26s/it] 54%|█████▎    | 26195/48845 [9:16:33<7:55:40,  1.26s/it]                                                         {'loss': 2.1672, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26195/48845 [9:16:33<7:55:40,  1.26s/it] 54%|█████▎    | 26196/48845 [9:16:34<7:56:25,  1.26s/it] 54%|█████▎    | 26197/48845 [9:16:36<7:56:26,  1.26s/it] 54%|█████▎    | 26198/48845 [9:16:37<7:56:17,  1.26s/it] 54%|█████▎    | 26199/48845 [9:16:38<7:56:07,  1.26s/it] 54%|█████▎    | 26200/48845 [9:16:39<7:55:33,  1.26s/it]                                                         {'loss': 1.987, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26200/48845 [9:16:39<7:55:33,  1.26s/it] 54%|█████▎    | 26201/48845 [9:16:43<12:33:32,  2.00s/it] 54%|█████▎    | 26202/48845 [9:16:44<11:09:54,  1.78s/it] 54%|█████▎    | 26203/48845 [9:16:46<10:11:17,  1.62s/it] 54%|█████▎    | 26204/48845 [9:16:47<9:30:02,  1.51s/it]  54%|█████▎    | 26205/48845 [9:16:48<9:01:02,  1.43s/it]                                                         {'loss': 2.1422, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26205/48845 [9:16:48<9:01:02,  1.43s/it] 54%|█████▎    | 26206/48845 [9:16:49<8:41:35,  1.38s/it] 54%|█████▎    | 26207/48845 [9:16:51<8:27:56,  1.35s/it] 54%|█████▎    | 26208/48845 [9:16:52<8:18:05,  1.32s/it] 54%|█████▎    | 26209/48845 [9:16:53<8:11:06,  1.30s/it] 54%|█████▎    | 26210/48845 [9:16:54<8:05:54,  1.29s/it]                                                         {'loss': 1.9084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26210/48845 [9:16:54<8:05:54,  1.29s/it] 54%|█████▎    | 26211/48845 [9:16:56<8:02:53,  1.28s/it] 54%|█████▎    | 26212/48845 [9:16:57<8:00:36,  1.27s/it] 54%|█████▎    | 26213/48845 [9:16:58<7:59:03,  1.27s/it] 54%|█████▎    | 26214/48845 [9:17:00<7:57:46,  1.27s/it] 54%|█████▎    | 26215/48845 [9:17:01<7:56:45,  1.26s/it]                                                         {'loss': 2.0116, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26215/48845 [9:17:01<7:56:45,  1.26s/it] 54%|█████▎    | 26216/48845 [9:17:02<7:56:17,  1.26s/it] 54%|█████▎    | 26217/48845 [9:17:03<7:56:13,  1.26s/it] 54%|█████▎    | 26218/48845 [9:17:05<7:55:51,  1.26s/it] 54%|█████▎    | 26219/48845 [9:17:06<7:55:18,  1.26s/it] 54%|█████▎    | 26220/48845 [9:17:07<7:55:09,  1.26s/it]                                                         {'loss': 2.0879, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26220/48845 [9:17:07<7:55:09,  1.26s/it] 54%|█████▎    | 26221/48845 [9:17:08<7:54:50,  1.26s/it] 54%|█████▎    | 26222/48845 [9:17:10<7:55:06,  1.26s/it] 54%|█████▎    | 26223/48845 [9:17:11<7:55:02,  1.26s/it] 54%|█████▎    | 26224/48845 [9:17:12<7:54:56,  1.26s/it] 54%|█████▎    | 26225/48845 [9:17:13<7:54:53,  1.26s/it]                                                         {'loss': 2.075, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.68}
+ 54%|█████▎    | 26225/48845 [9:17:13<7:54:53,  1.26s/it] 54%|█████▎    | 26226/48845 [9:17:15<7:54:39,  1.26s/it] 54%|█████▎    | 26227/48845 [9:17:16<7:55:07,  1.26s/it] 54%|█████▎    | 26228/48845 [9:17:17<7:54:52,  1.26s/it] 54%|█████▎    | 26229/48845 [9:17:18<7:54:44,  1.26s/it] 54%|█████▎    | 26230/48845 [9:17:20<7:54:55,  1.26s/it]                                                         {'loss': 2.0166, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▎    | 26230/48845 [9:17:20<7:54:55,  1.26s/it] 54%|█████▎    | 26231/48845 [9:17:21<7:54:50,  1.26s/it] 54%|█████▎    | 26232/48845 [9:17:22<7:54:40,  1.26s/it] 54%|█████▎    | 26233/48845 [9:17:23<7:54:33,  1.26s/it] 54%|█████▎    | 26234/48845 [9:17:25<7:54:45,  1.26s/it] 54%|█████▎    | 26235/48845 [9:17:26<7:54:42,  1.26s/it]                                                         {'loss': 2.0189, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▎    | 26235/48845 [9:17:26<7:54:42,  1.26s/it] 54%|█████▎    | 26236/48845 [9:17:27<7:54:45,  1.26s/it] 54%|█████▎    | 26237/48845 [9:17:28<7:54:34,  1.26s/it] 54%|█████▎    | 26238/48845 [9:17:30<7:54:32,  1.26s/it] 54%|█████▎    | 26239/48845 [9:17:31<7:54:24,  1.26s/it] 54%|█████▎    | 26240/48845 [9:17:32<7:54:01,  1.26s/it]                                                         {'loss': 2.092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▎    | 26240/48845 [9:17:32<7:54:01,  1.26s/it] 54%|█████▎    | 26241/48845 [9:17:34<7:54:21,  1.26s/it] 54%|█████▎    | 26242/48845 [9:17:35<7:54:45,  1.26s/it] 54%|█████▎    | 26243/48845 [9:17:36<7:54:24,  1.26s/it] 54%|█████▎    | 26244/48845 [9:17:37<7:54:35,  1.26s/it] 54%|█████▎    | 26245/48845 [9:17:39<7:54:36,  1.26s/it]                                                         {'loss': 2.0976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▎    | 26245/48845 [9:17:39<7:54:36,  1.26s/it] 54%|█████▎    | 26246/48845 [9:17:40<7:54:57,  1.26s/it] 54%|█████▎    | 26247/48845 [9:17:41<7:54:36,  1.26s/it] 54%|█████▎    | 26248/48845 [9:17:42<7:54:19,  1.26s/it] 54%|█████▎    | 26249/48845 [9:17:44<7:54:18,  1.26s/it] 54%|█████▎    | 26250/48845 [9:17:45<7:54:12,  1.26s/it]                                                         {'loss': 2.0428, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▎    | 26250/48845 [9:17:45<7:54:12,  1.26s/it] 54%|█████▎    | 26251/48845 [9:17:46<7:54:42,  1.26s/it] 54%|█████▎    | 26252/48845 [9:17:47<7:54:33,  1.26s/it] 54%|█████▎    | 26253/48845 [9:17:49<7:54:15,  1.26s/it] 54%|█████▎    | 26254/48845 [9:17:50<7:54:04,  1.26s/it] 54%|█████▍    | 26255/48845 [9:17:51<7:53:44,  1.26s/it]                                                         {'loss': 2.0472, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26255/48845 [9:17:51<7:53:44,  1.26s/it] 54%|█████▍    | 26256/48845 [9:17:52<7:54:05,  1.26s/it] 54%|█████▍    | 26257/48845 [9:17:54<7:54:15,  1.26s/it] 54%|█████▍    | 26258/48845 [9:17:55<7:54:12,  1.26s/it] 54%|█████▍    | 26259/48845 [9:17:56<7:53:44,  1.26s/it] 54%|█████▍    | 26260/48845 [9:17:57<7:53:55,  1.26s/it]                                                         {'loss': 1.954, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26260/48845 [9:17:57<7:53:55,  1.26s/it] 54%|█████▍    | 26261/48845 [9:17:59<7:54:25,  1.26s/it] 54%|█████▍    | 26262/48845 [9:18:00<7:54:23,  1.26s/it] 54%|█████▍    | 26263/48845 [9:18:01<7:54:14,  1.26s/it] 54%|█████▍    | 26264/48845 [9:18:03<7:55:01,  1.26s/it] 54%|█████▍    | 26265/48845 [9:18:04<7:55:11,  1.26s/it]                                                         {'loss': 2.1968, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26265/48845 [9:18:04<7:55:11,  1.26s/it] 54%|█████▍    | 26266/48845 [9:18:05<7:55:10,  1.26s/it] 54%|█████▍    | 26267/48845 [9:18:06<7:55:00,  1.26s/it] 54%|█████▍    | 26268/48845 [9:18:08<7:54:40,  1.26s/it] 54%|█████▍    | 26269/48845 [9:18:09<7:54:36,  1.26s/it] 54%|█████▍    | 26270/48845 [9:18:10<7:54:34,  1.26s/it]                                                         {'loss': 1.8633, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26270/48845 [9:18:10<7:54:34,  1.26s/it] 54%|█████▍    | 26271/48845 [9:18:11<7:54:18,  1.26s/it] 54%|█████▍    | 26272/48845 [9:18:13<7:54:09,  1.26s/it] 54%|█████▍    | 26273/48845 [9:18:14<7:54:28,  1.26s/it] 54%|█████▍    | 26274/48845 [9:18:15<7:54:08,  1.26s/it] 54%|█████▍    | 26275/48845 [9:18:16<7:54:02,  1.26s/it]                                                         {'loss': 2.1683, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26275/48845 [9:18:16<7:54:02,  1.26s/it] 54%|█████▍    | 26276/48845 [9:18:18<7:54:33,  1.26s/it] 54%|█████▍    | 26277/48845 [9:18:19<7:54:29,  1.26s/it] 54%|█████▍    | 26278/48845 [9:18:20<7:54:41,  1.26s/it] 54%|█████▍    | 26279/48845 [9:18:21<7:54:02,  1.26s/it] 54%|█████▍    | 26280/48845 [9:18:23<7:54:51,  1.26s/it]                                                         {'loss': 2.0976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26280/48845 [9:18:23<7:54:51,  1.26s/it] 54%|█████▍    | 26281/48845 [9:18:24<7:55:25,  1.26s/it] 54%|█████▍    | 26282/48845 [9:18:25<7:54:31,  1.26s/it] 54%|█████▍    | 26283/48845 [9:18:26<7:54:50,  1.26s/it] 54%|█████▍    | 26284/48845 [9:18:28<7:54:17,  1.26s/it] 54%|█████▍    | 26285/48845 [9:18:29<7:54:15,  1.26s/it]                                                         {'loss': 2.0493, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26285/48845 [9:18:29<7:54:15,  1.26s/it] 54%|█████▍    | 26286/48845 [9:18:30<7:54:26,  1.26s/it] 54%|█████▍    | 26287/48845 [9:18:32<7:54:04,  1.26s/it] 54%|█████▍    | 26288/48845 [9:18:33<7:54:25,  1.26s/it] 54%|█████▍    | 26289/48845 [9:18:34<7:54:32,  1.26s/it] 54%|█████▍    | 26290/48845 [9:18:35<7:54:14,  1.26s/it]                                                         {'loss': 2.0728, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26290/48845 [9:18:35<7:54:14,  1.26s/it] 54%|█████▍    | 26291/48845 [9:18:37<7:54:23,  1.26s/it] 54%|█████▍    | 26292/48845 [9:18:38<7:53:45,  1.26s/it] 54%|█████▍    | 26293/48845 [9:18:39<7:53:34,  1.26s/it] 54%|█████▍    | 26294/48845 [9:18:40<7:53:59,  1.26s/it] 54%|█████▍    | 26295/48845 [9:18:42<7:53:17,  1.26s/it]                                                         {'loss': 2.1768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26295/48845 [9:18:42<7:53:17,  1.26s/it] 54%|█████▍    | 26296/48845 [9:18:43<7:53:49,  1.26s/it] 54%|█████▍    | 26297/48845 [9:18:44<7:53:17,  1.26s/it] 54%|█████▍    | 26298/48845 [9:18:45<7:53:04,  1.26s/it] 54%|█████▍    | 26299/48845 [9:18:47<7:52:59,  1.26s/it] 54%|█████▍    | 26300/48845 [9:18:48<7:52:54,  1.26s/it]                                                         {'loss': 1.9399, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26300/48845 [9:18:48<7:52:54,  1.26s/it] 54%|█████▍    | 26301/48845 [9:18:49<7:53:37,  1.26s/it] 54%|█████▍    | 26302/48845 [9:18:50<7:53:32,  1.26s/it] 54%|█████▍    | 26303/48845 [9:18:52<7:53:04,  1.26s/it] 54%|█████▍    | 26304/48845 [9:18:53<7:52:56,  1.26s/it] 54%|█████▍    | 26305/48845 [9:18:54<7:53:27,  1.26s/it]                                                         {'loss': 1.9261, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26305/48845 [9:18:54<7:53:27,  1.26s/it] 54%|█████▍    | 26306/48845 [9:18:55<7:53:25,  1.26s/it] 54%|█████▍    | 26307/48845 [9:18:57<7:52:50,  1.26s/it] 54%|█████▍    | 26308/48845 [9:18:58<7:53:08,  1.26s/it] 54%|█████▍    | 26309/48845 [9:18:59<7:53:01,  1.26s/it] 54%|█████▍    | 26310/48845 [9:19:00<7:53:03,  1.26s/it]                                                         {'loss': 2.0759, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26310/48845 [9:19:00<7:53:03,  1.26s/it] 54%|█████▍    | 26311/48845 [9:19:02<7:53:01,  1.26s/it] 54%|█████▍    | 26312/48845 [9:19:03<7:52:57,  1.26s/it] 54%|█████▍    | 26313/48845 [9:19:04<7:53:01,  1.26s/it] 54%|█████▍    | 26314/48845 [9:19:06<7:53:08,  1.26s/it] 54%|█████▍    | 26315/48845 [9:19:07<7:52:59,  1.26s/it]                                                         {'loss': 1.983, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26315/48845 [9:19:07<7:52:59,  1.26s/it] 54%|█████▍    | 26316/48845 [9:19:08<7:53:02,  1.26s/it] 54%|█████▍    | 26317/48845 [9:19:09<7:52:55,  1.26s/it] 54%|█████▍    | 26318/48845 [9:19:11<7:52:52,  1.26s/it] 54%|█████▍    | 26319/48845 [9:19:12<7:52:51,  1.26s/it] 54%|█████▍    | 26320/48845 [9:19:13<7:52:48,  1.26s/it]                                                         {'loss': 1.935, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26320/48845 [9:19:13<7:52:48,  1.26s/it] 54%|█████▍    | 26321/48845 [9:19:14<7:52:50,  1.26s/it] 54%|█████▍    | 26322/48845 [9:19:16<7:52:47,  1.26s/it] 54%|█████▍    | 26323/48845 [9:19:17<7:52:30,  1.26s/it] 54%|█████▍    | 26324/48845 [9:19:18<7:52:50,  1.26s/it] 54%|█████▍    | 26325/48845 [9:19:19<7:52:23,  1.26s/it]                                                         {'loss': 1.9459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.69}
+ 54%|█████▍    | 26325/48845 [9:19:19<7:52:23,  1.26s/it] 54%|█████▍    | 26326/48845 [9:19:21<7:52:39,  1.26s/it] 54%|█████▍    | 26327/48845 [9:19:22<7:52:44,  1.26s/it] 54%|█████▍    | 26328/48845 [9:19:23<7:52:39,  1.26s/it] 54%|█████▍    | 26329/48845 [9:19:24<7:52:49,  1.26s/it] 54%|█████▍    | 26330/48845 [9:19:26<7:52:39,  1.26s/it]                                                         {'loss': 2.0716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26330/48845 [9:19:26<7:52:39,  1.26s/it] 54%|█████▍    | 26331/48845 [9:19:27<7:53:06,  1.26s/it] 54%|█████▍    | 26332/48845 [9:19:28<7:52:47,  1.26s/it] 54%|█████▍    | 26333/48845 [9:19:29<7:52:30,  1.26s/it] 54%|█████▍    | 26334/48845 [9:19:31<7:52:38,  1.26s/it] 54%|█████▍    | 26335/48845 [9:19:32<7:52:29,  1.26s/it]                                                         {'loss': 1.9762, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26335/48845 [9:19:32<7:52:29,  1.26s/it] 54%|█████▍    | 26336/48845 [9:19:33<7:52:46,  1.26s/it] 54%|█████▍    | 26337/48845 [9:19:35<7:52:54,  1.26s/it] 54%|█████▍    | 26338/48845 [9:19:36<7:52:34,  1.26s/it] 54%|█████▍    | 26339/48845 [9:19:37<7:52:25,  1.26s/it] 54%|█████▍    | 26340/48845 [9:19:38<7:52:20,  1.26s/it]                                                         {'loss': 1.9068, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26340/48845 [9:19:38<7:52:20,  1.26s/it] 54%|█████▍    | 26341/48845 [9:19:40<7:53:14,  1.26s/it] 54%|█████▍    | 26342/48845 [9:19:41<7:52:53,  1.26s/it] 54%|█████▍    | 26343/48845 [9:19:42<7:52:42,  1.26s/it] 54%|█████▍    | 26344/48845 [9:19:43<7:52:34,  1.26s/it] 54%|█████▍    | 26345/48845 [9:19:45<7:52:14,  1.26s/it]                                                         {'loss': 1.8986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26345/48845 [9:19:45<7:52:14,  1.26s/it] 54%|█████▍    | 26346/48845 [9:19:46<7:52:28,  1.26s/it] 54%|█████▍    | 26347/48845 [9:19:47<7:52:01,  1.26s/it] 54%|█████▍    | 26348/48845 [9:19:48<7:51:57,  1.26s/it] 54%|█████▍    | 26349/48845 [9:19:50<7:52:07,  1.26s/it] 54%|█████▍    | 26350/48845 [9:19:51<7:52:08,  1.26s/it]                                                         {'loss': 2.0423, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26350/48845 [9:19:51<7:52:08,  1.26s/it] 54%|█████▍    | 26351/48845 [9:19:52<7:52:15,  1.26s/it] 54%|█████▍    | 26352/48845 [9:19:53<7:52:31,  1.26s/it] 54%|█████▍    | 26353/48845 [9:19:55<7:52:06,  1.26s/it] 54%|█████▍    | 26354/48845 [9:19:56<7:52:17,  1.26s/it] 54%|█████▍    | 26355/48845 [9:19:57<7:51:55,  1.26s/it]                                                         {'loss': 1.9225, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26355/48845 [9:19:57<7:51:55,  1.26s/it] 54%|█████▍    | 26356/48845 [9:19:58<7:52:06,  1.26s/it] 54%|█████▍    | 26357/48845 [9:20:00<7:51:57,  1.26s/it] 54%|█████▍    | 26358/48845 [9:20:01<7:51:45,  1.26s/it] 54%|█████▍    | 26359/48845 [9:20:02<7:51:48,  1.26s/it] 54%|█████▍    | 26360/48845 [9:20:03<7:51:56,  1.26s/it]                                                         {'loss': 2.0599, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26360/48845 [9:20:03<7:51:56,  1.26s/it] 54%|█████▍    | 26361/48845 [9:20:05<7:51:51,  1.26s/it] 54%|█████▍    | 26362/48845 [9:20:06<7:51:40,  1.26s/it] 54%|█████▍    | 26363/48845 [9:20:07<7:51:55,  1.26s/it] 54%|█████▍    | 26364/48845 [9:20:09<7:51:59,  1.26s/it] 54%|█████▍    | 26365/48845 [9:20:10<7:51:44,  1.26s/it]                                                         {'loss': 2.013, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26365/48845 [9:20:10<7:51:44,  1.26s/it] 54%|█████▍    | 26366/48845 [9:20:11<7:51:49,  1.26s/it] 54%|█████▍    | 26367/48845 [9:20:12<7:51:51,  1.26s/it] 54%|█████▍    | 26368/48845 [9:20:14<7:51:49,  1.26s/it] 54%|█████▍    | 26369/48845 [9:20:15<7:51:55,  1.26s/it] 54%|█████▍    | 26370/48845 [9:20:16<7:51:48,  1.26s/it]                                                         {'loss': 1.9137, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26370/48845 [9:20:16<7:51:48,  1.26s/it] 54%|█████▍    | 26371/48845 [9:20:17<7:51:45,  1.26s/it] 54%|█████▍    | 26372/48845 [9:20:19<7:51:49,  1.26s/it] 54%|█████▍    | 26373/48845 [9:20:20<7:52:07,  1.26s/it] 54%|█████▍    | 26374/48845 [9:20:21<7:51:46,  1.26s/it] 54%|█████▍    | 26375/48845 [9:20:22<7:51:50,  1.26s/it]                                                         {'loss': 2.0015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26375/48845 [9:20:22<7:51:50,  1.26s/it] 54%|█████▍    | 26376/48845 [9:20:24<7:51:52,  1.26s/it] 54%|█████▍    | 26377/48845 [9:20:25<7:51:30,  1.26s/it] 54%|█████▍    | 26378/48845 [9:20:26<7:51:44,  1.26s/it] 54%|█████▍    | 26379/48845 [9:20:27<7:51:57,  1.26s/it] 54%|█████▍    | 26380/48845 [9:20:29<7:51:49,  1.26s/it]                                                         {'loss': 1.9227, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26380/48845 [9:20:29<7:51:49,  1.26s/it] 54%|█████▍    | 26381/48845 [9:20:30<7:52:20,  1.26s/it] 54%|█████▍    | 26382/48845 [9:20:31<7:51:57,  1.26s/it] 54%|█████▍    | 26383/48845 [9:20:32<7:51:51,  1.26s/it] 54%|█████▍    | 26384/48845 [9:20:34<7:51:56,  1.26s/it] 54%|█████▍    | 26385/48845 [9:20:35<7:51:41,  1.26s/it]                                                         {'loss': 2.2817, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26385/48845 [9:20:35<7:51:41,  1.26s/it] 54%|█████▍    | 26386/48845 [9:20:36<7:52:01,  1.26s/it] 54%|█████▍    | 26387/48845 [9:20:37<7:51:32,  1.26s/it] 54%|█████▍    | 26388/48845 [9:20:39<7:51:27,  1.26s/it] 54%|█████▍    | 26389/48845 [9:20:40<7:51:31,  1.26s/it] 54%|█��███▍    | 26390/48845 [9:20:41<7:51:31,  1.26s/it]                                                         {'loss': 2.0561, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26390/48845 [9:20:41<7:51:31,  1.26s/it] 54%|█████▍    | 26391/48845 [9:20:43<7:51:54,  1.26s/it] 54%|█████▍    | 26392/48845 [9:20:44<7:52:07,  1.26s/it] 54%|█████▍    | 26393/48845 [9:20:45<7:52:04,  1.26s/it] 54%|█████▍    | 26394/48845 [9:20:46<7:52:07,  1.26s/it] 54%|█████▍    | 26395/48845 [9:20:48<7:51:28,  1.26s/it]                                                         {'loss': 2.2234, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26395/48845 [9:20:48<7:51:28,  1.26s/it] 54%|█████▍    | 26396/48845 [9:20:49<7:52:17,  1.26s/it] 54%|█████▍    | 26397/48845 [9:20:50<7:52:21,  1.26s/it] 54%|█████▍    | 26398/48845 [9:20:51<7:51:48,  1.26s/it] 54%|█████▍    | 26399/48845 [9:20:53<7:51:41,  1.26s/it] 54%|█████▍    | 26400/48845 [9:20:54<7:52:15,  1.26s/it]                                                         {'loss': 1.9705, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26400/48845 [9:20:54<7:52:15,  1.26s/it] 54%|█████▍    | 26401/48845 [9:20:58<12:28:17,  2.00s/it] 54%|█████▍    | 26402/48845 [9:20:59<11:05:07,  1.78s/it] 54%|█████▍    | 26403/48845 [9:21:00<10:06:57,  1.62s/it] 54%|█████▍    | 26404/48845 [9:21:01<9:25:52,  1.51s/it]  54%|█████▍    | 26405/48845 [9:21:03<8:57:14,  1.44s/it]                                                         {'loss': 2.0229, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26405/48845 [9:21:03<8:57:14,  1.44s/it] 54%|█████▍    | 26406/48845 [9:21:04<8:37:23,  1.38s/it] 54%|█████▍    | 26407/48845 [9:21:05<8:23:25,  1.35s/it] 54%|█████▍    | 26408/48845 [9:21:06<8:13:33,  1.32s/it] 54%|█████▍    | 26409/48845 [9:21:08<8:06:21,  1.30s/it] 54%|█████▍    | 26410/48845 [9:21:09<8:02:12,  1.29s/it]                                                         {'loss': 2.0055, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26410/48845 [9:21:09<8:02:12,  1.29s/it] 54%|█████▍    | 26411/48845 [9:21:10<7:59:28,  1.28s/it] 54%|█████▍    | 26412/48845 [9:21:11<7:56:40,  1.27s/it] 54%|█████▍    | 26413/48845 [9:21:13<7:54:57,  1.27s/it] 54%|█████▍    | 26414/48845 [9:21:14<7:54:04,  1.27s/it] 54%|█████▍    | 26415/48845 [9:21:15<7:52:58,  1.27s/it]                                                         {'loss': 2.0008, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26415/48845 [9:21:15<7:52:58,  1.27s/it] 54%|█████▍    | 26416/48845 [9:21:17<7:52:31,  1.26s/it] 54%|█████▍    | 26417/48845 [9:21:18<7:51:41,  1.26s/it] 54%|█████▍    | 26418/48845 [9:21:19<7:51:35,  1.26s/it] 54%|█████▍    | 26419/48845 [9:21:20<7:51:20,  1.26s/it] 54%|█████▍    | 26420/48845 [9:21:22<7:51:07,  1.26s/it]                                                         {'loss': 1.9838, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26420/48845 [9:21:22<7:51:07,  1.26s/it] 54%|█████▍    | 26421/48845 [9:21:23<7:51:00,  1.26s/it] 54%|█████▍    | 26422/48845 [9:21:24<7:50:50,  1.26s/it] 54%|█████▍    | 26423/48845 [9:21:25<7:50:43,  1.26s/it] 54%|█████▍    | 26424/48845 [9:21:27<7:50:42,  1.26s/it] 54%|█████▍    | 26425/48845 [9:21:28<7:50:36,  1.26s/it]                                                         {'loss': 1.8656, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.7}
+ 54%|█████▍    | 26425/48845 [9:21:28<7:50:36,  1.26s/it] 54%|█████▍    | 26426/48845 [9:21:29<7:50:46,  1.26s/it] 54%|█████▍    | 26427/48845 [9:21:30<7:50:42,  1.26s/it] 54%|█████▍    | 26428/48845 [9:21:32<7:50:31,  1.26s/it] 54%|█████▍    | 26429/48845 [9:21:33<7:50:27,  1.26s/it] 54%|█████▍    | 26430/48845 [9:21:34<7:50:35,  1.26s/it]                                                         {'loss': 2.0505, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26430/48845 [9:21:34<7:50:35,  1.26s/it] 54%|█████▍    | 26431/48845 [9:21:35<7:50:31,  1.26s/it] 54%|█████▍    | 26432/48845 [9:21:37<7:50:25,  1.26s/it] 54%|█████▍    | 26433/48845 [9:21:38<7:51:48,  1.26s/it] 54%|█████▍    | 26434/48845 [9:21:39<7:51:25,  1.26s/it] 54%|█████▍    | 26435/48845 [9:21:40<7:50:39,  1.26s/it]                                                         {'loss': 2.063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26435/48845 [9:21:40<7:50:39,  1.26s/it] 54%|█████▍    | 26436/48845 [9:21:42<7:50:52,  1.26s/it] 54%|█████▍    | 26437/48845 [9:21:43<7:50:01,  1.26s/it] 54%|█████▍    | 26438/48845 [9:21:44<7:49:52,  1.26s/it] 54%|█████▍    | 26439/48845 [9:21:45<7:50:08,  1.26s/it] 54%|█████▍    | 26440/48845 [9:21:47<7:49:50,  1.26s/it]                                                         {'loss': 1.9857, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26440/48845 [9:21:47<7:49:50,  1.26s/it] 54%|█████▍    | 26441/48845 [9:21:48<7:50:05,  1.26s/it] 54%|█████▍    | 26442/48845 [9:21:49<7:50:11,  1.26s/it] 54%|█████▍    | 26443/48845 [9:21:51<7:50:07,  1.26s/it] 54%|█████▍    | 26444/48845 [9:21:52<7:51:02,  1.26s/it] 54%|█████▍    | 26445/48845 [9:21:53<7:50:28,  1.26s/it]                                                         {'loss': 1.8394, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26445/48845 [9:21:53<7:50:28,  1.26s/it] 54%|█████▍    | 26446/48845 [9:21:54<7:50:55,  1.26s/it] 54%|█████▍    | 26447/48845 [9:21:56<7:50:30,  1.26s/it] 54%|█████▍    | 26448/48845 [9:21:57<7:50:54,  1.26s/it] 54%|█████▍    | 26449/48845 [9:21:58<7:50:35,  1.26s/it] 54%|█████▍    | 26450/48845 [9:21:59<7:50:38,  1.26s/it]                                                         {'loss': 2.1227, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26450/48845 [9:21:59<7:50:38,  1.26s/it] 54%|█████▍    | 26451/48845 [9:22:01<7:51:09,  1.26s/it] 54%|█████▍    | 26452/48845 [9:22:02<7:50:59,  1.26s/it] 54%|█████▍    | 26453/48845 [9:22:03<7:50:25,  1.26s/it] 54%|█████▍    | 26454/48845 [9:22:04<7:50:21,  1.26s/it] 54%|█████▍    | 26455/48845 [9:22:06<7:50:17,  1.26s/it]                                                         {'loss': 2.0942, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26455/48845 [9:22:06<7:50:17,  1.26s/it] 54%|█████▍    | 26456/48845 [9:22:07<7:50:21,  1.26s/it] 54%|█████▍    | 26457/48845 [9:22:08<7:50:01,  1.26s/it] 54%|█████▍    | 26458/48845 [9:22:09<7:49:55,  1.26s/it] 54%|█████▍    | 26459/48845 [9:22:11<7:50:09,  1.26s/it] 54%|█████▍    | 26460/48845 [9:22:12<7:50:01,  1.26s/it]                                                         {'loss': 2.0067, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26460/48845 [9:22:12<7:50:01,  1.26s/it] 54%|█████▍    | 26461/48845 [9:22:13<7:50:42,  1.26s/it] 54%|█████▍    | 26462/48845 [9:22:14<7:50:45,  1.26s/it] 54%|█████▍    | 26463/48845 [9:22:16<7:50:23,  1.26s/it] 54%|█████▍    | 26464/48845 [9:22:17<7:50:31,  1.26s/it] 54%|█████▍    | 26465/48845 [9:22:18<7:49:56,  1.26s/it]                                                         {'loss': 2.1955, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26465/48845 [9:22:18<7:49:56,  1.26s/it] 54%|█████▍    | 26466/48845 [9:22:20<7:49:49,  1.26s/it] 54%|█████▍    | 26467/48845 [9:22:21<7:49:51,  1.26s/it] 54%|█████▍    | 26468/48845 [9:22:22<7:49:43,  1.26s/it] 54%|█████▍    | 26469/48845 [9:22:23<7:50:12,  1.26s/it] 54%|█████▍    | 26470/48845 [9:22:25<7:49:54,  1.26s/it]                                                         {'loss': 2.2588, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26470/48845 [9:22:25<7:49:54,  1.26s/it] 54%|█████▍    | 26471/48845 [9:22:26<7:49:45,  1.26s/it] 54%|█████▍    | 26472/48845 [9:22:27<7:49:39,  1.26s/it] 54%|█████▍    | 26473/48845 [9:22:28<7:49:39,  1.26s/it] 54%|█████▍    | 26474/48845 [9:22:30<7:50:16,  1.26s/it] 54%|█████▍    | 26475/48845 [9:22:31<7:50:15,  1.26s/it]                                                         {'loss': 1.9595, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26475/48845 [9:22:31<7:50:15,  1.26s/it] 54%|█████▍    | 26476/48845 [9:22:32<7:50:18,  1.26s/it] 54%|█████▍    | 26477/48845 [9:22:33<7:50:05,  1.26s/it] 54%|█████▍    | 26478/48845 [9:22:35<7:49:52,  1.26s/it] 54%|█████▍    | 26479/48845 [9:22:36<7:49:42,  1.26s/it] 54%|█████▍    | 26480/48845 [9:22:37<7:49:52,  1.26s/it]                                                         {'loss': 1.9787, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26480/48845 [9:22:37<7:49:52,  1.26s/it] 54%|█████▍    | 26481/48845 [9:22:38<7:49:45,  1.26s/it] 54%|█████▍    | 26482/48845 [9:22:40<7:49:41,  1.26s/it] 54%|█████▍    | 26483/48845 [9:22:41<7:49:14,  1.26s/it] 54%|█████▍    | 26484/48845 [9:22:42<7:49:03,  1.26s/it] 54%|█████▍    | 26485/48845 [9:22:43<7:49:20,  1.26s/it]                                                         {'loss': 2.0266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26485/48845 [9:22:43<7:49:20,  1.26s/it] 54%|█████▍    | 26486/48845 [9:22:45<7:50:01,  1.26s/it] 54%|█████▍    | 26487/48845 [9:22:46<7:49:29,  1.26s/it] 54%|█████▍    | 26488/48845 [9:22:47<7:49:12,  1.26s/it] 54%|█████▍    | 26489/48845 [9:22:49<7:49:15,  1.26s/it] 54%|█████▍    | 26490/48845 [9:22:50<7:49:12,  1.26s/it]                                                         {'loss': 2.0437, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26490/48845 [9:22:50<7:49:12,  1.26s/it] 54%|█████▍    | 26491/48845 [9:22:51<7:49:11,  1.26s/it] 54%|█████▍    | 26492/48845 [9:22:52<7:49:37,  1.26s/it] 54%|█████▍    | 26493/48845 [9:22:54<7:49:10,  1.26s/it] 54%|█████▍    | 26494/48845 [9:22:55<7:49:00,  1.26s/it] 54%|█████▍    | 26495/48845 [9:22:56<7:50:37,  1.26s/it]                                                         {'loss': 2.0757, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26495/48845 [9:22:56<7:50:37,  1.26s/it] 54%|█████▍    | 26496/48845 [9:22:57<7:50:28,  1.26s/it] 54%|█████▍    | 26497/48845 [9:22:59<7:49:43,  1.26s/it] 54%|█████▍    | 26498/48845 [9:23:00<7:49:13,  1.26s/it] 54%|█████▍    | 26499/48845 [9:23:01<7:49:22,  1.26s/it] 54%|█████▍    | 26500/48845 [9:23:02<7:49:17,  1.26s/it]                                                         {'loss': 2.1866, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26500/48845 [9:23:02<7:49:17,  1.26s/it] 54%|█████▍    | 26501/48845 [9:23:04<7:49:04,  1.26s/it] 54%|█████▍    | 26502/48845 [9:23:05<7:49:09,  1.26s/it] 54%|█████▍    | 26503/48845 [9:23:06<7:49:06,  1.26s/it] 54%|█████▍    | 26504/48845 [9:23:07<7:49:04,  1.26s/it] 54%|█████▍    | 26505/48845 [9:23:09<7:49:18,  1.26s/it]                                                         {'loss': 2.0665, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26505/48845 [9:23:09<7:49:18,  1.26s/it] 54%|█████▍    | 26506/48845 [9:23:10<7:49:55,  1.26s/it] 54%|█████▍    | 26507/48845 [9:23:11<7:49:49,  1.26s/it] 54%|█████▍    | 26508/48845 [9:23:12<7:52:18,  1.27s/it] 54%|█████▍    | 26509/48845 [9:23:14<7:50:36,  1.26s/it] 54%|█████▍    | 26510/48845 [9:23:15<7:49:58,  1.26s/it]                                                         {'loss': 2.0602, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26510/48845 [9:23:15<7:49:58,  1.26s/it] 54%|█████▍    | 26511/48845 [9:23:16<7:49:48,  1.26s/it] 54%|█████▍    | 26512/48845 [9:23:18<7:49:21,  1.26s/it] 54%|█████▍    | 26513/48845 [9:23:19<7:49:04,  1.26s/it] 54%|█████▍    | 26514/48845 [9:23:20<7:49:13,  1.26s/it] 54%|█████▍    | 26515/48845 [9:23:21<7:49:17,  1.26s/it]                                                         {'loss': 2.2331, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26515/48845 [9:23:21<7:49:17,  1.26s/it] 54%|█████▍    | 26516/48845 [9:23:23<7:49:18,  1.26s/it] 54%|█████▍    | 26517/48845 [9:23:24<7:48:47,  1.26s/it] 54%|█████▍    | 26518/48845 [9:23:25<8:04:06,  1.30s/it] 54%|█████▍    | 26519/48845 [9:23:26<7:59:55,  1.29s/it] 54%|█████▍    | 26520/48845 [9:23:28<7:56:22,  1.28s/it]                                                         {'loss': 2.0727, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.71}
+ 54%|█████▍    | 26520/48845 [9:23:28<7:56:22,  1.28s/it] 54%|█████▍    | 26521/48845 [9:23:29<7:53:59,  1.27s/it] 54%|█████▍    | 26522/48845 [9:23:30<7:52:44,  1.27s/it] 54%|█████▍    | 26523/48845 [9:23:32<7:51:10,  1.27s/it] 54%|█████▍    | 26524/48845 [9:23:33<7:50:17,  1.26s/it] 54%|█████▍    | 26525/48845 [9:23:34<7:49:31,  1.26s/it]                                                         {'loss': 2.0485, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26525/48845 [9:23:34<7:49:31,  1.26s/it] 54%|█████▍    | 26526/48845 [9:23:35<7:49:24,  1.26s/it] 54%|█████▍    | 26527/48845 [9:23:37<7:49:02,  1.26s/it] 54%|█████▍    | 26528/48845 [9:23:38<7:49:05,  1.26s/it] 54%|█████▍    | 26529/48845 [9:23:39<7:49:03,  1.26s/it] 54%|█████▍    | 26530/48845 [9:23:40<7:48:45,  1.26s/it]                                                         {'loss': 2.0465, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26530/48845 [9:23:40<7:48:45,  1.26s/it] 54%|█████▍    | 26531/48845 [9:23:42<7:49:17,  1.26s/it] 54%|█████▍    | 26532/48845 [9:23:43<7:48:51,  1.26s/it] 54%|█████▍    | 26533/48845 [9:23:44<7:48:54,  1.26s/it] 54%|█████▍    | 26534/48845 [9:23:45<7:48:53,  1.26s/it] 54%|█████▍    | 26535/48845 [9:23:47<7:48:46,  1.26s/it]                                                         {'loss': 2.1616, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26535/48845 [9:23:47<7:48:46,  1.26s/it] 54%|█████▍    | 26536/48845 [9:23:48<7:49:12,  1.26s/it] 54%|█████▍    | 26537/48845 [9:23:49<7:49:21,  1.26s/it] 54%|█████▍    | 26538/48845 [9:23:50<7:49:08,  1.26s/it] 54%|█████▍    | 26539/48845 [9:23:52<7:48:45,  1.26s/it] 54%|█████▍    | 26540/48845 [9:23:53<7:48:47,  1.26s/it]                                                         {'loss': 2.0327, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26540/48845 [9:23:53<7:48:47,  1.26s/it] 54%|█████▍    | 26541/48845 [9:23:54<7:48:55,  1.26s/it] 54%|█████▍    | 26542/48845 [9:23:55<7:48:51,  1.26s/it] 54%|█████▍    | 26543/48845 [9:23:57<7:48:55,  1.26s/it] 54%|█████▍    | 26544/48845 [9:23:58<7:48:58,  1.26s/it] 54%|█████▍    | 26545/48845 [9:23:59<7:49:22,  1.26s/it]                                                         {'loss': 1.9413, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26545/48845 [9:23:59<7:49:22,  1.26s/it] 54%|█████▍    | 26546/48845 [9:24:01<7:50:00,  1.26s/it] 54%|█████▍    | 26547/48845 [9:24:02<7:49:38,  1.26s/it] 54%|█████▍    | 26548/48845 [9:24:03<7:49:00,  1.26s/it] 54%|█████▍    | 26549/48845 [9:24:04<7:48:14,  1.26s/it] 54%|█████▍    | 26550/48845 [9:24:06<8:06:31,  1.31s/it]                                                         {'loss': 2.0612, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26550/48845 [9:24:06<8:06:31,  1.31s/it] 54%|█████▍    | 26551/48845 [9:24:07<8:01:14,  1.30s/it] 54%|█████▍    | 26552/48845 [9:24:08<7:56:36,  1.28s/it] 54%|█████▍    | 26553/48845 [9:24:10<7:53:36,  1.27s/it] 54%|█████▍    | 26554/48845 [9:24:11<7:51:45,  1.27s/it] 54%|█████▍    | 26555/48845 [9:24:12<7:50:34,  1.27s/it]                                                         {'loss': 2.1174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26555/48845 [9:24:12<7:50:34,  1.27s/it] 54%|█████▍    | 26556/48845 [9:24:13<7:49:51,  1.26s/it] 54%|█████▍    | 26557/48845 [9:24:15<7:49:01,  1.26s/it] 54%|█████▍    | 26558/48845 [9:24:16<7:48:35,  1.26s/it] 54%|█████▍    | 26559/48845 [9:24:17<7:48:42,  1.26s/it] 54%|█████▍    | 26560/48845 [9:24:18<7:48:22,  1.26s/it]                                                         {'loss': 2.0947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26560/48845 [9:24:18<7:48:22,  1.26s/it] 54%|█████▍    | 26561/48845 [9:24:20<7:48:12,  1.26s/it] 54%|█████▍    | 26562/48845 [9:24:21<7:48:00,  1.26s/it] 54%|█████▍    | 26563/48845 [9:24:22<7:48:02,  1.26s/it] 54%|█████▍    | 26564/48845 [9:24:23<7:47:40,  1.26s/it] 54%|█████▍    | 26565/48845 [9:24:25<7:47:46,  1.26s/it]                                                         {'loss': 2.0534, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26565/48845 [9:24:25<7:47:46,  1.26s/it] 54%|█████▍    | 26566/48845 [9:24:26<7:47:52,  1.26s/it] 54%|█████▍    | 26567/48845 [9:24:27<7:47:37,  1.26s/it] 54%|█████▍    | 26568/48845 [9:24:28<7:47:43,  1.26s/it] 54%|█████▍    | 26569/48845 [9:24:30<7:48:50,  1.26s/it] 54%|█████▍    | 26570/48845 [9:24:31<7:48:04,  1.26s/it]                                                         {'loss': 2.2311, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26570/48845 [9:24:31<7:48:04,  1.26s/it] 54%|█████▍    | 26571/48845 [9:24:32<7:48:39,  1.26s/it] 54%|█████▍    | 26572/48845 [9:24:33<7:48:08,  1.26s/it] 54%|█████▍    | 26573/48845 [9:24:35<7:47:42,  1.26s/it] 54%|█████▍    | 26574/48845 [9:24:36<7:48:09,  1.26s/it] 54%|█████▍    | 26575/48845 [9:24:37<7:47:46,  1.26s/it]                                                         {'loss': 2.033, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26575/48845 [9:24:37<7:47:46,  1.26s/it] 54%|█████▍    | 26576/48845 [9:24:38<7:48:11,  1.26s/it] 54%|█████▍    | 26577/48845 [9:24:40<7:47:59,  1.26s/it] 54%|█████▍    | 26578/48845 [9:24:41<7:47:54,  1.26s/it] 54%|█████▍    | 26579/48845 [9:24:42<7:48:01,  1.26s/it] 54%|█████▍    | 26580/48845 [9:24:44<7:47:46,  1.26s/it]                                                         {'loss': 2.021, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26580/48845 [9:24:44<7:47:46,  1.26s/it] 54%|█████▍    | 26581/48845 [9:24:45<7:47:29,  1.26s/it] 54%|█████▍    | 26582/48845 [9:24:46<7:47:31,  1.26s/it] 54%|█████▍    | 26583/48845 [9:24:47<7:47:28,  1.26s/it] 54%|█████▍    | 26584/48845 [9:24:49<7:47:25,  1.26s/it] 54%|█████▍    | 26585/48845 [9:24:50<7:47:24,  1.26s/it]                                                         {'loss': 1.9313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26585/48845 [9:24:50<7:47:24,  1.26s/it] 54%|█████▍    | 26586/48845 [9:24:51<7:47:24,  1.26s/it] 54%|█████▍    | 26587/48845 [9:24:52<7:47:28,  1.26s/it] 54%|█████▍    | 26588/48845 [9:24:54<7:47:12,  1.26s/it] 54%|█████▍    | 26589/48845 [9:24:55<7:47:16,  1.26s/it] 54%|█████▍    | 26590/48845 [9:24:56<7:47:21,  1.26s/it]                                                         {'loss': 2.0951, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26590/48845 [9:24:56<7:47:21,  1.26s/it] 54%|█████▍    | 26591/48845 [9:24:57<7:47:08,  1.26s/it] 54%|█████▍    | 26592/48845 [9:24:59<7:47:31,  1.26s/it] 54%|█████▍    | 26593/48845 [9:25:00<7:47:19,  1.26s/it] 54%|█████▍    | 26594/48845 [9:25:01<7:47:10,  1.26s/it] 54%|█████▍    | 26595/48845 [9:25:02<7:47:09,  1.26s/it]                                                         {'loss': 2.0303, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26595/48845 [9:25:02<7:47:09,  1.26s/it] 54%|█████▍    | 26596/48845 [9:25:04<7:47:39,  1.26s/it] 54%|█████▍    | 26597/48845 [9:25:05<7:47:39,  1.26s/it] 54%|█████▍    | 26598/48845 [9:25:06<7:47:43,  1.26s/it] 54%|█████▍    | 26599/48845 [9:25:07<7:47:40,  1.26s/it] 54%|█████▍    | 26600/48845 [9:25:09<7:47:28,  1.26s/it]                                                         {'loss': 2.1435, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26600/48845 [9:25:09<7:47:28,  1.26s/it] 54%|█████▍    | 26601/48845 [9:25:12<12:18:12,  1.99s/it] 54%|█████▍    | 26602/48845 [9:25:14<10:56:56,  1.77s/it] 54%|█████▍    | 26603/48845 [9:25:15<9:59:57,  1.62s/it]  54%|█████▍    | 26604/48845 [9:25:16<9:20:10,  1.51s/it] 54%|█████▍    | 26605/48845 [9:25:17<8:52:00,  1.44s/it]                                                         {'loss': 1.98, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26605/48845 [9:25:17<8:52:00,  1.44s/it] 54%|█████▍    | 26606/48845 [9:25:19<8:32:55,  1.38s/it] 54%|█████▍    | 26607/48845 [9:25:20<8:19:18,  1.35s/it] 54%|█████▍    | 26608/48845 [9:25:21<8:09:43,  1.32s/it] 54%|█████▍    | 26609/48845 [9:25:23<8:02:41,  1.30s/it] 54%|█████▍    | 26610/48845 [9:25:24<7:58:12,  1.29s/it]                                                         {'loss': 1.9389, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26610/48845 [9:25:24<7:58:12,  1.29s/it] 54%|█████▍    | 26611/48845 [9:25:25<7:55:00,  1.28s/it] 54%|█████▍    | 26612/48845 [9:25:26<7:52:39,  1.28s/it] 54%|█████▍    | 26613/48845 [9:25:28<7:50:37,  1.27s/it] 54%|█████▍    | 26614/48845 [9:25:29<7:49:29,  1.27s/it] 54%|█████▍    | 26615/48845 [9:25:30<7:48:28,  1.26s/it]                                                         {'loss': 2.1627, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26615/48845 [9:25:30<7:48:28,  1.26s/it] 54%|█████▍    | 26616/48845 [9:25:31<7:47:55,  1.26s/it] 54%|█████▍    | 26617/48845 [9:25:33<7:47:15,  1.26s/it] 54%|█████▍    | 26618/48845 [9:25:34<7:47:00,  1.26s/it] 54%|█████▍    | 26619/48845 [9:25:35<7:46:57,  1.26s/it] 54%|█████▍    | 26620/48845 [9:25:36<7:46:47,  1.26s/it]                                                         {'loss': 2.1841, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.72}
+ 54%|█████▍    | 26620/48845 [9:25:36<7:46:47,  1.26s/it] 55%|█████▍    | 26621/48845 [9:25:38<7:46:52,  1.26s/it] 55%|█████▍    | 26622/48845 [9:25:39<7:46:38,  1.26s/it] 55%|█████▍    | 26623/48845 [9:25:40<7:46:32,  1.26s/it] 55%|█████▍    | 26624/48845 [9:25:41<7:46:33,  1.26s/it] 55%|█████▍    | 26625/48845 [9:25:43<7:46:21,  1.26s/it]                                                         {'loss': 2.0156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26625/48845 [9:25:43<7:46:21,  1.26s/it] 55%|█████▍    | 26626/48845 [9:25:44<7:46:27,  1.26s/it] 55%|█████▍    | 26627/48845 [9:25:45<7:46:46,  1.26s/it] 55%|█████▍    | 26628/48845 [9:25:46<7:46:40,  1.26s/it] 55%|█████▍    | 26629/48845 [9:25:48<7:46:29,  1.26s/it] 55%|█████▍    | 26630/48845 [9:25:49<7:46:18,  1.26s/it]                                                         {'loss': 1.8944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26630/48845 [9:25:49<7:46:18,  1.26s/it] 55%|█████▍    | 26631/48845 [9:25:50<7:46:29,  1.26s/it] 55%|█████▍    | 26632/48845 [9:25:51<7:46:14,  1.26s/it] 55%|█████▍    | 26633/48845 [9:25:53<7:46:07,  1.26s/it] 55%|█████▍    | 26634/48845 [9:25:54<7:46:17,  1.26s/it] 55%|█████▍    | 26635/48845 [9:25:55<7:46:25,  1.26s/it]                                                         {'loss': 1.9211, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26635/48845 [9:25:55<7:46:25,  1.26s/it] 55%|█████▍    | 26636/48845 [9:25:57<7:46:29,  1.26s/it] 55%|█████▍    | 26637/48845 [9:25:58<7:46:55,  1.26s/it] 55%|█████▍    | 26638/48845 [9:25:59<7:47:08,  1.26s/it] 55%|█████▍    | 26639/48845 [9:26:00<7:46:59,  1.26s/it] 55%|█████▍    | 26640/48845 [9:26:02<7:46:51,  1.26s/it]                                                         {'loss': 2.0132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26640/48845 [9:26:02<7:46:51,  1.26s/it] 55%|█████▍    | 26641/48845 [9:26:03<7:46:47,  1.26s/it] 55%|█████▍    | 26642/48845 [9:26:04<7:46:15,  1.26s/it] 55%|█████▍    | 26643/48845 [9:26:05<7:46:29,  1.26s/it] 55%|█████▍    | 26644/48845 [9:26:07<7:46:34,  1.26s/it] 55%|█████▍    | 26645/48845 [9:26:08<7:46:26,  1.26s/it]                                                         {'loss': 2.0185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26645/48845 [9:26:08<7:46:26,  1.26s/it] 55%|█████▍    | 26646/48845 [9:26:09<7:47:02,  1.26s/it] 55%|█████▍    | 26647/48845 [9:26:10<7:46:30,  1.26s/it] 55%|█████▍    | 26648/48845 [9:26:12<7:46:16,  1.26s/it] 55%|█████▍    | 26649/48845 [9:26:13<7:46:27,  1.26s/it] 55%|█████▍    | 26650/48845 [9:26:14<7:46:22,  1.26s/it]                                                         {'loss': 2.2493, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26650/48845 [9:26:14<7:46:22,  1.26s/it] 55%|█████▍    | 26651/48845 [9:26:15<7:47:06,  1.26s/it] 55%|█████▍    | 26652/48845 [9:26:17<7:46:45,  1.26s/it] 55%|█████▍    | 26653/48845 [9:26:18<7:46:48,  1.26s/it] 55%|█████▍    | 26654/48845 [9:26:19<7:46:43,  1.26s/it] 55%|█████▍    | 26655/48845 [9:26:21<7:46:42,  1.26s/it]                                                         {'loss': 1.9623, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26655/48845 [9:26:21<7:46:42,  1.26s/it] 55%|█████▍    | 26656/48845 [9:26:22<7:46:56,  1.26s/it] 55%|█████▍    | 26657/48845 [9:26:23<7:46:43,  1.26s/it] 55%|█████▍    | 26658/48845 [9:26:24<7:46:32,  1.26s/it] 55%|█████▍    | 26659/48845 [9:26:26<7:46:33,  1.26s/it] 55%|█████▍    | 26660/48845 [9:26:27<7:46:29,  1.26s/it]                                                         {'loss': 1.8839, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26660/48845 [9:26:27<7:46:29,  1.26s/it] 55%|█████▍    | 26661/48845 [9:26:28<7:46:46,  1.26s/it] 55%|█████▍    | 26662/48845 [9:26:29<7:46:28,  1.26s/it] 55%|█████▍    | 26663/48845 [9:26:31<7:46:29,  1.26s/it] 55%|█████▍    | 26664/48845 [9:26:32<7:46:18,  1.26s/it] 55%|█████▍    | 26665/48845 [9:26:33<7:46:12,  1.26s/it]                                                         {'loss': 1.9607, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26665/48845 [9:26:33<7:46:12,  1.26s/it] 55%|█████▍    | 26666/48845 [9:26:34<7:46:05,  1.26s/it] 55%|█████▍    | 26667/48845 [9:26:36<7:45:57,  1.26s/it] 55%|█████▍    | 26668/48845 [9:26:37<7:45:38,  1.26s/it] 55%|█████▍    | 26669/48845 [9:26:38<7:45:40,  1.26s/it] 55%|█████▍    | 26670/48845 [9:26:39<7:45:40,  1.26s/it]                                                         {'loss': 2.1636, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26670/48845 [9:26:39<7:45:40,  1.26s/it] 55%|█████▍    | 26671/48845 [9:26:41<7:45:33,  1.26s/it] 55%|█████▍    | 26672/48845 [9:26:42<7:45:45,  1.26s/it] 55%|█████▍    | 26673/48845 [9:26:43<7:45:40,  1.26s/it] 55%|█████▍    | 26674/48845 [9:26:44<7:45:35,  1.26s/it] 55%|█████▍    | 26675/48845 [9:26:46<7:45:20,  1.26s/it]                                                         {'loss': 2.1069, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26675/48845 [9:26:46<7:45:20,  1.26s/it] 55%|█████▍    | 26676/48845 [9:26:47<7:45:24,  1.26s/it] 55%|█████▍    | 26677/48845 [9:26:48<7:45:20,  1.26s/it] 55%|█████▍    | 26678/48845 [9:26:49<7:45:25,  1.26s/it] 55%|█████▍    | 26679/48845 [9:26:51<7:44:59,  1.26s/it] 55%|█████▍    | 26680/48845 [9:26:52<7:45:10,  1.26s/it]                                                         {'loss': 2.0492, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26680/48845 [9:26:52<7:45:10,  1.26s/it] 55%|█████▍    | 26681/48845 [9:26:53<7:45:33,  1.26s/it] 55%|█████▍    | 26682/48845 [9:26:55<7:45:34,  1.26s/it] 55%|█████▍    | 26683/48845 [9:26:56<7:45:14,  1.26s/it] 55%|█████▍    | 26684/48845 [9:26:57<7:44:59,  1.26s/it] 55%|█████▍    | 26685/48845 [9:26:58<7:45:03,  1.26s/it]                                                         {'loss': 2.0253, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26685/48845 [9:26:58<7:45:03,  1.26s/it] 55%|█████▍    | 26686/48845 [9:27:00<7:45:08,  1.26s/it] 55%|█████▍    | 26687/48845 [9:27:01<7:44:54,  1.26s/it] 55%|█████▍    | 26688/48845 [9:27:02<7:45:12,  1.26s/it] 55%|█████▍    | 26689/48845 [9:27:03<7:45:17,  1.26s/it] 55%|█████▍    | 26690/48845 [9:27:05<7:45:10,  1.26s/it]                                                         {'loss': 2.0477, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26690/48845 [9:27:05<7:45:10,  1.26s/it] 55%|█████▍    | 26691/48845 [9:27:06<7:45:01,  1.26s/it] 55%|█████▍    | 26692/48845 [9:27:07<7:44:48,  1.26s/it] 55%|█████▍    | 26693/48845 [9:27:08<7:44:52,  1.26s/it] 55%|█████▍    | 26694/48845 [9:27:10<7:44:55,  1.26s/it] 55%|█████▍    | 26695/48845 [9:27:11<7:45:13,  1.26s/it]                                                         {'loss': 2.1304, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26695/48845 [9:27:11<7:45:13,  1.26s/it] 55%|█████▍    | 26696/48845 [9:27:12<7:45:13,  1.26s/it] 55%|█████▍    | 26697/48845 [9:27:13<7:44:46,  1.26s/it] 55%|█████▍    | 26698/48845 [9:27:15<7:44:48,  1.26s/it] 55%|█████▍    | 26699/48845 [9:27:16<7:45:00,  1.26s/it] 55%|█████▍    | 26700/48845 [9:27:17<7:45:02,  1.26s/it]                                                         {'loss': 1.9354, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26700/48845 [9:27:17<7:45:02,  1.26s/it] 55%|█████▍    | 26701/48845 [9:27:18<7:45:26,  1.26s/it] 55%|█████▍    | 26702/48845 [9:27:20<7:45:19,  1.26s/it] 55%|█████▍    | 26703/48845 [9:27:21<7:44:47,  1.26s/it] 55%|█████▍    | 26704/48845 [9:27:22<7:44:39,  1.26s/it] 55%|█████▍    | 26705/48845 [9:27:24<7:44:28,  1.26s/it]                                                         {'loss': 1.9934, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26705/48845 [9:27:24<7:44:28,  1.26s/it] 55%|█████▍    | 26706/48845 [9:27:25<7:44:22,  1.26s/it] 55%|█████▍    | 26707/48845 [9:27:26<7:44:33,  1.26s/it] 55%|█████▍    | 26708/48845 [9:27:27<7:44:29,  1.26s/it] 55%|█████▍    | 26709/48845 [9:27:29<7:44:42,  1.26s/it] 55%|█████▍    | 26710/48845 [9:27:30<7:44:45,  1.26s/it]                                                         {'loss': 2.1451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26710/48845 [9:27:30<7:44:45,  1.26s/it] 55%|█████▍    | 26711/48845 [9:27:31<7:44:28,  1.26s/it] 55%|█████▍    | 26712/48845 [9:27:32<7:44:33,  1.26s/it] 55%|█████▍    | 26713/48845 [9:27:34<7:44:35,  1.26s/it] 55%|█████▍    | 26714/48845 [9:27:35<7:44:53,  1.26s/it] 55%|█████▍    | 26715/48845 [9:27:36<7:44:54,  1.26s/it]                                                         {'loss': 1.954, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.73}
+ 55%|█████▍    | 26715/48845 [9:27:36<7:44:54,  1.26s/it] 55%|█████▍    | 26716/48845 [9:27:37<7:44:43,  1.26s/it] 55%|█████▍    | 26717/48845 [9:27:39<7:44:44,  1.26s/it] 55%|█████▍    | 26718/48845 [9:27:40<7:45:14,  1.26s/it] 55%|█████▍    | 26719/48845 [9:27:41<7:45:27,  1.26s/it] 55%|█████▍    | 26720/48845 [9:27:42<7:45:05,  1.26s/it]                                                         {'loss': 1.985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26720/48845 [9:27:42<7:45:05,  1.26s/it] 55%|█████▍    | 26721/48845 [9:27:44<7:44:51,  1.26s/it] 55%|█████▍    | 26722/48845 [9:27:45<7:44:40,  1.26s/it] 55%|█████▍    | 26723/48845 [9:27:46<7:44:41,  1.26s/it] 55%|█████▍    | 26724/48845 [9:27:47<7:44:24,  1.26s/it] 55%|█████▍    | 26725/48845 [9:27:49<7:44:23,  1.26s/it]                                                         {'loss': 1.9684, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26725/48845 [9:27:49<7:44:23,  1.26s/it] 55%|█████▍    | 26726/48845 [9:27:50<7:44:29,  1.26s/it] 55%|█████▍    | 26727/48845 [9:27:51<7:44:44,  1.26s/it] 55%|█████▍    | 26728/48845 [9:27:52<7:44:46,  1.26s/it] 55%|█████▍    | 26729/48845 [9:27:54<7:44:57,  1.26s/it] 55%|█████▍    | 26730/48845 [9:27:55<7:44:48,  1.26s/it]                                                         {'loss': 1.992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26730/48845 [9:27:55<7:44:48,  1.26s/it] 55%|█████▍    | 26731/48845 [9:27:56<7:44:31,  1.26s/it] 55%|█████▍    | 26732/48845 [9:27:58<7:44:27,  1.26s/it] 55%|█████▍    | 26733/48845 [9:27:59<7:44:22,  1.26s/it] 55%|█████▍    | 26734/48845 [9:28:00<7:44:06,  1.26s/it] 55%|█████▍    | 26735/48845 [9:28:01<7:44:02,  1.26s/it]                                                         {'loss': 1.9977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26735/48845 [9:28:01<7:44:02,  1.26s/it] 55%|█████▍    | 26736/48845 [9:28:03<7:46:22,  1.27s/it] 55%|█████▍    | 26737/48845 [9:28:04<7:45:49,  1.26s/it] 55%|█████▍    | 26738/48845 [9:28:05<7:45:09,  1.26s/it] 55%|█████▍    | 26739/48845 [9:28:06<7:44:57,  1.26s/it] 55%|█████▍    | 26740/48845 [9:28:08<7:44:35,  1.26s/it]                                                         {'loss': 2.0348, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26740/48845 [9:28:08<7:44:35,  1.26s/it] 55%|█████▍    | 26741/48845 [9:28:09<7:44:36,  1.26s/it] 55%|█████▍    | 26742/48845 [9:28:10<7:44:26,  1.26s/it] 55%|█████▍    | 26743/48845 [9:28:11<7:44:13,  1.26s/it] 55%|█████▍    | 26744/48845 [9:28:13<7:43:59,  1.26s/it] 55%|█████▍    | 26745/48845 [9:28:14<7:44:07,  1.26s/it]                                                         {'loss': 2.0196, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26745/48845 [9:28:14<7:44:07,  1.26s/it] 55%|█████▍    | 26746/48845 [9:28:15<7:44:36,  1.26s/it] 55%|█████▍    | 26747/48845 [9:28:16<7:44:32,  1.26s/it] 55%|█████▍    | 26748/48845 [9:28:18<7:44:25,  1.26s/it] 55%|█████▍    | 26749/48845 [9:28:19<7:44:38,  1.26s/it] 55%|█████▍    | 26750/48845 [9:28:20<7:44:11,  1.26s/it]                                                         {'loss': 2.1734, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26750/48845 [9:28:20<7:44:11,  1.26s/it] 55%|█████▍    | 26751/48845 [9:28:21<7:44:20,  1.26s/it] 55%|█████▍    | 26752/48845 [9:28:23<7:44:22,  1.26s/it] 55%|█████▍    | 26753/48845 [9:28:24<7:44:33,  1.26s/it] 55%|█████▍    | 26754/48845 [9:28:25<7:44:45,  1.26s/it] 55%|█████▍    | 26755/48845 [9:28:27<7:44:39,  1.26s/it]                                                         {'loss': 1.9796, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26755/48845 [9:28:27<7:44:39,  1.26s/it] 55%|█████▍    | 26756/48845 [9:28:28<7:44:29,  1.26s/it] 55%|█████▍    | 26757/48845 [9:28:29<7:43:52,  1.26s/it] 55%|█████▍    | 26758/48845 [9:28:30<7:43:56,  1.26s/it] 55%|█████▍    | 26759/48845 [9:28:32<7:43:42,  1.26s/it] 55%|█████▍    | 26760/48845 [9:28:33<7:43:40,  1.26s/it]                                                         {'loss': 2.0702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26760/48845 [9:28:33<7:43:40,  1.26s/it] 55%|█████▍    | 26761/48845 [9:28:34<7:44:20,  1.26s/it] 55%|█████▍    | 26762/48845 [9:28:35<7:44:15,  1.26s/it] 55%|█████▍    | 26763/48845 [9:28:37<7:44:04,  1.26s/it] 55%|█████▍    | 26764/48845 [9:28:38<7:43:50,  1.26s/it] 55%|█████▍    | 26765/48845 [9:28:39<7:43:53,  1.26s/it]                                                         {'loss': 2.1224, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26765/48845 [9:28:39<7:43:53,  1.26s/it] 55%|█████▍    | 26766/48845 [9:28:40<7:44:07,  1.26s/it] 55%|█████▍    | 26767/48845 [9:28:42<7:44:24,  1.26s/it] 55%|█████▍    | 26768/48845 [9:28:43<7:44:08,  1.26s/it] 55%|█████▍    | 26769/48845 [9:28:44<7:44:08,  1.26s/it] 55%|█████▍    | 26770/48845 [9:28:45<7:44:04,  1.26s/it]                                                         {'loss': 1.9917, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26770/48845 [9:28:45<7:44:04,  1.26s/it] 55%|█████▍    | 26771/48845 [9:28:47<7:44:18,  1.26s/it] 55%|█████▍    | 26772/48845 [9:28:48<7:44:20,  1.26s/it] 55%|█████▍    | 26773/48845 [9:28:49<7:44:04,  1.26s/it] 55%|█████▍    | 26774/48845 [9:28:51<7:44:22,  1.26s/it] 55%|█████▍    | 26775/48845 [9:28:52<7:44:29,  1.26s/it]                                                         {'loss': 2.0063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26775/48845 [9:28:52<7:44:29,  1.26s/it] 55%|█████▍    | 26776/48845 [9:28:53<7:44:22,  1.26s/it] 55%|█████▍    | 26777/48845 [9:28:54<7:44:20,  1.26s/it] 55%|█████▍    | 26778/48845 [9:28:56<7:44:10,  1.26s/it] 55%|█████▍    | 26779/48845 [9:28:57<7:43:37,  1.26s/it] 55%|█████▍    | 26780/48845 [9:28:58<7:43:35,  1.26s/it]                                                         {'loss': 2.0665, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26780/48845 [9:28:58<7:43:35,  1.26s/it] 55%|█████▍    | 26781/48845 [9:28:59<7:43:19,  1.26s/it] 55%|█████▍    | 26782/48845 [9:29:01<7:43:15,  1.26s/it] 55%|█████▍    | 26783/48845 [9:29:02<7:42:52,  1.26s/it] 55%|█████▍    | 26784/48845 [9:29:03<7:42:59,  1.26s/it] 55%|█████▍    | 26785/48845 [9:29:04<7:42:49,  1.26s/it]                                                         {'loss': 1.9108, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26785/48845 [9:29:04<7:42:49,  1.26s/it] 55%|█████▍    | 26786/48845 [9:29:06<7:43:04,  1.26s/it] 55%|█████▍    | 26787/48845 [9:29:07<7:43:01,  1.26s/it] 55%|█████▍    | 26788/48845 [9:29:08<7:43:15,  1.26s/it] 55%|█████▍    | 26789/48845 [9:29:09<7:43:55,  1.26s/it] 55%|█████▍    | 26790/48845 [9:29:11<7:44:51,  1.26s/it]                                                         {'loss': 1.9516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26790/48845 [9:29:11<7:44:51,  1.26s/it] 55%|█████▍    | 26791/48845 [9:29:12<7:44:13,  1.26s/it] 55%|█████▍    | 26792/48845 [9:29:13<7:43:58,  1.26s/it] 55%|█████▍    | 26793/48845 [9:29:14<7:44:02,  1.26s/it] 55%|█████▍    | 26794/48845 [9:29:16<7:43:57,  1.26s/it] 55%|█████▍    | 26795/48845 [9:29:17<7:43:56,  1.26s/it]                                                         {'loss': 1.8748, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26795/48845 [9:29:17<7:43:56,  1.26s/it] 55%|█████▍    | 26796/48845 [9:29:18<7:43:20,  1.26s/it] 55%|█████▍    | 26797/48845 [9:29:20<7:43:02,  1.26s/it] 55%|█████▍    | 26798/48845 [9:29:21<7:43:07,  1.26s/it] 55%|█████▍    | 26799/48845 [9:29:22<7:42:29,  1.26s/it] 55%|█████▍    | 26800/48845 [9:29:23<7:42:12,  1.26s/it]                                                         {'loss': 2.1998, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26800/48845 [9:29:23<7:42:12,  1.26s/it] 55%|█████▍    | 26801/48845 [9:29:27<12:21:16,  2.02s/it] 55%|█████▍    | 26802/48845 [9:29:28<10:57:22,  1.79s/it] 55%|█████▍    | 26803/48845 [9:29:30<9:58:57,  1.63s/it]  55%|█████▍    | 26804/48845 [9:29:31<9:18:42,  1.52s/it] 55%|█████▍    | 26805/48845 [9:29:32<8:50:46,  1.44s/it]                                                         {'loss': 2.079, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26805/48845 [9:29:32<8:50:46,  1.44s/it] 55%|█████▍    | 26806/48845 [9:29:33<8:31:20,  1.39s/it] 55%|█████▍    | 26807/48845 [9:29:35<8:16:24,  1.35s/it] 55%|█████▍    | 26808/48845 [9:29:36<8:06:17,  1.32s/it] 55%|█████▍    | 26809/48845 [9:29:37<7:59:06,  1.30s/it] 55%|█████▍    | 26810/48845 [9:29:38<7:54:23,  1.29s/it]                                                         {'loss': 1.8447, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26810/48845 [9:29:38<7:54:23,  1.29s/it] 55%|█████▍    | 26811/48845 [9:29:40<7:58:28,  1.30s/it] 55%|█████▍    | 26812/48845 [9:29:41<7:53:39,  1.29s/it] 55%|█████▍    | 26813/48845 [9:29:42<7:50:02,  1.28s/it] 55%|█████▍    | 26814/48845 [9:29:44<7:47:35,  1.27s/it] 55%|█████▍    | 26815/48845 [9:29:45<7:46:02,  1.27s/it]                                                         {'loss': 2.0639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.74}
+ 55%|█████▍    | 26815/48845 [9:29:45<7:46:02,  1.27s/it] 55%|█████▍    | 26816/48845 [9:29:46<7:45:31,  1.27s/it] 55%|█████▍    | 26817/48845 [9:29:47<7:44:36,  1.27s/it] 55%|█████▍    | 26818/48845 [9:29:49<7:44:25,  1.27s/it] 55%|█████▍    | 26819/48845 [9:29:50<7:43:35,  1.26s/it] 55%|█████▍    | 26820/48845 [9:29:51<7:43:07,  1.26s/it]                                                         {'loss': 2.0972, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26820/48845 [9:29:51<7:43:07,  1.26s/it] 55%|█████▍    | 26821/48845 [9:29:52<7:43:14,  1.26s/it] 55%|█████▍    | 26822/48845 [9:29:54<7:42:37,  1.26s/it] 55%|█████▍    | 26823/48845 [9:29:55<7:42:22,  1.26s/it] 55%|█████▍    | 26824/48845 [9:29:56<7:41:59,  1.26s/it] 55%|█████▍    | 26825/48845 [9:29:57<7:44:34,  1.27s/it]                                                         {'loss': 1.9652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26825/48845 [9:29:57<7:44:34,  1.27s/it] 55%|█████▍    | 26826/48845 [9:29:59<7:44:27,  1.27s/it] 55%|█████▍    | 26827/48845 [9:30:00<7:43:46,  1.26s/it] 55%|█████▍    | 26828/48845 [9:30:01<7:43:27,  1.26s/it] 55%|█████▍    | 26829/48845 [9:30:02<7:42:55,  1.26s/it] 55%|█████▍    | 26830/48845 [9:30:04<7:42:29,  1.26s/it]                                                         {'loss': 1.9924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26830/48845 [9:30:04<7:42:29,  1.26s/it] 55%|█████▍    | 26831/48845 [9:30:05<7:42:39,  1.26s/it] 55%|█████▍    | 26832/48845 [9:30:06<7:42:12,  1.26s/it] 55%|█████▍    | 26833/48845 [9:30:07<7:41:56,  1.26s/it] 55%|█████▍    | 26834/48845 [9:30:09<7:42:04,  1.26s/it] 55%|█████▍    | 26835/48845 [9:30:10<7:42:06,  1.26s/it]                                                         {'loss': 1.9996, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26835/48845 [9:30:10<7:42:06,  1.26s/it] 55%|█████▍    | 26836/48845 [9:30:11<7:42:36,  1.26s/it] 55%|█████▍    | 26837/48845 [9:30:13<7:42:34,  1.26s/it] 55%|█████▍    | 26838/48845 [9:30:14<7:42:23,  1.26s/it] 55%|█████▍    | 26839/48845 [9:30:15<7:42:24,  1.26s/it] 55%|█████▍    | 26840/48845 [9:30:16<7:42:09,  1.26s/it]                                                         {'loss': 2.0321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26840/48845 [9:30:16<7:42:09,  1.26s/it] 55%|█████▍    | 26841/48845 [9:30:18<7:42:37,  1.26s/it] 55%|█████▍    | 26842/48845 [9:30:19<7:42:32,  1.26s/it] 55%|█████▍    | 26843/48845 [9:30:20<7:42:26,  1.26s/it] 55%|█████▍    | 26844/48845 [9:30:21<7:43:51,  1.27s/it] 55%|█████▍    | 26845/48845 [9:30:23<7:43:36,  1.26s/it]                                                         {'loss': 2.0677, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26845/48845 [9:30:23<7:43:36,  1.26s/it] 55%|█████▍    | 26846/48845 [9:30:24<7:43:21,  1.26s/it] 55%|█████▍    | 26847/48845 [9:30:25<7:43:34,  1.26s/it] 55%|█████▍    | 26848/48845 [9:30:26<7:42:56,  1.26s/it] 55%|█████▍    | 26849/48845 [9:30:28<7:42:23,  1.26s/it] 55%|█████▍    | 26850/48845 [9:30:29<7:42:09,  1.26s/it]                                                         {'loss': 1.9826, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26850/48845 [9:30:29<7:42:09,  1.26s/it] 55%|█████▍    | 26851/48845 [9:30:30<7:42:15,  1.26s/it] 55%|█████▍    | 26852/48845 [9:30:31<7:42:06,  1.26s/it] 55%|█████▍    | 26853/48845 [9:30:33<7:42:42,  1.26s/it] 55%|█████▍    | 26854/48845 [9:30:34<7:41:57,  1.26s/it] 55%|█████▍    | 26855/48845 [9:30:35<7:43:03,  1.26s/it]                                                         {'loss': 2.1157, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26855/48845 [9:30:35<7:43:03,  1.26s/it] 55%|█████▍    | 26856/48845 [9:30:37<7:43:04,  1.26s/it] 55%|█████▍    | 26857/48845 [9:30:38<7:42:30,  1.26s/it] 55%|█████▍    | 26858/48845 [9:30:39<7:42:30,  1.26s/it] 55%|█████▍    | 26859/48845 [9:30:40<7:42:04,  1.26s/it] 55%|█████▍    | 26860/48845 [9:30:42<7:41:51,  1.26s/it]                                                         {'loss': 2.0412, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▍    | 26860/48845 [9:30:42<7:41:51,  1.26s/it] 55%|█████▍    | 26861/48845 [9:30:43<7:41:53,  1.26s/it] 55%|█████▍    | 26862/48845 [9:30:44<7:41:37,  1.26s/it] 55%|█████▍    | 26863/48845 [9:30:45<7:41:32,  1.26s/it] 55%|█████▍    | 26864/48845 [9:30:47<7:41:13,  1.26s/it] 55%|█████▌    | 26865/48845 [9:30:48<7:41:23,  1.26s/it]                                                         {'loss': 1.96, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26865/48845 [9:30:48<7:41:23,  1.26s/it] 55%|█████▌    | 26866/48845 [9:30:49<7:41:34,  1.26s/it] 55%|█████▌    | 26867/48845 [9:30:50<7:41:25,  1.26s/it] 55%|█████▌    | 26868/48845 [9:30:52<7:41:21,  1.26s/it] 55%|█████▌    | 26869/48845 [9:30:53<7:41:17,  1.26s/it] 55%|█████▌    | 26870/48845 [9:30:54<7:41:43,  1.26s/it]                                                         {'loss': 2.1405, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26870/48845 [9:30:54<7:41:43,  1.26s/it] 55%|█████▌    | 26871/48845 [9:30:55<7:42:13,  1.26s/it] 55%|█████▌    | 26872/48845 [9:30:57<7:41:59,  1.26s/it] 55%|█████▌    | 26873/48845 [9:30:58<7:42:31,  1.26s/it] 55%|█████▌    | 26874/48845 [9:30:59<7:41:54,  1.26s/it] 55%|█████▌    | 26875/48845 [9:31:00<7:42:06,  1.26s/it]                                                         {'loss': 2.0475, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26875/48845 [9:31:00<7:42:06,  1.26s/it] 55%|█████▌    | 26876/48845 [9:31:02<7:42:02,  1.26s/it] 55%|█████▌    | 26877/48845 [9:31:03<7:41:52,  1.26s/it] 55%|█████▌    | 26878/48845 [9:31:04<7:42:19,  1.26s/it] 55%|█████▌    | 26879/48845 [9:31:06<7:42:00,  1.26s/it] 55%|█████▌    | 26880/48845 [9:31:07<7:41:38,  1.26s/it]                                                         {'loss': 1.9188, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26880/48845 [9:31:07<7:41:38,  1.26s/it] 55%|█████▌    | 26881/48845 [9:31:08<7:41:26,  1.26s/it] 55%|█████▌    | 26882/48845 [9:31:09<7:40:59,  1.26s/it] 55%|█████▌    | 26883/48845 [9:31:11<7:41:04,  1.26s/it] 55%|█████▌    | 26884/48845 [9:31:12<7:40:52,  1.26s/it] 55%|█████▌    | 26885/48845 [9:31:13<7:40:43,  1.26s/it]                                                         {'loss': 2.0251, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26885/48845 [9:31:13<7:40:43,  1.26s/it] 55%|█████▌    | 26886/48845 [9:31:14<7:41:27,  1.26s/it] 55%|█████▌    | 26887/48845 [9:31:16<7:41:46,  1.26s/it] 55%|█████▌    | 26888/48845 [9:31:17<7:42:04,  1.26s/it] 55%|█████▌    | 26889/48845 [9:31:18<7:41:49,  1.26s/it] 55%|█████▌    | 26890/48845 [9:31:19<7:49:07,  1.28s/it]                                                         {'loss': 2.1039, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26890/48845 [9:31:19<7:49:07,  1.28s/it] 55%|█████▌    | 26891/48845 [9:31:21<7:46:52,  1.28s/it] 55%|█████▌    | 26892/48845 [9:31:22<7:45:12,  1.27s/it] 55%|█████▌    | 26893/48845 [9:31:23<7:44:05,  1.27s/it] 55%|█████▌    | 26894/48845 [9:31:25<7:43:33,  1.27s/it] 55%|█████▌    | 26895/48845 [9:31:26<7:42:51,  1.27s/it]                                                         {'loss': 1.9854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26895/48845 [9:31:26<7:42:51,  1.27s/it] 55%|█████▌    | 26896/48845 [9:31:27<7:42:23,  1.26s/it] 55%|█████▌    | 26897/48845 [9:31:28<7:41:49,  1.26s/it] 55%|█████▌    | 26898/48845 [9:31:30<7:42:07,  1.26s/it] 55%|█████▌    | 26899/48845 [9:31:31<7:42:52,  1.27s/it] 55%|█████▌    | 26900/48845 [9:31:32<7:42:49,  1.27s/it]                                                         {'loss': 2.0066, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26900/48845 [9:31:32<7:42:49,  1.27s/it] 55%|█████▌    | 26901/48845 [9:31:33<7:42:32,  1.26s/it] 55%|█████▌    | 26902/48845 [9:31:35<7:42:11,  1.26s/it] 55%|█████▌    | 26903/48845 [9:31:36<7:41:07,  1.26s/it] 55%|█████▌    | 26904/48845 [9:31:37<7:40:38,  1.26s/it] 55%|█████▌    | 26905/48845 [9:31:38<7:40:24,  1.26s/it]                                                         {'loss': 2.0213, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26905/48845 [9:31:38<7:40:24,  1.26s/it] 55%|█████▌    | 26906/48845 [9:31:40<7:40:29,  1.26s/it] 55%|█████▌    | 26907/48845 [9:31:41<7:40:40,  1.26s/it] 55%|█████▌    | 26908/48845 [9:31:42<7:40:35,  1.26s/it] 55%|█████▌    | 26909/48845 [9:31:43<7:40:39,  1.26s/it] 55%|█████▌    | 26910/48845 [9:31:45<7:40:20,  1.26s/it]                                                         {'loss': 2.0877, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.75}
+ 55%|█████▌    | 26910/48845 [9:31:45<7:40:20,  1.26s/it] 55%|█████▌    | 26911/48845 [9:31:46<7:40:37,  1.26s/it] 55%|█████▌    | 26912/48845 [9:31:47<7:40:31,  1.26s/it] 55%|█████▌    | 26913/48845 [9:31:48<7:40:21,  1.26s/it] 55%|█████▌    | 26914/48845 [9:31:50<7:40:53,  1.26s/it] 55%|█████▌    | 26915/48845 [9:31:51<7:40:41,  1.26s/it]                                                         {'loss': 1.971, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26915/48845 [9:31:51<7:40:41,  1.26s/it] 55%|█████▌    | 26916/48845 [9:31:52<7:41:03,  1.26s/it] 55%|█████▌    | 26917/48845 [9:31:54<7:40:31,  1.26s/it] 55%|█████▌    | 26918/48845 [9:31:55<7:40:46,  1.26s/it] 55%|█████▌    | 26919/48845 [9:31:56<7:40:54,  1.26s/it] 55%|█████▌    | 26920/48845 [9:31:57<7:40:49,  1.26s/it]                                                         {'loss': 2.0885, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26920/48845 [9:31:57<7:40:49,  1.26s/it] 55%|█████▌    | 26921/48845 [9:31:59<7:41:07,  1.26s/it] 55%|█████▌    | 26922/48845 [9:32:00<7:41:13,  1.26s/it] 55%|█████▌    | 26923/48845 [9:32:01<7:41:00,  1.26s/it] 55%|█████▌    | 26924/48845 [9:32:02<7:41:26,  1.26s/it] 55%|█████▌    | 26925/48845 [9:32:04<7:40:34,  1.26s/it]                                                         {'loss': 2.1228, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26925/48845 [9:32:04<7:40:34,  1.26s/it] 55%|█████▌    | 26926/48845 [9:32:05<7:40:35,  1.26s/it] 55%|█████▌    | 26927/48845 [9:32:06<7:40:35,  1.26s/it] 55%|█████▌    | 26928/48845 [9:32:07<7:40:27,  1.26s/it] 55%|█████▌    | 26929/48845 [9:32:09<7:40:03,  1.26s/it] 55%|█████▌    | 26930/48845 [9:32:10<7:39:50,  1.26s/it]                                                         {'loss': 1.9573, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26930/48845 [9:32:10<7:39:50,  1.26s/it] 55%|█████▌    | 26931/48845 [9:32:11<7:40:35,  1.26s/it] 55%|█████▌    | 26932/48845 [9:32:12<7:40:43,  1.26s/it] 55%|█████▌    | 26933/48845 [9:32:14<7:40:37,  1.26s/it] 55%|█████▌    | 26934/48845 [9:32:15<7:41:02,  1.26s/it] 55%|█████▌    | 26935/48845 [9:32:16<7:41:07,  1.26s/it]                                                         {'loss': 2.2121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26935/48845 [9:32:16<7:41:07,  1.26s/it] 55%|█████▌    | 26936/48845 [9:32:17<7:41:02,  1.26s/it] 55%|█████▌    | 26937/48845 [9:32:19<7:40:53,  1.26s/it] 55%|█████▌    | 26938/48845 [9:32:20<7:41:12,  1.26s/it] 55%|█████▌    | 26939/48845 [9:32:21<7:40:48,  1.26s/it] 55%|█████▌    | 26940/48845 [9:32:23<7:41:02,  1.26s/it]                                                         {'loss': 1.885, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26940/48845 [9:32:23<7:41:02,  1.26s/it] 55%|█████▌    | 26941/48845 [9:32:24<7:41:02,  1.26s/it] 55%|█████▌    | 26942/48845 [9:32:25<7:41:00,  1.26s/it] 55%|█████▌    | 26943/48845 [9:32:26<7:40:49,  1.26s/it] 55%|█████▌    | 26944/48845 [9:32:28<7:40:20,  1.26s/it] 55%|█████▌    | 26945/48845 [9:32:29<7:40:03,  1.26s/it]                                                         {'loss': 2.0104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26945/48845 [9:32:29<7:40:03,  1.26s/it] 55%|█████▌    | 26946/48845 [9:32:30<7:41:04,  1.26s/it] 55%|█████▌    | 26947/48845 [9:32:31<7:40:55,  1.26s/it] 55%|█████▌    | 26948/48845 [9:32:33<7:40:27,  1.26s/it] 55%|█████▌    | 26949/48845 [9:32:34<7:40:10,  1.26s/it] 55%|█████▌    | 26950/48845 [9:32:35<7:40:49,  1.26s/it]                                                         {'loss': 1.8679, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26950/48845 [9:32:35<7:40:49,  1.26s/it] 55%|█████▌    | 26951/48845 [9:32:36<7:41:01,  1.26s/it] 55%|█████▌    | 26952/48845 [9:32:38<7:40:34,  1.26s/it] 55%|█████▌    | 26953/48845 [9:32:39<7:40:38,  1.26s/it] 55%|█████▌    | 26954/48845 [9:32:40<7:41:12,  1.26s/it] 55%|█████▌    | 26955/48845 [9:32:41<7:40:48,  1.26s/it]                                                         {'loss': 2.0572, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26955/48845 [9:32:41<7:40:48,  1.26s/it] 55%|█████▌    | 26956/48845 [9:32:43<7:40:26,  1.26s/it] 55%|█████▌    | 26957/48845 [9:32:44<7:40:02,  1.26s/it] 55%|█████▌    | 26958/48845 [9:32:45<7:41:03,  1.26s/it] 55%|█████▌    | 26959/48845 [9:32:47<7:40:34,  1.26s/it] 55%|█████▌    | 26960/48845 [9:32:48<7:40:48,  1.26s/it]                                                         {'loss': 2.0117, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26960/48845 [9:32:48<7:40:48,  1.26s/it] 55%|█████▌    | 26961/48845 [9:32:49<7:40:45,  1.26s/it] 55%|█████▌    | 26962/48845 [9:32:50<7:40:25,  1.26s/it] 55%|█████▌    | 26963/48845 [9:32:52<7:40:16,  1.26s/it] 55%|█████▌    | 26964/48845 [9:32:53<7:40:03,  1.26s/it] 55%|█████▌    | 26965/48845 [9:32:54<7:39:47,  1.26s/it]                                                         {'loss': 1.9959, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26965/48845 [9:32:54<7:39:47,  1.26s/it] 55%|█████▌    | 26966/48845 [9:32:55<7:41:00,  1.26s/it] 55%|█████▌    | 26967/48845 [9:32:57<7:40:37,  1.26s/it] 55%|█████▌    | 26968/48845 [9:32:58<7:40:10,  1.26s/it] 55%|█████▌    | 26969/48845 [9:32:59<7:40:00,  1.26s/it] 55%|█████▌    | 26970/48845 [9:33:00<7:40:14,  1.26s/it]                                                         {'loss': 1.9614, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26970/48845 [9:33:00<7:40:14,  1.26s/it] 55%|█████▌    | 26971/48845 [9:33:02<7:39:47,  1.26s/it] 55%|█████▌    | 26972/48845 [9:33:03<7:40:31,  1.26s/it] 55%|█████▌    | 26973/48845 [9:33:04<7:40:11,  1.26s/it] 55%|█████▌    | 26974/48845 [9:33:05<7:40:16,  1.26s/it] 55%|█████▌    | 26975/48845 [9:33:07<7:39:54,  1.26s/it]                                                         {'loss': 2.0247, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26975/48845 [9:33:07<7:39:54,  1.26s/it] 55%|█████▌    | 26976/48845 [9:33:08<7:39:34,  1.26s/it] 55%|█████▌    | 26977/48845 [9:33:09<7:39:33,  1.26s/it] 55%|█████▌    | 26978/48845 [9:33:10<7:40:10,  1.26s/it] 55%|█████▌    | 26979/48845 [9:33:12<7:39:51,  1.26s/it] 55%|█████▌    | 26980/48845 [9:33:13<7:39:49,  1.26s/it]                                                         {'loss': 2.0814, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26980/48845 [9:33:13<7:39:49,  1.26s/it] 55%|█████▌    | 26981/48845 [9:33:14<7:39:24,  1.26s/it] 55%|█████▌    | 26982/48845 [9:33:16<7:39:34,  1.26s/it] 55%|█████▌    | 26983/48845 [9:33:17<7:39:36,  1.26s/it] 55%|█████▌    | 26984/48845 [9:33:18<7:39:01,  1.26s/it] 55%|█████▌    | 26985/48845 [9:33:19<7:39:02,  1.26s/it]                                                         {'loss': 1.8223, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26985/48845 [9:33:19<7:39:02,  1.26s/it] 55%|█████▌    | 26986/48845 [9:33:21<7:39:21,  1.26s/it] 55%|█████▌    | 26987/48845 [9:33:22<7:39:14,  1.26s/it] 55%|█████▌    | 26988/48845 [9:33:23<7:39:05,  1.26s/it] 55%|█████▌    | 26989/48845 [9:33:24<7:38:39,  1.26s/it] 55%|█████▌    | 26990/48845 [9:33:26<7:42:21,  1.27s/it]                                                         {'loss': 1.9167, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|████���▌    | 26990/48845 [9:33:26<7:42:21,  1.27s/it] 55%|█████▌    | 26991/48845 [9:33:27<7:41:26,  1.27s/it] 55%|█████▌    | 26992/48845 [9:33:28<7:40:41,  1.26s/it] 55%|█████▌    | 26993/48845 [9:33:29<7:40:04,  1.26s/it] 55%|█████▌    | 26994/48845 [9:33:31<7:40:13,  1.26s/it] 55%|█████▌    | 26995/48845 [9:33:32<7:39:36,  1.26s/it]                                                         {'loss': 2.1246, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 26995/48845 [9:33:32<7:39:36,  1.26s/it] 55%|█████▌    | 26996/48845 [9:33:33<7:39:37,  1.26s/it] 55%|█████▌    | 26997/48845 [9:33:35<7:43:14,  1.27s/it] 55%|█████▌    | 26998/48845 [9:33:36<7:42:02,  1.27s/it] 55%|█████▌    | 26999/48845 [9:33:37<7:40:41,  1.27s/it] 55%|█████▌    | 27000/48845 [9:33:38<7:40:25,  1.26s/it]                                                         {'loss': 2.1489, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 27000/48845 [9:33:38<7:40:25,  1.26s/it] 55%|█████▌    | 27001/48845 [9:33:42<12:09:33,  2.00s/it] 55%|█████▌    | 27002/48845 [9:33:43<10:48:17,  1.78s/it] 55%|█████▌    | 27003/48845 [9:33:45<9:51:43,  1.63s/it]  55%|█████▌    | 27004/48845 [9:33:46<9:14:21,  1.52s/it] 55%|█████▌    | 27005/48845 [9:33:47<8:45:54,  1.44s/it]                                                         {'loss': 1.9958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 27005/48845 [9:33:47<8:45:54,  1.44s/it] 55%|█████▌    | 27006/48845 [9:33:48<8:26:00,  1.39s/it] 55%|█████▌    | 27007/48845 [9:33:50<8:11:35,  1.35s/it] 55%|█████▌    | 27008/48845 [9:33:51<8:01:31,  1.32s/it] 55%|█████▌    | 27009/48845 [9:33:52<7:54:21,  1.30s/it] 55%|█████▌    | 27010/48845 [9:33:53<7:49:23,  1.29s/it]                                                         {'loss': 2.119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.76}
+ 55%|█████▌    | 27010/48845 [9:33:53<7:49:23,  1.29s/it] 55%|█████▌    | 27011/48845 [9:33:55<7:45:56,  1.28s/it] 55%|█████▌    | 27012/48845 [9:33:56<7:43:39,  1.27s/it] 55%|█████▌    | 27013/48845 [9:33:57<7:42:03,  1.27s/it] 55%|█████▌    | 27014/48845 [9:33:58<7:40:44,  1.27s/it] 55%|█████▌    | 27015/48845 [9:34:00<7:39:56,  1.26s/it]                                                         {'loss': 1.8359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27015/48845 [9:34:00<7:39:56,  1.26s/it] 55%|█████▌    | 27016/48845 [9:34:01<7:39:33,  1.26s/it] 55%|█████▌    | 27017/48845 [9:34:02<7:39:04,  1.26s/it] 55%|█████▌    | 27018/48845 [9:34:03<7:38:39,  1.26s/it] 55%|█████▌    | 27019/48845 [9:34:05<7:38:38,  1.26s/it] 55%|█████▌    | 27020/48845 [9:34:06<7:38:24,  1.26s/it]                                                         {'loss': 2.1778, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27020/48845 [9:34:06<7:38:24,  1.26s/it] 55%|█████▌    | 27021/48845 [9:34:07<7:38:14,  1.26s/it] 55%|█████▌    | 27022/48845 [9:34:08<7:38:12,  1.26s/it] 55%|█████▌    | 27023/48845 [9:34:10<7:38:10,  1.26s/it] 55%|█████▌    | 27024/48845 [9:34:11<7:38:00,  1.26s/it] 55%|█████▌    | 27025/48845 [9:34:12<7:37:58,  1.26s/it]                                                         {'loss': 1.9819, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27025/48845 [9:34:12<7:37:58,  1.26s/it] 55%|█████▌    | 27026/48845 [9:34:14<7:38:01,  1.26s/it] 55%|█████▌    | 27027/48845 [9:34:15<7:38:03,  1.26s/it] 55%|█████▌    | 27028/48845 [9:34:16<7:37:56,  1.26s/it] 55%|█████▌    | 27029/48845 [9:34:17<7:38:06,  1.26s/it] 55%|█████▌    | 27030/48845 [9:34:19<7:38:17,  1.26s/it]                                                         {'loss': 1.9363, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27030/48845 [9:34:19<7:38:17,  1.26s/it] 55%|█████▌    | 27031/48845 [9:34:20<7:38:04,  1.26s/it] 55%|█████▌    | 27032/48845 [9:34:21<7:38:03,  1.26s/it] 55%|█████▌    | 27033/48845 [9:34:22<7:38:01,  1.26s/it] 55%|█████▌    | 27034/48845 [9:34:24<7:38:00,  1.26s/it] 55%|█████▌    | 27035/48845 [9:34:25<7:38:08,  1.26s/it]                                                         {'loss': 2.1842, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27035/48845 [9:34:25<7:38:08,  1.26s/it] 55%|█████▌    | 27036/48845 [9:34:26<7:38:10,  1.26s/it] 55%|████��▌    | 27037/48845 [9:34:27<7:38:14,  1.26s/it] 55%|█████▌    | 27038/48845 [9:34:29<7:38:24,  1.26s/it] 55%|█████▌    | 27039/48845 [9:34:30<7:38:07,  1.26s/it] 55%|█████▌    | 27040/48845 [9:34:31<7:37:54,  1.26s/it]                                                         {'loss': 1.9882, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27040/48845 [9:34:31<7:37:54,  1.26s/it] 55%|█████▌    | 27041/48845 [9:34:32<7:38:02,  1.26s/it] 55%|█████▌    | 27042/48845 [9:34:34<7:37:49,  1.26s/it] 55%|█████▌    | 27043/48845 [9:34:35<7:37:50,  1.26s/it] 55%|█████▌    | 27044/48845 [9:34:36<7:38:12,  1.26s/it] 55%|█████▌    | 27045/48845 [9:34:37<7:38:34,  1.26s/it]                                                         {'loss': 1.9902, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27045/48845 [9:34:37<7:38:34,  1.26s/it] 55%|█████▌    | 27046/48845 [9:34:39<7:38:19,  1.26s/it] 55%|█████▌    | 27047/48845 [9:34:40<7:38:35,  1.26s/it] 55%|█████▌    | 27048/48845 [9:34:41<7:38:18,  1.26s/it] 55%|█████▌    | 27049/48845 [9:34:43<7:38:15,  1.26s/it] 55%|█████▌    | 27050/48845 [9:34:44<7:37:55,  1.26s/it]                                                         {'loss': 1.8922, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27050/48845 [9:34:44<7:37:55,  1.26s/it] 55%|█████▌    | 27051/48845 [9:34:45<7:37:34,  1.26s/it] 55%|█████▌    | 27052/48845 [9:34:46<7:37:44,  1.26s/it] 55%|█████▌    | 27053/48845 [9:34:48<7:38:13,  1.26s/it] 55%|█████▌    | 27054/48845 [9:34:49<7:38:02,  1.26s/it] 55%|█████▌    | 27055/48845 [9:34:50<7:38:18,  1.26s/it]                                                         {'loss': 2.0723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27055/48845 [9:34:50<7:38:18,  1.26s/it] 55%|█████▌    | 27056/48845 [9:34:51<7:38:16,  1.26s/it] 55%|█████▌    | 27057/48845 [9:34:53<7:38:05,  1.26s/it] 55%|█████▌    | 27058/48845 [9:34:54<7:37:57,  1.26s/it] 55%|█████▌    | 27059/48845 [9:34:55<7:37:54,  1.26s/it] 55%|█████▌    | 27060/48845 [9:34:56<7:37:39,  1.26s/it]                                                         {'loss': 2.0593, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27060/48845 [9:34:56<7:37:39,  1.26s/it] 55%|█████▌    | 27061/48845 [9:34:58<7:37:40,  1.26s/it] 55%|█████▌    | 27062/48845 [9:34:59<7:37:40,  1.26s/it] 55%|█████▌    | 27063/48845 [9:35:00<7:37:28,  1.26s/it] 55%|█████▌    | 27064/48845 [9:35:01<7:37:21,  1.26s/it] 55%|█████▌    | 27065/48845 [9:35:03<7:37:19,  1.26s/it]                                                         {'loss': 2.0457, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27065/48845 [9:35:03<7:37:19,  1.26s/it] 55%|█████▌    | 27066/48845 [9:35:04<7:37:32,  1.26s/it] 55%|█████▌    | 27067/48845 [9:35:05<7:37:41,  1.26s/it] 55%|█████▌    | 27068/48845 [9:35:06<7:37:28,  1.26s/it] 55%|█████▌    | 27069/48845 [9:35:08<7:37:18,  1.26s/it] 55%|█████▌    | 27070/48845 [9:35:09<7:37:53,  1.26s/it]                                                         {'loss': 2.0598, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27070/48845 [9:35:09<7:37:53,  1.26s/it] 55%|█████▌    | 27071/48845 [9:35:10<7:38:18,  1.26s/it] 55%|█████▌    | 27072/48845 [9:35:12<7:38:02,  1.26s/it] 55%|█████▌    | 27073/48845 [9:35:13<7:37:52,  1.26s/it] 55%|█████▌    | 27074/48845 [9:35:14<7:37:39,  1.26s/it] 55%|█████▌    | 27075/48845 [9:35:15<7:37:21,  1.26s/it]                                                         {'loss': 2.0798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27075/48845 [9:35:15<7:37:21,  1.26s/it] 55%|█████▌    | 27076/48845 [9:35:17<7:37:27,  1.26s/it] 55%|█████▌    | 27077/48845 [9:35:18<7:37:19,  1.26s/it] 55%|█████▌    | 27078/48845 [9:35:19<7:37:24,  1.26s/it] 55%|█████▌    | 27079/48845 [9:35:20<7:37:36,  1.26s/it] 55%|█████▌    | 27080/48845 [9:35:22<7:37:07,  1.26s/it]                                                         {'loss': 2.1447, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27080/48845 [9:35:22<7:37:07,  1.26s/it] 55%|█████▌    | 27081/48845 [9:35:23<7:37:01,  1.26s/it] 55%|█████▌    | 27082/48845 [9:35:24<7:37:06,  1.26s/it] 55%|█████▌    | 27083/48845 [9:35:25<7:37:15,  1.26s/it] 55%|█████��    | 27084/48845 [9:35:27<7:36:53,  1.26s/it] 55%|█████▌    | 27085/48845 [9:35:28<7:36:35,  1.26s/it]                                                         {'loss': 2.034, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27085/48845 [9:35:28<7:36:35,  1.26s/it] 55%|█████▌    | 27086/48845 [9:35:29<7:36:32,  1.26s/it] 55%|█████▌    | 27087/48845 [9:35:30<7:36:25,  1.26s/it] 55%|█████▌    | 27088/48845 [9:35:32<7:36:23,  1.26s/it] 55%|█████▌    | 27089/48845 [9:35:33<7:36:22,  1.26s/it] 55%|█████▌    | 27090/48845 [9:35:34<7:36:21,  1.26s/it]                                                         {'loss': 1.8878, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27090/48845 [9:35:34<7:36:21,  1.26s/it] 55%|█████▌    | 27091/48845 [9:35:35<7:36:33,  1.26s/it] 55%|█████▌    | 27092/48845 [9:35:37<7:36:55,  1.26s/it] 55%|█████▌    | 27093/48845 [9:35:38<7:36:51,  1.26s/it] 55%|█████▌    | 27094/48845 [9:35:39<7:37:00,  1.26s/it] 55%|█████▌    | 27095/48845 [9:35:41<7:37:07,  1.26s/it]                                                         {'loss': 2.0901, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27095/48845 [9:35:41<7:37:07,  1.26s/it] 55%|█████▌    | 27096/48845 [9:35:42<7:37:55,  1.26s/it] 55%|█████▌    | 27097/48845 [9:35:43<7:37:38,  1.26s/it] 55%|█████▌    | 27098/48845 [9:35:44<7:37:18,  1.26s/it] 55%|█████▌    | 27099/48845 [9:35:46<7:37:18,  1.26s/it] 55%|█████▌    | 27100/48845 [9:35:47<7:37:30,  1.26s/it]                                                         {'loss': 1.979, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27100/48845 [9:35:47<7:37:30,  1.26s/it] 55%|█████▌    | 27101/48845 [9:35:48<7:37:17,  1.26s/it] 55%|█████▌    | 27102/48845 [9:35:49<7:37:11,  1.26s/it] 55%|█████▌    | 27103/48845 [9:35:51<7:36:55,  1.26s/it] 55%|█████▌    | 27104/48845 [9:35:52<7:36:53,  1.26s/it] 55%|█████▌    | 27105/48845 [9:35:53<7:37:06,  1.26s/it]                                                         {'loss': 2.1372, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.77}
+ 55%|█████▌    | 27105/48845 [9:35:53<7:37:06,  1.26s/it] 55%|█████▌    | 27106/48845 [9:35:54<7:37:36,  1.26s/it] 55%|█████▌    | 27107/48845 [9:35:56<7:37:27,  1.26s/it] 55%|█████▌    | 27108/48845 [9:35:57<7:37:21,  1.26s/it] 56%|█████▌    | 27109/48845 [9:35:58<7:37:11,  1.26s/it] 56%|█████▌    | 27110/48845 [9:35:59<7:37:06,  1.26s/it]                                                         {'loss': 2.0932, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27110/48845 [9:35:59<7:37:06,  1.26s/it] 56%|█████▌    | 27111/48845 [9:36:01<7:37:37,  1.26s/it] 56%|█████▌    | 27112/48845 [9:36:02<7:37:32,  1.26s/it] 56%|█████▌    | 27113/48845 [9:36:03<7:37:39,  1.26s/it] 56%|█████▌    | 27114/48845 [9:36:04<7:37:12,  1.26s/it] 56%|█████▌    | 27115/48845 [9:36:06<7:36:49,  1.26s/it]                                                         {'loss': 2.1238, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27115/48845 [9:36:06<7:36:49,  1.26s/it] 56%|█████▌    | 27116/48845 [9:36:07<7:36:49,  1.26s/it] 56%|█████▌    | 27117/48845 [9:36:08<7:36:28,  1.26s/it] 56%|█████▌    | 27118/48845 [9:36:10<7:36:40,  1.26s/it] 56%|█████▌    | 27119/48845 [9:36:11<7:36:33,  1.26s/it] 56%|█████▌    | 27120/48845 [9:36:12<7:36:24,  1.26s/it]                                                         {'loss': 2.1495, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27120/48845 [9:36:12<7:36:24,  1.26s/it] 56%|█████▌    | 27121/48845 [9:36:13<7:36:54,  1.26s/it] 56%|█████▌    | 27122/48845 [9:36:15<7:36:45,  1.26s/it] 56%|█████▌    | 27123/48845 [9:36:16<7:36:33,  1.26s/it] 56%|█████▌    | 27124/48845 [9:36:17<7:36:24,  1.26s/it] 56%|█████▌    | 27125/48845 [9:36:18<7:36:24,  1.26s/it]                                                         {'loss': 2.0092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27125/48845 [9:36:18<7:36:24,  1.26s/it] 56%|█████▌    | 27126/48845 [9:36:20<7:36:47,  1.26s/it] 56%|█████▌    | 27127/48845 [9:36:21<7:36:40,  1.26s/it] 56%|█████▌    | 27128/48845 [9:36:22<7:36:29,  1.26s/it] 56%|█████▌    | 27129/48845 [9:36:23<7:36:16,  1.26s/it] 56%|█████▌    | 27130/48845 [9:36:25<7:50:11,  1.30s/it]                                                         {'loss': 1.9335, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27130/48845 [9:36:25<7:50:11,  1.30s/it] 56%|█████▌    | 27131/48845 [9:36:26<7:47:15,  1.29s/it] 56%|█████▌    | 27132/48845 [9:36:27<7:44:21,  1.28s/it] 56%|█████▌    | 27133/48845 [9:36:29<7:41:39,  1.28s/it] 56%|█████▌    | 27134/48845 [9:36:30<7:40:18,  1.27s/it] 56%|█████▌    | 27135/48845 [9:36:31<7:39:02,  1.27s/it]                                                         {'loss': 2.0094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27135/48845 [9:36:31<7:39:02,  1.27s/it] 56%|█████▌    | 27136/48845 [9:36:32<7:38:21,  1.27s/it] 56%|█████▌    | 27137/48845 [9:36:34<7:37:48,  1.27s/it] 56%|█████▌    | 27138/48845 [9:36:35<7:37:16,  1.26s/it] 56%|█████▌    | 27139/48845 [9:36:36<7:37:08,  1.26s/it] 56%|█████▌    | 27140/48845 [9:36:37<7:36:44,  1.26s/it]                                                         {'loss': 1.9087, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27140/48845 [9:36:37<7:36:44,  1.26s/it] 56%|█████▌    | 27141/48845 [9:36:39<7:36:36,  1.26s/it] 56%|█████▌    | 27142/48845 [9:36:40<7:36:29,  1.26s/it] 56%|█████▌    | 27143/48845 [9:36:41<7:53:02,  1.31s/it] 56%|█████▌    | 27144/48845 [9:36:43<7:47:52,  1.29s/it] 56%|█████▌    | 27145/48845 [9:36:44<7:44:09,  1.28s/it]                                                         {'loss': 2.1226, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27145/48845 [9:36:44<7:44:09,  1.28s/it] 56%|█████▌    | 27146/48845 [9:36:45<7:42:14,  1.28s/it] 56%|█████▌    | 27147/48845 [9:36:46<7:40:00,  1.27s/it] 56%|█████▌    | 27148/48845 [9:36:48<7:39:05,  1.27s/it] 56%|█████▌    | 27149/48845 [9:36:49<7:37:59,  1.27s/it] 56%|█████▌    | 27150/48845 [9:36:50<7:37:20,  1.26s/it]                                                         {'loss': 2.0608, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27150/48845 [9:36:50<7:37:20,  1.26s/it] 56%|█████▌    | 27151/48845 [9:36:52<7:49:56,  1.30s/it] 56%|█████▌    | 27152/48845 [9:36:53<7:45:38,  1.29s/it] 56%|█████▌    | 27153/48845 [9:36:54<7:42:54,  1.28s/it] 56%|█████▌    | 27154/48845 [9:36:55<7:40:56,  1.28s/it] 56%|█████▌    | 27155/48845 [9:36:57<7:39:42,  1.27s/it]                                                         {'loss': 2.0388, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27155/48845 [9:36:57<7:39:42,  1.27s/it] 56%|█████▌    | 27156/48845 [9:36:58<7:38:46,  1.27s/it] 56%|█████▌    | 27157/48845 [9:36:59<7:38:04,  1.27s/it] 56%|█████▌    | 27158/48845 [9:37:00<7:37:20,  1.27s/it] 56%|█████▌    | 27159/48845 [9:37:02<7:37:19,  1.27s/it] 56%|█████▌    | 27160/48845 [9:37:03<7:36:51,  1.26s/it]                                                         {'loss': 2.1774, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27160/48845 [9:37:03<7:36:51,  1.26s/it] 56%|█████▌    | 27161/48845 [9:37:04<7:36:39,  1.26s/it] 56%|█████▌    | 27162/48845 [9:37:05<7:35:49,  1.26s/it] 56%|█████▌    | 27163/48845 [9:37:07<7:35:51,  1.26s/it] 56%|█████▌    | 27164/48845 [9:37:08<7:35:53,  1.26s/it] 56%|█████▌    | 27165/48845 [9:37:09<7:36:01,  1.26s/it]                                                         {'loss': 2.1028, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27165/48845 [9:37:09<7:36:01,  1.26s/it] 56%|█████▌    | 27166/48845 [9:37:11<7:36:10,  1.26s/it] 56%|█████▌    | 27167/48845 [9:37:12<7:36:02,  1.26s/it] 56%|█████▌    | 27168/48845 [9:37:13<7:36:09,  1.26s/it] 56%|█████▌    | 27169/48845 [9:37:14<7:36:12,  1.26s/it] 56%|█████▌    | 27170/48845 [9:37:16<7:35:48,  1.26s/it]                                                         {'loss': 1.9335, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27170/48845 [9:37:16<7:35:48,  1.26s/it] 56%|█████▌    | 27171/48845 [9:37:17<7:35:35,  1.26s/it] 56%|█████▌    | 27172/48845 [9:37:18<7:35:31,  1.26s/it] 56%|█████▌    | 27173/48845 [9:37:19<7:35:23,  1.26s/it] 56%|█████▌    | 27174/48845 [9:37:21<7:35:09,  1.26s/it] 56%|█████▌    | 27175/48845 [9:37:22<7:36:52,  1.27s/it]                                                         {'loss': 2.0515, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27175/48845 [9:37:22<7:36:52,  1.27s/it] 56%|█████▌    | 27176/48845 [9:37:23<7:36:30,  1.26s/it] 56%|█████▌    | 27177/48845 [9:37:24<7:35:45,  1.26s/it] 56%|█████▌    | 27178/48845 [9:37:26<7:35:29,  1.26s/it] 56%|█████▌    | 27179/48845 [9:37:27<7:35:11,  1.26s/it] 56%|█████▌    | 27180/48845 [9:37:28<7:34:53,  1.26s/it]                                                         {'loss': 2.055, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27180/48845 [9:37:28<7:34:53,  1.26s/it] 56%|█████▌    | 27181/48845 [9:37:29<7:35:02,  1.26s/it] 56%|█████▌    | 27182/48845 [9:37:31<7:34:59,  1.26s/it] 56%|█████▌    | 27183/48845 [9:37:32<7:34:51,  1.26s/it] 56%|█████▌    | 27184/48845 [9:37:33<7:34:36,  1.26s/it] 56%|█████▌    | 27185/48845 [9:37:34<7:34:53,  1.26s/it]                                                         {'loss': 2.0678, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27185/48845 [9:37:34<7:34:53,  1.26s/it] 56%|█████▌    | 27186/48845 [9:37:36<7:35:32,  1.26s/it] 56%|█████▌    | 27187/48845 [9:37:37<7:35:29,  1.26s/it] 56%|█████▌    | 27188/48845 [9:37:38<7:35:02,  1.26s/it] 56%|█████▌    | 27189/48845 [9:37:40<7:34:47,  1.26s/it] 56%|█████▌    | 27190/48845 [9:37:41<7:34:28,  1.26s/it]                                                         {'loss': 2.0468, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27190/48845 [9:37:41<7:34:28,  1.26s/it] 56%|█████▌    | 27191/48845 [9:37:42<7:34:32,  1.26s/it] 56%|█████▌    | 27192/48845 [9:37:43<7:34:26,  1.26s/it] 56%|█████▌    | 27193/48845 [9:37:45<7:34:19,  1.26s/it] 56%|█████▌    | 27194/48845 [9:37:46<7:34:53,  1.26s/it] 56%|█████▌    | 27195/48845 [9:37:47<7:34:28,  1.26s/it]                                                         {'loss': 1.9846, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27195/48845 [9:37:47<7:34:28,  1.26s/it] 56%|█████▌    | 27196/48845 [9:37:48<7:34:28,  1.26s/it] 56%|█████▌    | 27197/48845 [9:37:50<7:34:00,  1.26s/it] 56%|█████▌    | 27198/48845 [9:37:51<7:34:03,  1.26s/it] 56%|█████▌    | 27199/48845 [9:37:52<7:34:19,  1.26s/it] 56%|█████▌    | 27200/48845 [9:37:53<7:34:29,  1.26s/it]                                                         {'loss': 1.9241, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27200/48845 [9:37:53<7:34:29,  1.26s/it] 56%|█████▌    | 27201/48845 [9:37:57<12:04:46,  2.01s/it] 56%|█████▌    | 27202/48845 [9:37:58<10:43:30,  1.78s/it] 56%|█████▌    | 27203/48845 [9:38:00<9:46:20,  1.63s/it]  56%|█████▌    | 27204/48845 [9:38:01<9:07:02,  1.52s/it] 56%|█████▌    | 27205/48845 [9:38:02<8:39:27,  1.44s/it]                                                         {'loss': 2.1669, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.78}
+ 56%|█████▌    | 27205/48845 [9:38:02<8:39:27,  1.44s/it] 56%|█████▌    | 27206/48845 [9:38:03<8:20:38,  1.39s/it] 56%|█████▌    | 27207/48845 [9:38:05<8:06:33,  1.35s/it] 56%|█████▌    | 27208/48845 [9:38:06<7:56:55,  1.32s/it] 56%|█████▌    | 27209/48845 [9:38:07<7:50:22,  1.30s/it] 56%|█████▌    | 27210/48845 [9:38:08<7:45:49,  1.29s/it]                                                         {'loss': 2.1188, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27210/48845 [9:38:08<7:45:49,  1.29s/it] 56%|█████▌    | 27211/48845 [9:38:10<7:42:26,  1.28s/it] 56%|█████▌    | 27212/48845 [9:38:11<7:40:12,  1.28s/it] 56%|█████▌    | 27213/48845 [9:38:12<7:38:21,  1.27s/it] 56%|█████▌    | 27214/48845 [9:38:14<7:37:10,  1.27s/it] 56%|█████▌    | 27215/48845 [9:38:15<7:36:10,  1.27s/it]                                                         {'loss': 2.2302, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27215/48845 [9:38:15<7:36:10,  1.27s/it] 56%|█████▌    | 27216/48845 [9:38:16<7:35:54,  1.26s/it] 56%|█████▌    | 27217/48845 [9:38:17<7:35:20,  1.26s/it] 56%|█████▌    | 27218/48845 [9:38:19<7:35:09,  1.26s/it] 56%|█████▌    | 27219/48845 [9:38:20<7:34:55,  1.26s/it] 56%|█████▌    | 27220/48845 [9:38:21<7:34:32,  1.26s/it]                                                         {'loss': 1.9819, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27220/48845 [9:38:21<7:34:32,  1.26s/it] 56%|█████▌    | 27221/48845 [9:38:22<7:34:25,  1.26s/it] 56%|█████▌    | 27222/48845 [9:38:24<7:34:42,  1.26s/it] 56%|█████▌    | 27223/48845 [9:38:25<7:34:46,  1.26s/it] 56%|█████▌    | 27224/48845 [9:38:26<7:34:31,  1.26s/it] 56%|█████▌    | 27225/48845 [9:38:27<7:33:32,  1.26s/it]                                                         {'loss': 2.1504, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27225/48845 [9:38:27<7:33:32,  1.26s/it] 56%|█████▌    | 27226/48845 [9:38:29<7:33:31,  1.26s/it] 56%|█████▌    | 27227/48845 [9:38:30<7:33:53,  1.26s/it] 56%|█████▌    | 27228/48845 [9:38:31<7:33:34,  1.26s/it] 56%|█████▌    | 27229/48845 [9:38:32<7:33:39,  1.26s/it] 56%|█████▌    | 27230/48845 [9:38:34<7:33:31,  1.26s/it]                                                         {'loss': 2.0235, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27230/48845 [9:38:34<7:33:31,  1.26s/it] 56%|█████▌    | 27231/48845 [9:38:35<7:33:40,  1.26s/it] 56%|█████▌    | 27232/48845 [9:38:36<7:33:33,  1.26s/it] 56%|█████▌    | 27233/48845 [9:38:37<7:33:29,  1.26s/it] 56%|█████▌    | 27234/48845 [9:38:39<7:33:32,  1.26s/it] 56%|█████▌    | 27235/48845 [9:38:40<7:33:25,  1.26s/it]                                                         {'loss': 2.0463, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27235/48845 [9:38:40<7:33:25,  1.26s/it] 56%|█████▌    | 27236/48845 [9:38:41<7:33:41,  1.26s/it] 56%|█████▌    | 27237/48845 [9:38:42<7:34:06,  1.26s/it] 56%|█████▌    | 27238/48845 [9:38:44<7:33:25,  1.26s/it] 56%|█████▌    | 27239/48845 [9:38:45<7:33:22,  1.26s/it] 56%|█████▌    | 27240/48845 [9:38:46<7:33:26,  1.26s/it]                                                         {'loss': 2.1355, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27240/48845 [9:38:46<7:33:26,  1.26s/it] 56%|█████▌    | 27241/48845 [9:38:48<7:33:28,  1.26s/it] 56%|█████▌    | 27242/48845 [9:38:49<7:33:24,  1.26s/it] 56%|█████▌    | 27243/48845 [9:38:50<7:33:27,  1.26s/it] 56%|█████▌    | 27244/48845 [9:38:51<7:33:07,  1.26s/it] 56%|█████▌    | 27245/48845 [9:38:53<7:32:51,  1.26s/it]                                                         {'loss': 2.0135, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27245/48845 [9:38:53<7:32:51,  1.26s/it] 56%|█████▌    | 27246/48845 [9:38:54<7:33:22,  1.26s/it] 56%|█████▌    | 27247/48845 [9:38:55<7:33:32,  1.26s/it] 56%|█████▌    | 27248/48845 [9:38:56<7:33:42,  1.26s/it] 56%|█████▌    | 27249/48845 [9:38:58<7:33:45,  1.26s/it] 56%|█████▌    | 27250/48845 [9:38:59<7:33:45,  1.26s/it]                                                         {'loss': 2.0473, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27250/48845 [9:38:59<7:33:45,  1.26s/it] 56%|█████▌    | 27251/48845 [9:39:00<7:34:02,  1.26s/it] 56%|█████▌    | 27252/48845 [9:39:01<7:34:23,  1.26s/it] 56%|█████▌    | 27253/48845 [9:39:03<7:34:15,  1.26s/it] 56%|█████▌    | 27254/48845 [9:39:04<7:34:08,  1.26s/it] 56%|█████▌    | 27255/48845 [9:39:05<7:34:13,  1.26s/it]                                                         {'loss': 2.1694, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27255/48845 [9:39:05<7:34:13,  1.26s/it] 56%|█████▌    | 27256/48845 [9:39:06<7:33:59,  1.26s/it] 56%|█████▌    | 27257/48845 [9:39:08<7:33:33,  1.26s/it] 56%|█████▌    | 27258/48845 [9:39:09<7:33:31,  1.26s/it] 56%|█████▌    | 27259/48845 [9:39:10<7:33:20,  1.26s/it] 56%|█████▌    | 27260/48845 [9:39:11<7:32:57,  1.26s/it]                                                         {'loss': 2.0163, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27260/48845 [9:39:11<7:32:57,  1.26s/it] 56%|█████▌    | 27261/48845 [9:39:13<7:33:03,  1.26s/it] 56%|█████▌    | 27262/48845 [9:39:14<7:32:54,  1.26s/it] 56%|█████▌    | 27263/48845 [9:39:15<7:33:01,  1.26s/it] 56%|█████▌    | 27264/48845 [9:39:17<7:32:59,  1.26s/it] 56%|█████▌    | 27265/48845 [9:39:18<7:33:08,  1.26s/it]                                                         {'loss': 1.9977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27265/48845 [9:39:18<7:33:08,  1.26s/it] 56%|█████▌    | 27266/48845 [9:39:19<7:33:12,  1.26s/it] 56%|█████▌    | 27267/48845 [9:39:20<7:33:20,  1.26s/it] 56%|█████▌    | 27268/48845 [9:39:22<7:33:00,  1.26s/it] 56%|█████▌    | 27269/48845 [9:39:23<7:32:53,  1.26s/it] 56%|█████▌    | 27270/48845 [9:39:24<7:33:20,  1.26s/it]                                                         {'loss': 2.008, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27270/48845 [9:39:24<7:33:20,  1.26s/it] 56%|█████▌    | 27271/48845 [9:39:25<7:33:02,  1.26s/it] 56%|█████▌    | 27272/48845 [9:39:27<7:33:03,  1.26s/it] 56%|█████▌    | 27273/48845 [9:39:28<7:33:25,  1.26s/it] 56%|█████▌    | 27274/48845 [9:39:29<7:32:55,  1.26s/it] 56%|█████▌    | 27275/48845 [9:39:30<7:32:59,  1.26s/it]                                                         {'loss': 2.1428, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27275/48845 [9:39:30<7:32:59,  1.26s/it] 56%|█████▌    | 27276/48845 [9:39:32<7:32:46,  1.26s/it] 56%|█████▌    | 27277/48845 [9:39:33<7:32:36,  1.26s/it] 56%|█████▌    | 27278/48845 [9:39:34<7:32:38,  1.26s/it] 56%|█████▌    | 27279/48845 [9:39:35<7:32:30,  1.26s/it] 56%|█████▌    | 27280/48845 [9:39:37<7:32:30,  1.26s/it]                                                         {'loss': 2.0741, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27280/48845 [9:39:37<7:32:30,  1.26s/it] 56%|█████▌    | 27281/48845 [9:39:38<7:32:41,  1.26s/it] 56%|█████▌    | 27282/48845 [9:39:39<7:32:35,  1.26s/it] 56%|█████▌    | 27283/48845 [9:39:40<7:32:27,  1.26s/it] 56%|█████▌    | 27284/48845 [9:39:42<7:32:26,  1.26s/it] 56%|█████▌    | 27285/48845 [9:39:43<7:32:21,  1.26s/it]                                                         {'loss': 2.0282, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27285/48845 [9:39:43<7:32:21,  1.26s/it] 56%|█████▌    | 27286/48845 [9:39:44<7:32:34,  1.26s/it] 56%|█████▌    | 27287/48845 [9:39:45<7:32:37,  1.26s/it] 56%|█████▌    | 27288/48845 [9:39:47<7:32:44,  1.26s/it] 56%|█████▌    | 27289/48845 [9:39:48<7:32:38,  1.26s/it] 56%|█████▌    | 27290/48845 [9:39:49<7:32:55,  1.26s/it]                                                         {'loss': 2.0969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27290/48845 [9:39:49<7:32:55,  1.26s/it] 56%|█████▌    | 27291/48845 [9:39:51<7:33:02,  1.26s/it] 56%|█████▌    | 27292/48845 [9:39:52<7:32:33,  1.26s/it] 56%|█████▌    | 27293/48845 [9:39:53<7:32:17,  1.26s/it] 56%|█████▌    | 27294/48845 [9:39:54<7:32:33,  1.26s/it] 56%|█████▌    | 27295/48845 [9:39:56<7:33:07,  1.26s/it]                                                         {'loss': 2.1017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27295/48845 [9:39:56<7:33:07,  1.26s/it] 56%|█████▌    | 27296/48845 [9:39:57<7:32:39,  1.26s/it] 56%|█████▌    | 27297/48845 [9:39:58<7:33:25,  1.26s/it] 56%|█████▌    | 27298/48845 [9:39:59<7:33:17,  1.26s/it] 56%|█████▌    | 27299/48845 [9:40:01<7:33:08,  1.26s/it] 56%|█████▌    | 27300/48845 [9:40:02<7:33:02,  1.26s/it]                                                         {'loss': 2.0933, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.79}
+ 56%|█████▌    | 27300/48845 [9:40:02<7:33:02,  1.26s/it] 56%|█████▌    | 27301/48845 [9:40:03<7:32:56,  1.26s/it] 56%|█████▌    | 27302/48845 [9:40:04<7:32:38,  1.26s/it] 56%|█████▌    | 27303/48845 [9:40:06<7:32:37,  1.26s/it] 56%|█████▌    | 27304/48845 [9:40:07<7:32:15,  1.26s/it] 56%|█████▌    | 27305/48845 [9:40:08<7:32:18,  1.26s/it]                                                         {'loss': 1.9127, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27305/48845 [9:40:08<7:32:18,  1.26s/it] 56%|█████▌    | 27306/48845 [9:40:09<7:32:24,  1.26s/it] 56%|█████▌    | 27307/48845 [9:40:11<7:32:23,  1.26s/it] 56%|█████▌    | 27308/48845 [9:40:12<7:32:18,  1.26s/it] 56%|█████▌    | 27309/48845 [9:40:13<7:32:11,  1.26s/it] 56%|█████▌    | 27310/48845 [9:40:14<7:32:40,  1.26s/it]                                                         {'loss': 2.0197, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27310/48845 [9:40:14<7:32:40,  1.26s/it] 56%|█████▌    | 27311/48845 [9:40:16<7:33:05,  1.26s/it] 56%|█████▌    | 27312/48845 [9:40:17<7:32:23,  1.26s/it] 56%|█████▌    | 27313/48845 [9:40:18<7:32:23,  1.26s/it] 56%|█████▌    | 27314/48845 [9:40:20<7:32:27,  1.26s/it] 56%|█████▌    | 27315/48845 [9:40:21<7:32:36,  1.26s/it]                                                         {'loss': 2.0451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27315/48845 [9:40:21<7:32:36,  1.26s/it] 56%|█████▌    | 27316/48845 [9:40:22<7:32:19,  1.26s/it] 56%|█████▌    | 27317/48845 [9:40:23<7:32:27,  1.26s/it] 56%|█████▌    | 27318/48845 [9:40:25<7:33:21,  1.26s/it] 56%|█████▌    | 27319/48845 [9:40:26<7:32:29,  1.26s/it] 56%|█████▌    | 27320/48845 [9:40:27<7:32:06,  1.26s/it]                                                         {'loss': 2.0995, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27320/48845 [9:40:27<7:32:06,  1.26s/it] 56%|█████▌    | 27321/48845 [9:40:28<7:31:58,  1.26s/it] 56%|█████▌    | 27322/48845 [9:40:30<7:31:53,  1.26s/it] 56%|█████▌    | 27323/48845 [9:40:31<7:31:42,  1.26s/it] 56%|█████▌    | 27324/48845 [9:40:32<7:31:28,  1.26s/it] 56%|█████▌    | 27325/48845 [9:40:33<7:31:33,  1.26s/it]                                                         {'loss': 1.8662, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27325/48845 [9:40:33<7:31:33,  1.26s/it] 56%|█████▌    | 27326/48845 [9:40:35<7:31:55,  1.26s/it] 56%|█████▌    | 27327/48845 [9:40:36<7:31:48,  1.26s/it] 56%|█████▌    | 27328/48845 [9:40:37<7:31:49,  1.26s/it] 56%|█████▌    | 27329/48845 [9:40:38<7:32:07,  1.26s/it] 56%|█████▌    | 27330/48845 [9:40:40<7:31:45,  1.26s/it]                                                         {'loss': 2.1352, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27330/48845 [9:40:40<7:31:45,  1.26s/it] 56%|█████▌    | 27331/48845 [9:40:41<7:31:43,  1.26s/it] 56%|█████▌    | 27332/48845 [9:40:42<7:31:36,  1.26s/it] 56%|█████▌    | 27333/48845 [9:40:43<7:32:29,  1.26s/it] 56%|█████▌    | 27334/48845 [9:40:45<7:32:15,  1.26s/it] 56%|█████▌    | 27335/48845 [9:40:46<7:32:13,  1.26s/it]                                                         {'loss': 2.0405, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27335/48845 [9:40:46<7:32:13,  1.26s/it] 56%|█████▌    | 27336/48845 [9:40:47<7:32:59,  1.26s/it] 56%|█████▌    | 27337/48845 [9:40:49<7:32:34,  1.26s/it] 56%|█████▌    | 27338/48845 [9:40:50<7:33:32,  1.27s/it] 56%|█████▌    | 27339/48845 [9:40:51<7:33:32,  1.27s/it] 56%|█████▌    | 27340/48845 [9:40:52<7:33:28,  1.27s/it]                                                         {'loss': 2.076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27340/48845 [9:40:52<7:33:28,  1.27s/it] 56%|█████▌    | 27341/48845 [9:40:54<7:33:07,  1.26s/it] 56%|█████▌    | 27342/48845 [9:40:55<7:32:47,  1.26s/it] 56%|█████▌    | 27343/48845 [9:40:56<7:32:45,  1.26s/it] 56%|█████▌    | 27344/48845 [9:40:57<7:32:23,  1.26s/it] 56%|█████▌    | 27345/48845 [9:40:59<7:33:08,  1.26s/it]                                                         {'loss': 2.1872, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27345/48845 [9:40:59<7:33:08,  1.26s/it] 56%|█████▌    | 27346/48845 [9:41:00<7:33:13,  1.26s/it] 56%|█████▌    | 27347/48845 [9:41:01<7:33:23,  1.27s/it] 56%|█████▌    | 27348/48845 [9:41:02<7:33:10,  1.26s/it] 56%|█████▌    | 27349/48845 [9:41:04<7:32:40,  1.26s/it] 56%|█████▌    | 27350/48845 [9:41:05<7:32:24,  1.26s/it]                                                         {'loss': 2.1183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27350/48845 [9:41:05<7:32:24,  1.26s/it] 56%|█████▌    | 27351/48845 [9:41:06<7:31:58,  1.26s/it] 56%|█████▌    | 27352/48845 [9:41:07<7:31:46,  1.26s/it] 56%|█████▌    | 27353/48845 [9:41:09<7:31:53,  1.26s/it] 56%|█████▌    | 27354/48845 [9:41:10<7:31:52,  1.26s/it] 56%|█████▌    | 27355/48845 [9:41:11<7:31:53,  1.26s/it]                                                         {'loss': 1.9553, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27355/48845 [9:41:11<7:31:53,  1.26s/it] 56%|█████▌    | 27356/48845 [9:41:13<7:32:10,  1.26s/it] 56%|█████▌    | 27357/48845 [9:41:14<7:31:56,  1.26s/it] 56%|█████▌    | 27358/48845 [9:41:15<7:31:42,  1.26s/it] 56%|█████▌    | 27359/48845 [9:41:16<7:31:48,  1.26s/it] 56%|█████▌    | 27360/48845 [9:41:18<7:31:46,  1.26s/it]                                                         {'loss': 1.9654, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27360/48845 [9:41:18<7:31:46,  1.26s/it] 56%|█████▌    | 27361/48845 [9:41:19<7:31:56,  1.26s/it] 56%|█████▌    | 27362/48845 [9:41:20<7:31:52,  1.26s/it] 56%|█████▌    | 27363/48845 [9:41:21<7:31:43,  1.26s/it] 56%|█████▌    | 27364/48845 [9:41:23<7:31:28,  1.26s/it] 56%|█████▌    | 27365/48845 [9:41:24<7:31:15,  1.26s/it]                                                         {'loss': 2.1763, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27365/48845 [9:41:24<7:31:15,  1.26s/it] 56%|█████▌    | 27366/48845 [9:41:25<7:32:04,  1.26s/it] 56%|█████▌    | 27367/48845 [9:41:26<7:32:07,  1.26s/it] 56%|█████▌    | 27368/48845 [9:41:28<7:31:40,  1.26s/it] 56%|█████▌    | 27369/48845 [9:41:29<7:31:30,  1.26s/it] 56%|█████▌    | 27370/48845 [9:41:30<7:31:23,  1.26s/it]                                                         {'loss': 2.1125, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27370/48845 [9:41:30<7:31:23,  1.26s/it] 56%|█████▌    | 27371/48845 [9:41:31<7:31:29,  1.26s/it] 56%|█████▌    | 27372/48845 [9:41:33<7:31:42,  1.26s/it] 56%|█████▌    | 27373/48845 [9:41:34<7:31:14,  1.26s/it] 56%|█████▌    | 27374/48845 [9:41:35<7:31:53,  1.26s/it] 56%|█████▌    | 27375/48845 [9:41:37<7:31:16,  1.26s/it]                                                         {'loss': 2.002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27375/48845 [9:41:37<7:31:16,  1.26s/it] 56%|█████▌    | 27376/48845 [9:41:38<7:31:38,  1.26s/it] 56%|█████▌    | 27377/48845 [9:41:39<7:32:01,  1.26s/it] 56%|█████▌    | 27378/48845 [9:41:40<7:31:31,  1.26s/it] 56%|█████▌    | 27379/48845 [9:41:42<7:31:17,  1.26s/it] 56%|█████▌    | 27380/48845 [9:41:43<7:31:12,  1.26s/it]                                                         {'loss': 2.0108, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27380/48845 [9:41:43<7:31:12,  1.26s/it] 56%|█████▌    | 27381/48845 [9:41:44<7:32:41,  1.27s/it] 56%|█████▌    | 27382/48845 [9:41:45<7:32:11,  1.26s/it] 56%|█████▌    | 27383/48845 [9:41:47<7:31:44,  1.26s/it] 56%|█████▌    | 27384/48845 [9:41:48<7:31:48,  1.26s/it] 56%|█████▌    | 27385/48845 [9:41:49<7:31:27,  1.26s/it]                                                         {'loss': 1.96, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27385/48845 [9:41:49<7:31:27,  1.26s/it] 56%|█████▌    | 27386/48845 [9:41:50<7:32:10,  1.26s/it] 56%|█████▌    | 27387/48845 [9:41:52<7:31:44,  1.26s/it] 56%|█████▌    | 27388/48845 [9:41:53<7:31:49,  1.26s/it] 56%|█████▌    | 27389/48845 [9:41:54<7:32:28,  1.27s/it] 56%|█████▌    | 27390/48845 [9:41:55<7:32:06,  1.26s/it]                                                         {'loss': 1.9575, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27390/48845 [9:41:55<7:32:06,  1.26s/it] 56%|█████▌    | 27391/48845 [9:41:57<7:32:18,  1.26s/it] 56%|█████▌    | 27392/48845 [9:41:58<7:31:47,  1.26s/it] 56%|█████▌    | 27393/48845 [9:41:59<7:31:21,  1.26s/it] 56%|█████▌    | 27394/48845 [9:42:01<7:31:05,  1.26s/it] 56%|█████▌    | 27395/48845 [9:42:02<7:30:51,  1.26s/it]                                                         {'loss': 2.1619, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27395/48845 [9:42:02<7:30:51,  1.26s/it] 56%|█████▌    | 27396/48845 [9:42:03<7:31:07,  1.26s/it] 56%|█████▌    | 27397/48845 [9:42:04<7:30:49,  1.26s/it] 56%|█████▌    | 27398/48845 [9:42:06<7:31:12,  1.26s/it] 56%|█████▌    | 27399/48845 [9:42:07<7:31:22,  1.26s/it] 56%|█████▌    | 27400/48845 [9:42:08<7:31:15,  1.26s/it]                                                         {'loss': 2.0417, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.8}
+ 56%|█████▌    | 27400/48845 [9:42:08<7:31:15,  1.26s/it] 56%|█████▌    | 27401/48845 [9:42:12<11:53:59,  2.00s/it] 56%|█████▌    | 27402/48845 [9:42:13<10:34:47,  1.78s/it] 56%|█████▌    | 27403/48845 [9:42:14<9:39:49,  1.62s/it]  56%|█████▌    | 27404/48845 [9:42:16<9:01:35,  1.52s/it] 56%|█████▌    | 27405/48845 [9:42:17<8:33:48,  1.44s/it]                                                         {'loss': 1.921, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27405/48845 [9:42:17<8:33:48,  1.44s/it] 56%|█████▌    | 27406/48845 [9:42:18<8:15:13,  1.39s/it] 56%|█████▌    | 27407/48845 [9:42:19<8:01:46,  1.35s/it] 56%|█��███▌    | 27408/48845 [9:42:21<7:52:36,  1.32s/it] 56%|█████▌    | 27409/48845 [9:42:22<7:45:56,  1.30s/it] 56%|█████▌    | 27410/48845 [9:42:23<7:41:17,  1.29s/it]                                                         {'loss': 2.081, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27410/48845 [9:42:23<7:41:17,  1.29s/it] 56%|█████▌    | 27411/48845 [9:42:24<7:38:38,  1.28s/it] 56%|█████▌    | 27412/48845 [9:42:26<7:36:40,  1.28s/it] 56%|█████▌    | 27413/48845 [9:42:27<7:35:07,  1.27s/it] 56%|█████▌    | 27414/48845 [9:42:28<7:33:43,  1.27s/it] 56%|█████▌    | 27415/48845 [9:42:29<7:32:59,  1.27s/it]                                                         {'loss': 2.0421, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27415/48845 [9:42:29<7:32:59,  1.27s/it] 56%|█████▌    | 27416/48845 [9:42:31<7:32:16,  1.27s/it] 56%|█████▌    | 27417/48845 [9:42:32<7:31:31,  1.26s/it] 56%|█████▌    | 27418/48845 [9:42:33<7:31:05,  1.26s/it] 56%|█████▌    | 27419/48845 [9:42:35<7:31:20,  1.26s/it] 56%|█████▌    | 27420/48845 [9:42:36<7:31:02,  1.26s/it]                                                         {'loss': 2.1588, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27420/48845 [9:42:36<7:31:02,  1.26s/it] 56%|█████▌    | 27421/48845 [9:42:37<7:30:48,  1.26s/it] 56%|█████▌    | 27422/48845 [9:42:38<7:30:38,  1.26s/it] 56%|█████▌    | 27423/48845 [9:42:40<7:30:19,  1.26s/it] 56%|█████▌    | 27424/48845 [9:42:41<7:30:16,  1.26s/it] 56%|█████▌    | 27425/48845 [9:42:42<7:29:57,  1.26s/it]                                                         {'loss': 2.0174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27425/48845 [9:42:42<7:29:57,  1.26s/it] 56%|█████▌    | 27426/48845 [9:42:43<7:30:30,  1.26s/it] 56%|█████▌    | 27427/48845 [9:42:45<7:30:35,  1.26s/it] 56%|█████▌    | 27428/48845 [9:42:46<7:30:26,  1.26s/it] 56%|█████▌    | 27429/48845 [9:42:47<7:30:11,  1.26s/it] 56%|█████▌    | 27430/48845 [9:42:48<7:30:02,  1.26s/it]                                                         {'loss': 1.9784, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27430/48845 [9:42:48<7:30:02,  1.26s/it] 56%|█████▌    | 27431/48845 [9:42:50<7:29:50,  1.26s/it] 56%|█████▌    | 27432/48845 [9:42:51<7:29:55,  1.26s/it] 56%|█████▌    | 27433/48845 [9:42:52<7:29:45,  1.26s/it] 56%|█████▌    | 27434/48845 [9:42:53<7:29:36,  1.26s/it] 56%|█████▌    | 27435/48845 [9:42:55<7:29:40,  1.26s/it]                                                         {'loss': 2.0462, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27435/48845 [9:42:55<7:29:40,  1.26s/it] 56%|█████▌    | 27436/48845 [9:42:56<7:29:48,  1.26s/it] 56%|█████▌    | 27437/48845 [9:42:57<7:29:43,  1.26s/it] 56%|█████▌    | 27438/48845 [9:42:58<7:29:38,  1.26s/it] 56%|█████▌    | 27439/48845 [9:43:00<7:32:31,  1.27s/it] 56%|█████▌    | 27440/48845 [9:43:01<7:32:03,  1.27s/it]                                                         {'loss': 2.0077, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27440/48845 [9:43:01<7:32:03,  1.27s/it] 56%|█████▌    | 27441/48845 [9:43:02<7:31:32,  1.27s/it] 56%|█████▌    | 27442/48845 [9:43:04<7:30:59,  1.26s/it] 56%|█████▌    | 27443/48845 [9:43:05<7:30:25,  1.26s/it] 56%|█████▌    | 27444/48845 [9:43:06<7:30:01,  1.26s/it] 56%|█████▌    | 27445/48845 [9:43:07<7:30:40,  1.26s/it]                                                         {'loss': 2.1513, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27445/48845 [9:43:07<7:30:40,  1.26s/it] 56%|█████▌    | 27446/48845 [9:43:09<7:31:29,  1.27s/it] 56%|█████▌    | 27447/48845 [9:43:10<7:31:22,  1.27s/it] 56%|█████▌    | 27448/48845 [9:43:11<7:31:06,  1.26s/it] 56%|█████▌    | 27449/48845 [9:43:12<7:30:26,  1.26s/it] 56%|█████▌    | 27450/48845 [9:43:14<7:29:42,  1.26s/it]                                                         {'loss': 1.9818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27450/48845 [9:43:14<7:29:42,  1.26s/it] 56%|█████▌    | 27451/48845 [9:43:15<7:29:30,  1.26s/it] 56%|█████▌    | 27452/48845 [9:43:16<7:29:45,  1.26s/it] 56%|█████▌    | 27453/48845 [9:43:17<7:29:45,  1.26s/it] 56%|█████▌    | 27454/48845 [9:43:19<7:30:23,  1.26s/it] 56%|█████▌    | 27455/48845 [9:43:20<7:30:08,  1.26s/it]                                                         {'loss': 1.9424, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27455/48845 [9:43:20<7:30:08,  1.26s/it] 56%|█████▌    | 27456/48845 [9:43:21<7:29:52,  1.26s/it] 56%|█████▌    | 27457/48845 [9:43:22<7:29:37,  1.26s/it] 56%|█████▌    | 27458/48845 [9:43:24<7:29:33,  1.26s/it] 56%|█████▌    | 27459/48845 [9:43:25<7:29:33,  1.26s/it] 56%|█████▌    | 27460/48845 [9:43:26<7:29:06,  1.26s/it]                                                         {'loss': 2.058, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27460/48845 [9:43:26<7:29:06,  1.26s/it] 56%|█████▌    | 27461/48845 [9:43:28<7:29:27,  1.26s/it] 56%|█████▌    | 27462/48845 [9:43:29<7:30:19,  1.26s/it] 56%|█████▌    | 27463/48845 [9:43:30<7:30:23,  1.26s/it] 56%|█████▌    | 27464/48845 [9:43:31<7:30:16,  1.26s/it] 56%|█████▌    | 27465/48845 [9:43:33<7:29:50,  1.26s/it]                                                         {'loss': 2.0508, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27465/48845 [9:43:33<7:29:50,  1.26s/it] 56%|█████▌    | 27466/48845 [9:43:34<7:29:48,  1.26s/it] 56%|█████▌    | 27467/48845 [9:43:35<7:29:35,  1.26s/it] 56%|█████▌    | 27468/48845 [9:43:36<7:29:25,  1.26s/it] 56%|█████▌    | 27469/48845 [9:43:38<7:29:26,  1.26s/it] 56%|█████▌    | 27470/48845 [9:43:39<7:29:33,  1.26s/it]                                                         {'loss': 1.9445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27470/48845 [9:43:39<7:29:33,  1.26s/it] 56%|█████▌    | 27471/48845 [9:43:40<7:29:49,  1.26s/it] 56%|█████▌    | 27472/48845 [9:43:41<7:29:47,  1.26s/it] 56%|█████▌    | 27473/48845 [9:43:43<7:29:50,  1.26s/it] 56%|█████▌    | 27474/48845 [9:43:44<7:29:27,  1.26s/it] 56%|█████▌    | 27475/48845 [9:43:45<7:29:29,  1.26s/it]                                                         {'loss': 1.9893, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▌    | 27475/48845 [9:43:45<7:29:29,  1.26s/it] 56%|█████▋    | 27476/48845 [9:43:46<7:30:05,  1.26s/it] 56%|█████▋    | 27477/48845 [9:43:48<7:29:55,  1.26s/it] 56%|█████▋    | 27478/48845 [9:43:49<7:30:01,  1.26s/it] 56%|█████▋    | 27479/48845 [9:43:50<7:29:21,  1.26s/it] 56%|█████▋    | 27480/48845 [9:43:52<7:29:37,  1.26s/it]                                                         {'loss': 2.102, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▋    | 27480/48845 [9:43:52<7:29:37,  1.26s/it] 56%|█████▋    | 27481/48845 [9:43:53<7:29:23,  1.26s/it] 56%|█████▋    | 27482/48845 [9:43:54<7:29:17,  1.26s/it] 56%|█████▋    | 27483/48845 [9:43:55<7:29:08,  1.26s/it] 56%|█████▋    | 27484/48845 [9:43:57<7:29:23,  1.26s/it] 56%|█████▋    | 27485/48845 [9:43:58<7:29:11,  1.26s/it]                                                         {'loss': 1.9712, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▋    | 27485/48845 [9:43:58<7:29:11,  1.26s/it] 56%|█████▋    | 27486/48845 [9:43:59<7:29:23,  1.26s/it] 56%|█████▋    | 27487/48845 [9:44:00<7:29:09,  1.26s/it] 56%|█████▋    | 27488/48845 [9:44:02<7:29:14,  1.26s/it] 56%|█████▋    | 27489/48845 [9:44:03<7:28:52,  1.26s/it] 56%|█████▋    | 27490/48845 [9:44:04<7:28:27,  1.26s/it]                                                         {'loss': 2.1689, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▋    | 27490/48845 [9:44:04<7:28:27,  1.26s/it] 56%|█████▋    | 27491/48845 [9:44:05<7:28:56,  1.26s/it] 56%|█████▋    | 27492/48845 [9:44:07<7:35:10,  1.28s/it] 56%|█████▋    | 27493/48845 [9:44:08<7:33:06,  1.27s/it] 56%|█████▋    | 27494/48845 [9:44:09<7:31:48,  1.27s/it] 56%|█████▋    | 27495/48845 [9:44:10<7:30:50,  1.27s/it]                                                         {'loss': 1.928, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.81}
+ 56%|█████▋    | 27495/48845 [9:44:10<7:30:50,  1.27s/it] 56%|█████▋    | 27496/48845 [9:44:12<7:30:42,  1.27s/it] 56%|█████▋    | 27497/48845 [9:44:13<7:30:03,  1.26s/it] 56%|█████▋    | 27498/48845 [9:44:14<7:29:41,  1.26s/it] 56%|█████▋    | 27499/48845 [9:44:16<7:29:06,  1.26s/it] 56%|█████▋    | 27500/48845 [9:44:17<7:28:43,  1.26s/it]                                                         {'loss': 2.1451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27500/48845 [9:44:17<7:28:43,  1.26s/it] 56%|█████▋    | 27501/48845 [9:44:18<7:28:32,  1.26s/it] 56%|█████▋    | 27502/48845 [9:44:19<7:28:39,  1.26s/it] 56%|█████▋    | 27503/48845 [9:44:21<7:28:44,  1.26s/it] 56%|█████▋    | 27504/48845 [9:44:22<7:29:07,  1.26s/it] 56%|█████▋    | 27505/48845 [9:44:23<7:28:40,  1.26s/it]                                                         {'loss': 1.9235, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27505/48845 [9:44:23<7:28:40,  1.26s/it] 56%|█████▋    | 27506/48845 [9:44:24<7:28:34,  1.26s/it] 56%|█████▋    | 27507/48845 [9:44:26<7:28:12,  1.26s/it] 56%|█████▋    | 27508/48845 [9:44:27<7:28:16,  1.26s/it] 56%|█████▋    | 27509/48845 [9:44:28<7:28:03,  1.26s/it] 56%|█████▋    | 27510/48845 [9:44:29<7:28:00,  1.26s/it]                                                         {'loss': 1.9282, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27510/48845 [9:44:29<7:28:00,  1.26s/it] 56%|█████▋    | 27511/48845 [9:44:31<7:28:00,  1.26s/it] 56%|█████▋    | 27512/48845 [9:44:32<7:28:00,  1.26s/it] 56%|█████▋    | 27513/48845 [9:44:33<7:28:37,  1.26s/it] 56%|█████▋    | 27514/48845 [9:44:34<7:28:21,  1.26s/it] 56%|█████▋    | 27515/48845 [9:44:36<7:27:57,  1.26s/it]                                                         {'loss': 2.154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27515/48845 [9:44:36<7:27:57,  1.26s/it] 56%|█████▋    | 27516/48845 [9:44:37<7:27:58,  1.26s/it] 56%|█████▋    | 27517/48845 [9:44:38<7:27:59,  1.26s/it] 56%|█████▋    | 27518/48845 [9:44:39<7:28:04,  1.26s/it] 56%|█████▋    | 27519/48845 [9:44:41<7:28:04,  1.26s/it] 56%|█████▋    | 27520/48845 [9:44:42<7:28:03,  1.26s/it]                                                         {'loss': 2.0571, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27520/48845 [9:44:42<7:28:03,  1.26s/it] 56%|█████▋    | 27521/48845 [9:44:43<7:28:15,  1.26s/it] 56%|█████▋    | 27522/48845 [9:44:45<7:28:08,  1.26s/it] 56%|█████▋    | 27523/48845 [9:44:46<7:28:21,  1.26s/it] 56%|█████▋    | 27524/48845 [9:44:47<7:28:39,  1.26s/it] 56%|█████▋    | 27525/48845 [9:44:48<7:28:46,  1.26s/it]                                                         {'loss': 1.859, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27525/48845 [9:44:48<7:28:46,  1.26s/it] 56%|█████▋    | 27526/48845 [9:44:50<7:28:36,  1.26s/it] 56%|█████▋    | 27527/48845 [9:44:51<7:28:07,  1.26s/it] 56%|█████▋    | 27528/48845 [9:44:52<7:27:50,  1.26s/it] 56%|█████▋    | 27529/48845 [9:44:53<7:28:48,  1.26s/it] 56%|█████▋    | 27530/48845 [9:44:55<7:28:33,  1.26s/it]                                                         {'loss': 1.9564, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27530/48845 [9:44:55<7:28:33,  1.26s/it] 56%|█████▋    | 27531/48845 [9:44:56<7:28:22,  1.26s/it] 56%|█████▋    | 27532/48845 [9:44:57<7:28:14,  1.26s/it] 56%|█████▋    | 27533/48845 [9:44:58<7:28:25,  1.26s/it] 56%|█████▋    | 27534/48845 [9:45:00<7:28:22,  1.26s/it] 56%|█████▋    | 27535/48845 [9:45:01<7:28:10,  1.26s/it]                                                         {'loss': 2.0728, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27535/48845 [9:45:01<7:28:10,  1.26s/it] 56%|█████▋    | 27536/48845 [9:45:02<7:28:00,  1.26s/it] 56%|█████▋    | 27537/48845 [9:45:03<7:27:44,  1.26s/it] 56%|█████▋    | 27538/48845 [9:45:05<7:27:28,  1.26s/it] 56%|█████▋    | 27539/48845 [9:45:06<7:27:18,  1.26s/it] 56%|█████▋    | 27540/48845 [9:45:07<7:27:26,  1.26s/it]                                                         {'loss': 1.9631, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27540/48845 [9:45:07<7:27:26,  1.26s/it] 56%|█████▋    | 27541/48845 [9:45:09<7:27:18,  1.26s/it] 56%|█████▋    | 27542/48845 [9:45:10<7:27:19,  1.26s/it] 56%|█████▋    | 27543/48845 [9:45:11<7:27:17,  1.26s/it] 56%|█████▋    | 27544/48845 [9:45:12<7:27:23,  1.26s/it] 56%|█████▋    | 27545/48845 [9:45:14<7:27:28,  1.26s/it]                                                         {'loss': 1.9944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27545/48845 [9:45:14<7:27:28,  1.26s/it] 56%|█████▋    | 27546/48845 [9:45:15<7:27:24,  1.26s/it] 56%|█████▋    | 27547/48845 [9:45:16<7:27:07,  1.26s/it] 56%|█████▋    | 27548/48845 [9:45:17<7:26:50,  1.26s/it] 56%|█████▋    | 27549/48845 [9:45:19<7:26:47,  1.26s/it] 56%|█████▋    | 27550/48845 [9:45:20<7:26:50,  1.26s/it]                                                         {'loss': 2.0918, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27550/48845 [9:45:20<7:26:50,  1.26s/it] 56%|█████▋    | 27551/48845 [9:45:21<7:27:04,  1.26s/it] 56%|█████▋    | 27552/48845 [9:45:22<7:27:20,  1.26s/it] 56%|█████▋    | 27553/48845 [9:45:24<7:27:24,  1.26s/it] 56%|█████▋    | 27554/48845 [9:45:25<7:27:14,  1.26s/it] 56%|█████▋    | 27555/48845 [9:45:26<7:27:10,  1.26s/it]                                                         {'loss': 2.0405, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27555/48845 [9:45:26<7:27:10,  1.26s/it] 56%|█████▋    | 27556/48845 [9:45:27<7:27:41,  1.26s/it] 56%|█████▋    | 27557/48845 [9:45:29<7:28:05,  1.26s/it] 56%|█████▋    | 27558/48845 [9:45:30<7:27:39,  1.26s/it] 56%|█████▋    | 27559/48845 [9:45:31<7:27:40,  1.26s/it] 56%|█████▋    | 27560/48845 [9:45:32<7:27:41,  1.26s/it]                                                         {'loss': 2.0408, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27560/48845 [9:45:32<7:27:41,  1.26s/it] 56%|█████▋    | 27561/48845 [9:45:34<7:28:04,  1.26s/it] 56%|█████▋    | 27562/48845 [9:45:35<7:27:23,  1.26s/it] 56%|█████▋    | 27563/48845 [9:45:36<7:27:22,  1.26s/it] 56%|█████▋    | 27564/48845 [9:45:38<7:27:31,  1.26s/it] 56%|█████▋    | 27565/48845 [9:45:39<7:27:59,  1.26s/it]                                                         {'loss': 2.1002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27565/48845 [9:45:39<7:27:59,  1.26s/it] 56%|█████▋    | 27566/48845 [9:45:40<7:28:22,  1.26s/it] 56%|█████▋    | 27567/48845 [9:45:41<7:27:36,  1.26s/it] 56%|█████▋    | 27568/48845 [9:45:43<7:27:29,  1.26s/it] 56%|█████▋    | 27569/48845 [9:45:44<7:27:04,  1.26s/it] 56%|█████▋    | 27570/48845 [9:45:45<7:26:50,  1.26s/it]                                                         {'loss': 2.1357, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27570/48845 [9:45:45<7:26:50,  1.26s/it] 56%|█████▋    | 27571/48845 [9:45:46<7:27:14,  1.26s/it] 56%|█████▋    | 27572/48845 [9:45:48<7:27:09,  1.26s/it] 56%|█████▋    | 27573/48845 [9:45:49<7:26:58,  1.26s/it] 56%|█████▋    | 27574/48845 [9:45:50<7:26:38,  1.26s/it] 56%|█████▋    | 27575/48845 [9:45:51<7:26:33,  1.26s/it]                                                         {'loss': 2.0925, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27575/48845 [9:45:51<7:26:33,  1.26s/it] 56%|█████▋    | 27576/48845 [9:45:53<7:26:24,  1.26s/it] 56%|█████▋    | 27577/48845 [9:45:54<7:26:38,  1.26s/it] 56%|█████▋    | 27578/48845 [9:45:55<7:26:50,  1.26s/it] 56%|█████▋    | 27579/48845 [9:45:56<7:26:51,  1.26s/it] 56%|█████▋    | 27580/48845 [9:45:58<7:26:30,  1.26s/it]                                                         {'loss': 1.8919, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27580/48845 [9:45:58<7:26:30,  1.26s/it] 56%|█████▋    | 27581/48845 [9:45:59<7:27:11,  1.26s/it] 56%|█████▋    | 27582/48845 [9:46:00<7:27:14,  1.26s/it] 56%|█████▋    | 27583/48845 [9:46:01<7:27:23,  1.26s/it] 56%|█████▋    | 27584/48845 [9:46:03<7:26:47,  1.26s/it] 56%|█████▋    | 27585/48845 [9:46:04<7:26:43,  1.26s/it]                                                         {'loss': 1.9136, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27585/48845 [9:46:04<7:26:43,  1.26s/it] 56%|█████▋    | 27586/48845 [9:46:05<7:26:41,  1.26s/it] 56%|█████▋    | 27587/48845 [9:46:07<7:26:20,  1.26s/it] 56%|█████▋    | 27588/48845 [9:46:08<7:26:08,  1.26s/it] 56%|█████▋    | 27589/48845 [9:46:09<7:26:28,  1.26s/it] 56%|█████▋    | 27590/48845 [9:46:10<7:26:23,  1.26s/it]                                                         {'loss': 2.008, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27590/48845 [9:46:10<7:26:23,  1.26s/it] 56%|█████▋    | 27591/48845 [9:46:12<7:26:04,  1.26s/it] 56%|█████▋    | 27592/48845 [9:46:13<7:25:56,  1.26s/it] 56%|█████▋    | 27593/48845 [9:46:14<7:26:13,  1.26s/it] 56%|█████▋    | 27594/48845 [9:46:15<7:26:16,  1.26s/it] 56%|█████▋    | 27595/48845 [9:46:17<7:26:13,  1.26s/it]                                                         {'loss': 2.003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.82}
+ 56%|█████▋    | 27595/48845 [9:46:17<7:26:13,  1.26s/it] 56%|█████▋    | 27596/48845 [9:46:18<7:33:10,  1.28s/it] 56%|█████▋    | 27597/48845 [9:46:19<7:32:43,  1.28s/it] 57%|█████▋    | 27598/48845 [9:46:20<7:30:50,  1.27s/it] 57%|█████▋    | 27599/48845 [9:46:22<7:29:25,  1.27s/it] 57%|█████▋    | 27600/48845 [9:46:23<7:28:53,  1.27s/it]                                                         {'loss': 2.038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27600/48845 [9:46:23<7:28:53,  1.27s/it] 57%|█████▋    | 27601/48845 [9:46:27<11:56:52,  2.02s/it] 57%|█████▋    | 27602/48845 [9:46:28<10:35:41,  1.80s/it] 57%|█████▋    | 27603/48845 [9:46:29<9:38:34,  1.63s/it]  57%|█████▋    | 27604/48845 [9:46:31<8:59:25,  1.52s/it] 57%|█████▋    | 27605/48845 [9:46:32<8:31:22,  1.44s/it]                                                         {'loss': 2.0558, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27605/48845 [9:46:32<8:31:22,  1.44s/it] 57%|█████▋    | 27606/48845 [9:46:33<8:11:56,  1.39s/it] 57%|█████▋    | 27607/48845 [9:46:34<7:57:46,  1.35s/it] 57%|█████▋    | 27608/48845 [9:46:36<7:48:08,  1.32s/it] 57%|█████▋    | 27609/48845 [9:46:37<7:41:49,  1.30s/it] 57%|█████▋    | 27610/48845 [9:46:38<7:37:30,  1.29s/it]                                                         {'loss': 2.0339, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27610/48845 [9:46:38<7:37:30,  1.29s/it] 57%|█████▋    | 27611/48845 [9:46:39<7:34:18,  1.28s/it] 57%|█████▋    | 27612/48845 [9:46:41<7:32:28,  1.28s/it] 57%|█████▋    | 27613/48845 [9:46:42<7:29:51,  1.27s/it] 57%|█████▋    | 27614/48845 [9:46:43<7:28:39,  1.27s/it] 57%|█████▋    | 27615/48845 [9:46:44<7:27:57,  1.27s/it]                                                         {'loss': 2.024, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27615/48845 [9:46:44<7:27:57,  1.27s/it] 57%|█████▋    | 27616/48845 [9:46:46<7:27:35,  1.27s/it] 57%|█████▋    | 27617/48845 [9:46:47<7:27:16,  1.26s/it] 57%|█████▋    | 27618/48845 [9:46:48<7:26:55,  1.26s/it] 57%|█████▋    | 27619/48845 [9:46:49<7:26:29,  1.26s/it] 57%|█████▋    | 27620/48845 [9:46:51<7:26:56,  1.26s/it]                                                         {'loss': 1.876, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27620/48845 [9:46:51<7:26:56,  1.26s/it] 57%|█████▋    | 27621/48845 [9:46:52<7:27:26,  1.26s/it] 57%|█████▋    | 27622/48845 [9:46:53<7:26:52,  1.26s/it] 57%|█████▋    | 27623/48845 [9:46:55<7:28:02,  1.27s/it] 57%|█████▋    | 27624/48845 [9:46:56<7:27:18,  1.26s/it] 57%|█████▋    | 27625/48845 [9:46:57<7:27:34,  1.27s/it]                                                         {'loss': 2.0257, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27625/48845 [9:46:57<7:27:34,  1.27s/it] 57%|█████▋    | 27626/48845 [9:46:58<7:27:11,  1.26s/it] 57%|█████▋    | 27627/48845 [9:47:00<7:27:34,  1.27s/it] 57%|█████▋    | 27628/48845 [9:47:01<7:26:48,  1.26s/it] 57%|█████▋    | 27629/48845 [9:47:02<7:26:29,  1.26s/it] 57%|█████▋    | 27630/48845 [9:47:03<7:26:11,  1.26s/it]                                                         {'loss': 1.9438, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27630/48845 [9:47:03<7:26:11,  1.26s/it] 57%|█████▋    | 27631/48845 [9:47:05<7:27:04,  1.26s/it] 57%|█████▋    | 27632/48845 [9:47:06<7:26:24,  1.26s/it] 57%|█████▋    | 27633/48845 [9:47:07<7:26:43,  1.26s/it] 57%|█████▋    | 27634/48845 [9:47:08<7:26:24,  1.26s/it] 57%|█████▋    | 27635/48845 [9:47:10<7:26:21,  1.26s/it]                                                         {'loss': 2.0585, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27635/48845 [9:47:10<7:26:21,  1.26s/it] 57%|█████▋    | 27636/48845 [9:47:11<7:26:35,  1.26s/it] 57%|█████▋    | 27637/48845 [9:47:12<7:26:02,  1.26s/it] 57%|█████▋    | 27638/48845 [9:47:13<7:26:01,  1.26s/it] 57%|█████▋    | 27639/48845 [9:47:15<7:25:47,  1.26s/it] 57%|█████▋    | 27640/48845 [9:47:16<7:25:23,  1.26s/it]                                                         {'loss': 2.0758, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27640/48845 [9:47:16<7:25:23,  1.26s/it] 57%|█████▋    | 27641/48845 [9:47:17<7:25:41,  1.26s/it] 57%|█████▋    | 27642/48845 [9:47:19<7:25:31,  1.26s/it] 57%|█████▋    | 27643/48845 [9:47:20<7:26:16,  1.26s/it] 57%|█████▋    | 27644/48845 [9:47:21<7:26:24,  1.26s/it] 57%|█████▋    | 27645/48845 [9:47:22<7:26:05,  1.26s/it]                                                         {'loss': 2.0663, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27645/48845 [9:47:22<7:26:05,  1.26s/it] 57%|█████▋    | 27646/48845 [9:47:24<7:27:32,  1.27s/it] 57%|█████▋    | 27647/48845 [9:47:25<7:37:28,  1.29s/it] 57%|█████▋    | 27648/48845 [9:47:26<7:34:21,  1.29s/it] 57%|█████▋    | 27649/48845 [9:47:27<7:31:48,  1.28s/it] 57%|█████▋    | 27650/48845 [9:47:29<7:29:48,  1.27s/it]                                                         {'loss': 2.1065, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27650/48845 [9:47:29<7:29:48,  1.27s/it] 57%|█████▋    | 27651/48845 [9:47:30<7:29:21,  1.27s/it] 57%|█████▋    | 27652/48845 [9:47:31<7:28:17,  1.27s/it] 57%|█████▋    | 27653/48845 [9:47:33<7:27:16,  1.27s/it] 57%|█████▋    | 27654/48845 [9:47:34<7:26:52,  1.27s/it] 57%|█████▋    | 27655/48845 [9:47:35<7:26:21,  1.26s/it]                                                         {'loss': 1.9994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27655/48845 [9:47:35<7:26:21,  1.26s/it] 57%|█████▋    | 27656/48845 [9:47:36<7:25:50,  1.26s/it] 57%|█████▋    | 27657/48845 [9:47:38<7:25:49,  1.26s/it] 57%|█████▋    | 27658/48845 [9:47:39<7:25:40,  1.26s/it] 57%|█████▋    | 27659/48845 [9:47:40<7:25:36,  1.26s/it] 57%|█████▋    | 27660/48845 [9:47:41<7:25:31,  1.26s/it]                                                         {'loss': 2.1062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27660/48845 [9:47:41<7:25:31,  1.26s/it] 57%|█████▋    | 27661/48845 [9:47:43<7:25:32,  1.26s/it] 57%|█████▋    | 27662/48845 [9:47:44<7:25:26,  1.26s/it] 57%|█████▋    | 27663/48845 [9:47:45<7:25:14,  1.26s/it] 57%|█████▋    | 27664/48845 [9:47:46<7:25:02,  1.26s/it] 57%|█████▋    | 27665/48845 [9:47:48<7:24:48,  1.26s/it]                                                         {'loss': 2.0472, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27665/48845 [9:47:48<7:24:48,  1.26s/it] 57%|█████▋    | 27666/48845 [9:47:49<7:24:49,  1.26s/it] 57%|█████▋    | 27667/48845 [9:47:50<7:25:11,  1.26s/it] 57%|█████▋    | 27668/48845 [9:47:51<7:24:40,  1.26s/it] 57%|█████▋    | 27669/48845 [9:47:53<7:24:25,  1.26s/it] 57%|█████▋    | 27670/48845 [9:47:54<7:24:34,  1.26s/it]                                                         {'loss': 2.1129, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27670/48845 [9:47:54<7:24:34,  1.26s/it] 57%|█████▋    | 27671/48845 [9:47:55<7:24:45,  1.26s/it] 57%|█████▋    | 27672/48845 [9:47:56<7:24:31,  1.26s/it] 57%|█████▋    | 27673/48845 [9:47:58<7:24:40,  1.26s/it] 57%|█████▋    | 27674/48845 [9:47:59<7:24:59,  1.26s/it] 57%|█████▋    | 27675/48845 [9:48:00<7:24:45,  1.26s/it]                                                         {'loss': 2.121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27675/48845 [9:48:00<7:24:45,  1.26s/it] 57%|█████▋    | 27676/48845 [9:48:02<7:25:45,  1.26s/it] 57%|█████▋    | 27677/48845 [9:48:03<7:25:31,  1.26s/it] 57%|█████▋    | 27678/48845 [9:48:04<7:25:32,  1.26s/it] 57%|█████▋    | 27679/48845 [9:48:05<7:25:20,  1.26s/it] 57%|█████▋    | 27680/48845 [9:48:07<7:24:46,  1.26s/it]                                                         {'loss': 1.921, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27680/48845 [9:48:07<7:24:46,  1.26s/it] 57%|█████▋    | 27681/48845 [9:48:08<7:25:36,  1.26s/it] 57%|█████▋    | 27682/48845 [9:48:09<7:25:15,  1.26s/it] 57%|█████▋    | 27683/48845 [9:48:10<7:25:41,  1.26s/it] 57%|█████▋    | 27684/48845 [9:48:12<7:25:18,  1.26s/it] 57%|█████▋    | 27685/48845 [9:48:13<7:25:17,  1.26s/it]                                                         {'loss': 2.1159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27685/48845 [9:48:13<7:25:17,  1.26s/it] 57%|█████▋    | 27686/48845 [9:48:14<7:25:00,  1.26s/it] 57%|█████▋    | 27687/48845 [9:48:15<7:24:44,  1.26s/it] 57%|█████▋    | 27688/48845 [9:48:17<7:24:28,  1.26s/it] 57%|█████▋    | 27689/48845 [9:48:18<7:24:09,  1.26s/it] 57%|█████▋    | 27690/48845 [9:48:19<7:24:24,  1.26s/it]                                                         {'loss': 2.0667, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27690/48845 [9:48:19<7:24:24,  1.26s/it] 57%|█████▋    | 27691/48845 [9:48:20<7:24:05,  1.26s/it] 57%|█████▋    | 27692/48845 [9:48:22<7:24:08,  1.26s/it] 57%|█████▋    | 27693/48845 [9:48:23<7:23:55,  1.26s/it] 57%|█████▋    | 27694/48845 [9:48:24<7:24:05,  1.26s/it] 57%|█████▋    | 27695/48845 [9:48:25<7:24:23,  1.26s/it]                                                         {'loss': 2.0349, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.83}
+ 57%|█████▋    | 27695/48845 [9:48:25<7:24:23,  1.26s/it] 57%|█████▋    | 27696/48845 [9:48:27<7:24:03,  1.26s/it] 57%|█████▋    | 27697/48845 [9:48:28<7:24:03,  1.26s/it] 57%|█████▋    | 27698/48845 [9:48:29<7:24:08,  1.26s/it] 57%|█████▋    | 27699/48845 [9:48:31<7:24:12,  1.26s/it] 57%|█████▋    | 27700/48845 [9:48:32<7:23:48,  1.26s/it]                                                         {'loss': 1.9902, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27700/48845 [9:48:32<7:23:48,  1.26s/it] 57%|█████▋    | 27701/48845 [9:48:33<7:23:40,  1.26s/it] 57%|█████▋    | 27702/48845 [9:48:34<7:23:53,  1.26s/it] 57%|█████▋    | 27703/48845 [9:48:36<7:24:05,  1.26s/it] 57%|█████▋    | 27704/48845 [9:48:37<7:24:02,  1.26s/it] 57%|█████▋    | 27705/48845 [9:48:38<7:23:42,  1.26s/it]                                                         {'loss': 2.0015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27705/48845 [9:48:38<7:23:42,  1.26s/it] 57%|█████▋    | 27706/48845 [9:48:39<7:23:45,  1.26s/it] 57%|█████▋    | 27707/48845 [9:48:41<7:23:48,  1.26s/it] 57%|█████▋    | 27708/48845 [9:48:42<7:23:33,  1.26s/it] 57%|█████▋    | 27709/48845 [9:48:43<7:23:32,  1.26s/it] 57%|█████▋    | 27710/48845 [9:48:44<7:23:37,  1.26s/it]                                                         {'loss': 2.0567, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27710/48845 [9:48:44<7:23:37,  1.26s/it] 57%|█████▋    | 27711/48845 [9:48:46<7:23:22,  1.26s/it] 57%|█████▋    | 27712/48845 [9:48:47<7:23:34,  1.26s/it] 57%|█████▋    | 27713/48845 [9:48:48<7:23:46,  1.26s/it] 57%|█████▋    | 27714/48845 [9:48:49<7:23:59,  1.26s/it] 57%|█████▋    | 27715/48845 [9:48:51<7:23:49,  1.26s/it]                                                         {'loss': 2.0289, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27715/48845 [9:48:51<7:23:49,  1.26s/it] 57%|█████▋    | 27716/48845 [9:48:52<7:24:51,  1.26s/it] 57%|█████▋    | 27717/48845 [9:48:53<7:24:39,  1.26s/it] 57%|█████▋    | 27718/48845 [9:48:54<7:24:33,  1.26s/it] 57%|█████▋    | 27719/48845 [9:48:56<7:24:30,  1.26s/it] 57%|█████▋    | 27720/48845 [9:48:57<7:24:05,  1.26s/it]                                                         {'loss': 2.1312, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27720/48845 [9:48:57<7:24:05,  1.26s/it] 57%|█████▋    | 27721/48845 [9:48:58<7:23:40,  1.26s/it] 57%|█████▋    | 27722/48845 [9:49:00<7:23:36,  1.26s/it] 57%|█████▋    | 27723/48845 [9:49:01<7:23:27,  1.26s/it] 57%|█████▋    | 27724/48845 [9:49:02<7:23:30,  1.26s/it] 57%|█████▋    | 27725/48845 [9:49:03<7:23:35,  1.26s/it]                                                         {'loss': 2.0283, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27725/48845 [9:49:03<7:23:35,  1.26s/it] 57%|█████▋    | 27726/48845 [9:49:05<7:23:53,  1.26s/it] 57%|█████▋    | 27727/48845 [9:49:06<7:23:49,  1.26s/it] 57%|█████▋    | 27728/48845 [9:49:07<7:23:19,  1.26s/it] 57%|█████▋    | 27729/48845 [9:49:08<7:23:00,  1.26s/it] 57%|█████▋    | 27730/48845 [9:49:10<7:23:17,  1.26s/it]                                                         {'loss': 1.8286, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27730/48845 [9:49:10<7:23:17,  1.26s/it] 57%|█████▋    | 27731/48845 [9:49:11<7:31:18,  1.28s/it] 57%|█████▋    | 27732/48845 [9:49:12<7:28:48,  1.28s/it] 57%|█████▋    | 27733/48845 [9:49:13<7:27:24,  1.27s/it] 57%|█████▋    | 27734/48845 [9:49:15<7:26:19,  1.27s/it] 57%|█████▋    | 27735/48845 [9:49:16<7:25:13,  1.27s/it]                                                         {'loss': 2.2156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27735/48845 [9:49:16<7:25:13,  1.27s/it] 57%|█████▋    | 27736/48845 [9:49:17<7:24:28,  1.26s/it] 57%|█████▋    | 27737/48845 [9:49:18<7:24:15,  1.26s/it] 57%|█████▋    | 27738/48845 [9:49:20<7:23:38,  1.26s/it] 57%|█████▋    | 27739/48845 [9:49:21<7:23:29,  1.26s/it] 57%|█████▋    | 27740/48845 [9:49:22<7:23:27,  1.26s/it]                                                         {'loss': 2.0236, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27740/48845 [9:49:22<7:23:27,  1.26s/it] 57%|█████▋    | 27741/48845 [9:49:24<7:23:10,  1.26s/it] 57%|█████▋    | 27742/48845 [9:49:25<7:23:26,  1.26s/it] 57%|█████▋    | 27743/48845 [9:49:26<7:23:18,  1.26s/it] 57%|█████▋    | 27744/48845 [9:49:27<7:23:05,  1.26s/it] 57%|█████▋    | 27745/48845 [9:49:29<7:22:49,  1.26s/it]                                                         {'loss': 1.891, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27745/48845 [9:49:29<7:22:49,  1.26s/it] 57%|█████▋    | 27746/48845 [9:49:30<7:22:42,  1.26s/it] 57%|█████▋    | 27747/48845 [9:49:31<7:23:04,  1.26s/it] 57%|█████▋    | 27748/48845 [9:49:32<7:22:48,  1.26s/it] 57%|█████▋    | 27749/48845 [9:49:34<7:22:42,  1.26s/it] 57%|█████▋    | 27750/48845 [9:49:35<7:22:45,  1.26s/it]                                                         {'loss': 2.0296, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27750/48845 [9:49:35<7:22:45,  1.26s/it] 57%|█████▋    | 27751/48845 [9:49:36<7:22:55,  1.26s/it] 57%|█████▋    | 27752/48845 [9:49:37<7:22:51,  1.26s/it] 57%|█████▋    | 27753/48845 [9:49:39<7:22:46,  1.26s/it] 57%|█████▋    | 27754/48845 [9:49:40<7:22:58,  1.26s/it] 57%|█████▋    | 27755/48845 [9:49:41<7:22:44,  1.26s/it]                                                         {'loss': 2.1273, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27755/48845 [9:49:41<7:22:44,  1.26s/it] 57%|█████▋    | 27756/48845 [9:49:42<7:22:45,  1.26s/it] 57%|█████▋    | 27757/48845 [9:49:44<7:23:06,  1.26s/it] 57%|█████▋    | 27758/48845 [9:49:45<7:22:56,  1.26s/it] 57%|█████▋    | 27759/48845 [9:49:46<7:23:24,  1.26s/it] 57%|█████▋    | 27760/48845 [9:49:47<7:23:15,  1.26s/it]                                                         {'loss': 2.0992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27760/48845 [9:49:47<7:23:15,  1.26s/it] 57%|█████▋    | 27761/48845 [9:49:49<7:23:59,  1.26s/it] 57%|█████▋    | 27762/48845 [9:49:50<7:23:36,  1.26s/it] 57%|█████▋    | 27763/48845 [9:49:51<7:23:10,  1.26s/it] 57%|█████▋    | 27764/48845 [9:49:53<7:23:02,  1.26s/it] 57%|█████▋    | 27765/48845 [9:49:54<7:22:37,  1.26s/it]                                                         {'loss': 2.163, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27765/48845 [9:49:54<7:22:37,  1.26s/it] 57%|█████▋    | 27766/48845 [9:49:55<7:22:53,  1.26s/it] 57%|█████▋    | 27767/48845 [9:49:56<7:22:46,  1.26s/it] 57%|█████▋    | 27768/48845 [9:49:58<7:22:28,  1.26s/it] 57%|█████▋    | 27769/48845 [9:49:59<7:22:48,  1.26s/it] 57%|█████▋    | 27770/48845 [9:50:00<7:23:23,  1.26s/it]                                                         {'loss': 2.0203, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27770/48845 [9:50:00<7:23:23,  1.26s/it] 57%|█████▋    | 27771/48845 [9:50:01<7:23:17,  1.26s/it] 57%|█████▋    | 27772/48845 [9:50:03<7:23:08,  1.26s/it] 57%|█████▋    | 27773/48845 [9:50:04<7:23:17,  1.26s/it] 57%|█████▋    | 27774/48845 [9:50:05<7:23:01,  1.26s/it] 57%|█████▋    | 27775/48845 [9:50:06<7:22:59,  1.26s/it]                                                         {'loss': 1.9772, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27775/48845 [9:50:06<7:22:59,  1.26s/it] 57%|█████▋    | 27776/48845 [9:50:08<7:22:56,  1.26s/it] 57%|█████▋    | 27777/48845 [9:50:09<7:22:51,  1.26s/it] 57%|█████▋    | 27778/48845 [9:50:10<7:22:40,  1.26s/it] 57%|█████▋    | 27779/48845 [9:50:11<7:22:22,  1.26s/it] 57%|█████▋    | 27780/48845 [9:50:13<7:22:33,  1.26s/it]                                                         {'loss': 2.0606, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27780/48845 [9:50:13<7:22:33,  1.26s/it] 57%|█████▋    | 27781/48845 [9:50:14<7:22:32,  1.26s/it] 57%|█████▋    | 27782/48845 [9:50:15<7:22:35,  1.26s/it] 57%|█████▋    | 27783/48845 [9:50:16<7:22:03,  1.26s/it] 57%|█████▋    | 27784/48845 [9:50:18<7:22:13,  1.26s/it] 57%|█████▋    | 27785/48845 [9:50:19<7:22:34,  1.26s/it]                                                         {'loss': 2.0037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27785/48845 [9:50:19<7:22:34,  1.26s/it] 57%|█████▋    | 27786/48845 [9:50:20<7:22:44,  1.26s/it] 57%|█████▋    | 27787/48845 [9:50:22<7:22:53,  1.26s/it] 57%|█████▋    | 27788/48845 [9:50:23<7:23:01,  1.26s/it] 57%|█████▋    | 27789/48845 [9:50:24<7:22:43,  1.26s/it] 57%|█████▋    | 27790/48845 [9:50:25<7:22:22,  1.26s/it]                                                         {'loss': 2.133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.84}
+ 57%|█████▋    | 27790/48845 [9:50:25<7:22:22,  1.26s/it] 57%|█████▋    | 27791/48845 [9:50:27<7:22:30,  1.26s/it] 57%|█████▋    | 27792/48845 [9:50:28<7:22:39,  1.26s/it] 57%|█████▋    | 27793/48845 [9:50:29<7:22:36,  1.26s/it] 57%|█████▋    | 27794/48845 [9:50:30<7:22:26,  1.26s/it] 57%|█████▋    | 27795/48845 [9:50:32<7:22:45,  1.26s/it]                                                         {'loss': 2.036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27795/48845 [9:50:32<7:22:45,  1.26s/it] 57%|█████▋    | 27796/48845 [9:50:33<7:22:31,  1.26s/it] 57%|█████▋    | 27797/48845 [9:50:34<7:21:52,  1.26s/it] 57%|█████▋    | 27798/48845 [9:50:35<7:21:49,  1.26s/it] 57%|█████▋    | 27799/48845 [9:50:37<7:21:58,  1.26s/it] 57%|█████▋    | 27800/48845 [9:50:38<7:21:51,  1.26s/it]                                                         {'loss': 2.2046, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27800/48845 [9:50:38<7:21:51,  1.26s/it] 57%|█████▋    | 27801/48845 [9:50:42<11:42:34,  2.00s/it] 57%|█████▋    | 27802/48845 [9:50:43<10:24:03,  1.78s/it] 57%|█████▋    | 27803/48845 [9:50:44<9:29:33,  1.62s/it]  57%|█████▋    | 27804/48845 [9:50:45<8:51:06,  1.51s/it] 57%|█████▋    | 27805/48845 [9:50:47<8:24:10,  1.44s/it]                                                         {'loss': 2.04, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27805/48845 [9:50:47<8:24:10,  1.44s/it] 57%|█████▋    | 27806/48845 [9:50:48<8:05:25,  1.38s/it] 57%|█████▋    | 27807/48845 [9:50:49<7:52:16,  1.35s/it] 57%|█████▋    | 27808/48845 [9:50:50<7:43:09,  1.32s/it] 57%|█████▋    | 27809/48845 [9:50:52<7:36:27,  1.30s/it] 57%|█████▋    | 27810/48845 [9:50:53<7:31:56,  1.29s/it]                                                         {'loss': 1.9192, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27810/48845 [9:50:53<7:31:56,  1.29s/it] 57%|█████▋    | 27811/48845 [9:50:54<7:29:07,  1.28s/it] 57%|█████▋    | 27812/48845 [9:50:55<7:26:54,  1.27s/it] 57%|█████▋    | 27813/48845 [9:50:57<7:25:11,  1.27s/it] 57%|█████▋    | 27814/48845 [9:50:58<7:38:26,  1.31s/it] 57%|█████▋    | 27815/48845 [9:50:59<7:33:23,  1.29s/it]                                                         {'loss': 1.9548, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27815/48845 [9:50:59<7:33:23,  1.29s/it] 57%|█████▋    | 27816/48845 [9:51:01<7:29:51,  1.28s/it] 57%|█████▋    | 27817/48845 [9:51:02<7:27:13,  1.28s/it] 57%|█████▋    | 27818/48845 [9:51:03<7:25:31,  1.27s/it] 57%|█████▋    | 27819/48845 [9:51:04<7:24:29,  1.27s/it] 57%|█████▋    | 27820/48845 [9:51:06<7:23:18,  1.27s/it]                                                         {'loss': 2.0362, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27820/48845 [9:51:06<7:23:18,  1.27s/it] 57%|█████▋    | 27821/48845 [9:51:07<7:22:50,  1.26s/it] 57%|█████▋    | 27822/48845 [9:51:08<7:22:29,  1.26s/it] 57%|█████▋    | 27823/48845 [9:51:09<7:21:56,  1.26s/it] 57%|█████▋    | 27824/48845 [9:51:11<7:22:12,  1.26s/it] 57%|█████▋    | 27825/48845 [9:51:12<7:22:11,  1.26s/it]                                                         {'loss': 1.9327, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27825/48845 [9:51:12<7:22:11,  1.26s/it] 57%|█████▋    | 27826/48845 [9:51:13<7:22:06,  1.26s/it] 57%|█████▋    | 27827/48845 [9:51:15<7:21:55,  1.26s/it] 57%|█████▋    | 27828/48845 [9:51:16<7:22:15,  1.26s/it] 57%|█████▋    | 27829/48845 [9:51:17<7:22:15,  1.26s/it] 57%|█████▋    | 27830/48845 [9:51:18<7:21:53,  1.26s/it]                                                         {'loss': 2.1037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27830/48845 [9:51:18<7:21:53,  1.26s/it] 57%|█████▋    | 27831/48845 [9:51:20<7:21:41,  1.26s/it] 57%|█████▋    | 27832/48845 [9:51:21<7:21:46,  1.26s/it] 57%|█████▋    | 27833/48845 [9:51:22<7:21:16,  1.26s/it] 57%|█████▋    | 27834/48845 [9:51:23<7:21:20,  1.26s/it] 57%|█████▋    | 27835/48845 [9:51:25<7:22:07,  1.26s/it]                                                         {'loss': 1.985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27835/48845 [9:51:25<7:22:07,  1.26s/it] 57%|█████▋    | 27836/48845 [9:51:26<7:22:12,  1.26s/it] 57%|█████▋    | 27837/48845 [9:51:27<7:22:24,  1.26s/it] 57%|█████▋    | 27838/48845 [9:51:28<7:22:09,  1.26s/it] 57%|█████▋    | 27839/48845 [9:51:30<7:21:47,  1.26s/it] 57%|█████▋    | 27840/48845 [9:51:31<7:21:55,  1.26s/it]                                                         {'loss': 2.094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27840/48845 [9:51:31<7:21:55,  1.26s/it] 57%|█████▋    | 27841/48845 [9:51:32<7:21:12,  1.26s/it] 57%|█████▋    | 27842/48845 [9:51:33<7:21:07,  1.26s/it] 57%|█████▋    | 27843/48845 [9:51:35<7:20:58,  1.26s/it] 57%|█████▋    | 27844/48845 [9:51:36<7:21:18,  1.26s/it] 57%|█████▋    | 27845/48845 [9:51:37<7:21:10,  1.26s/it]                                                         {'loss': 2.1336, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27845/48845 [9:51:37<7:21:10,  1.26s/it] 57%|█████▋    | 27846/48845 [9:51:39<7:20:52,  1.26s/it] 57%|█████▋    | 27847/48845 [9:51:40<7:20:45,  1.26s/it] 57%|█████▋    | 27848/48845 [9:51:41<7:20:42,  1.26s/it] 57%|█████▋    | 27849/48845 [9:51:42<7:20:40,  1.26s/it] 57%|█████▋    | 27850/48845 [9:51:44<7:20:50,  1.26s/it]                                                         {'loss': 2.0677, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27850/48845 [9:51:44<7:20:50,  1.26s/it] 57%|█████▋    | 27851/48845 [9:51:45<7:20:43,  1.26s/it] 57%|█████▋    | 27852/48845 [9:51:46<7:21:36,  1.26s/it] 57%|█████▋    | 27853/48845 [9:51:47<7:21:23,  1.26s/it] 57%|█████▋    | 27854/48845 [9:51:49<7:20:57,  1.26s/it] 57%|█████▋    | 27855/48845 [9:51:50<7:20:39,  1.26s/it]                                                         {'loss': 2.0054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27855/48845 [9:51:50<7:20:39,  1.26s/it] 57%|█████▋    | 27856/48845 [9:51:51<7:20:42,  1.26s/it] 57%|█████▋    | 27857/48845 [9:51:52<7:20:34,  1.26s/it] 57%|█████▋    | 27858/48845 [9:51:54<7:20:39,  1.26s/it] 57%|█████▋    | 27859/48845 [9:51:55<7:20:28,  1.26s/it] 57%|█████▋    | 27860/48845 [9:51:56<7:20:17,  1.26s/it]                                                         {'loss': 2.084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27860/48845 [9:51:56<7:20:17,  1.26s/it] 57%|█████▋    | 27861/48845 [9:51:57<7:20:02,  1.26s/it] 57%|█████▋    | 27862/48845 [9:51:59<7:20:06,  1.26s/it] 57%|█████▋    | 27863/48845 [9:52:00<7:20:15,  1.26s/it] 57%|█████▋    | 27864/48845 [9:52:01<7:20:10,  1.26s/it] 57%|█████▋    | 27865/48845 [9:52:02<7:20:17,  1.26s/it]                                                         {'loss': 1.984, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27865/48845 [9:52:02<7:20:17,  1.26s/it] 57%|█████▋    | 27866/48845 [9:52:04<7:20:16,  1.26s/it] 57%|█████▋    | 27867/48845 [9:52:05<7:20:33,  1.26s/it] 57%|█████▋    | 27868/48845 [9:52:06<7:20:26,  1.26s/it] 57%|█████▋    | 27869/48845 [9:52:07<7:20:49,  1.26s/it] 57%|█████▋    | 27870/48845 [9:52:09<7:20:24,  1.26s/it]                                                         {'loss': 2.1879, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27870/48845 [9:52:09<7:20:24,  1.26s/it] 57%|█████▋    | 27871/48845 [9:52:10<7:20:23,  1.26s/it] 57%|█████▋    | 27872/48845 [9:52:11<7:20:02,  1.26s/it] 57%|█████▋    | 27873/48845 [9:52:13<7:20:06,  1.26s/it] 57%|█████▋    | 27874/48845 [9:52:14<7:26:28,  1.28s/it] 57%|█████▋    | 27875/48845 [9:52:15<7:24:48,  1.27s/it]                                                         {'loss': 1.9387, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27875/48845 [9:52:15<7:24:48,  1.27s/it] 57%|█████▋    | 27876/48845 [9:52:16<7:23:29,  1.27s/it] 57%|█████▋    | 27877/48845 [9:52:18<7:22:14,  1.27s/it] 57%|█████▋    | 27878/48845 [9:52:19<7:21:52,  1.26s/it] 57%|█████▋    | 27879/48845 [9:52:20<7:21:42,  1.26s/it] 57%|█████▋    | 27880/48845 [9:52:21<7:20:54,  1.26s/it]                                                         {'loss': 2.0653, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27880/48845 [9:52:21<7:20:54,  1.26s/it] 57%|█████▋    | 27881/48845 [9:52:23<7:21:00,  1.26s/it] 57%|█████▋    | 27882/48845 [9:52:24<7:21:07,  1.26s/it] 57%|█████▋    | 27883/48845 [9:52:25<7:21:25,  1.26s/it] 57%|█████▋    | 27884/48845 [9:52:26<7:21:06,  1.26s/it] 57%|█████▋    | 27885/48845 [9:52:28<7:20:46,  1.26s/it]                                                         {'loss': 2.0768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27885/48845 [9:52:28<7:20:46,  1.26s/it] 57%|█████▋    | 27886/48845 [9:52:29<7:20:50,  1.26s/it] 57%|█████▋    | 27887/48845 [9:52:30<7:20:54,  1.26s/it] 57%|█████▋    | 27888/48845 [9:52:31<7:20:34,  1.26s/it] 57%|█████▋    | 27889/48845 [9:52:33<7:20:41,  1.26s/it] 57%|█████▋    | 27890/48845 [9:52:34<7:20:22,  1.26s/it]                                                         {'loss': 1.9414, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.85}
+ 57%|█████▋    | 27890/48845 [9:52:34<7:20:22,  1.26s/it] 57%|█████▋    | 27891/48845 [9:52:35<7:20:22,  1.26s/it] 57%|█████▋    | 27892/48845 [9:52:37<7:20:24,  1.26s/it] 57%|█████▋    | 27893/48845 [9:52:38<7:20:17,  1.26s/it] 57%|█████▋    | 27894/48845 [9:52:39<7:20:20,  1.26s/it] 57%|█████▋    | 27895/48845 [9:52:40<7:20:11,  1.26s/it]                                                         {'loss': 1.9451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27895/48845 [9:52:40<7:20:11,  1.26s/it] 57%|█████▋    | 27896/48845 [9:52:42<7:20:26,  1.26s/it] 57%|█████▋    | 27897/48845 [9:52:43<7:20:10,  1.26s/it] 57%|█████▋    | 27898/48845 [9:52:44<7:20:08,  1.26s/it] 57%|█████▋    | 27899/48845 [9:52:45<7:20:21,  1.26s/it] 57%|█████▋    | 27900/48845 [9:52:47<7:20:09,  1.26s/it]                                                         {'loss': 2.0031, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27900/48845 [9:52:47<7:20:09,  1.26s/it] 57%|█████▋    | 27901/48845 [9:52:48<7:19:46,  1.26s/it] 57%|█████▋    | 27902/48845 [9:52:49<7:20:21,  1.26s/it] 57%|█████▋    | 27903/48845 [9:52:50<7:20:58,  1.26s/it] 57%|█████▋    | 27904/48845 [9:52:52<7:20:22,  1.26s/it] 57%|█████▋    | 27905/48845 [9:52:53<7:20:55,  1.26s/it]                                                         {'loss': 2.0886, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27905/48845 [9:52:53<7:20:55,  1.26s/it] 57%|█████▋    | 27906/48845 [9:52:54<7:20:27,  1.26s/it] 57%|█████▋    | 27907/48845 [9:52:55<7:20:09,  1.26s/it] 57%|█████▋    | 27908/48845 [9:52:57<7:20:03,  1.26s/it] 57%|█████▋    | 27909/48845 [9:52:58<7:19:51,  1.26s/it] 57%|█████▋    | 27910/48845 [9:52:59<7:19:53,  1.26s/it]                                                         {'loss': 2.1494, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27910/48845 [9:52:59<7:19:53,  1.26s/it] 57%|█████▋    | 27911/48845 [9:53:00<7:19:48,  1.26s/it] 57%|█████▋    | 27912/48845 [9:53:02<7:19:34,  1.26s/it] 57%|█████▋    | 27913/48845 [9:53:03<7:19:38,  1.26s/it] 57%|█████▋    | 27914/48845 [9:53:04<7:19:37,  1.26s/it] 57%|█████▋    | 27915/48845 [9:53:06<7:19:53,  1.26s/it]                                                         {'loss': 2.0635, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27915/48845 [9:53:06<7:19:53,  1.26s/it] 57%|█████▋    | 27916/48845 [9:53:07<7:19:23,  1.26s/it] 57%|█████▋    | 27917/48845 [9:53:08<7:19:15,  1.26s/it] 57%|█████▋    | 27918/48845 [9:53:09<7:19:43,  1.26s/it] 57%|█████▋    | 27919/48845 [9:53:11<7:23:50,  1.27s/it] 57%|█████▋    | 27920/48845 [9:53:12<7:22:18,  1.27s/it]                                                         {'loss': 2.1428, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27920/48845 [9:53:12<7:22:18,  1.27s/it] 57%|█████▋    | 27921/48845 [9:53:13<7:21:20,  1.27s/it] 57%|█████▋    | 27922/48845 [9:53:14<7:20:37,  1.26s/it] 57%|█████▋    | 27923/48845 [9:53:16<7:19:56,  1.26s/it] 57%|█████▋    | 27924/48845 [9:53:17<7:19:38,  1.26s/it] 57%|█████▋    | 27925/48845 [9:53:18<7:19:39,  1.26s/it]                                                         {'loss': 2.0675, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27925/48845 [9:53:18<7:19:39,  1.26s/it] 57%|█████▋    | 27926/48845 [9:53:19<7:19:47,  1.26s/it] 57%|█████▋    | 27927/48845 [9:53:21<7:19:15,  1.26s/it] 57%|█████▋    | 27928/48845 [9:53:22<7:18:58,  1.26s/it] 57%|█████▋    | 27929/48845 [9:53:23<7:18:59,  1.26s/it] 57%|█████▋    | 27930/48845 [9:53:24<7:18:57,  1.26s/it]                                                         {'loss': 2.2185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27930/48845 [9:53:24<7:18:57,  1.26s/it] 57%|█████▋    | 27931/48845 [9:53:26<7:19:07,  1.26s/it] 57%|█████▋    | 27932/48845 [9:53:27<7:19:08,  1.26s/it] 57%|█████▋    | 27933/48845 [9:53:28<7:18:51,  1.26s/it] 57%|█████▋    | 27934/48845 [9:53:30<7:18:52,  1.26s/it] 57%|█████▋    | 27935/48845 [9:53:31<7:19:07,  1.26s/it]                                                         {'loss': 1.9336, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27935/48845 [9:53:31<7:19:07,  1.26s/it] 57%|█████▋    | 27936/48845 [9:53:32<7:19:26,  1.26s/it] 57%|█████▋    | 27937/48845 [9:53:33<7:19:07,  1.26s/it] 57%|█████▋    | 27938/48845 [9:53:35<7:18:54,  1.26s/it] 57%|█████▋    | 27939/48845 [9:53:36<7:19:08,  1.26s/it] 57%|█████▋    | 27940/48845 [9:53:37<7:18:48,  1.26s/it]                                                         {'loss': 2.0338, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27940/48845 [9:53:37<7:18:48,  1.26s/it] 57%|█████▋    | 27941/48845 [9:53:38<7:18:45,  1.26s/it] 57%|█████▋    | 27942/48845 [9:53:40<7:18:40,  1.26s/it] 57%|█████▋    | 27943/48845 [9:53:41<7:18:39,  1.26s/it] 57%|█████▋    | 27944/48845 [9:53:42<7:18:49,  1.26s/it] 57%|█████▋    | 27945/48845 [9:53:43<7:18:33,  1.26s/it]                                                         {'loss': 2.0026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27945/48845 [9:53:43<7:18:33,  1.26s/it] 57%|█████▋    | 27946/48845 [9:53:45<7:18:41,  1.26s/it] 57%|█████▋    | 27947/48845 [9:53:46<7:18:23,  1.26s/it] 57%|█████▋    | 27948/48845 [9:53:47<7:18:41,  1.26s/it] 57%|█████▋    | 27949/48845 [9:53:48<7:18:33,  1.26s/it] 57%|█████▋    | 27950/48845 [9:53:50<7:18:40,  1.26s/it]                                                         {'loss': 1.9458, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27950/48845 [9:53:50<7:18:40,  1.26s/it] 57%|█████▋    | 27951/48845 [9:53:51<7:18:53,  1.26s/it] 57%|█████▋    | 27952/48845 [9:53:52<7:18:31,  1.26s/it] 57%|█████▋    | 27953/48845 [9:53:53<7:18:31,  1.26s/it] 57%|█████▋    | 27954/48845 [9:53:55<7:18:33,  1.26s/it] 57%|█████▋    | 27955/48845 [9:53:56<7:18:31,  1.26s/it]                                                         {'loss': 1.9627, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27955/48845 [9:53:56<7:18:31,  1.26s/it] 57%|█████▋    | 27956/48845 [9:53:57<7:19:23,  1.26s/it] 57%|█████▋    | 27957/48845 [9:53:58<7:19:17,  1.26s/it] 57%|█████▋    | 27958/48845 [9:54:00<7:18:57,  1.26s/it] 57%|█████▋    | 27959/48845 [9:54:01<7:18:24,  1.26s/it] 57%|█████▋    | 27960/48845 [9:54:02<7:18:19,  1.26s/it]                                                         {'loss': 2.0415, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27960/48845 [9:54:02<7:18:19,  1.26s/it] 57%|█████▋    | 27961/48845 [9:54:04<7:18:13,  1.26s/it] 57%|█████▋    | 27962/48845 [9:54:05<7:17:52,  1.26s/it] 57%|█████▋    | 27963/48845 [9:54:06<7:17:55,  1.26s/it] 57%|█████▋    | 27964/48845 [9:54:07<7:18:13,  1.26s/it] 57%|█████▋    | 27965/48845 [9:54:09<7:18:05,  1.26s/it]                                                         {'loss': 2.1202, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27965/48845 [9:54:09<7:18:05,  1.26s/it] 57%|█████▋    | 27966/48845 [9:54:10<7:18:07,  1.26s/it] 57%|█████▋    | 27967/48845 [9:54:11<7:17:53,  1.26s/it] 57%|█████▋    | 27968/48845 [9:54:12<7:18:10,  1.26s/it] 57%|█████▋    | 27969/48845 [9:54:14<7:18:14,  1.26s/it] 57%|█████▋    | 27970/48845 [9:54:15<7:18:25,  1.26s/it]                                                         {'loss': 1.941, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27970/48845 [9:54:15<7:18:25,  1.26s/it] 57%|█████▋    | 27971/48845 [9:54:16<7:18:11,  1.26s/it] 57%|█████▋    | 27972/48845 [9:54:17<7:17:59,  1.26s/it] 57%|█████▋    | 27973/48845 [9:54:19<7:18:21,  1.26s/it] 57%|█████▋    | 27974/48845 [9:54:20<7:18:21,  1.26s/it] 57%|█████▋    | 27975/48845 [9:54:21<7:18:14,  1.26s/it]                                                         {'loss': 2.0622, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27975/48845 [9:54:21<7:18:14,  1.26s/it] 57%|█████▋    | 27976/48845 [9:54:22<7:18:19,  1.26s/it] 57%|█████▋    | 27977/48845 [9:54:24<7:17:59,  1.26s/it] 57%|█████▋    | 27978/48845 [9:54:25<7:18:07,  1.26s/it] 57%|█████▋    | 27979/48845 [9:54:26<7:18:16,  1.26s/it] 57%|█████▋    | 27980/48845 [9:54:27<7:17:46,  1.26s/it]                                                         {'loss': 2.0388, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27980/48845 [9:54:27<7:17:46,  1.26s/it] 57%|█████▋    | 27981/48845 [9:54:29<7:17:55,  1.26s/it] 57%|█████▋    | 27982/48845 [9:54:30<7:17:49,  1.26s/it] 57%|█████▋    | 27983/48845 [9:54:31<7:17:38,  1.26s/it] 57%|█████▋    | 27984/48845 [9:54:32<7:17:52,  1.26s/it] 57%|█████▋    | 27985/48845 [9:54:34<7:18:02,  1.26s/it]                                                         {'loss': 2.0899, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.86}
+ 57%|█████▋    | 27985/48845 [9:54:34<7:18:02,  1.26s/it] 57%|█████▋    | 27986/48845 [9:54:35<7:18:06,  1.26s/it] 57%|█████▋    | 27987/48845 [9:54:36<7:17:59,  1.26s/it] 57%|█████▋    | 27988/48845 [9:54:38<7:17:44,  1.26s/it] 57%|█████▋    | 27989/48845 [9:54:39<7:17:49,  1.26s/it] 57%|█████▋    | 27990/48845 [9:54:40<7:18:07,  1.26s/it]                                                         {'loss': 1.9811, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 27990/48845 [9:54:40<7:18:07,  1.26s/it] 57%|█████▋    | 27991/48845 [9:54:41<7:18:11,  1.26s/it] 57%|█████▋    | 27992/48845 [9:54:43<7:17:36,  1.26s/it] 57%|█████▋    | 27993/48845 [9:54:44<7:17:41,  1.26s/it] 57%|█████▋    | 27994/48845 [9:54:45<7:18:19,  1.26s/it] 57%|█████▋    | 27995/48845 [9:54:46<7:17:59,  1.26s/it]                                                         {'loss': 2.02, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 27995/48845 [9:54:46<7:17:59,  1.26s/it] 57%|█████▋    | 27996/48845 [9:54:48<7:18:35,  1.26s/it] 57%|█████▋    | 27997/48845 [9:54:49<7:19:14,  1.26s/it] 57%|█████▋    | 27998/48845 [9:54:50<7:18:58,  1.26s/it] 57%|█████▋    | 27999/48845 [9:54:51<7:18:12,  1.26s/it] 57%|█████▋    | 28000/48845 [9:54:53<7:17:54,  1.26s/it]                                                         {'loss': 2.0707, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28000/48845 [9:54:53<7:17:54,  1.26s/it] 57%|█████▋    | 28001/48845 [9:54:56<11:33:05,  2.00s/it] 57%|█████▋    | 28002/48845 [9:54:58<10:16:07,  1.77s/it] 57%|█████▋    | 28003/48845 [9:54:59<9:22:55,  1.62s/it]  57%|█████▋    | 28004/48845 [9:55:00<8:45:21,  1.51s/it] 57%|█████▋    | 28005/48845 [9:55:01<8:18:33,  1.44s/it]                                                         {'loss': 2.1151, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28005/48845 [9:55:01<8:18:33,  1.44s/it] 57%|█████▋    | 28006/48845 [9:55:03<7:59:58,  1.38s/it] 57%|█████▋    | 28007/48845 [9:55:04<7:46:54,  1.34s/it] 57%|█████▋    | 28008/48845 [9:55:05<7:38:17,  1.32s/it] 57%|█████▋    | 28009/48845 [9:55:06<7:31:39,  1.30s/it] 57%|█████▋    | 28010/48845 [9:55:08<7:27:11,  1.29s/it]                                                         {'loss': 1.9883, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28010/48845 [9:55:08<7:27:11,  1.29s/it] 57%|█████▋    | 28011/48845 [9:55:09<7:24:22,  1.28s/it] 57%|█████▋    | 28012/48845 [9:55:10<7:22:11,  1.27s/it] 57%|█████▋    | 28013/48845 [9:55:11<7:21:10,  1.27s/it] 57%|█████▋    | 28014/48845 [9:55:13<7:19:49,  1.27s/it] 57%|█████▋    | 28015/48845 [9:55:14<7:18:55,  1.26s/it]                                                         {'loss': 1.9801, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28015/48845 [9:55:14<7:18:55,  1.26s/it] 57%|█████▋    | 28016/48845 [9:55:15<7:18:41,  1.26s/it] 57%|█████▋    | 28017/48845 [9:55:17<7:18:23,  1.26s/it] 57%|█████▋    | 28018/48845 [9:55:18<7:18:07,  1.26s/it] 57%|█████▋    | 28019/48845 [9:55:19<7:17:51,  1.26s/it] 57%|█████▋    | 28020/48845 [9:55:20<7:18:02,  1.26s/it]                                                         {'loss': 1.9256, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28020/48845 [9:55:20<7:18:02,  1.26s/it] 57%|█████▋    | 28021/48845 [9:55:22<7:17:51,  1.26s/it] 57%|█████▋    | 28022/48845 [9:55:23<7:17:32,  1.26s/it] 57%|█████▋    | 28023/48845 [9:55:24<7:17:43,  1.26s/it] 57%|█████▋    | 28024/48845 [9:55:25<7:17:35,  1.26s/it] 57%|█████▋    | 28025/48845 [9:55:27<7:17:26,  1.26s/it]                                                         {'loss': 1.8728, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28025/48845 [9:55:27<7:17:26,  1.26s/it] 57%|█████▋    | 28026/48845 [9:55:28<7:17:44,  1.26s/it] 57%|█████▋    | 28027/48845 [9:55:29<7:18:00,  1.26s/it] 57%|█████▋    | 28028/48845 [9:55:30<7:18:08,  1.26s/it] 57%|█████▋    | 28029/48845 [9:55:32<7:17:36,  1.26s/it] 57%|█████▋    | 28030/48845 [9:55:33<7:17:31,  1.26s/it]                                                         {'loss': 1.9736, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28030/48845 [9:55:33<7:17:31,  1.26s/it] 57%|█████▋    | 28031/48845 [9:55:34<7:18:16,  1.26s/it] 57%|█████▋    | 28032/48845 [9:55:35<7:18:02,  1.26s/it] 57%|█████▋    | 28033/48845 [9:55:37<7:17:48,  1.26s/it] 57%|█████▋    | 28034/48845 [9:55:38<7:17:35,  1.26s/it] 57%|█████▋    | 28035/48845 [9:55:39<7:17:30,  1.26s/it]                                                         {'loss': 1.959, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28035/48845 [9:55:39<7:17:30,  1.26s/it] 57%|█████▋    | 28036/48845 [9:55:40<7:17:16,  1.26s/it] 57%|█████▋    | 28037/48845 [9:55:42<7:17:00,  1.26s/it] 57%|█████▋    | 28038/48845 [9:55:43<7:16:55,  1.26s/it] 57%|█████▋    | 28039/48845 [9:55:44<7:16:50,  1.26s/it] 57%|█████▋    | 28040/48845 [9:55:46<7:16:51,  1.26s/it]                                                         {'loss': 1.9753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28040/48845 [9:55:46<7:16:51,  1.26s/it] 57%|█████▋    | 28041/48845 [9:55:47<7:16:46,  1.26s/it] 57%|█████▋    | 28042/48845 [9:55:48<7:16:46,  1.26s/it] 57%|█████▋    | 28043/48845 [9:55:49<7:17:02,  1.26s/it] 57%|█████▋    | 28044/48845 [9:55:51<7:16:40,  1.26s/it] 57%|█████▋    | 28045/48845 [9:55:52<7:16:25,  1.26s/it]                                                         {'loss': 2.0634, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28045/48845 [9:55:52<7:16:25,  1.26s/it] 57%|█████▋    | 28046/48845 [9:55:53<7:16:48,  1.26s/it] 57%|█████▋    | 28047/48845 [9:55:54<7:16:40,  1.26s/it] 57%|█████▋    | 28048/48845 [9:55:56<7:16:50,  1.26s/it] 57%|█████▋    | 28049/48845 [9:55:57<7:17:02,  1.26s/it] 57%|█████▋    | 28050/48845 [9:55:58<7:16:58,  1.26s/it]                                                         {'loss': 2.0451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28050/48845 [9:55:58<7:16:58,  1.26s/it] 57%|█████▋    | 28051/48845 [9:55:59<7:17:34,  1.26s/it] 57%|█████▋    | 28052/48845 [9:56:01<7:17:48,  1.26s/it] 57%|█████▋    | 28053/48845 [9:56:02<7:17:28,  1.26s/it] 57%|█████▋    | 28054/48845 [9:56:03<7:17:22,  1.26s/it] 57%|█████▋    | 28055/48845 [9:56:04<7:16:59,  1.26s/it]                                                         {'loss': 2.0275, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28055/48845 [9:56:04<7:16:59,  1.26s/it] 57%|█████▋    | 28056/48845 [9:56:06<7:16:37,  1.26s/it] 57%|█████▋    | 28057/48845 [9:56:07<7:16:45,  1.26s/it] 57%|█████▋    | 28058/48845 [9:56:08<7:16:21,  1.26s/it] 57%|█████▋    | 28059/48845 [9:56:09<7:16:28,  1.26s/it] 57%|█████▋    | 28060/48845 [9:56:11<7:20:36,  1.27s/it]                                                         {'loss': 2.0623, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28060/48845 [9:56:11<7:20:36,  1.27s/it] 57%|█████▋    | 28061/48845 [9:56:12<7:19:12,  1.27s/it] 57%|█████▋    | 28062/48845 [9:56:13<7:18:20,  1.27s/it] 57%|█████▋    | 28063/48845 [9:56:15<7:18:19,  1.27s/it] 57%|█████▋    | 28064/48845 [9:56:16<7:18:03,  1.26s/it] 57%|█████▋    | 28065/48845 [9:56:17<7:17:37,  1.26s/it]                                                         {'loss': 1.9442, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28065/48845 [9:56:17<7:17:37,  1.26s/it] 57%|█████▋    | 28066/48845 [9:56:18<7:17:59,  1.26s/it] 57%|█████▋    | 28067/48845 [9:56:20<7:17:23,  1.26s/it] 57%|█████▋    | 28068/48845 [9:56:21<7:17:07,  1.26s/it] 57%|█████▋    | 28069/48845 [9:56:22<7:17:09,  1.26s/it] 57%|█████▋    | 28070/48845 [9:56:23<7:16:41,  1.26s/it]                                                         {'loss': 2.0059, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28070/48845 [9:56:23<7:16:41,  1.26s/it] 57%|█████▋    | 28071/48845 [9:56:25<7:16:39,  1.26s/it] 57%|█████▋    | 28072/48845 [9:56:26<7:16:48,  1.26s/it] 57%|█████▋    | 28073/48845 [9:56:27<7:17:03,  1.26s/it] 57%|█████▋    | 28074/48845 [9:56:28<7:16:45,  1.26s/it] 57%|█████▋    | 28075/48845 [9:56:30<7:16:29,  1.26s/it]                                                         {'loss': 1.9772, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28075/48845 [9:56:30<7:16:29,  1.26s/it] 57%|█████▋    | 28076/48845 [9:56:31<7:29:53,  1.30s/it] 57%|█████▋    | 28077/48845 [9:56:32<7:25:38,  1.29s/it] 57%|█████▋    | 28078/48845 [9:56:34<7:22:46,  1.28s/it] 57%|█████▋    | 28079/48845 [9:56:35<7:20:39,  1.27s/it] 57%|█████▋    | 28080/48845 [9:56:36<7:19:15,  1.27s/it]                                                         {'loss': 2.0127, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28080/48845 [9:56:36<7:19:15,  1.27s/it] 57%|█████▋    | 28081/48845 [9:56:37<7:18:20,  1.27s/it] 57%|█████▋    | 28082/48845 [9:56:39<7:17:31,  1.26s/it] 57%|█████▋    | 28083/48845 [9:56:40<7:16:53,  1.26s/it] 57%|█████▋    | 28084/48845 [9:56:41<7:16:36,  1.26s/it] 57%|█████▋    | 28085/48845 [9:56:42<7:16:18,  1.26s/it]                                                         {'loss': 1.8163, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.87}
+ 57%|█████▋    | 28085/48845 [9:56:42<7:16:18,  1.26s/it] 58%|█████▊    | 28086/48845 [9:56:44<7:16:16,  1.26s/it] 58%|█████▊    | 28087/48845 [9:56:45<7:16:52,  1.26s/it] 58%|█████▊    | 28088/48845 [9:56:46<7:16:10,  1.26s/it] 58%|█████▊    | 28089/48845 [9:56:48<7:21:38,  1.28s/it] 58%|█████▊    | 28090/48845 [9:56:49<7:19:52,  1.27s/it]                                                         {'loss': 2.1561, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28090/48845 [9:56:49<7:19:52,  1.27s/it] 58%|█████▊    | 28091/48845 [9:56:50<7:18:42,  1.27s/it] 58%|█████▊    | 28092/48845 [9:56:51<7:17:46,  1.27s/it] 58%|█████▊    | 28093/48845 [9:56:53<7:17:39,  1.27s/it] 58%|█████▊    | 28094/48845 [9:56:54<7:17:30,  1.27s/it] 58%|█████▊    | 28095/48845 [9:56:55<7:17:19,  1.26s/it]                                                         {'loss': 2.029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28095/48845 [9:56:55<7:17:19,  1.26s/it] 58%|█████▊    | 28096/48845 [9:56:56<7:17:29,  1.27s/it] 58%|█████▊    | 28097/48845 [9:56:58<7:20:51,  1.27s/it] 58%|█████▊    | 28098/48845 [9:56:59<7:19:18,  1.27s/it] 58%|█████▊    | 28099/48845 [9:57:00<7:18:15,  1.27s/it] 58%|█████▊    | 28100/48845 [9:57:01<7:17:28,  1.27s/it]                                                         {'loss': 1.8854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28100/48845 [9:57:01<7:17:28,  1.27s/it] 58%|█████▊    | 28101/48845 [9:57:03<7:17:46,  1.27s/it] 58%|█████▊    | 28102/48845 [9:57:04<7:17:23,  1.27s/it] 58%|█████▊    | 28103/48845 [9:57:05<7:16:42,  1.26s/it] 58%|█████▊    | 28104/48845 [9:57:06<7:16:13,  1.26s/it] 58%|█████▊    | 28105/48845 [9:57:08<7:16:58,  1.26s/it]                                                         {'loss': 1.9617, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28105/48845 [9:57:08<7:16:58,  1.26s/it] 58%|█████▊    | 28106/48845 [9:57:09<7:16:42,  1.26s/it] 58%|█████▊    | 28107/48845 [9:57:10<7:16:28,  1.26s/it] 58%|█████▊    | 28108/48845 [9:57:12<7:15:58,  1.26s/it] 58%|█████▊    | 28109/48845 [9:57:13<7:16:19,  1.26s/it] 58%|█████▊    | 28110/48845 [9:57:14<7:16:17,  1.26s/it]                                                         {'loss': 1.9876, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28110/48845 [9:57:14<7:16:17,  1.26s/it] 58%|█████▊    | 28111/48845 [9:57:15<7:16:48,  1.26s/it] 58%|█████▊    | 28112/48845 [9:57:17<7:16:23,  1.26s/it] 58%|█████▊    | 28113/48845 [9:57:18<7:16:04,  1.26s/it] 58%|█████▊    | 28114/48845 [9:57:19<7:15:56,  1.26s/it] 58%|█████▊    | 28115/48845 [9:57:20<7:15:37,  1.26s/it]                                                         {'loss': 1.8961, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28115/48845 [9:57:20<7:15:37,  1.26s/it] 58%|█████▊    | 28116/48845 [9:57:22<7:15:24,  1.26s/it] 58%|█████▊    | 28117/48845 [9:57:23<7:15:25,  1.26s/it] 58%|█████▊    | 28118/48845 [9:57:24<7:15:18,  1.26s/it] 58%|█████▊    | 28119/48845 [9:57:25<7:15:04,  1.26s/it] 58%|█████▊    | 28120/48845 [9:57:27<7:14:55,  1.26s/it]                                                         {'loss': 2.0452, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28120/48845 [9:57:27<7:14:55,  1.26s/it] 58%|█████▊    | 28121/48845 [9:57:28<7:15:44,  1.26s/it] 58%|█████▊    | 28122/48845 [9:57:29<7:15:30,  1.26s/it] 58%|█████▊    | 28123/48845 [9:57:30<7:15:32,  1.26s/it] 58%|█████▊    | 28124/48845 [9:57:32<7:15:05,  1.26s/it] 58%|█████▊    | 28125/48845 [9:57:33<7:15:01,  1.26s/it]                                                         {'loss': 1.9333, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28125/48845 [9:57:33<7:15:01,  1.26s/it] 58%|█████▊    | 28126/48845 [9:57:34<7:15:22,  1.26s/it] 58%|█████▊    | 28127/48845 [9:57:35<7:15:07,  1.26s/it] 58%|█████▊    | 28128/48845 [9:57:37<7:15:21,  1.26s/it] 58%|█████▊    | 28129/48845 [9:57:38<7:15:40,  1.26s/it] 58%|█████▊    | 28130/48845 [9:57:39<7:15:53,  1.26s/it]                                                         {'loss': 2.1301, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28130/48845 [9:57:39<7:15:53,  1.26s/it] 58%|█████▊    | 28131/48845 [9:57:41<7:15:39,  1.26s/it] 58%|█████▊    | 28132/48845 [9:57:42<7:15:23,  1.26s/it] 58%|█████▊    | 28133/48845 [9:57:43<7:15:11,  1.26s/it] 58%|█████▊    | 28134/48845 [9:57:44<7:15:09,  1.26s/it] 58%|█████▊    | 28135/48845 [9:57:46<7:15:05,  1.26s/it]                                                         {'loss': 2.0757, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28135/48845 [9:57:46<7:15:05,  1.26s/it] 58%|█████▊    | 28136/48845 [9:57:47<7:15:14,  1.26s/it] 58%|█████▊    | 28137/48845 [9:57:48<7:14:43,  1.26s/it] 58%|█████▊    | 28138/48845 [9:57:49<7:14:32,  1.26s/it] 58%|█████▊    | 28139/48845 [9:57:51<7:14:36,  1.26s/it] 58%|█████▊    | 28140/48845 [9:57:52<7:14:54,  1.26s/it]                                                         {'loss': 1.9394, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28140/48845 [9:57:52<7:14:54,  1.26s/it] 58%|█████▊    | 28141/48845 [9:57:53<7:14:46,  1.26s/it] 58%|█████▊    | 28142/48845 [9:57:54<7:14:36,  1.26s/it] 58%|█████▊    | 28143/48845 [9:57:56<7:14:21,  1.26s/it] 58%|█████▊    | 28144/48845 [9:57:57<7:14:38,  1.26s/it] 58%|█████▊    | 28145/48845 [9:57:58<7:15:22,  1.26s/it]                                                         {'loss': 1.9794, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28145/48845 [9:57:58<7:15:22,  1.26s/it] 58%|█████▊    | 28146/48845 [9:57:59<7:16:07,  1.26s/it] 58%|█████▊    | 28147/48845 [9:58:01<7:15:36,  1.26s/it] 58%|█████▊    | 28148/48845 [9:58:02<7:15:24,  1.26s/it] 58%|█████▊    | 28149/48845 [9:58:03<7:15:07,  1.26s/it] 58%|█████▊    | 28150/48845 [9:58:04<7:14:49,  1.26s/it]                                                         {'loss': 1.9802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28150/48845 [9:58:05<7:14:49,  1.26s/it] 58%|█████▊    | 28151/48845 [9:58:06<7:14:35,  1.26s/it] 58%|█████▊    | 28152/48845 [9:58:07<7:15:14,  1.26s/it] 58%|█████▊    | 28153/48845 [9:58:08<7:26:41,  1.30s/it] 58%|█████▊    | 28154/48845 [9:58:10<7:23:10,  1.29s/it] 58%|█████▊    | 28155/48845 [9:58:11<7:20:43,  1.28s/it]                                                         {'loss': 2.0916, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28155/48845 [9:58:11<7:20:43,  1.28s/it] 58%|█████▊    | 28156/48845 [9:58:12<7:18:44,  1.27s/it] 58%|█████▊    | 28157/48845 [9:58:14<7:33:59,  1.32s/it] 58%|█████▊    | 28158/48845 [9:58:15<7:28:32,  1.30s/it] 58%|█████▊    | 28159/48845 [9:58:16<7:24:07,  1.29s/it] 58%|█████▊    | 28160/48845 [9:58:17<7:20:43,  1.28s/it]                                                         {'loss': 2.0161, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28160/48845 [9:58:17<7:20:43,  1.28s/it] 58%|█████▊    | 28161/48845 [9:58:19<7:19:34,  1.28s/it] 58%|█████▊    | 28162/48845 [9:58:20<7:17:42,  1.27s/it] 58%|█████▊    | 28163/48845 [9:58:21<7:16:11,  1.27s/it] 58%|█████▊    | 28164/48845 [9:58:22<7:15:26,  1.26s/it] 58%|█████▊    | 28165/48845 [9:58:24<7:15:22,  1.26s/it]                                                         {'loss': 1.9638, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28165/48845 [9:58:24<7:15:22,  1.26s/it] 58%|█████▊    | 28166/48845 [9:58:25<7:15:03,  1.26s/it] 58%|█████▊    | 28167/48845 [9:58:26<7:14:43,  1.26s/it] 58%|█████▊    | 28168/48845 [9:58:27<7:14:41,  1.26s/it] 58%|█████▊    | 28169/48845 [9:58:29<7:14:40,  1.26s/it] 58%|█████▊    | 28170/48845 [9:58:30<7:14:27,  1.26s/it]                                                         {'loss': 1.9866, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28170/48845 [9:58:30<7:14:27,  1.26s/it] 58%|█████▊    | 28171/48845 [9:58:31<7:14:18,  1.26s/it] 58%|█████▊    | 28172/48845 [9:58:33<7:14:25,  1.26s/it] 58%|█████▊    | 28173/48845 [9:58:34<7:14:53,  1.26s/it] 58%|█████▊    | 28174/48845 [9:58:35<7:14:58,  1.26s/it] 58%|█████▊    | 28175/48845 [9:58:36<7:14:34,  1.26s/it]                                                         {'loss': 2.0164, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28175/48845 [9:58:36<7:14:34,  1.26s/it] 58%|█████▊    | 28176/48845 [9:58:38<7:14:32,  1.26s/it] 58%|█████▊    | 28177/48845 [9:58:39<7:31:27,  1.31s/it] 58%|█████▊    | 28178/48845 [9:58:40<7:26:40,  1.30s/it] 58%|█████▊    | 28179/48845 [9:58:42<7:23:15,  1.29s/it] 58%|█████▊    | 28180/48845 [9:58:43<7:20:29,  1.28s/it]                                                         {'loss': 1.9708, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.88}
+ 58%|█████▊    | 28180/48845 [9:58:43<7:20:29,  1.28s/it] 58%|█████▊    | 28181/48845 [9:58:44<7:29:05,  1.30s/it] 58%|█████▊    | 28182/48845 [9:58:45<7:24:26,  1.29s/it] 58%|█████▊    | 28183/48845 [9:58:47<7:21:23,  1.28s/it] 58%|█████▊    | 28184/48845 [9:58:48<7:19:06,  1.28s/it] 58%|█████▊    | 28185/48845 [9:58:49<7:17:30,  1.27s/it]                                                         {'loss': 2.0652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28185/48845 [9:58:49<7:17:30,  1.27s/it] 58%|█████▊    | 28186/48845 [9:58:50<7:16:49,  1.27s/it] 58%|█████▊    | 28187/48845 [9:58:52<7:16:15,  1.27s/it] 58%|█████▊    | 28188/48845 [9:58:53<7:15:27,  1.26s/it] 58%|█████▊    | 28189/48845 [9:58:54<7:15:00,  1.26s/it] 58%|█████▊    | 28190/48845 [9:58:55<7:14:59,  1.26s/it]                                                         {'loss': 2.0575, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28190/48845 [9:58:55<7:14:59,  1.26s/it] 58%|█████▊    | 28191/48845 [9:58:57<7:14:55,  1.26s/it] 58%|█████▊    | 28192/48845 [9:58:58<7:14:47,  1.26s/it] 58%|█████▊    | 28193/48845 [9:58:59<7:14:27,  1.26s/it] 58%|█████▊    | 28194/48845 [9:59:01<7:14:29,  1.26s/it] 58%|█████▊    | 28195/48845 [9:59:02<7:14:21,  1.26s/it]                                                         {'loss': 2.07, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28195/48845 [9:59:02<7:14:21,  1.26s/it] 58%|█████▊    | 28196/48845 [9:59:03<7:14:20,  1.26s/it] 58%|█████▊    | 28197/48845 [9:59:04<7:14:22,  1.26s/it] 58%|█████▊    | 28198/48845 [9:59:06<7:13:53,  1.26s/it] 58%|█████▊    | 28199/48845 [9:59:07<7:14:05,  1.26s/it] 58%|█████▊    | 28200/48845 [9:59:08<7:14:25,  1.26s/it]                                                         {'loss': 1.9492, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28200/48845 [9:59:08<7:14:25,  1.26s/it] 58%|█████▊    | 28201/48845 [9:59:12<11:29:56,  2.01s/it] 58%|█████▊    | 28202/48845 [9:59:13<10:13:00,  1.78s/it] 58%|█████▊    | 28203/48845 [9:59:14<9:18:45,  1.62s/it]  58%|█████▊    | 28204/48845 [9:59:16<8:40:59,  1.51s/it] 58%|█████▊    | 28205/48845 [9:59:17<8:15:07,  1.44s/it]                                                         {'loss': 2.0529, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28205/48845 [9:59:17<8:15:07,  1.44s/it] 58%|█████▊    | 28206/48845 [9:59:18<7:56:33,  1.39s/it] 58%|█████▊    | 28207/48845 [9:59:19<7:44:22,  1.35s/it] 58%|█████▊    | 28208/48845 [9:59:21<7:34:53,  1.32s/it] 58%|█████▊    | 28209/48845 [9:59:22<7:28:54,  1.31s/it] 58%|█████▊    | 28210/48845 [9:59:23<7:24:50,  1.29s/it]                                                         {'loss': 2.015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28210/48845 [9:59:23<7:24:50,  1.29s/it] 58%|█████▊    | 28211/48845 [9:59:24<7:22:27,  1.29s/it] 58%|█████▊    | 28212/48845 [9:59:26<7:19:37,  1.28s/it] 58%|█████▊    | 28213/48845 [9:59:27<7:17:44,  1.27s/it] 58%|█████▊    | 28214/48845 [9:59:28<7:16:13,  1.27s/it] 58%|█████▊    | 28215/48845 [9:59:30<7:15:24,  1.27s/it]                                                         {'loss': 2.1014, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28215/48845 [9:59:30<7:15:24,  1.27s/it] 58%|█████▊    | 28216/48845 [9:59:31<7:16:00,  1.27s/it] 58%|█████▊    | 28217/48845 [9:59:32<7:15:00,  1.27s/it] 58%|█████▊    | 28218/48845 [9:59:33<7:14:26,  1.26s/it] 58%|█████▊    | 28219/48845 [9:59:35<7:13:50,  1.26s/it] 58%|█████▊    | 28220/48845 [9:59:36<7:13:44,  1.26s/it]                                                         {'loss': 2.1648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28220/48845 [9:59:36<7:13:44,  1.26s/it] 58%|█████▊    | 28221/48845 [9:59:37<7:14:17,  1.26s/it] 58%|█████▊    | 28222/48845 [9:59:38<7:13:55,  1.26s/it] 58%|█████▊    | 28223/48845 [9:59:40<7:13:36,  1.26s/it] 58%|█████▊    | 28224/48845 [9:59:41<7:13:22,  1.26s/it] 58%|█████▊    | 28225/48845 [9:59:42<7:13:19,  1.26s/it]                                                         {'loss': 2.1253, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28225/48845 [9:59:42<7:13:19,  1.26s/it] 58%|█████▊    | 28226/48845 [9:59:43<7:13:11,  1.26s/it] 58%|█████▊    | 28227/48845 [9:59:45<7:12:50,  1.26s/it] 58%|█████▊    | 28228/48845 [9:59:46<7:12:24,  1.26s/it] 58%|█████▊    | 28229/48845 [9:59:47<7:12:46,  1.26s/it] 58%|█████▊    | 28230/48845 [9:59:48<7:12:50,  1.26s/it]                                                         {'loss': 2.0046, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28230/48845 [9:59:48<7:12:50,  1.26s/it] 58%|█████▊    | 28231/48845 [9:59:50<7:12:51,  1.26s/it] 58%|█████▊    | 28232/48845 [9:59:51<7:12:58,  1.26s/it] 58%|█████▊    | 28233/48845 [9:59:52<7:13:13,  1.26s/it] 58%|█████▊    | 28234/48845 [9:59:53<7:12:52,  1.26s/it] 58%|█████▊    | 28235/48845 [9:59:55<7:12:36,  1.26s/it]                                                         {'loss': 1.9648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28235/48845 [9:59:55<7:12:36,  1.26s/it] 58%|█████▊    | 28236/48845 [9:59:56<7:13:01,  1.26s/it] 58%|█████▊    | 28237/48845 [9:59:57<7:13:18,  1.26s/it] 58%|█████▊    | 28238/48845 [9:59:59<7:13:07,  1.26s/it] 58%|█████▊    | 28239/48845 [10:00:00<7:12:59,  1.26s/it] 58%|█████▊    | 28240/48845 [10:00:01<7:12:45,  1.26s/it]                                                          {'loss': 2.1838, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28240/48845 [10:00:01<7:12:45,  1.26s/it] 58%|█████▊    | 28241/48845 [10:00:02<7:12:37,  1.26s/it] 58%|█████▊    | 28242/48845 [10:00:04<7:12:31,  1.26s/it] 58%|█████▊    | 28243/48845 [10:00:05<7:12:59,  1.26s/it] 58%|█████▊    | 28244/48845 [10:00:06<7:12:43,  1.26s/it] 58%|█████▊    | 28245/48845 [10:00:07<7:12:56,  1.26s/it]                                                          {'loss': 2.0579, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28245/48845 [10:00:07<7:12:56,  1.26s/it] 58%|█████▊    | 28246/48845 [10:00:09<7:13:11,  1.26s/it] 58%|█████▊    | 28247/48845 [10:00:10<7:12:52,  1.26s/it] 58%|█████▊    | 28248/48845 [10:00:11<7:12:40,  1.26s/it] 58%|█████▊    | 28249/48845 [10:00:12<7:13:32,  1.26s/it] 58%|█████▊    | 28250/48845 [10:00:14<7:12:55,  1.26s/it]                                                          {'loss': 2.0687, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28250/48845 [10:00:14<7:12:55,  1.26s/it] 58%|█████▊    | 28251/48845 [10:00:15<7:13:18,  1.26s/it] 58%|█████▊    | 28252/48845 [10:00:16<7:12:53,  1.26s/it] 58%|█████▊    | 28253/48845 [10:00:17<7:12:45,  1.26s/it] 58%|█████▊    | 28254/48845 [10:00:19<7:12:41,  1.26s/it] 58%|█████▊    | 28255/48845 [10:00:20<7:12:23,  1.26s/it]                                                          {'loss': 2.0906, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28255/48845 [10:00:20<7:12:23,  1.26s/it] 58%|█████▊    | 28256/48845 [10:00:21<7:12:20,  1.26s/it] 58%|█████▊    | 28257/48845 [10:00:22<7:12:26,  1.26s/it] 58%|█████▊    | 28258/48845 [10:00:24<7:12:15,  1.26s/it] 58%|█████▊    | 28259/48845 [10:00:25<7:12:28,  1.26s/it] 58%|█████▊    | 28260/48845 [10:00:26<7:12:06,  1.26s/it]                                                          {'loss': 2.0322, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28260/48845 [10:00:26<7:12:06,  1.26s/it] 58%|█████▊    | 28261/48845 [10:00:27<7:12:04,  1.26s/it] 58%|█████▊    | 28262/48845 [10:00:29<7:12:03,  1.26s/it] 58%|█████▊    | 28263/48845 [10:00:30<7:12:02,  1.26s/it] 58%|█████▊    | 28264/48845 [10:00:31<7:12:02,  1.26s/it] 58%|█████▊    | 28265/48845 [10:00:33<7:11:53,  1.26s/it]                                                          {'loss': 2.047, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28265/48845 [10:00:33<7:11:53,  1.26s/it] 58%|█████▊    | 28266/48845 [10:00:34<7:11:57,  1.26s/it] 58%|█████▊    | 28267/48845 [10:00:35<7:12:06,  1.26s/it] 58%|█████▊    | 28268/48845 [10:00:36<7:12:08,  1.26s/it] 58%|█████▊    | 28269/48845 [10:00:38<7:12:09,  1.26s/it] 58%|█████▊    | 28270/48845 [10:00:39<7:11:54,  1.26s/it]                                                          {'loss': 2.0614, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28270/48845 [10:00:39<7:11:54,  1.26s/it] 58%|█████▊    | 28271/48845 [10:00:40<7:12:45,  1.26s/it] 58%|█████▊    | 28272/48845 [10:00:41<7:12:34,  1.26s/it] 58%|█████▊    | 28273/48845 [10:00:43<7:12:44,  1.26s/it] 58%|█████▊    | 28274/48845 [10:00:44<7:12:58,  1.26s/it] 58%|█████▊    | 28275/48845 [10:00:45<7:12:32,  1.26s/it]                                                          {'loss': 1.8723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28275/48845 [10:00:45<7:12:32,  1.26s/it] 58%|█████▊    | 28276/48845 [10:00:46<7:13:18,  1.26s/it] 58%|█████▊    | 28277/48845 [10:00:48<7:12:58,  1.26s/it] 58%|█████▊    | 28278/48845 [10:00:49<7:12:47,  1.26s/it] 58%|█████▊    | 28279/48845 [10:00:50<7:12:44,  1.26s/it] 58%|█████▊    | 28280/48845 [10:00:51<7:12:59,  1.26s/it]                                                          {'loss': 2.0798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.89}
+ 58%|█████▊    | 28280/48845 [10:00:51<7:12:59,  1.26s/it] 58%|█████▊    | 28281/48845 [10:00:53<7:12:43,  1.26s/it] 58%|█████▊    | 28282/48845 [10:00:54<7:12:39,  1.26s/it] 58%|█████▊    | 28283/48845 [10:00:55<7:12:16,  1.26s/it] 58%|█████▊    | 28284/48845 [10:00:57<7:11:58,  1.26s/it] 58%|█████▊    | 28285/48845 [10:00:58<7:11:52,  1.26s/it]                                                          {'loss': 2.0887, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28285/48845 [10:00:58<7:11:52,  1.26s/it] 58%|█████▊    | 28286/48845 [10:00:59<7:12:16,  1.26s/it] 58%|█████▊    | 28287/48845 [10:01:00<7:12:06,  1.26s/it] 58%|█████▊    | 28288/48845 [10:01:02<7:11:42,  1.26s/it] 58%|█████▊    | 28289/48845 [10:01:03<7:12:28,  1.26s/it] 58%|█████▊    | 28290/48845 [10:01:04<7:13:25,  1.27s/it]                                                          {'loss': 2.1022, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28290/48845 [10:01:04<7:13:25,  1.27s/it] 58%|█████▊    | 28291/48845 [10:01:05<7:13:32,  1.27s/it] 58%|█████▊    | 28292/48845 [10:01:07<7:13:16,  1.26s/it] 58%|█████▊    | 28293/48845 [10:01:08<7:13:16,  1.26s/it] 58%|█████▊    | 28294/48845 [10:01:09<7:12:52,  1.26s/it] 58%|█████▊    | 28295/48845 [10:01:10<7:12:24,  1.26s/it]                                                          {'loss': 1.8469, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28295/48845 [10:01:10<7:12:24,  1.26s/it] 58%|█████▊    | 28296/48845 [10:01:12<7:12:38,  1.26s/it] 58%|█████▊    | 28297/48845 [10:01:13<7:12:25,  1.26s/it] 58%|█████▊    | 28298/48845 [10:01:14<7:12:08,  1.26s/it] 58%|█████▊    | 28299/48845 [10:01:15<7:12:10,  1.26s/it] 58%|█████▊    | 28300/48845 [10:01:17<7:11:37,  1.26s/it]                                                          {'loss': 2.0546, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28300/48845 [10:01:17<7:11:37,  1.26s/it] 58%|█████▊    | 28301/48845 [10:01:18<7:12:20,  1.26s/it] 58%|█████▊    | 28302/48845 [10:01:19<7:12:34,  1.26s/it] 58%|█████▊    | 28303/48845 [10:01:21<7:12:13,  1.26s/it] 58%|█████▊    | 28304/48845 [10:01:22<7:11:47,  1.26s/it] 58%|█████▊    | 28305/48845 [10:01:23<7:11:44,  1.26s/it]                                                          {'loss': 2.121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28305/48845 [10:01:23<7:11:44,  1.26s/it] 58%|█████▊    | 28306/48845 [10:01:24<7:11:46,  1.26s/it] 58%|█████▊    | 28307/48845 [10:01:26<7:12:12,  1.26s/it] 58%|█████▊    | 28308/48845 [10:01:27<7:11:45,  1.26s/it] 58%|█████▊    | 28309/48845 [10:01:28<7:11:28,  1.26s/it] 58%|█████▊    | 28310/48845 [10:01:29<7:11:29,  1.26s/it]                                                          {'loss': 2.0676, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28310/48845 [10:01:29<7:11:29,  1.26s/it] 58%|█████▊    | 28311/48845 [10:01:31<7:11:34,  1.26s/it] 58%|█████▊    | 28312/48845 [10:01:32<7:11:58,  1.26s/it] 58%|█████▊    | 28313/48845 [10:01:33<7:11:48,  1.26s/it] 58%|█████▊    | 28314/48845 [10:01:34<7:11:33,  1.26s/it] 58%|█████▊    | 28315/48845 [10:01:36<7:11:28,  1.26s/it]                                                          {'loss': 2.0571, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28315/48845 [10:01:36<7:11:28,  1.26s/it] 58%|█████▊    | 28316/48845 [10:01:37<7:12:04,  1.26s/it] 58%|█████▊    | 28317/48845 [10:01:38<7:12:23,  1.26s/it] 58%|█████▊    | 28318/48845 [10:01:39<7:12:26,  1.26s/it] 58%|█████▊    | 28319/48845 [10:01:41<7:11:54,  1.26s/it] 58%|█████▊    | 28320/48845 [10:01:42<7:11:53,  1.26s/it]                                                          {'loss': 1.9177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28320/48845 [10:01:42<7:11:53,  1.26s/it] 58%|█████▊    | 28321/48845 [10:01:43<7:12:15,  1.26s/it] 58%|█████▊    | 28322/48845 [10:01:44<7:11:57,  1.26s/it] 58%|█████▊    | 28323/48845 [10:01:46<7:11:23,  1.26s/it] 58%|█████▊    | 28324/48845 [10:01:47<7:11:20,  1.26s/it] 58%|█████▊    | 28325/48845 [10:01:48<7:11:43,  1.26s/it]                                                          {'loss': 1.9352, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28325/48845 [10:01:48<7:11:43,  1.26s/it] 58%|█████▊    | 28326/48845 [10:01:50<7:12:11,  1.26s/it] 58%|█████▊    | 28327/48845 [10:01:51<7:11:25,  1.26s/it] 58%|█████▊    | 28328/48845 [10:01:52<7:20:23,  1.29s/it] 58%|█████▊    | 28329/48845 [10:01:53<7:17:11,  1.28s/it] 58%|█████▊    | 28330/48845 [10:01:55<7:15:20,  1.27s/it]                                                          {'loss': 2.0496, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28330/48845 [10:01:55<7:15:20,  1.27s/it] 58%|█████▊    | 28331/48845 [10:01:56<7:13:46,  1.27s/it] 58%|█████▊    | 28332/48845 [10:01:57<7:12:33,  1.27s/it] 58%|█████▊    | 28333/48845 [10:01:58<7:11:58,  1.26s/it] 58%|█████▊    | 28334/48845 [10:02:00<7:11:10,  1.26s/it] 58%|█████▊    | 28335/48845 [10:02:01<7:10:43,  1.26s/it]                                                          {'loss': 2.0872, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28335/48845 [10:02:01<7:10:43,  1.26s/it] 58%|█████▊    | 28336/48845 [10:02:02<7:10:59,  1.26s/it] 58%|█████▊    | 28337/48845 [10:02:03<7:10:59,  1.26s/it] 58%|█████▊    | 28338/48845 [10:02:05<7:10:41,  1.26s/it] 58%|█████▊    | 28339/48845 [10:02:06<7:10:55,  1.26s/it] 58%|█████▊    | 28340/48845 [10:02:07<7:11:00,  1.26s/it]                                                          {'loss': 2.1432, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28340/48845 [10:02:07<7:11:00,  1.26s/it] 58%|█████▊    | 28341/48845 [10:02:09<7:11:54,  1.26s/it] 58%|█████▊    | 28342/48845 [10:02:10<7:11:39,  1.26s/it] 58%|█████▊    | 28343/48845 [10:02:11<7:11:28,  1.26s/it] 58%|█████▊    | 28344/48845 [10:02:12<7:11:02,  1.26s/it] 58%|█████▊    | 28345/48845 [10:02:14<7:10:52,  1.26s/it]                                                          {'loss': 1.9774, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28345/48845 [10:02:14<7:10:52,  1.26s/it] 58%|█████▊    | 28346/48845 [10:02:15<7:10:40,  1.26s/it] 58%|█████▊    | 28347/48845 [10:02:16<7:10:56,  1.26s/it] 58%|█████▊    | 28348/48845 [10:02:17<7:11:15,  1.26s/it] 58%|█████▊    | 28349/48845 [10:02:19<7:11:19,  1.26s/it] 58%|█████▊    | 28350/48845 [10:02:20<7:11:12,  1.26s/it]                                                          {'loss': 2.1529, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28350/48845 [10:02:20<7:11:12,  1.26s/it] 58%|█████▊    | 28351/48845 [10:02:21<7:12:37,  1.27s/it] 58%|█████▊    | 28352/48845 [10:02:22<7:11:38,  1.26s/it] 58%|█████▊    | 28353/48845 [10:02:24<7:10:55,  1.26s/it] 58%|█████▊    | 28354/48845 [10:02:25<7:10:43,  1.26s/it] 58%|█████▊    | 28355/48845 [10:02:26<7:10:21,  1.26s/it]                                                          {'loss': 2.2046, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28355/48845 [10:02:26<7:10:21,  1.26s/it] 58%|█████▊    | 28356/48845 [10:02:27<7:10:01,  1.26s/it] 58%|█████▊    | 28357/48845 [10:02:29<7:10:01,  1.26s/it] 58%|█████▊    | 28358/48845 [10:02:30<7:10:30,  1.26s/it] 58%|█████▊    | 28359/48845 [10:02:31<7:10:03,  1.26s/it] 58%|█████▊    | 28360/48845 [10:02:32<7:10:09,  1.26s/it]                                                          {'loss': 2.0147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28360/48845 [10:02:32<7:10:09,  1.26s/it] 58%|█████▊    | 28361/48845 [10:02:34<7:11:14,  1.26s/it] 58%|█████▊    | 28362/48845 [10:02:35<7:10:47,  1.26s/it] 58%|█████▊    | 28363/48845 [10:02:36<7:10:36,  1.26s/it] 58%|█████▊    | 28364/48845 [10:02:38<7:11:15,  1.26s/it] 58%|█████▊    | 28365/48845 [10:02:39<7:10:30,  1.26s/it]                                                          {'loss': 2.0307, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28365/48845 [10:02:39<7:10:30,  1.26s/it] 58%|█████▊    | 28366/48845 [10:02:40<7:10:35,  1.26s/it] 58%|█████▊    | 28367/48845 [10:02:41<7:10:09,  1.26s/it] 58%|█████▊    | 28368/48845 [10:02:43<7:10:04,  1.26s/it] 58%|█████▊    | 28369/48845 [10:02:44<7:09:49,  1.26s/it] 58%|█████▊    | 28370/48845 [10:02:45<7:09:43,  1.26s/it]                                                          {'loss': 1.9985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28370/48845 [10:02:45<7:09:43,  1.26s/it] 58%|█████▊    | 28371/48845 [10:02:46<7:09:55,  1.26s/it] 58%|█████▊    | 28372/48845 [10:02:48<7:09:40,  1.26s/it] 58%|█████▊    | 28373/48845 [10:02:49<7:09:52,  1.26s/it] 58%|█████▊    | 28374/48845 [10:02:50<7:09:53,  1.26s/it] 58%|█████▊    | 28375/48845 [10:02:51<7:09:32,  1.26s/it]                                                          {'loss': 2.2031, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.9}
+ 58%|█████▊    | 28375/48845 [10:02:51<7:09:32,  1.26s/it] 58%|█████▊    | 28376/48845 [10:02:53<7:09:47,  1.26s/it] 58%|█████▊    | 28377/48845 [10:02:54<7:09:42,  1.26s/it] 58%|█████▊    | 28378/48845 [10:02:55<7:09:39,  1.26s/it] 58%|█████��    | 28379/48845 [10:02:56<7:09:33,  1.26s/it] 58%|█████▊    | 28380/48845 [10:02:58<7:09:35,  1.26s/it]                                                          {'loss': 1.9159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28380/48845 [10:02:58<7:09:35,  1.26s/it] 58%|█████▊    | 28381/48845 [10:02:59<7:09:41,  1.26s/it] 58%|█████▊    | 28382/48845 [10:03:00<7:10:12,  1.26s/it] 58%|█████▊    | 28383/48845 [10:03:01<7:10:08,  1.26s/it] 58%|█████▊    | 28384/48845 [10:03:03<7:11:04,  1.26s/it] 58%|█████▊    | 28385/48845 [10:03:04<7:10:39,  1.26s/it]                                                          {'loss': 2.0818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28385/48845 [10:03:04<7:10:39,  1.26s/it] 58%|█████▊    | 28386/48845 [10:03:05<7:11:39,  1.27s/it] 58%|█████▊    | 28387/48845 [10:03:07<7:11:27,  1.27s/it] 58%|█████▊    | 28388/48845 [10:03:08<7:10:54,  1.26s/it] 58%|█████▊    | 28389/48845 [10:03:09<7:10:54,  1.26s/it] 58%|█████▊    | 28390/48845 [10:03:10<7:11:00,  1.26s/it]                                                          {'loss': 2.1148, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28390/48845 [10:03:10<7:11:00,  1.26s/it] 58%|█████▊    | 28391/48845 [10:03:12<7:10:26,  1.26s/it] 58%|█████▊    | 28392/48845 [10:03:13<7:10:04,  1.26s/it] 58%|█████▊    | 28393/48845 [10:03:14<7:09:52,  1.26s/it] 58%|█████▊    | 28394/48845 [10:03:15<7:10:04,  1.26s/it] 58%|█████▊    | 28395/48845 [10:03:17<7:10:18,  1.26s/it]                                                          {'loss': 2.0617, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28395/48845 [10:03:17<7:10:18,  1.26s/it] 58%|█████▊    | 28396/48845 [10:03:18<7:10:19,  1.26s/it] 58%|█████▊    | 28397/48845 [10:03:19<7:10:06,  1.26s/it] 58%|█████▊    | 28398/48845 [10:03:20<7:09:53,  1.26s/it] 58%|█████▊    | 28399/48845 [10:03:22<7:09:52,  1.26s/it] 58%|█████▊    | 28400/48845 [10:03:23<7:09:45,  1.26s/it]                                                          {'loss': 1.9172, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28400/48845 [10:03:23<7:09:45,  1.26s/it] 58%|█████▊    | 28401/48845 [10:03:27<11:26:08,  2.01s/it] 58%|█████▊    | 28402/48845 [10:03:28<10:09:10,  1.79s/it] 58%|█████▊    | 28403/48845 [10:03:29<9:15:38,  1.63s/it]  58%|█████▊    | 28404/48845 [10:03:31<8:37:51,  1.52s/it] 58%|█████▊    | 28405/48845 [10:03:32<8:11:24,  1.44s/it]                                                          {'loss': 1.9985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28405/48845 [10:03:32<8:11:24,  1.44s/it] 58%|█████▊    | 28406/48845 [10:03:33<7:52:53,  1.39s/it] 58%|█████▊    | 28407/48845 [10:03:34<7:40:33,  1.35s/it] 58%|█████▊    | 28408/48845 [10:03:36<7:31:09,  1.32s/it] 58%|█████▊    | 28409/48845 [10:03:37<7:24:37,  1.31s/it] 58%|█████▊    | 28410/48845 [10:03:38<7:19:54,  1.29s/it]                                                          {'loss': 1.8928, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28410/48845 [10:03:38<7:19:54,  1.29s/it] 58%|█████▊    | 28411/48845 [10:03:39<7:18:49,  1.29s/it] 58%|█████▊    | 28412/48845 [10:03:41<7:16:07,  1.28s/it] 58%|█████▊    | 28413/48845 [10:03:42<7:14:09,  1.27s/it] 58%|█████▊    | 28414/48845 [10:03:43<7:12:42,  1.27s/it] 58%|█████▊    | 28415/48845 [10:03:44<7:11:53,  1.27s/it]                                                          {'loss': 2.1581, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28415/48845 [10:03:44<7:11:53,  1.27s/it] 58%|█████▊    | 28416/48845 [10:03:46<7:11:03,  1.27s/it] 58%|█████▊    | 28417/48845 [10:03:47<7:10:32,  1.26s/it] 58%|█████▊    | 28418/48845 [10:03:48<7:10:23,  1.26s/it] 58%|█████▊    | 28419/48845 [10:03:49<7:10:06,  1.26s/it] 58%|█████▊    | 28420/48845 [10:03:51<7:10:05,  1.26s/it]                                                          {'loss': 2.15, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28420/48845 [10:03:51<7:10:05,  1.26s/it] 58%|█████▊    | 28421/48845 [10:03:52<7:09:39,  1.26s/it] 58%|█████▊    | 28422/48845 [10:03:53<7:10:04,  1.26s/it] 58%|█████▊    | 28423/48845 [10:03:54<7:09:39,  1.26s/it] 58%|█████▊    | 28424/48845 [10:03:56<7:09:29,  1.26s/it] 58%|█████▊    | 28425/48845 [10:03:57<7:08:55,  1.26s/it]                                                          {'loss': 2.0436, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28425/48845 [10:03:57<7:08:55,  1.26s/it] 58%|█████▊    | 28426/48845 [10:03:58<7:09:17,  1.26s/it] 58%|█████▊    | 28427/48845 [10:04:00<7:20:31,  1.29s/it] 58%|█████▊    | 28428/48845 [10:04:01<7:16:47,  1.28s/it] 58%|█████▊    | 28429/48845 [10:04:02<7:14:20,  1.28s/it] 58%|█████▊    | 28430/48845 [10:04:03<7:12:57,  1.27s/it]                                                          {'loss': 2.122, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28430/48845 [10:04:03<7:12:57,  1.27s/it] 58%|█████▊    | 28431/48845 [10:04:05<7:12:16,  1.27s/it] 58%|█████▊    | 28432/48845 [10:04:06<7:11:05,  1.27s/it] 58%|█████▊    | 28433/48845 [10:04:07<7:11:04,  1.27s/it] 58%|█████▊    | 28434/48845 [10:04:08<7:10:03,  1.26s/it] 58%|█████▊    | 28435/48845 [10:04:10<7:09:49,  1.26s/it]                                                          {'loss': 1.8986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28435/48845 [10:04:10<7:09:49,  1.26s/it] 58%|█████▊    | 28436/48845 [10:04:11<7:09:28,  1.26s/it] 58%|█████▊    | 28437/48845 [10:04:12<7:09:10,  1.26s/it] 58%|█████▊    | 28438/48845 [10:04:14<7:08:42,  1.26s/it] 58%|█████▊    | 28439/48845 [10:04:15<7:08:55,  1.26s/it] 58%|█████▊    | 28440/48845 [10:04:16<7:08:35,  1.26s/it]                                                          {'loss': 2.0026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28440/48845 [10:04:16<7:08:35,  1.26s/it] 58%|█████▊    | 28441/48845 [10:04:17<7:08:42,  1.26s/it] 58%|█████▊    | 28442/48845 [10:04:19<7:08:38,  1.26s/it] 58%|█████▊    | 28443/48845 [10:04:20<7:08:42,  1.26s/it] 58%|█████▊    | 28444/48845 [10:04:21<7:08:10,  1.26s/it] 58%|█████▊    | 28445/48845 [10:04:22<7:08:30,  1.26s/it]                                                          {'loss': 1.9639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28445/48845 [10:04:22<7:08:30,  1.26s/it] 58%|█████▊    | 28446/48845 [10:04:24<7:08:48,  1.26s/it] 58%|█████▊    | 28447/48845 [10:04:25<7:08:35,  1.26s/it] 58%|█████▊    | 28448/48845 [10:04:26<7:08:30,  1.26s/it] 58%|█████▊    | 28449/48845 [10:04:27<7:08:21,  1.26s/it] 58%|█████▊    | 28450/48845 [10:04:29<7:07:53,  1.26s/it]                                                          {'loss': 1.8317, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28450/48845 [10:04:29<7:07:53,  1.26s/it] 58%|█████▊    | 28451/48845 [10:04:30<7:08:22,  1.26s/it] 58%|█████▊    | 28452/48845 [10:04:31<7:08:40,  1.26s/it] 58%|█████▊    | 28453/48845 [10:04:32<7:08:22,  1.26s/it] 58%|█████▊    | 28454/48845 [10:04:34<7:08:33,  1.26s/it] 58%|█████▊    | 28455/48845 [10:04:35<7:08:28,  1.26s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28455/48845 [10:04:35<7:08:28,  1.26s/it] 58%|█████▊    | 28456/48845 [10:04:36<7:08:18,  1.26s/it] 58%|█████▊    | 28457/48845 [10:04:37<7:07:51,  1.26s/it] 58%|█████▊    | 28458/48845 [10:04:39<7:07:59,  1.26s/it] 58%|█████▊    | 28459/48845 [10:04:40<7:08:05,  1.26s/it] 58%|█████▊    | 28460/48845 [10:04:41<7:07:53,  1.26s/it]                                                          {'loss': 1.9818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28460/48845 [10:04:41<7:07:53,  1.26s/it] 58%|█████▊    | 28461/48845 [10:04:43<7:08:10,  1.26s/it] 58%|█████▊    | 28462/48845 [10:04:44<7:08:02,  1.26s/it] 58%|█████▊    | 28463/48845 [10:04:45<7:08:37,  1.26s/it] 58%|█████▊    | 28464/48845 [10:04:46<7:08:28,  1.26s/it] 58%|█████▊    | 28465/48845 [10:04:48<7:08:11,  1.26s/it]                                                          {'loss': 2.0875, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28465/48845 [10:04:48<7:08:11,  1.26s/it] 58%|█████▊    | 28466/48845 [10:04:49<7:08:21,  1.26s/it] 58%|█████▊    | 28467/48845 [10:04:50<7:08:41,  1.26s/it] 58%|█████▊    | 28468/48845 [10:04:51<7:08:19,  1.26s/it] 58%|█████▊    | 28469/48845 [10:04:53<7:07:48,  1.26s/it] 58%|█████▊    | 28470/48845 [10:04:54<7:07:58,  1.26s/it]                                                          {'loss': 2.0943, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28470/48845 [10:04:54<7:07:58,  1.26s/it] 58%|█████▊    | 28471/48845 [10:04:55<7:10:57,  1.27s/it] 58%|█████▊    | 28472/48845 [10:04:56<7:10:29,  1.27s/it] 58%|█████▊    | 28473/48845 [10:04:58<7:09:35,  1.27s/it] 58%|█████▊    | 28474/48845 [10:04:59<7:09:10,  1.26s/it] 58%|█████▊    | 28475/48845 [10:05:00<7:08:51,  1.26s/it]                                                          {'loss': 2.0377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.91}
+ 58%|█████▊    | 28475/48845 [10:05:00<7:08:51,  1.26s/it] 58%|█████▊    | 28476/48845 [10:05:01<7:08:05,  1.26s/it] 58%|█████▊    | 28477/48845 [10:05:03<7:07:53,  1.26s/it] 58%|█████▊    | 28478/48845 [10:05:04<7:07:57,  1.26s/it] 58%|█████▊    | 28479/48845 [10:05:05<7:08:12,  1.26s/it] 58%|█████▊    | 28480/48845 [10:05:06<7:07:56,  1.26s/it]                                                          {'loss': 2.0947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28480/48845 [10:05:06<7:07:56,  1.26s/it] 58%|█████▊    | 28481/48845 [10:05:08<7:07:55,  1.26s/it] 58%|█████▊    | 28482/48845 [10:05:09<7:07:55,  1.26s/it] 58%|█████▊    | 28483/48845 [10:05:10<7:07:46,  1.26s/it] 58%|█████▊    | 28484/48845 [10:05:12<7:08:04,  1.26s/it] 58%|█████▊    | 28485/48845 [10:05:13<7:07:48,  1.26s/it]                                                          {'loss': 1.9623, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28485/48845 [10:05:13<7:07:48,  1.26s/it] 58%|█████▊    | 28486/48845 [10:05:14<7:07:42,  1.26s/it] 58%|█████▊    | 28487/48845 [10:05:15<7:07:46,  1.26s/it] 58%|█████▊    | 28488/48845 [10:05:17<7:08:23,  1.26s/it] 58%|█████▊    | 28489/48845 [10:05:18<7:07:50,  1.26s/it] 58%|█████▊    | 28490/48845 [10:05:19<7:08:00,  1.26s/it]                                                          {'loss': 1.9725, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28490/48845 [10:05:19<7:08:00,  1.26s/it] 58%|█████▊    | 28491/48845 [10:05:20<7:08:14,  1.26s/it] 58%|█████▊    | 28492/48845 [10:05:22<7:08:26,  1.26s/it] 58%|█████▊    | 28493/48845 [10:05:23<7:08:29,  1.26s/it] 58%|█████▊    | 28494/48845 [10:05:24<7:08:25,  1.26s/it] 58%|█████▊    | 28495/48845 [10:05:25<7:08:09,  1.26s/it]                                                          {'loss': 2.1794, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28495/48845 [10:05:25<7:08:09,  1.26s/it] 58%|█████▊    | 28496/48845 [10:05:27<7:08:20,  1.26s/it] 58%|█████▊    | 28497/48845 [10:05:28<7:07:49,  1.26s/it] 58%|█████▊    | 28498/48845 [10:05:29<7:07:32,  1.26s/it] 58%|█████▊    | 28499/48845 [10:05:30<7:07:22,  1.26s/it] 58%|█████▊    | 28500/48845 [10:05:32<7:07:16,  1.26s/it]                                                          {'loss': 1.841, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28500/48845 [10:05:32<7:07:16,  1.26s/it] 58%|█████▊    | 28501/48845 [10:05:33<7:07:06,  1.26s/it] 58%|█████▊    | 28502/48845 [10:05:34<7:07:13,  1.26s/it] 58%|█████▊    | 28503/48845 [10:05:36<7:07:23,  1.26s/it] 58%|█████▊    | 28504/48845 [10:05:37<7:07:08,  1.26s/it] 58%|█████▊    | 28505/48845 [10:05:38<7:07:17,  1.26s/it]                                                          {'loss': 2.0569, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28505/48845 [10:05:38<7:07:17,  1.26s/it] 58%|█████▊    | 28506/48845 [10:05:39<7:07:57,  1.26s/it] 58%|█████▊    | 28507/48845 [10:05:41<7:07:47,  1.26s/it] 58%|█████▊    | 28508/48845 [10:05:42<7:07:33,  1.26s/it] 58%|█████▊    | 28509/48845 [10:05:43<7:07:38,  1.26s/it] 58%|█████▊    | 28510/48845 [10:05:44<7:07:26,  1.26s/it]                                                          {'loss': 1.9732, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28510/48845 [10:05:44<7:07:26,  1.26s/it] 58%|█████▊    | 28511/48845 [10:05:46<7:08:28,  1.26s/it] 58%|█████▊    | 28512/48845 [10:05:47<7:08:19,  1.26s/it] 58%|█████▊    | 28513/48845 [10:05:48<7:07:40,  1.26s/it] 58%|█████▊    | 28514/48845 [10:05:49<7:07:41,  1.26s/it] 58%|█████▊    | 28515/48845 [10:05:51<7:07:39,  1.26s/it]                                                          {'loss': 2.0042, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28515/48845 [10:05:51<7:07:39,  1.26s/it] 58%|█████▊    | 28516/48845 [10:05:52<7:07:42,  1.26s/it] 58%|█████▊    | 28517/48845 [10:05:53<7:07:25,  1.26s/it] 58%|█████▊    | 28518/48845 [10:05:54<7:07:13,  1.26s/it] 58%|█████▊    | 28519/48845 [10:05:56<7:06:58,  1.26s/it] 58%|█████▊    | 28520/48845 [10:05:57<7:06:55,  1.26s/it]                                                          {'loss': 1.8743, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28520/48845 [10:05:57<7:06:55,  1.26s/it] 58%|█████▊    | 28521/48845 [10:05:58<7:07:19,  1.26s/it] 58%|█████▊    | 28522/48845 [10:05:59<7:07:21,  1.26s/it] 58%|█████▊    | 28523/48845 [10:06:01<7:07:01,  1.26s/it] 58%|█████▊    | 28524/48845 [10:06:02<7:06:55,  1.26s/it] 58%|█████▊    | 28525/48845 [10:06:03<7:06:30,  1.26s/it]                                                          {'loss': 1.7885, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28525/48845 [10:06:03<7:06:30,  1.26s/it] 58%|█████▊    | 28526/48845 [10:06:05<7:06:39,  1.26s/it] 58%|█████▊    | 28527/48845 [10:06:06<7:06:47,  1.26s/it] 58%|█████▊    | 28528/48845 [10:06:07<7:06:43,  1.26s/it] 58%|█████▊    | 28529/48845 [10:06:08<7:06:44,  1.26s/it] 58%|█████▊    | 28530/48845 [10:06:10<7:06:10,  1.26s/it]                                                          {'loss': 2.1284, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28530/48845 [10:06:10<7:06:10,  1.26s/it] 58%|█████▊    | 28531/48845 [10:06:11<7:05:49,  1.26s/it] 58%|█████▊    | 28532/48845 [10:06:12<7:06:07,  1.26s/it] 58%|█████▊    | 28533/48845 [10:06:13<7:06:15,  1.26s/it] 58%|█████▊    | 28534/48845 [10:06:15<7:06:11,  1.26s/it] 58%|█████▊    | 28535/48845 [10:06:16<7:06:17,  1.26s/it]                                                          {'loss': 2.1478, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28535/48845 [10:06:16<7:06:17,  1.26s/it] 58%|█████▊    | 28536/48845 [10:06:17<7:06:12,  1.26s/it] 58%|█████▊    | 28537/48845 [10:06:18<7:06:06,  1.26s/it] 58%|█████▊    | 28538/48845 [10:06:20<7:06:19,  1.26s/it] 58%|█████▊    | 28539/48845 [10:06:21<7:06:11,  1.26s/it] 58%|█████▊    | 28540/48845 [10:06:22<7:06:12,  1.26s/it]                                                          {'loss': 1.9891, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28540/48845 [10:06:22<7:06:12,  1.26s/it] 58%|█████▊    | 28541/48845 [10:06:23<7:06:07,  1.26s/it] 58%|█████▊    | 28542/48845 [10:06:25<7:06:24,  1.26s/it] 58%|█████▊    | 28543/48845 [10:06:26<7:06:22,  1.26s/it] 58%|█████▊    | 28544/48845 [10:06:27<7:06:07,  1.26s/it] 58%|█████▊    | 28545/48845 [10:06:28<7:06:02,  1.26s/it]                                                          {'loss': 2.1461, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28545/48845 [10:06:28<7:06:02,  1.26s/it] 58%|█████▊    | 28546/48845 [10:06:30<7:06:04,  1.26s/it] 58%|█████▊    | 28547/48845 [10:06:31<7:06:17,  1.26s/it] 58%|█████▊    | 28548/48845 [10:06:32<7:06:33,  1.26s/it] 58%|█████▊    | 28549/48845 [10:06:33<7:05:51,  1.26s/it] 58%|█████▊    | 28550/48845 [10:06:35<7:05:54,  1.26s/it]                                                          {'loss': 1.9211, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28550/48845 [10:06:35<7:05:54,  1.26s/it] 58%|█████▊    | 28551/48845 [10:06:36<7:06:32,  1.26s/it] 58%|█████▊    | 28552/48845 [10:06:37<7:06:45,  1.26s/it] 58%|█████▊    | 28553/48845 [10:06:39<7:06:36,  1.26s/it] 58%|█████▊    | 28554/48845 [10:06:40<7:06:22,  1.26s/it] 58%|█████▊    | 28555/48845 [10:06:41<7:06:56,  1.26s/it]                                                          {'loss': 1.9598, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28555/48845 [10:06:41<7:06:56,  1.26s/it] 58%|█████▊    | 28556/48845 [10:06:42<7:06:39,  1.26s/it] 58%|█████▊    | 28557/48845 [10:06:44<7:06:24,  1.26s/it] 58%|█████▊    | 28558/48845 [10:06:45<7:06:36,  1.26s/it] 58%|█████▊    | 28559/48845 [10:06:46<7:06:23,  1.26s/it] 58%|█████▊    | 28560/48845 [10:06:47<7:06:46,  1.26s/it]                                                          {'loss': 2.0052, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28560/48845 [10:06:47<7:06:46,  1.26s/it] 58%|█████▊    | 28561/48845 [10:06:49<7:06:47,  1.26s/it] 58%|█████▊    | 28562/48845 [10:06:50<7:06:26,  1.26s/it] 58%|█████▊    | 28563/48845 [10:06:51<7:05:57,  1.26s/it] 58%|█████▊    | 28564/48845 [10:06:52<7:05:42,  1.26s/it] 58%|█████▊    | 28565/48845 [10:06:54<7:05:47,  1.26s/it]                                                          {'loss': 2.0376, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28565/48845 [10:06:54<7:05:47,  1.26s/it] 58%|█████▊    | 28566/48845 [10:06:55<7:05:39,  1.26s/it] 58%|█████▊    | 28567/48845 [10:06:56<7:06:11,  1.26s/it] 58%|█████▊    | 28568/48845 [10:06:57<7:06:00,  1.26s/it] 58%|█████▊    | 28569/48845 [10:06:59<7:09:25,  1.27s/it] 58%|█████▊    | 28570/48845 [10:07:00<7:08:23,  1.27s/it]                                                          {'loss': 1.8985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.92}
+ 58%|█████▊    | 28570/48845 [10:07:00<7:08:23,  1.27s/it] 58%|█████▊    | 28571/48845 [10:07:01<7:07:57,  1.27s/it] 58%|█████▊    | 28572/48845 [10:07:03<7:07:14,  1.26s/it] 58%|█████▊    | 28573/48845 [10:07:04<7:07:25,  1.27s/it] 58%|█████▊    | 28574/48845 [10:07:05<7:07:10,  1.26s/it] 59%|█████▊    | 28575/48845 [10:07:06<7:06:41,  1.26s/it]                                                          {'loss': 2.0958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28575/48845 [10:07:06<7:06:41,  1.26s/it] 59%|█████▊    | 28576/48845 [10:07:08<7:06:17,  1.26s/it] 59%|█████▊    | 28577/48845 [10:07:09<7:18:58,  1.30s/it] 59%|█████▊    | 28578/48845 [10:07:10<7:15:04,  1.29s/it] 59%|█████▊    | 28579/48845 [10:07:11<7:12:03,  1.28s/it] 59%|█████▊    | 28580/48845 [10:07:13<7:10:12,  1.27s/it]                                                          {'loss': 2.1705, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28580/48845 [10:07:13<7:10:12,  1.27s/it] 59%|█████▊    | 28581/48845 [10:07:14<7:09:28,  1.27s/it] 59%|█████▊    | 28582/48845 [10:07:15<7:08:35,  1.27s/it] 59%|█████▊    | 28583/48845 [10:07:17<7:07:40,  1.27s/it] 59%|█████▊    | 28584/48845 [10:07:18<7:06:43,  1.26s/it] 59%|█████▊    | 28585/48845 [10:07:19<7:06:41,  1.26s/it]                                                          {'loss': 1.9344, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28585/48845 [10:07:19<7:06:41,  1.26s/it] 59%|█████▊    | 28586/48845 [10:07:20<7:07:04,  1.26s/it] 59%|█████▊    | 28587/48845 [10:07:22<7:06:36,  1.26s/it] 59%|█████▊    | 28588/48845 [10:07:23<7:05:58,  1.26s/it] 59%|█████▊    | 28589/48845 [10:07:24<7:06:32,  1.26s/it] 59%|█████▊    | 28590/48845 [10:07:25<7:06:27,  1.26s/it]                                                          {'loss': 2.0147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28590/48845 [10:07:25<7:06:27,  1.26s/it] 59%|█████▊    | 28591/48845 [10:07:27<7:06:07,  1.26s/it] 59%|█████▊    | 28592/48845 [10:07:28<7:05:52,  1.26s/it] 59%|█████▊    | 28593/48845 [10:07:29<7:05:51,  1.26s/it] 59%|█████▊    | 28594/48845 [10:07:30<7:05:26,  1.26s/it] 59%|█████▊    | 28595/48845 [10:07:32<7:05:08,  1.26s/it]                                                          {'loss': 2.2211, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28595/48845 [10:07:32<7:05:08,  1.26s/it] 59%|█████▊    | 28596/48845 [10:07:33<7:05:01,  1.26s/it] 59%|█████▊    | 28597/48845 [10:07:34<7:05:08,  1.26s/it] 59%|█████▊    | 28598/48845 [10:07:35<7:05:13,  1.26s/it] 59%|█████▊    | 28599/48845 [10:07:37<7:05:03,  1.26s/it] 59%|█████▊    | 28600/48845 [10:07:38<7:04:48,  1.26s/it]                                                          {'loss': 2.1098, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28600/48845 [10:07:38<7:04:48,  1.26s/it] 59%|█████▊    | 28601/48845 [10:07:42<11:12:42,  1.99s/it] 59%|█████▊    | 28602/48845 [10:07:43<9:58:07,  1.77s/it]  59%|█████▊    | 28603/48845 [10:07:44<9:05:49,  1.62s/it] 59%|█████▊    | 28604/48845 [10:07:45<8:29:45,  1.51s/it] 59%|█████▊    | 28605/48845 [10:07:47<8:03:57,  1.43s/it]                                                          {'loss': 2.0487, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28605/48845 [10:07:47<8:03:57,  1.43s/it] 59%|█████▊    | 28606/48845 [10:07:48<7:45:54,  1.38s/it] 59%|█████▊    | 28607/48845 [10:07:49<7:33:16,  1.34s/it] 59%|█████▊    | 28608/48845 [10:07:50<7:25:35,  1.32s/it] 59%|█████▊    | 28609/48845 [10:07:52<7:19:26,  1.30s/it] 59%|█████▊    | 28610/48845 [10:07:53<7:15:08,  1.29s/it]                                                          {'loss': 2.03, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28610/48845 [10:07:53<7:15:08,  1.29s/it] 59%|█████▊    | 28611/48845 [10:07:54<7:12:33,  1.28s/it] 59%|█████▊    | 28612/48845 [10:07:56<7:10:41,  1.28s/it] 59%|█████▊    | 28613/48845 [10:07:57<7:09:00,  1.27s/it] 59%|█████▊    | 28614/48845 [10:07:58<7:07:59,  1.27s/it] 59%|█████▊    | 28615/48845 [10:07:59<7:07:03,  1.27s/it]                                                          {'loss': 1.994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28615/48845 [10:07:59<7:07:03,  1.27s/it] 59%|█████▊    | 28616/48845 [10:08:01<7:06:13,  1.26s/it] 59%|█████▊    | 28617/48845 [10:08:02<7:05:47,  1.26s/it] 59%|█████▊    | 28618/48845 [10:08:03<7:06:03,  1.26s/it] 59%|█████▊    | 28619/48845 [10:08:04<7:05:31,  1.26s/it] 59%|█████▊    | 28620/48845 [10:08:06<7:04:40,  1.26s/it]                                                          {'loss': 1.9224, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28620/48845 [10:08:06<7:04:40,  1.26s/it] 59%|█████▊    | 28621/48845 [10:08:07<7:04:32,  1.26s/it] 59%|█████▊    | 28622/48845 [10:08:08<7:04:36,  1.26s/it] 59%|█████▊    | 28623/48845 [10:08:09<7:04:43,  1.26s/it] 59%|█████▊    | 28624/48845 [10:08:11<7:04:42,  1.26s/it] 59%|█████▊    | 28625/48845 [10:08:12<7:04:20,  1.26s/it]                                                          {'loss': 2.1427, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28625/48845 [10:08:12<7:04:20,  1.26s/it] 59%|█████▊    | 28626/48845 [10:08:13<7:04:30,  1.26s/it] 59%|█████▊    | 28627/48845 [10:08:14<7:04:44,  1.26s/it] 59%|█████▊    | 28628/48845 [10:08:16<7:04:18,  1.26s/it] 59%|█████▊    | 28629/48845 [10:08:17<7:04:18,  1.26s/it] 59%|█████▊    | 28630/48845 [10:08:18<7:05:07,  1.26s/it]                                                          {'loss': 2.0204, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28630/48845 [10:08:18<7:05:07,  1.26s/it] 59%|█████▊    | 28631/48845 [10:08:19<7:04:36,  1.26s/it] 59%|█████▊    | 28632/48845 [10:08:21<7:04:32,  1.26s/it] 59%|█████▊    | 28633/48845 [10:08:22<7:04:38,  1.26s/it] 59%|█████▊    | 28634/48845 [10:08:23<7:04:47,  1.26s/it] 59%|█████▊    | 28635/48845 [10:08:25<7:04:09,  1.26s/it]                                                          {'loss': 2.1752, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28635/48845 [10:08:25<7:04:09,  1.26s/it] 59%|█████▊    | 28636/48845 [10:08:26<7:03:41,  1.26s/it] 59%|█████▊    | 28637/48845 [10:08:27<7:03:47,  1.26s/it] 59%|█████▊    | 28638/48845 [10:08:28<7:03:49,  1.26s/it] 59%|█████▊    | 28639/48845 [10:08:30<7:03:51,  1.26s/it] 59%|█████▊    | 28640/48845 [10:08:31<7:03:49,  1.26s/it]                                                          {'loss': 1.9673, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28640/48845 [10:08:31<7:03:49,  1.26s/it] 59%|█████▊    | 28641/48845 [10:08:32<7:03:45,  1.26s/it] 59%|█████▊    | 28642/48845 [10:08:33<7:03:59,  1.26s/it] 59%|█████▊    | 28643/48845 [10:08:35<7:04:39,  1.26s/it] 59%|█████▊    | 28644/48845 [10:08:36<7:04:00,  1.26s/it] 59%|█████▊    | 28645/48845 [10:08:37<7:04:08,  1.26s/it]                                                          {'loss': 1.9085, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28645/48845 [10:08:37<7:04:08,  1.26s/it] 59%|█████▊    | 28646/48845 [10:08:38<7:04:06,  1.26s/it] 59%|█████▊    | 28647/48845 [10:08:40<7:04:11,  1.26s/it] 59%|█████▊    | 28648/48845 [10:08:41<7:04:05,  1.26s/it] 59%|█████▊    | 28649/48845 [10:08:42<7:03:54,  1.26s/it] 59%|█████▊    | 28650/48845 [10:08:43<7:03:48,  1.26s/it]                                                          {'loss': 2.1331, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28650/48845 [10:08:43<7:03:48,  1.26s/it] 59%|█████▊    | 28651/48845 [10:08:45<7:04:02,  1.26s/it] 59%|█████▊    | 28652/48845 [10:08:46<7:03:51,  1.26s/it] 59%|███���█▊    | 28653/48845 [10:08:47<7:04:01,  1.26s/it] 59%|█████▊    | 28654/48845 [10:08:48<7:03:44,  1.26s/it] 59%|█████▊    | 28655/48845 [10:08:50<7:03:43,  1.26s/it]                                                          {'loss': 1.9436, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28655/48845 [10:08:50<7:03:43,  1.26s/it] 59%|█████▊    | 28656/48845 [10:08:51<7:03:36,  1.26s/it] 59%|█████▊    | 28657/48845 [10:08:52<7:03:48,  1.26s/it] 59%|█████▊    | 28658/48845 [10:08:53<7:03:48,  1.26s/it] 59%|█████▊    | 28659/48845 [10:08:55<7:03:45,  1.26s/it] 59%|█████▊    | 28660/48845 [10:08:56<7:03:42,  1.26s/it]                                                          {'loss': 2.133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28660/48845 [10:08:56<7:03:42,  1.26s/it] 59%|█████▊    | 28661/48845 [10:08:57<7:04:00,  1.26s/it] 59%|█████▊    | 28662/48845 [10:08:59<7:04:27,  1.26s/it] 59%|█████▊    | 28663/48845 [10:09:00<7:04:09,  1.26s/it] 59%|█████▊    | 28664/48845 [10:09:01<7:03:55,  1.26s/it] 59%|█████▊    | 28665/48845 [10:09:02<7:03:51,  1.26s/it]                                                          {'loss': 2.1006, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28665/48845 [10:09:02<7:03:51,  1.26s/it] 59%|█████▊    | 28666/48845 [10:09:04<7:04:01,  1.26s/it] 59%|█████▊    | 28667/48845 [10:09:05<7:04:06,  1.26s/it] 59%|█████▊    | 28668/48845 [10:09:06<7:03:58,  1.26s/it] 59%|█████▊    | 28669/48845 [10:09:07<7:03:41,  1.26s/it] 59%|█████▊    | 28670/48845 [10:09:09<7:03:36,  1.26s/it]                                                          {'loss': 2.0707, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.93}
+ 59%|█████▊    | 28670/48845 [10:09:09<7:03:36,  1.26s/it] 59%|█████▊    | 28671/48845 [10:09:10<7:03:29,  1.26s/it] 59%|█████▊    | 28672/48845 [10:09:11<7:03:38,  1.26s/it] 59%|█████▊    | 28673/48845 [10:09:12<7:03:56,  1.26s/it] 59%|█████▊    | 28674/48845 [10:09:14<7:04:00,  1.26s/it] 59%|█████▊    | 28675/48845 [10:09:15<7:04:09,  1.26s/it]                                                          {'loss': 2.0218, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▊    | 28675/48845 [10:09:15<7:04:09,  1.26s/it] 59%|█████▊    | 28676/48845 [10:09:16<7:03:49,  1.26s/it] 59%|█████▊    | 28677/48845 [10:09:17<7:04:04,  1.26s/it] 59%|█████▊    | 28678/48845 [10:09:19<7:03:33,  1.26s/it] 59%|█████▊    | 28679/48845 [10:09:20<7:03:23,  1.26s/it] 59%|█████▊    | 28680/48845 [10:09:21<7:03:13,  1.26s/it]                                                          {'loss': 2.1924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▊    | 28680/48845 [10:09:21<7:03:13,  1.26s/it] 59%|█████▊    | 28681/48845 [10:09:22<7:03:16,  1.26s/it] 59%|█████▊    | 28682/48845 [10:09:24<7:03:25,  1.26s/it] 59%|█████▊    | 28683/48845 [10:09:25<7:03:31,  1.26s/it] 59%|█████▊    | 28684/48845 [10:09:26<7:03:49,  1.26s/it] 59%|█████▊    | 28685/48845 [10:09:28<7:03:46,  1.26s/it]                                                          {'loss': 2.1471, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▊    | 28685/48845 [10:09:28<7:03:46,  1.26s/it] 59%|█████▊    | 28686/48845 [10:09:29<7:04:52,  1.26s/it] 59%|█████▊    | 28687/48845 [10:09:30<7:04:18,  1.26s/it] 59%|█████▊    | 28688/48845 [10:09:31<7:04:01,  1.26s/it] 59%|█████▊    | 28689/48845 [10:09:33<7:03:39,  1.26s/it] 59%|█████▊    | 28690/48845 [10:09:34<7:03:57,  1.26s/it]                                                          {'loss': 2.0582, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▊    | 28690/48845 [10:09:34<7:03:57,  1.26s/it] 59%|█████▊    | 28691/48845 [10:09:35<7:03:17,  1.26s/it] 59%|█████▊    | 28692/48845 [10:09:36<7:03:12,  1.26s/it] 59%|█████▊    | 28693/48845 [10:09:38<7:03:10,  1.26s/it] 59%|█████▊    | 28694/48845 [10:09:39<7:03:13,  1.26s/it] 59%|█████▊    | 28695/48845 [10:09:40<7:03:00,  1.26s/it]                                                          {'loss': 1.9048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▊    | 28695/48845 [10:09:40<7:03:00,  1.26s/it] 59%|█████▊    | 28696/48845 [10:09:41<7:03:07,  1.26s/it] 59%|█████▉    | 28697/48845 [10:09:43<7:03:26,  1.26s/it] 59%|█████▉    | 28698/48845 [10:09:44<7:03:26,  1.26s/it] 59%|█████▉    | 28699/48845 [10:09:45<7:03:37,  1.26s/it] 59%|█████▉    | 28700/48845 [10:09:46<7:03:29,  1.26s/it]                                                          {'loss': 2.079, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28700/48845 [10:09:46<7:03:29,  1.26s/it] 59%|█████▉    | 28701/48845 [10:09:48<7:03:27,  1.26s/it] 59%|█████▉    | 28702/48845 [10:09:49<7:03:15,  1.26s/it] 59%|█████▉    | 28703/48845 [10:09:50<7:03:33,  1.26s/it] 59%|█████▉    | 28704/48845 [10:09:51<7:03:17,  1.26s/it] 59%|█████▉    | 28705/48845 [10:09:53<7:03:22,  1.26s/it]                                                          {'loss': 2.0454, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28705/48845 [10:09:53<7:03:22,  1.26s/it] 59%|█████▉    | 28706/48845 [10:09:54<7:03:40,  1.26s/it] 59%|█████▉    | 28707/48845 [10:09:55<7:03:22,  1.26s/it] 59%|█████▉    | 28708/48845 [10:09:57<7:03:13,  1.26s/it] 59%|█████▉    | 28709/48845 [10:09:58<7:02:56,  1.26s/it] 59%|█████▉    | 28710/48845 [10:09:59<7:03:17,  1.26s/it]                                                          {'loss': 2.0748, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28710/48845 [10:09:59<7:03:17,  1.26s/it] 59%|█████▉    | 28711/48845 [10:10:00<7:03:24,  1.26s/it] 59%|█████▉    | 28712/48845 [10:10:02<7:02:55,  1.26s/it] 59%|█████▉    | 28713/48845 [10:10:03<7:03:06,  1.26s/it] 59%|█████▉    | 28714/48845 [10:10:04<7:02:45,  1.26s/it] 59%|█████▉    | 28715/48845 [10:10:05<7:02:35,  1.26s/it]                                                          {'loss': 2.1456, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28715/48845 [10:10:05<7:02:35,  1.26s/it] 59%|█████▉    | 28716/48845 [10:10:07<7:02:34,  1.26s/it] 59%|█████▉    | 28717/48845 [10:10:08<7:02:23,  1.26s/it] 59%|█████▉    | 28718/48845 [10:10:09<7:02:54,  1.26s/it] 59%|█████▉    | 28719/48845 [10:10:10<7:03:24,  1.26s/it] 59%|█████▉    | 28720/48845 [10:10:12<7:03:08,  1.26s/it]                                                          {'loss': 2.0545, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28720/48845 [10:10:12<7:03:08,  1.26s/it] 59%|█████▉    | 28721/48845 [10:10:13<7:02:58,  1.26s/it] 59%|█████▉    | 28722/48845 [10:10:14<7:03:05,  1.26s/it] 59%|█████▉    | 28723/48845 [10:10:15<7:02:51,  1.26s/it] 59%|█████▉    | 28724/48845 [10:10:17<7:03:00,  1.26s/it] 59%|█████▉    | 28725/48845 [10:10:18<7:02:41,  1.26s/it]                                                          {'loss': 1.9722, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28725/48845 [10:10:18<7:02:41,  1.26s/it] 59%|█████▉    | 28726/48845 [10:10:19<7:03:13,  1.26s/it] 59%|█████▉    | 28727/48845 [10:10:20<7:02:59,  1.26s/it] 59%|█████▉    | 28728/48845 [10:10:22<7:02:41,  1.26s/it] 59%|█████▉    | 28729/48845 [10:10:23<7:02:29,  1.26s/it] 59%|█████▉    | 28730/48845 [10:10:24<7:02:52,  1.26s/it]                                                          {'loss': 2.036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28730/48845 [10:10:24<7:02:52,  1.26s/it] 59%|█████▉    | 28731/48845 [10:10:26<7:02:43,  1.26s/it] 59%|█████▉    | 28732/48845 [10:10:27<7:03:17,  1.26s/it] 59%|█████▉    | 28733/48845 [10:10:28<7:02:49,  1.26s/it] 59%|█████▉    | 28734/48845 [10:10:29<7:03:21,  1.26s/it] 59%|█████▉    | 28735/48845 [10:10:31<7:02:56,  1.26s/it]                                                          {'loss': 2.0225, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28735/48845 [10:10:31<7:02:56,  1.26s/it] 59%|█████▉    | 28736/48845 [10:10:32<7:02:47,  1.26s/it] 59%|█████▉    | 28737/48845 [10:10:33<7:02:37,  1.26s/it] 59%|█████▉    | 28738/48845 [10:10:34<7:02:09,  1.26s/it] 59%|█████▉    | 28739/48845 [10:10:36<7:02:32,  1.26s/it] 59%|█████▉    | 28740/48845 [10:10:37<7:02:32,  1.26s/it]                                                          {'loss': 2.0049, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28740/48845 [10:10:37<7:02:32,  1.26s/it] 59%|█████▉    | 28741/48845 [10:10:38<7:02:41,  1.26s/it] 59%|█████▉    | 28742/48845 [10:10:39<7:03:06,  1.26s/it] 59%|█████▉    | 28743/48845 [10:10:41<7:03:04,  1.26s/it] 59%|█████▉    | 28744/48845 [10:10:42<7:02:48,  1.26s/it] 59%|█████▉    | 28745/48845 [10:10:43<7:02:37,  1.26s/it]                                                          {'loss': 2.0063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28745/48845 [10:10:43<7:02:37,  1.26s/it] 59%|█████▉    | 28746/48845 [10:10:44<7:02:22,  1.26s/it] 59%|█████▉    | 28747/48845 [10:10:46<7:01:59,  1.26s/it] 59%|█████▉    | 28748/48845 [10:10:47<7:02:00,  1.26s/it] 59%|█████▉    | 28749/48845 [10:10:48<7:01:45,  1.26s/it] 59%|█████▉    | 28750/48845 [10:10:49<7:01:57,  1.26s/it]                                                          {'loss': 1.9329, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28750/48845 [10:10:49<7:01:57,  1.26s/it] 59%|█████▉    | 28751/48845 [10:10:51<7:02:28,  1.26s/it] 59%|█████▉    | 28752/48845 [10:10:52<7:02:28,  1.26s/it] 59%|█████▉    | 28753/48845 [10:10:53<7:03:10,  1.26s/it] 59%|█████▉    | 28754/48845 [10:10:55<7:02:36,  1.26s/it] 59%|█████▉    | 28755/48845 [10:10:56<7:02:32,  1.26s/it]                                                          {'loss': 2.1708, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28755/48845 [10:10:56<7:02:32,  1.26s/it] 59%|█████▉    | 28756/48845 [10:10:57<7:02:23,  1.26s/it] 59%|█████▉    | 28757/48845 [10:10:58<7:02:13,  1.26s/it] 59%|█████▉    | 28758/48845 [10:11:00<7:01:47,  1.26s/it] 59%|█████▉    | 28759/48845 [10:11:01<7:01:55,  1.26s/it] 59%|█████▉    | 28760/48845 [10:11:02<7:01:55,  1.26s/it]                                                          {'loss': 1.9969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28760/48845 [10:11:02<7:01:55,  1.26s/it] 59%|█████▉    | 28761/48845 [10:11:03<7:01:54,  1.26s/it] 59%|█████▉    | 28762/48845 [10:11:05<7:01:32,  1.26s/it] 59%|█████▉    | 28763/48845 [10:11:06<7:14:31,  1.30s/it] 59%|█████▉    | 28764/48845 [10:11:07<7:10:08,  1.29s/it] 59%|█████▉    | 28765/48845 [10:11:09<7:07:25,  1.28s/it]                                                          {'loss': 1.9369, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.94}
+ 59%|█████▉    | 28765/48845 [10:11:09<7:07:25,  1.28s/it] 59%|█████▉    | 28766/48845 [10:11:10<7:05:48,  1.27s/it] 59%|█████▉    | 28767/48845 [10:11:11<7:05:29,  1.27s/it] 59%|█████▉    | 28768/48845 [10:11:12<7:04:28,  1.27s/it] 59%|█████▉    | 28769/48845 [10:11:14<7:03:52,  1.27s/it] 59%|█████▉    | 28770/48845 [10:11:15<7:03:10,  1.26s/it]                                                          {'loss': 1.966, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28770/48845 [10:11:15<7:03:10,  1.26s/it] 59%|█████▉    | 28771/48845 [10:11:16<7:03:39,  1.27s/it] 59%|█████▉    | 28772/48845 [10:11:17<7:03:16,  1.27s/it] 59%|█████▉    | 28773/48845 [10:11:19<7:03:19,  1.27s/it] 59%|█████▉    | 28774/48845 [10:11:20<7:02:37,  1.26s/it] 59%|█████▉    | 28775/48845 [10:11:21<7:02:29,  1.26s/it]                                                          {'loss': 2.0832, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28775/48845 [10:11:21<7:02:29,  1.26s/it] 59%|█████▉    | 28776/48845 [10:11:22<7:02:09,  1.26s/it] 59%|█████▉    | 28777/48845 [10:11:24<7:01:59,  1.26s/it] 59%|█████▉    | 28778/48845 [10:11:25<7:02:02,  1.26s/it] 59%|█████▉    | 28779/48845 [10:11:26<7:01:46,  1.26s/it] 59%|█████▉    | 28780/48845 [10:11:27<7:01:18,  1.26s/it]                                                          {'loss': 1.9732, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28780/48845 [10:11:27<7:01:18,  1.26s/it] 59%|█████▉    | 28781/48845 [10:11:29<7:01:24,  1.26s/it] 59%|█████▉    | 28782/48845 [10:11:30<7:01:32,  1.26s/it] 59%|█████▉    | 28783/48845 [10:11:31<7:00:59,  1.26s/it] 59%|█████▉    | 28784/48845 [10:11:32<7:00:48,  1.26s/it] 59%|█████▉    | 28785/48845 [10:11:34<7:00:53,  1.26s/it]                                                          {'loss': 2.1869, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28785/48845 [10:11:34<7:00:53,  1.26s/it] 59%|█████▉    | 28786/48845 [10:11:35<7:01:19,  1.26s/it] 59%|█████▉    | 28787/48845 [10:11:36<7:01:15,  1.26s/it] 59%|█████▉    | 28788/48845 [10:11:38<7:00:56,  1.26s/it] 59%|█████▉    | 28789/48845 [10:11:39<7:00:48,  1.26s/it] 59%|█████▉    | 28790/48845 [10:11:40<7:01:01,  1.26s/it]                                                          {'loss': 1.9649, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28790/48845 [10:11:40<7:01:01,  1.26s/it] 59%|█████▉    | 28791/48845 [10:11:41<7:01:14,  1.26s/it] 59%|█████▉    | 28792/48845 [10:11:43<7:01:00,  1.26s/it] 59%|█████▉    | 28793/48845 [10:11:44<7:01:33,  1.26s/it] 59%|█████▉    | 28794/48845 [10:11:45<7:01:42,  1.26s/it] 59%|█████▉    | 28795/48845 [10:11:46<7:02:10,  1.26s/it]                                                          {'loss': 1.9657, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28795/48845 [10:11:46<7:02:10,  1.26s/it] 59%|█████▉    | 28796/48845 [10:11:48<7:01:49,  1.26s/it] 59%|█████▉    | 28797/48845 [10:11:49<7:01:31,  1.26s/it] 59%|█████▉    | 28798/48845 [10:11:50<7:01:44,  1.26s/it] 59%|█████▉    | 28799/48845 [10:11:51<7:01:20,  1.26s/it] 59%|█████▉    | 28800/48845 [10:11:53<7:01:09,  1.26s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28800/48845 [10:11:53<7:01:09,  1.26s/it] 59%|█████▉    | 28801/48845 [10:11:56<11:09:05,  2.00s/it] 59%|█████▉    | 28802/48845 [10:11:58<9:54:41,  1.78s/it]  59%|█████▉    | 28803/48845 [10:11:59<9:02:39,  1.62s/it] 59%|█████▉    | 28804/48845 [10:12:00<8:26:38,  1.52s/it] 59%|█████▉    | 28805/48845 [10:12:01<8:01:04,  1.44s/it]                                                          {'loss': 2.0394, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28805/48845 [10:12:01<8:01:04,  1.44s/it] 59%|█████▉    | 28806/48845 [10:12:03<7:42:44,  1.39s/it] 59%|█████▉    | 28807/48845 [10:12:04<7:30:26,  1.35s/it] 59%|█████▉    | 28808/48845 [10:12:05<7:22:03,  1.32s/it] 59%|█████▉    | 28809/48845 [10:12:06<7:15:36,  1.30s/it] 59%|█████▉    | 28810/48845 [10:12:08<7:11:59,  1.29s/it]                                                          {'loss': 1.9652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28810/48845 [10:12:08<7:11:59,  1.29s/it] 59%|█████▉    | 28811/48845 [10:12:09<7:08:56,  1.28s/it] 59%|█████▉    | 28812/48845 [10:12:10<7:06:27,  1.28s/it] 59%|█████▉    | 28813/48845 [10:12:12<7:05:09,  1.27s/it] 59%|█████▉    | 28814/48845 [10:12:13<7:03:55,  1.27s/it] 59%|█████▉    | 28815/48845 [10:12:15<8:05:45,  1.46s/it]                                                          {'loss': 1.9263, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28815/48845 [10:12:15<8:05:45,  1.46s/it] 59%|█████▉    | 28816/48845 [10:12:16<7:46:30,  1.40s/it] 59%|█████▉    | 28817/48845 [10:12:17<7:33:14,  1.36s/it] 59%|█████▉    | 28818/48845 [10:12:18<7:23:36,  1.33s/it] 59%|█████▉    | 28819/48845 [10:12:20<7:16:57,  1.31s/it] 59%|█████▉    | 28820/48845 [10:12:21<7:11:58,  1.29s/it]                                                          {'loss': 2.025, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28820/48845 [10:12:21<7:11:58,  1.29s/it] 59%|█████▉    | 28821/48845 [10:12:22<7:08:37,  1.28s/it] 59%|█████▉    | 28822/48845 [10:12:24<7:06:04,  1.28s/it] 59%|█████▉    | 28823/48845 [10:12:25<7:04:18,  1.27s/it] 59%|█████▉    | 28824/48845 [10:12:26<7:03:51,  1.27s/it] 59%|█████▉    | 28825/48845 [10:12:27<7:02:40,  1.27s/it]                                                          {'loss': 2.0697, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28825/48845 [10:12:27<7:02:40,  1.27s/it] 59%|█████▉    | 28826/48845 [10:12:29<7:02:12,  1.27s/it] 59%|█████▉    | 28827/48845 [10:12:30<7:01:39,  1.26s/it] 59%|█████▉    | 28828/48845 [10:12:31<7:01:07,  1.26s/it] 59%|█████▉    | 28829/48845 [10:12:32<7:00:51,  1.26s/it] 59%|█████▉    | 28830/48845 [10:12:34<7:00:29,  1.26s/it]                                                          {'loss': 2.207, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28830/48845 [10:12:34<7:00:29,  1.26s/it] 59%|█████▉    | 28831/48845 [10:12:35<7:00:31,  1.26s/it] 59%|█████▉    | 28832/48845 [10:12:36<7:00:29,  1.26s/it] 59%|█████▉    | 28833/48845 [10:12:37<7:00:17,  1.26s/it] 59%|█████▉    | 28834/48845 [10:12:39<7:00:12,  1.26s/it] 59%|█████▉    | 28835/48845 [10:12:40<6:59:54,  1.26s/it]                                                          {'loss': 1.9141, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28835/48845 [10:12:40<6:59:54,  1.26s/it] 59%|█████▉    | 28836/48845 [10:12:41<6:59:53,  1.26s/it] 59%|█████▉    | 28837/48845 [10:12:42<7:00:03,  1.26s/it] 59%|█████▉    | 28838/48845 [10:12:44<6:59:46,  1.26s/it] 59%|█████▉    | 28839/48845 [10:12:45<6:59:47,  1.26s/it] 59%|█████▉    | 28840/48845 [10:12:46<6:59:46,  1.26s/it]                                                          {'loss': 1.9519, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28840/48845 [10:12:46<6:59:46,  1.26s/it] 59%|█████▉    | 28841/48845 [10:12:47<7:00:00,  1.26s/it] 59%|█████▉    | 28842/48845 [10:12:49<7:00:07,  1.26s/it] 59%|█████▉    | 28843/48845 [10:12:50<6:59:52,  1.26s/it] 59%|█████▉    | 28844/48845 [10:12:51<6:59:53,  1.26s/it] 59%|█████▉    | 28845/48845 [10:12:53<6:59:28,  1.26s/it]                                                          {'loss': 2.0496, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28845/48845 [10:12:53<6:59:28,  1.26s/it] 59%|█████▉    | 28846/48845 [10:12:54<6:59:35,  1.26s/it] 59%|█████▉    | 28847/48845 [10:12:55<6:59:30,  1.26s/it] 59%|█████▉    | 28848/48845 [10:12:56<6:59:29,  1.26s/it] 59%|█████▉    | 28849/48845 [10:12:58<6:59:28,  1.26s/it] 59%|█████▉    | 28850/48845 [10:12:59<6:59:42,  1.26s/it]                                                          {'loss': 1.8112, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28850/48845 [10:12:59<6:59:42,  1.26s/it] 59%|█████▉    | 28851/48845 [10:13:00<6:59:48,  1.26s/it] 59%|█████▉    | 28852/48845 [10:13:01<7:00:35,  1.26s/it] 59%|█████▉    | 28853/48845 [10:13:03<7:00:14,  1.26s/it] 59%|█████▉    | 28854/48845 [10:13:04<7:00:03,  1.26s/it] 59%|█████▉    | 28855/48845 [10:13:05<6:59:51,  1.26s/it]                                                          {'loss': 1.9933, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28855/48845 [10:13:05<6:59:51,  1.26s/it] 59%|█████▉    | 28856/48845 [10:13:06<6:59:52,  1.26s/it] 59%|█████▉    | 28857/48845 [10:13:08<6:59:48,  1.26s/it] 59%|█████▉    | 28858/48845 [10:13:09<6:59:29,  1.26s/it] 59%|█████▉    | 28859/48845 [10:13:10<6:59:44,  1.26s/it] 59%|█████▉    | 28860/48845 [10:13:11<6:59:35,  1.26s/it]                                                          {'loss': 2.2019, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28860/48845 [10:13:11<6:59:35,  1.26s/it] 59%|█████▉    | 28861/48845 [10:13:13<7:00:07,  1.26s/it] 59%|█████▉    | 28862/48845 [10:13:14<7:00:00,  1.26s/it] 59%|█████▉    | 28863/48845 [10:13:15<7:00:15,  1.26s/it] 59%|█████▉    | 28864/48845 [10:13:16<7:00:09,  1.26s/it] 59%|█████▉    | 28865/48845 [10:13:18<6:59:52,  1.26s/it]                                                          {'loss': 2.0516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.95}
+ 59%|█████▉    | 28865/48845 [10:13:18<6:59:52,  1.26s/it] 59%|█████▉    | 28866/48845 [10:13:19<6:59:49,  1.26s/it] 59%|█████▉    | 28867/48845 [10:13:20<7:00:19,  1.26s/it] 59%|█████▉    | 28868/48845 [10:13:21<6:59:58,  1.26s/it] 59%|█████▉    | 28869/48845 [10:13:23<6:59:37,  1.26s/it] 59%|█████▉    | 28870/48845 [10:13:24<6:59:13,  1.26s/it]                                                          {'loss': 2.1047, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28870/48845 [10:13:24<6:59:13,  1.26s/it] 59%|█████▉    | 28871/48845 [10:13:25<6:59:18,  1.26s/it] 59%|█████▉    | 28872/48845 [10:13:27<6:59:17,  1.26s/it] 59%|█████▉    | 28873/48845 [10:13:28<6:59:32,  1.26s/it] 59%|█████▉    | 28874/48845 [10:13:29<7:00:01,  1.26s/it] 59%|█████▉    | 28875/48845 [10:13:30<6:59:52,  1.26s/it]                                                          {'loss': 1.9756, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28875/48845 [10:13:30<6:59:52,  1.26s/it] 59%|█████▉    | 28876/48845 [10:13:32<7:00:08,  1.26s/it] 59%|█████▉    | 28877/48845 [10:13:33<6:59:39,  1.26s/it] 59%|█████▉    | 28878/48845 [10:13:34<6:59:21,  1.26s/it] 59%|█████▉    | 28879/48845 [10:13:35<6:59:43,  1.26s/it] 59%|█████▉    | 28880/48845 [10:13:37<6:59:23,  1.26s/it]                                                          {'loss': 2.1279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28880/48845 [10:13:37<6:59:23,  1.26s/it] 59%|█████▉    | 28881/48845 [10:13:38<6:59:15,  1.26s/it] 59%|█████▉    | 28882/48845 [10:13:39<6:59:18,  1.26s/it] 59%|█████▉    | 28883/48845 [10:13:40<6:59:17,  1.26s/it] 59%|█████▉    | 28884/48845 [10:13:42<6:59:12,  1.26s/it] 59%|█████▉    | 28885/48845 [10:13:43<6:59:09,  1.26s/it]                                                          {'loss': 1.9622, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28885/48845 [10:13:43<6:59:09,  1.26s/it] 59%|█████▉    | 28886/48845 [10:13:44<6:59:14,  1.26s/it] 59%|█████▉    | 28887/48845 [10:13:45<6:59:11,  1.26s/it] 59%|█████▉    | 28888/48845 [10:13:47<6:58:44,  1.26s/it] 59%|█████▉    | 28889/48845 [10:13:48<6:58:49,  1.26s/it] 59%|█████▉    | 28890/48845 [10:13:49<6:59:00,  1.26s/it]                                                          {'loss': 1.9982, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28890/48845 [10:13:49<6:59:00,  1.26s/it] 59%|█████▉    | 28891/48845 [10:13:50<6:59:00,  1.26s/it] 59%|█████▉    | 28892/48845 [10:13:52<6:58:57,  1.26s/it] 59%|█████▉    | 28893/48845 [10:13:53<6:59:06,  1.26s/it] 59%|█████▉    | 28894/48845 [10:13:54<6:59:00,  1.26s/it] 59%|█████▉    | 28895/48845 [10:13:56<6:58:55,  1.26s/it]                                                          {'loss': 1.9005, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28895/48845 [10:13:56<6:58:55,  1.26s/it] 59%|█████▉    | 28896/48845 [10:13:57<6:59:34,  1.26s/it] 59%|█████▉    | 28897/48845 [10:13:58<6:59:34,  1.26s/it] 59%|█████▉    | 28898/48845 [10:13:59<6:59:36,  1.26s/it] 59%|█████▉    | 28899/48845 [10:14:01<6:59:45,  1.26s/it] 59%|█████▉    | 28900/48845 [10:14:02<6:59:20,  1.26s/it]                                                          {'loss': 1.87, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28900/48845 [10:14:02<6:59:20,  1.26s/it] 59%|█████▉    | 28901/48845 [10:14:03<6:59:12,  1.26s/it] 59%|█████▉    | 28902/48845 [10:14:04<6:59:03,  1.26s/it] 59%|█████▉    | 28903/48845 [10:14:06<6:59:07,  1.26s/it] 59%|█████▉    | 28904/48845 [10:14:07<6:58:46,  1.26s/it] 59%|█████▉    | 28905/48845 [10:14:08<6:58:46,  1.26s/it]                                                          {'loss': 1.979, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28905/48845 [10:14:08<6:58:46,  1.26s/it] 59%|█████▉    | 28906/48845 [10:14:09<6:58:47,  1.26s/it] 59%|█████▉    | 28907/48845 [10:14:11<6:58:41,  1.26s/it] 59%|█████▉    | 28908/48845 [10:14:12<6:58:24,  1.26s/it] 59%|█████▉    | 28909/48845 [10:14:13<6:58:28,  1.26s/it] 59%|█████▉    | 28910/48845 [10:14:14<6:58:33,  1.26s/it]                                                          {'loss': 2.2625, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28910/48845 [10:14:14<6:58:33,  1.26s/it] 59%|█████▉    | 28911/48845 [10:14:16<6:59:00,  1.26s/it] 59%|█████▉    | 28912/48845 [10:14:17<6:58:39,  1.26s/it] 59%|█████▉    | 28913/48845 [10:14:18<6:58:38,  1.26s/it] 59%|█████▉    | 28914/48845 [10:14:19<6:58:58,  1.26s/it] 59%|█████▉    | 28915/48845 [10:14:21<6:59:30,  1.26s/it]                                                          {'loss': 2.041, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28915/48845 [10:14:21<6:59:30,  1.26s/it] 59%|█████▉    | 28916/48845 [10:14:22<6:59:36,  1.26s/it] 59%|█████▉    | 28917/48845 [10:14:23<6:59:08,  1.26s/it] 59%|█████▉    | 28918/48845 [10:14:25<6:59:02,  1.26s/it] 59%|█████▉    | 28919/48845 [10:14:26<6:58:33,  1.26s/it] 59%|█████▉    | 28920/48845 [10:14:27<6:58:32,  1.26s/it]                                                          {'loss': 2.0777, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28920/48845 [10:14:27<6:58:32,  1.26s/it] 59%|█████▉    | 28921/48845 [10:14:28<6:58:33,  1.26s/it] 59%|█████▉    | 28922/48845 [10:14:30<6:58:21,  1.26s/it] 59%|█████▉    | 28923/48845 [10:14:31<6:59:11,  1.26s/it] 59%|█████▉    | 28924/48845 [10:14:32<6:59:00,  1.26s/it] 59%|█████▉    | 28925/48845 [10:14:33<6:58:45,  1.26s/it]                                                          {'loss': 1.9999, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28925/48845 [10:14:33<6:58:45,  1.26s/it] 59%|█████▉    | 28926/48845 [10:14:35<6:59:33,  1.26s/it] 59%|█████▉    | 28927/48845 [10:14:36<6:58:56,  1.26s/it] 59%|█████▉    | 28928/48845 [10:14:37<6:58:57,  1.26s/it] 59%|█████▉    | 28929/48845 [10:14:38<6:58:32,  1.26s/it] 59%|█████▉    | 28930/48845 [10:14:40<6:58:26,  1.26s/it]                                                          {'loss': 1.9124, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28930/48845 [10:14:40<6:58:26,  1.26s/it] 59%|█████▉    | 28931/48845 [10:14:41<6:58:17,  1.26s/it] 59%|█████▉    | 28932/48845 [10:14:42<6:58:21,  1.26s/it] 59%|█████▉    | 28933/48845 [10:14:43<6:58:09,  1.26s/it] 59%|█████▉    | 28934/48845 [10:14:45<6:58:17,  1.26s/it] 59%|█████▉    | 28935/48845 [10:14:46<6:58:10,  1.26s/it]                                                          {'loss': 2.0476, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28935/48845 [10:14:46<6:58:10,  1.26s/it] 59%|█████▉    | 28936/48845 [10:14:47<6:58:05,  1.26s/it] 59%|█████▉    | 28937/48845 [10:14:48<6:57:54,  1.26s/it] 59%|█████▉    | 28938/48845 [10:14:50<6:57:59,  1.26s/it] 59%|█████▉    | 28939/48845 [10:14:51<6:58:10,  1.26s/it] 59%|█████▉    | 28940/48845 [10:14:52<6:57:43,  1.26s/it]                                                          {'loss': 1.9667, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28940/48845 [10:14:52<6:57:43,  1.26s/it] 59%|█████▉    | 28941/48845 [10:14:54<6:57:40,  1.26s/it] 59%|█████▉    | 28942/48845 [10:14:55<6:57:42,  1.26s/it] 59%|█████▉    | 28943/48845 [10:14:56<6:57:39,  1.26s/it] 59%|█████▉    | 28944/48845 [10:14:57<6:57:41,  1.26s/it] 59%|█████▉    | 28945/48845 [10:14:59<6:57:44,  1.26s/it]                                                          {'loss': 1.967, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28945/48845 [10:14:59<6:57:44,  1.26s/it] 59%|█████▉    | 28946/48845 [10:15:00<6:59:39,  1.27s/it] 59%|█████▉    | 28947/48845 [10:15:01<6:59:05,  1.26s/it] 59%|█████▉    | 28948/48845 [10:15:02<6:58:40,  1.26s/it] 59%|█████▉    | 28949/48845 [10:15:04<6:58:18,  1.26s/it] 59%|█████▉    | 28950/48845 [10:15:05<6:58:03,  1.26s/it]                                                          {'loss': 2.0471, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28950/48845 [10:15:05<6:58:03,  1.26s/it] 59%|█████▉    | 28951/48845 [10:15:06<6:58:28,  1.26s/it] 59%|█████▉    | 28952/48845 [10:15:07<6:58:11,  1.26s/it] 59%|█████▉    | 28953/48845 [10:15:09<6:57:59,  1.26s/it] 59%|█████▉    | 28954/48845 [10:15:10<6:57:48,  1.26s/it] 59%|█████▉    | 28955/48845 [10:15:11<6:57:42,  1.26s/it]                                                          {'loss': 2.0285, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28955/48845 [10:15:11<6:57:42,  1.26s/it] 59%|█████▉    | 28956/48845 [10:15:12<6:57:53,  1.26s/it] 59%|█████▉    | 28957/48845 [10:15:14<6:57:39,  1.26s/it] 59%|█████▉    | 28958/48845 [10:15:15<6:57:50,  1.26s/it] 59%|█████▉    | 28959/48845 [10:15:16<6:57:44,  1.26s/it] 59%|█████▉    | 28960/48845 [10:15:17<6:57:54,  1.26s/it]                                                          {'loss': 2.0719, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28960/48845 [10:15:17<6:57:54,  1.26s/it] 59%|█████▉    | 28961/48845 [10:15:19<6:58:28,  1.26s/it] 59%|█████▉    | 28962/48845 [10:15:20<6:58:33,  1.26s/it] 59%|█████▉    | 28963/48845 [10:15:21<6:58:04,  1.26s/it] 59%|█████▉    | 28964/48845 [10:15:23<6:57:47,  1.26s/it] 59%|█████▉    | 28965/48845 [10:15:24<6:57:50,  1.26s/it]                                                          {'loss': 2.0741, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.96}
+ 59%|█████▉    | 28965/48845 [10:15:24<6:57:50,  1.26s/it] 59%|█████▉    | 28966/48845 [10:15:25<6:57:46,  1.26s/it] 59%|█████▉    | 28967/48845 [10:15:26<6:57:53,  1.26s/it] 59%|█████▉    | 28968/48845 [10:15:28<6:57:21,  1.26s/it] 59%|█████▉    | 28969/48845 [10:15:29<6:57:40,  1.26s/it] 59%|█████▉    | 28970/48845 [10:15:30<6:57:36,  1.26s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28970/48845 [10:15:30<6:57:36,  1.26s/it] 59%|█████▉    | 28971/48845 [10:15:31<6:57:28,  1.26s/it] 59%|█████▉    | 28972/48845 [10:15:33<6:57:45,  1.26s/it] 59%|█████▉    | 28973/48845 [10:15:34<6:57:30,  1.26s/it] 59%|█████▉    | 28974/48845 [10:15:35<6:57:38,  1.26s/it] 59%|█████▉    | 28975/48845 [10:15:36<6:58:08,  1.26s/it]                                                          {'loss': 1.9946, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28975/48845 [10:15:36<6:58:08,  1.26s/it] 59%|█████▉    | 28976/48845 [10:15:38<6:57:59,  1.26s/it] 59%|█████▉    | 28977/48845 [10:15:39<6:57:41,  1.26s/it] 59%|█████▉    | 28978/48845 [10:15:40<6:58:08,  1.26s/it] 59%|█████▉    | 28979/48845 [10:15:41<6:57:21,  1.26s/it] 59%|█████▉    | 28980/48845 [10:15:43<6:57:39,  1.26s/it]                                                          {'loss': 2.0384, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28980/48845 [10:15:43<6:57:39,  1.26s/it] 59%|█████▉    | 28981/48845 [10:15:44<6:58:32,  1.26s/it] 59%|█████▉    | 28982/48845 [10:15:45<6:58:13,  1.26s/it] 59%|█████▉    | 28983/48845 [10:15:47<6:57:55,  1.26s/it] 59%|█████▉    | 28984/48845 [10:15:48<6:57:32,  1.26s/it] 59%|█████▉    | 28985/48845 [10:15:49<6:57:27,  1.26s/it]                                                          {'loss': 2.1083, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28985/48845 [10:15:49<6:57:27,  1.26s/it] 59%|█████▉    | 28986/48845 [10:15:50<6:58:16,  1.26s/it] 59%|█████▉    | 28987/48845 [10:15:52<6:58:14,  1.26s/it] 59%|█████▉    | 28988/48845 [10:15:53<6:58:08,  1.26s/it] 59%|█████▉    | 28989/48845 [10:15:54<6:57:53,  1.26s/it] 59%|█████▉    | 28990/48845 [10:15:55<6:57:41,  1.26s/it]                                                          {'loss': 1.9851, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28990/48845 [10:15:55<6:57:41,  1.26s/it] 59%|█████▉    | 28991/48845 [10:15:57<6:57:36,  1.26s/it] 59%|█████▉    | 28992/48845 [10:15:58<6:56:54,  1.26s/it] 59%|█████▉    | 28993/48845 [10:15:59<6:56:57,  1.26s/it] 59%|█████▉    | 28994/48845 [10:16:00<6:57:10,  1.26s/it] 59%|█████▉    | 28995/48845 [10:16:02<6:56:47,  1.26s/it]                                                          {'loss': 2.1848, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 28995/48845 [10:16:02<6:56:47,  1.26s/it] 59%|█████▉    | 28996/48845 [10:16:03<6:57:33,  1.26s/it] 59%|█████▉    | 28997/48845 [10:16:04<6:58:10,  1.26s/it] 59%|█████▉    | 28998/48845 [10:16:05<6:57:55,  1.26s/it] 59%|█████▉    | 28999/48845 [10:16:07<6:57:24,  1.26s/it] 59%|█████▉    | 29000/48845 [10:16:08<6:57:11,  1.26s/it]                                                          {'loss': 2.0668, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29000/48845 [10:16:08<6:57:11,  1.26s/it] 59%|█████▉    | 29001/48845 [10:16:12<11:14:52,  2.04s/it] 59%|█████▉    | 29002/48845 [10:16:13<9:57:46,  1.81s/it]  59%|█████▉    | 29003/48845 [10:16:14<9:02:51,  1.64s/it] 59%|█████▉    | 29004/48845 [10:16:16<8:25:05,  1.53s/it] 59%|█████▉    | 29005/48845 [10:16:17<7:58:20,  1.45s/it]                                                          {'loss': 2.0637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29005/48845 [10:16:17<7:58:20,  1.45s/it] 59%|█████▉    | 29006/48845 [10:16:18<7:40:02,  1.39s/it] 59%|█████▉    | 29007/48845 [10:16:19<7:27:47,  1.35s/it] 59%|█████▉    | 29008/48845 [10:16:21<7:18:09,  1.33s/it] 59%|█████▉    | 29009/48845 [10:16:22<7:11:51,  1.31s/it] 59%|█████▉    | 29010/48845 [10:16:23<7:07:49,  1.29s/it]                                                          {'loss': 2.0599, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29010/48845 [10:16:23<7:07:49,  1.29s/it] 59%|█████▉    | 29011/48845 [10:16:24<7:04:36,  1.28s/it] 59%|█████▉    | 29012/48845 [10:16:26<7:02:15,  1.28s/it] 59%|█████▉    | 29013/48845 [10:16:27<7:00:32,  1.27s/it] 59%|█████▉    | 29014/48845 [10:16:28<6:59:20,  1.27s/it] 59%|█████▉    | 29015/48845 [10:16:29<6:58:29,  1.27s/it]                                                          {'loss': 2.054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29015/48845 [10:16:29<6:58:29,  1.27s/it] 59%|█████▉    | 29016/48845 [10:16:31<6:57:43,  1.26s/it] 59%|█████▉    | 29017/48845 [10:16:32<6:57:33,  1.26s/it] 59%|█████▉    | 29018/48845 [10:16:33<6:56:53,  1.26s/it] 59%|█████▉    | 29019/48845 [10:16:35<6:56:33,  1.26s/it] 59%|█████▉    | 29020/48845 [10:16:36<6:56:23,  1.26s/it]                                                          {'loss': 2.1195, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29020/48845 [10:16:36<6:56:23,  1.26s/it] 59%|█████▉    | 29021/48845 [10:16:37<6:56:17,  1.26s/it] 59%|█████▉    | 29022/48845 [10:16:38<6:56:15,  1.26s/it] 59%|█████▉    | 29023/48845 [10:16:40<6:56:46,  1.26s/it] 59%|█████▉    | 29024/48845 [10:16:41<6:56:37,  1.26s/it] 59%|█████▉    | 29025/48845 [10:16:42<6:56:40,  1.26s/it]                                                          {'loss': 1.9647, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29025/48845 [10:16:42<6:56:40,  1.26s/it] 59%|█████▉    | 29026/48845 [10:16:43<6:56:27,  1.26s/it] 59%|█████▉    | 29027/48845 [10:16:45<6:56:37,  1.26s/it] 59%|█████▉    | 29028/48845 [10:16:46<6:56:39,  1.26s/it] 59%|█████▉    | 29029/48845 [10:16:47<6:56:27,  1.26s/it] 59%|█████▉    | 29030/48845 [10:16:48<6:56:01,  1.26s/it]                                                          {'loss': 1.9611, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29030/48845 [10:16:48<6:56:01,  1.26s/it] 59%|█████▉    | 29031/48845 [10:16:50<6:56:34,  1.26s/it] 59%|█████▉    | 29032/48845 [10:16:51<6:56:31,  1.26s/it] 59%|█████▉    | 29033/48845 [10:16:52<6:56:29,  1.26s/it] 59%|█████▉    | 29034/48845 [10:16:53<6:56:16,  1.26s/it] 59%|█████▉    | 29035/48845 [10:16:55<6:56:09,  1.26s/it]                                                          {'loss': 2.2617, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29035/48845 [10:16:55<6:56:09,  1.26s/it] 59%|█████▉    | 29036/48845 [10:16:56<7:06:45,  1.29s/it] 59%|█████▉    | 29037/48845 [10:16:57<7:03:43,  1.28s/it] 59%|█████▉    | 29038/48845 [10:16:59<7:01:10,  1.28s/it] 59%|█████▉    | 29039/48845 [10:17:00<6:59:34,  1.27s/it] 59%|█████▉    | 29040/48845 [10:17:01<6:58:35,  1.27s/it]                                                          {'loss': 1.9653, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29040/48845 [10:17:01<6:58:35,  1.27s/it] 59%|█████▉    | 29041/48845 [10:17:02<6:58:46,  1.27s/it] 59%|█████▉    | 29042/48845 [10:17:04<6:58:02,  1.27s/it] 59%|█████▉    | 29043/48845 [10:17:05<6:57:49,  1.27s/it] 59%|█████▉    | 29044/48845 [10:17:06<6:57:30,  1.27s/it] 59%|█████▉    | 29045/48845 [10:17:07<6:57:16,  1.26s/it]                                                          {'loss': 2.0599, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29045/48845 [10:17:07<6:57:16,  1.26s/it] 59%|█████▉    | 29046/48845 [10:17:09<6:57:08,  1.26s/it] 59%|█████▉    | 29047/48845 [10:17:10<6:56:39,  1.26s/it] 59%|█████▉    | 29048/48845 [10:17:11<6:56:19,  1.26s/it] 59%|█████▉    | 29049/48845 [10:17:12<6:56:18,  1.26s/it] 59%|█████▉    | 29050/48845 [10:17:14<6:56:28,  1.26s/it]                                                          {'loss': 1.9545, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29050/48845 [10:17:14<6:56:28,  1.26s/it] 59%|█████▉    | 29051/48845 [10:17:15<6:56:27,  1.26s/it] 59%|█████▉    | 29052/48845 [10:17:16<6:56:22,  1.26s/it] 59%|█████▉    | 29053/48845 [10:17:18<6:56:19,  1.26s/it] 59%|█████▉    | 29054/48845 [10:17:19<6:55:57,  1.26s/it] 59%|█████▉    | 29055/48845 [10:17:20<6:55:52,  1.26s/it]                                                          {'loss': 1.9528, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29055/48845 [10:17:20<6:55:52,  1.26s/it] 59%|█████▉    | 29056/48845 [10:17:21<6:56:09,  1.26s/it] 59%|█████▉    | 29057/48845 [10:17:23<6:55:52,  1.26s/it] 59%|█████▉    | 29058/48845 [10:17:24<6:56:03,  1.26s/it] 59%|█████▉    | 29059/48845 [10:17:25<6:56:00,  1.26s/it] 59%|█████▉    | 29060/48845 [10:17:26<6:55:50,  1.26s/it]                                                          {'loss': 2.1875, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.97}
+ 59%|█████▉    | 29060/48845 [10:17:26<6:55:50,  1.26s/it] 59%|█████▉    | 29061/48845 [10:17:28<6:56:09,  1.26s/it] 59%|█████▉    | 29062/48845 [10:17:29<6:56:05,  1.26s/it] 60%|█████▉    | 29063/48845 [10:17:30<6:56:36,  1.26s/it] 60%|█████▉    | 29064/48845 [10:17:31<6:56:17,  1.26s/it] 60%|█████▉    | 29065/48845 [10:17:33<6:56:20,  1.26s/it]                                                          {'loss': 1.9922, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29065/48845 [10:17:33<6:56:20,  1.26s/it] 60%|█████▉    | 29066/48845 [10:17:34<6:56:39,  1.26s/it] 60%|█████▉    | 29067/48845 [10:17:35<7:06:19,  1.29s/it] 60%|█████▉    | 29068/48845 [10:17:37<7:03:28,  1.28s/it] 60%|█████▉    | 29069/48845 [10:17:38<7:01:13,  1.28s/it] 60%|█████▉    | 29070/48845 [10:17:39<6:59:42,  1.27s/it]                                                          {'loss': 1.9951, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29070/48845 [10:17:39<6:59:42,  1.27s/it] 60%|█████▉    | 29071/48845 [10:17:40<6:58:45,  1.27s/it] 60%|█████▉    | 29072/48845 [10:17:42<6:57:38,  1.27s/it] 60%|█████▉    | 29073/48845 [10:17:43<6:57:00,  1.27s/it] 60%|█████▉    | 29074/48845 [10:17:44<6:56:44,  1.26s/it] 60%|█████▉    | 29075/48845 [10:17:45<6:56:33,  1.26s/it]                                                          {'loss': 2.1538, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29075/48845 [10:17:45<6:56:33,  1.26s/it] 60%|█████▉    | 29076/48845 [10:17:47<6:56:53,  1.27s/it] 60%|█████▉    | 29077/48845 [10:17:48<6:56:11,  1.26s/it] 60%|█████▉    | 29078/48845 [10:17:49<6:56:10,  1.26s/it] 60%|█████▉    | 29079/48845 [10:17:50<6:56:09,  1.26s/it] 60%|█████▉    | 29080/48845 [10:17:52<6:55:44,  1.26s/it]                                                          {'loss': 2.0101, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29080/48845 [10:17:52<6:55:44,  1.26s/it] 60%|█████▉    | 29081/48845 [10:17:53<6:55:47,  1.26s/it] 60%|█████▉    | 29082/48845 [10:17:54<6:55:38,  1.26s/it] 60%|█████▉    | 29083/48845 [10:17:55<6:55:36,  1.26s/it] 60%|█████▉    | 29084/48845 [10:17:57<6:55:46,  1.26s/it] 60%|█████▉    | 29085/48845 [10:17:58<6:55:34,  1.26s/it]                                                          {'loss': 2.1425, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29085/48845 [10:17:58<6:55:34,  1.26s/it] 60%|█████▉    | 29086/48845 [10:17:59<6:55:23,  1.26s/it] 60%|█████▉    | 29087/48845 [10:18:01<6:55:11,  1.26s/it] 60%|█████▉    | 29088/48845 [10:18:02<6:55:02,  1.26s/it] 60%|█████▉    | 29089/48845 [10:18:03<6:55:07,  1.26s/it] 60%|█████▉    | 29090/48845 [10:18:04<6:54:59,  1.26s/it]                                                          {'loss': 1.9349, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29090/48845 [10:18:04<6:54:59,  1.26s/it] 60%|█████▉    | 29091/48845 [10:18:06<6:55:34,  1.26s/it] 60%|█████▉    | 29092/48845 [10:18:07<6:55:27,  1.26s/it] 60%|█████▉    | 29093/48845 [10:18:08<6:55:55,  1.26s/it] 60%|█████▉    | 29094/48845 [10:18:09<6:55:43,  1.26s/it] 60%|█████▉    | 29095/48845 [10:18:11<6:55:30,  1.26s/it]                                                          {'loss': 2.1309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29095/48845 [10:18:11<6:55:30,  1.26s/it] 60%|█████▉    | 29096/48845 [10:18:12<6:56:51,  1.27s/it] 60%|█████▉    | 29097/48845 [10:18:13<6:56:08,  1.26s/it] 60%|█████▉    | 29098/48845 [10:18:14<6:55:40,  1.26s/it] 60%|█████▉    | 29099/48845 [10:18:16<6:55:12,  1.26s/it] 60%|█████▉    | 29100/48845 [10:18:17<6:55:16,  1.26s/it]                                                          {'loss': 1.9301, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29100/48845 [10:18:17<6:55:16,  1.26s/it] 60%|█████▉    | 29101/48845 [10:18:18<6:55:28,  1.26s/it] 60%|█████▉    | 29102/48845 [10:18:19<6:55:36,  1.26s/it] 60%|█████▉    | 29103/48845 [10:18:21<6:55:54,  1.26s/it] 60%|█████▉    | 29104/48845 [10:18:22<6:55:45,  1.26s/it] 60%|█████▉    | 29105/48845 [10:18:23<6:55:32,  1.26s/it]                                                          {'loss': 2.152, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29105/48845 [10:18:23<6:55:32,  1.26s/it] 60%|█████▉    | 29106/48845 [10:18:25<6:56:00,  1.26s/it] 60%|█████▉    | 29107/48845 [10:18:26<6:56:11,  1.27s/it] 60%|█████▉    | 29108/48845 [10:18:27<6:55:53,  1.26s/it] 60%|█████▉    | 29109/48845 [10:18:28<6:55:24,  1.26s/it] 60%|█████▉    | 29110/48845 [10:18:30<6:55:22,  1.26s/it]                                                          {'loss': 2.2172, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29110/48845 [10:18:30<6:55:22,  1.26s/it] 60%|█████▉    | 29111/48845 [10:18:31<6:56:20,  1.27s/it] 60%|█████▉    | 29112/48845 [10:18:32<6:55:43,  1.26s/it] 60%|█████▉    | 29113/48845 [10:18:33<6:55:09,  1.26s/it] 60%|█████▉    | 29114/48845 [10:18:35<6:55:19,  1.26s/it] 60%|█████▉    | 29115/48845 [10:18:36<6:54:59,  1.26s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29115/48845 [10:18:36<6:54:59,  1.26s/it] 60%|█████▉    | 29116/48845 [10:18:37<6:54:41,  1.26s/it] 60%|█████▉    | 29117/48845 [10:18:38<6:54:39,  1.26s/it] 60%|█████▉    | 29118/48845 [10:18:40<6:54:49,  1.26s/it] 60%|█████▉    | 29119/48845 [10:18:41<6:54:47,  1.26s/it] 60%|█████▉    | 29120/48845 [10:18:42<6:54:23,  1.26s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29120/48845 [10:18:42<6:54:23,  1.26s/it] 60%|█████▉    | 29121/48845 [10:18:43<6:55:19,  1.26s/it] 60%|█████▉    | 29122/48845 [10:18:45<6:56:09,  1.27s/it] 60%|█████▉    | 29123/48845 [10:18:46<7:10:31,  1.31s/it] 60%|█████▉    | 29124/48845 [10:18:47<7:05:32,  1.29s/it] 60%|█████▉    | 29125/48845 [10:18:49<7:02:11,  1.28s/it]                                                          {'loss': 2.1031, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29125/48845 [10:18:49<7:02:11,  1.28s/it] 60%|█████▉    | 29126/48845 [10:18:50<7:00:16,  1.28s/it] 60%|█████▉    | 29127/48845 [10:18:51<6:58:09,  1.27s/it] 60%|█████▉    | 29128/48845 [10:18:52<6:57:02,  1.27s/it] 60%|█████▉    | 29129/48845 [10:18:54<6:55:58,  1.27s/it] 60%|█████▉    | 29130/48845 [10:18:55<6:55:10,  1.26s/it]                                                          {'loss': 2.0836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29130/48845 [10:18:55<6:55:10,  1.26s/it] 60%|█████▉    | 29131/48845 [10:18:56<6:54:47,  1.26s/it] 60%|█████▉    | 29132/48845 [10:18:57<6:54:19,  1.26s/it] 60%|█████▉    | 29133/48845 [10:18:59<6:53:56,  1.26s/it] 60%|█████▉    | 29134/48845 [10:19:00<6:53:56,  1.26s/it] 60%|█████▉    | 29135/48845 [10:19:01<6:54:01,  1.26s/it]                                                          {'loss': 2.1003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29135/48845 [10:19:01<6:54:01,  1.26s/it] 60%|█████▉    | 29136/48845 [10:19:03<6:54:44,  1.26s/it] 60%|█████▉    | 29137/48845 [10:19:04<6:54:25,  1.26s/it] 60%|█████▉    | 29138/48845 [10:19:05<6:54:11,  1.26s/it] 60%|█████▉    | 29139/48845 [10:19:06<6:54:17,  1.26s/it] 60%|█████▉    | 29140/48845 [10:19:08<6:54:11,  1.26s/it]                                                          {'loss': 2.0874, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29140/48845 [10:19:08<6:54:11,  1.26s/it] 60%|█████▉    | 29141/48845 [10:19:09<6:54:23,  1.26s/it] 60%|█████▉    | 29142/48845 [10:19:10<6:54:31,  1.26s/it] 60%|█████▉    | 29143/48845 [10:19:11<6:54:07,  1.26s/it] 60%|█████▉    | 29144/48845 [10:19:13<6:54:28,  1.26s/it] 60%|█████▉    | 29145/48845 [10:19:14<6:54:09,  1.26s/it]                                                          {'loss': 2.0957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29145/48845 [10:19:14<6:54:09,  1.26s/it] 60%|█████▉    | 29146/48845 [10:19:15<6:54:32,  1.26s/it] 60%|█████▉    | 29147/48845 [10:19:16<6:54:13,  1.26s/it] 60%|█████▉    | 29148/48845 [10:19:18<6:53:58,  1.26s/it] 60%|█████▉    | 29149/48845 [10:19:19<6:54:39,  1.26s/it] 60%|█████▉    | 29150/48845 [10:19:20<6:54:23,  1.26s/it]                                                          {'loss': 2.1382, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29150/48845 [10:19:20<6:54:23,  1.26s/it] 60%|█████▉    | 29151/48845 [10:19:21<6:54:39,  1.26s/it] 60%|█████▉    | 29152/48845 [10:19:23<6:54:38,  1.26s/it] 60%|█████▉    | 29153/48845 [10:19:24<6:54:22,  1.26s/it] 60%|█████▉    | 29154/48845 [10:19:25<6:54:54,  1.26s/it] 60%|█████▉    | 29155/48845 [10:19:27<6:54:44,  1.26s/it]                                                          {'loss': 1.956, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29155/48845 [10:19:27<6:54:44,  1.26s/it] 60%|█████▉    | 29156/48845 [10:19:28<6:54:56,  1.26s/it] 60%|█████▉    | 29157/48845 [10:19:29<6:55:16,  1.27s/it] 60%|█████▉    | 29158/48845 [10:19:30<6:55:09,  1.27s/it] 60%|█████▉    | 29159/48845 [10:19:32<6:54:31,  1.26s/it] 60%|█████▉    | 29160/48845 [10:19:33<6:53:48,  1.26s/it]                                                          {'loss': 2.1144, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.98}
+ 60%|█████▉    | 29160/48845 [10:19:33<6:53:48,  1.26s/it] 60%|█████▉    | 29161/48845 [10:19:34<6:55:01,  1.27s/it] 60%|█████▉    | 29162/48845 [10:19:35<6:54:50,  1.26s/it] 60%|█████▉    | 29163/48845 [10:19:37<6:55:14,  1.27s/it] 60%|█████▉    | 29164/48845 [10:19:38<6:54:51,  1.26s/it] 60%|█████▉    | 29165/48845 [10:19:39<6:54:43,  1.26s/it]                                                          {'loss': 2.02, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29165/48845 [10:19:39<6:54:43,  1.26s/it] 60%|█████▉    | 29166/48845 [10:19:40<6:54:45,  1.26s/it] 60%|█████▉    | 29167/48845 [10:19:42<6:54:10,  1.26s/it] 60%|█████▉    | 29168/48845 [10:19:43<6:53:48,  1.26s/it] 60%|█████▉    | 29169/48845 [10:19:44<6:53:47,  1.26s/it] 60%|█████▉    | 29170/48845 [10:19:45<6:53:40,  1.26s/it]                                                          {'loss': 2.015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29170/48845 [10:19:45<6:53:40,  1.26s/it] 60%|█████▉    | 29171/48845 [10:19:47<6:53:51,  1.26s/it] 60%|█████▉    | 29172/48845 [10:19:48<6:53:47,  1.26s/it] 60%|█████▉    | 29173/48845 [10:19:49<6:53:57,  1.26s/it] 60%|█████▉    | 29174/48845 [10:19:51<6:53:58,  1.26s/it] 60%|█████▉    | 29175/48845 [10:19:52<6:53:44,  1.26s/it]                                                          {'loss': 1.9357, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29175/48845 [10:19:52<6:53:44,  1.26s/it] 60%|█████▉    | 29176/48845 [10:19:53<6:53:35,  1.26s/it] 60%|█████▉    | 29177/48845 [10:19:54<6:53:59,  1.26s/it] 60%|█████▉    | 29178/48845 [10:19:56<6:53:33,  1.26s/it] 60%|█████▉    | 29179/48845 [10:19:57<6:53:01,  1.26s/it] 60%|█████▉    | 29180/48845 [10:19:58<6:53:03,  1.26s/it]                                                          {'loss': 1.975, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29180/48845 [10:19:58<6:53:03,  1.26s/it] 60%|█████▉    | 29181/48845 [10:19:59<6:53:08,  1.26s/it] 60%|█████▉    | 29182/48845 [10:20:01<6:53:10,  1.26s/it] 60%|█████▉    | 29183/48845 [10:20:02<6:53:19,  1.26s/it] 60%|█████▉    | 29184/48845 [10:20:03<6:53:10,  1.26s/it] 60%|█████▉    | 29185/48845 [10:20:04<6:53:21,  1.26s/it]                                                          {'loss': 2.0663, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29185/48845 [10:20:04<6:53:21,  1.26s/it] 60%|█████▉    | 29186/48845 [10:20:06<6:53:03,  1.26s/it] 60%|█████▉    | 29187/48845 [10:20:07<6:52:37,  1.26s/it] 60%|█████▉    | 29188/48845 [10:20:08<6:52:51,  1.26s/it] 60%|█████▉    | 29189/48845 [10:20:09<6:52:58,  1.26s/it] 60%|█████▉    | 29190/48845 [10:20:11<6:53:16,  1.26s/it]                                                          {'loss': 2.0252, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29190/48845 [10:20:11<6:53:16,  1.26s/it] 60%|█████▉    | 29191/48845 [10:20:12<6:53:09,  1.26s/it] 60%|█████▉    | 29192/48845 [10:20:13<6:53:18,  1.26s/it] 60%|█████▉    | 29193/48845 [10:20:14<6:53:14,  1.26s/it] 60%|█████▉    | 29194/48845 [10:20:16<6:52:55,  1.26s/it] 60%|█████▉    | 29195/48845 [10:20:17<6:52:50,  1.26s/it]                                                          {'loss': 2.0245, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29195/48845 [10:20:17<6:52:50,  1.26s/it] 60%|█████▉    | 29196/48845 [10:20:18<6:52:58,  1.26s/it] 60%|█████▉    | 29197/48845 [10:20:20<6:52:49,  1.26s/it] 60%|█████▉    | 29198/48845 [10:20:21<6:52:45,  1.26s/it] 60%|█████▉    | 29199/48845 [10:20:22<6:52:34,  1.26s/it] 60%|█████▉    | 29200/48845 [10:20:23<6:52:28,  1.26s/it]                                                          {'loss': 2.1595, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29200/48845 [10:20:23<6:52:28,  1.26s/it] 60%|█████▉    | 29201/48845 [10:20:27<10:53:16,  2.00s/it] 60%|█████▉    | 29202/48845 [10:20:28<9:41:03,  1.77s/it]  60%|█████▉    | 29203/48845 [10:20:30<8:50:47,  1.62s/it] 60%|█████▉    | 29204/48845 [10:20:31<8:15:20,  1.51s/it] 60%|█████▉    | 29205/48845 [10:20:32<7:50:05,  1.44s/it]                                                          {'loss': 1.9042, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29205/48845 [10:20:32<7:50:05,  1.44s/it] 60%|█████▉    | 29206/48845 [10:20:33<7:32:49,  1.38s/it] 60%|█████▉    | 29207/48845 [10:20:35<7:20:46,  1.35s/it] 60%|█████▉    | 29208/48845 [10:20:36<7:12:24,  1.32s/it] 60%|█████▉    | 29209/48845 [10:20:37<7:06:58,  1.30s/it] 60%|█████▉    | 29210/48845 [10:20:38<7:02:29,  1.29s/it]                                                          {'loss': 1.9761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29210/48845 [10:20:38<7:02:29,  1.29s/it] 60%|█████▉    | 29211/48845 [10:20:40<6:59:29,  1.28s/it] 60%|█████▉    | 29212/48845 [10:20:41<6:57:17,  1.28s/it] 60%|█████▉    | 29213/48845 [10:20:42<6:55:32,  1.27s/it] 60%|█████▉    | 29214/48845 [10:20:43<6:54:33,  1.27s/it] 60%|█████▉    | 29215/48845 [10:20:45<6:53:53,  1.27s/it]                                                          {'loss': 1.8351, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29215/48845 [10:20:45<6:53:53,  1.27s/it] 60%|█████▉    | 29216/48845 [10:20:46<6:53:57,  1.27s/it] 60%|█████▉    | 29217/48845 [10:20:47<6:53:47,  1.26s/it] 60%|█████▉    | 29218/48845 [10:20:48<6:53:07,  1.26s/it] 60%|█████▉    | 29219/48845 [10:20:50<6:52:47,  1.26s/it] 60%|█████▉    | 29220/48845 [10:20:51<6:52:19,  1.26s/it]                                                          {'loss': 1.9686, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29220/48845 [10:20:51<6:52:19,  1.26s/it] 60%|█████▉    | 29221/48845 [10:20:52<6:52:21,  1.26s/it] 60%|█████▉    | 29222/48845 [10:20:53<6:53:08,  1.26s/it] 60%|█████▉    | 29223/48845 [10:20:55<6:52:45,  1.26s/it] 60%|█████▉    | 29224/48845 [10:20:56<6:52:37,  1.26s/it] 60%|█████▉    | 29225/48845 [10:20:57<6:52:38,  1.26s/it]                                                          {'loss': 2.1019, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29225/48845 [10:20:57<6:52:38,  1.26s/it] 60%|█████▉    | 29226/48845 [10:20:59<6:52:58,  1.26s/it] 60%|█████▉    | 29227/48845 [10:21:00<6:52:46,  1.26s/it] 60%|█████▉    | 29228/48845 [10:21:01<6:52:35,  1.26s/it] 60%|█████▉    | 29229/48845 [10:21:02<6:52:24,  1.26s/it] 60%|█████▉    | 29230/48845 [10:21:04<6:52:18,  1.26s/it]                                                          {'loss': 1.9086, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29230/48845 [10:21:04<6:52:18,  1.26s/it] 60%|█████▉    | 29231/48845 [10:21:05<6:52:26,  1.26s/it] 60%|█████▉    | 29232/48845 [10:21:06<6:52:43,  1.26s/it] 60%|█████▉    | 29233/48845 [10:21:07<6:52:31,  1.26s/it] 60%|█████▉    | 29234/48845 [10:21:09<6:52:21,  1.26s/it] 60%|█████▉    | 29235/48845 [10:21:10<6:52:07,  1.26s/it]                                                          {'loss': 1.9341, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29235/48845 [10:21:10<6:52:07,  1.26s/it] 60%|█████▉    | 29236/48845 [10:21:11<6:52:14,  1.26s/it] 60%|█████▉    | 29237/48845 [10:21:12<6:51:49,  1.26s/it] 60%|█████▉    | 29238/48845 [10:21:14<6:51:51,  1.26s/it] 60%|█████▉    | 29239/48845 [10:21:15<6:51:33,  1.26s/it] 60%|█████▉    | 29240/48845 [10:21:16<6:51:21,  1.26s/it]                                                          {'loss': 1.9479, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29240/48845 [10:21:16<6:51:21,  1.26s/it] 60%|█████▉    | 29241/48845 [10:21:17<6:51:08,  1.26s/it] 60%|█████▉    | 29242/48845 [10:21:19<6:51:09,  1.26s/it] 60%|█████▉    | 29243/48845 [10:21:20<6:50:50,  1.26s/it] 60%|█████▉    | 29244/48845 [10:21:21<6:51:31,  1.26s/it] 60%|█████▉    | 29245/48845 [10:21:22<6:51:21,  1.26s/it]                                                          {'loss': 1.9942, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29245/48845 [10:21:22<6:51:21,  1.26s/it] 60%|█████▉    | 29246/48845 [10:21:24<6:51:11,  1.26s/it] 60%|████���▉    | 29247/48845 [10:21:25<6:51:42,  1.26s/it] 60%|█████▉    | 29248/48845 [10:21:26<6:51:59,  1.26s/it] 60%|█████▉    | 29249/48845 [10:21:28<6:51:54,  1.26s/it] 60%|█████▉    | 29250/48845 [10:21:29<6:51:55,  1.26s/it]                                                          {'loss': 2.0283, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29250/48845 [10:21:29<6:51:55,  1.26s/it] 60%|█████▉    | 29251/48845 [10:21:30<6:52:10,  1.26s/it] 60%|█████▉    | 29252/48845 [10:21:31<6:51:45,  1.26s/it] 60%|█████▉    | 29253/48845 [10:21:33<6:51:33,  1.26s/it] 60%|█████▉    | 29254/48845 [10:21:34<6:51:33,  1.26s/it] 60%|█████▉    | 29255/48845 [10:21:35<6:51:27,  1.26s/it]                                                          {'loss': 1.9583, 'learning_rate': 4.1031279423066025e-05, 'epoch': 2.99}
+ 60%|█████▉    | 29255/48845 [10:21:35<6:51:27,  1.26s/it] 60%|█████▉    | 29256/48845 [10:21:36<6:51:23,  1.26s/it] 60%|█████▉    | 29257/48845 [10:21:38<6:51:18,  1.26s/it] 60%|█████▉    | 29258/48845 [10:21:39<6:51:23,  1.26s/it] 60%|█████▉    | 29259/48845 [10:21:40<6:51:28,  1.26s/it] 60%|█████▉    | 29260/48845 [10:21:41<6:51:43,  1.26s/it]                                                          {'loss': 1.8993, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29260/48845 [10:21:41<6:51:43,  1.26s/it] 60%|█████▉    | 29261/48845 [10:21:43<6:52:51,  1.26s/it] 60%|█████▉    | 29262/48845 [10:21:44<6:52:31,  1.26s/it] 60%|█████▉    | 29263/48845 [10:21:45<6:52:34,  1.26s/it] 60%|█████▉    | 29264/48845 [10:21:46<6:52:06,  1.26s/it] 60%|█████▉    | 29265/48845 [10:21:48<6:52:02,  1.26s/it]                                                          {'loss': 1.9871, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29265/48845 [10:21:48<6:52:02,  1.26s/it] 60%|█████▉    | 29266/48845 [10:21:49<6:52:03,  1.26s/it] 60%|█████▉    | 29267/48845 [10:21:50<6:51:24,  1.26s/it] 60%|█████▉    | 29268/48845 [10:21:52<6:51:21,  1.26s/it] 60%|█████▉    | 29269/48845 [10:21:53<6:51:42,  1.26s/it] 60%|█████▉    | 29270/48845 [10:21:54<6:51:49,  1.26s/it]                                                          {'loss': 2.101, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29270/48845 [10:21:54<6:51:49,  1.26s/it] 60%|█████▉    | 29271/48845 [10:21:55<6:52:32,  1.26s/it] 60%|█████▉    | 29272/48845 [10:21:57<6:52:03,  1.26s/it] 60%|█████▉    | 29273/48845 [10:21:58<6:52:15,  1.26s/it] 60%|█████▉    | 29274/48845 [10:21:59<6:52:13,  1.26s/it] 60%|█████▉    | 29275/48845 [10:22:00<6:51:42,  1.26s/it]                                                          {'loss': 2.0171, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29275/48845 [10:22:00<6:51:42,  1.26s/it] 60%|█████▉    | 29276/48845 [10:22:02<6:51:36,  1.26s/it] 60%|█████▉    | 29277/48845 [10:22:03<6:51:29,  1.26s/it] 60%|█████▉    | 29278/48845 [10:22:04<6:53:55,  1.27s/it] 60%|█████▉    | 29279/48845 [10:22:05<6:52:52,  1.27s/it] 60%|█████▉    | 29280/48845 [10:22:07<6:52:36,  1.27s/it]                                                          {'loss': 2.056, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29280/48845 [10:22:07<6:52:36,  1.27s/it] 60%|█████▉    | 29281/48845 [10:22:08<6:52:15,  1.26s/it] 60%|█████▉    | 29282/48845 [10:22:09<6:51:48,  1.26s/it] 60%|█████▉    | 29283/48845 [10:22:10<6:51:51,  1.26s/it] 60%|█████▉    | 29284/48845 [10:22:12<6:51:29,  1.26s/it] 60%|█████▉    | 29285/48845 [10:22:13<6:51:29,  1.26s/it]                                                          {'loss': 2.1439, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29285/48845 [10:22:13<6:51:29,  1.26s/it] 60%|█████▉    | 29286/48845 [10:22:14<6:51:26,  1.26s/it] 60%|█████▉    | 29287/48845 [10:22:16<6:51:11,  1.26s/it] 60%|█████▉    | 29288/48845 [10:22:17<6:51:07,  1.26s/it] 60%|█████▉    | 29289/48845 [10:22:18<6:50:26,  1.26s/it] 60%|█████▉    | 29290/48845 [10:22:19<6:50:21,  1.26s/it]                                                          {'loss': 2.1076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29290/48845 [10:22:19<6:50:21,  1.26s/it] 60%|█████▉    | 29291/48845 [10:22:21<6:50:18,  1.26s/it] 60%|█████▉    | 29292/48845 [10:22:22<6:50:12,  1.26s/it] 60%|█████▉    | 29293/48845 [10:22:23<6:50:20,  1.26s/it] 60%|█████▉    | 29294/48845 [10:22:24<6:50:25,  1.26s/it] 60%|█████▉    | 29295/48845 [10:22:26<6:50:55,  1.26s/it]                                                          {'loss': 2.1004, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29295/48845 [10:22:26<6:50:55,  1.26s/it] 60%|█████▉    | 29296/48845 [10:22:27<6:51:15,  1.26s/it] 60%|█████▉    | 29297/48845 [10:22:28<6:51:12,  1.26s/it] 60%|█████▉    | 29298/48845 [10:22:29<6:51:16,  1.26s/it] 60%|█████▉    | 29299/48845 [10:22:31<6:50:58,  1.26s/it] 60%|█████▉    | 29300/48845 [10:22:32<6:51:05,  1.26s/it]                                                          {'loss': 1.9347, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29300/48845 [10:22:32<6:51:05,  1.26s/it] 60%|█████▉    | 29301/48845 [10:22:33<6:51:20,  1.26s/it] 60%|█████▉    | 29302/48845 [10:22:34<6:51:05,  1.26s/it] 60%|█████▉    | 29303/48845 [10:22:36<6:50:58,  1.26s/it] 60%|█████▉    | 29304/48845 [10:22:37<6:50:55,  1.26s/it] 60%|█████▉    | 29305/48845 [10:22:38<6:50:19,  1.26s/it]                                                          {'loss': 1.9029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|█████▉    | 29305/48845 [10:22:38<6:50:19,  1.26s/it] 60%|█████▉    | 29306/48845 [10:22:39<6:50:22,  1.26s/it] 60%|██████    | 29307/48845 [10:22:41<6:50:23,  1.26s/it] 60%|██████    | 29308/48845 [10:22:42<6:53:53,  1.27s/it] 60%|██████    | 29309/48845 [10:22:43<6:52:34,  1.27s/it] 60%|██████    | 29310/48845 [10:22:45<6:51:36,  1.26s/it]                                                          {'loss': 2.0966, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29310/48845 [10:22:45<6:51:36,  1.26s/it] 60%|██████    | 29311/48845 [10:22:46<6:51:08,  1.26s/it] 60%|██████    | 29312/48845 [10:22:47<6:51:07,  1.26s/it] 60%|██████    | 29313/48845 [10:22:48<6:50:36,  1.26s/it] 60%|██████    | 29314/48845 [10:22:50<6:50:11,  1.26s/it] 60%|██████    | 29315/48845 [10:22:51<6:50:07,  1.26s/it]                                                          {'loss': 1.9187, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29315/48845 [10:22:51<6:50:07,  1.26s/it] 60%|██████    | 29316/48845 [10:22:52<6:50:08,  1.26s/it] 60%|██████    | 29317/48845 [10:22:53<6:50:01,  1.26s/it] 60%|██████    | 29318/48845 [10:22:55<6:50:17,  1.26s/it] 60%|██████    | 29319/48845 [10:22:56<6:50:15,  1.26s/it] 60%|██████    | 29320/48845 [10:22:57<6:49:56,  1.26s/it]                                                          {'loss': 1.8325, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29320/48845 [10:22:57<6:49:56,  1.26s/it] 60%|██████    | 29321/48845 [10:22:58<6:50:26,  1.26s/it] 60%|██████    | 29322/48845 [10:23:00<6:50:27,  1.26s/it] 60%|██████    | 29323/48845 [10:23:01<6:50:22,  1.26s/it] 60%|██████    | 29324/48845 [10:23:02<6:50:36,  1.26s/it] 60%|██████    | 29325/48845 [10:23:03<6:50:32,  1.26s/it]                                                          {'loss': 2.0564, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29325/48845 [10:23:03<6:50:32,  1.26s/it] 60%|██████    | 29326/48845 [10:23:05<6:51:01,  1.26s/it] 60%|██████    | 29327/48845 [10:23:06<6:50:53,  1.26s/it] 60%|██████    | 29328/48845 [10:23:07<6:50:50,  1.26s/it] 60%|██████    | 29329/48845 [10:23:08<6:50:51,  1.26s/it] 60%|██████    | 29330/48845 [10:23:10<6:50:49,  1.26s/it]                                                          {'loss': 2.0298, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29330/48845 [10:23:10<6:50:49,  1.26s/it] 60%|██████    | 29331/48845 [10:23:11<6:50:52,  1.26s/it] 60%|██████    | 29332/48845 [10:23:12<6:50:27,  1.26s/it] 60%|██████    | 29333/48845 [10:23:14<6:50:25,  1.26s/it] 60%|██████    | 29334/48845 [10:23:15<6:50:28,  1.26s/it] 60%|██████    | 29335/48845 [10:23:16<6:50:02,  1.26s/it]                                                          {'loss': 2.0305, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29335/48845 [10:23:16<6:50:02,  1.26s/it] 60%|██████    | 29336/48845 [10:23:17<6:50:49,  1.26s/it] 60%|██████    | 29337/48845 [10:23:19<6:50:42,  1.26s/it] 60%|██████    | 29338/48845 [10:23:20<6:50:29,  1.26s/it] 60%|██████    | 29339/48845 [10:23:21<6:50:27,  1.26s/it] 60%|██████    | 29340/48845 [10:23:22<6:50:28,  1.26s/it]                                                          {'loss': 1.9583, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29340/48845 [10:23:22<6:50:28,  1.26s/it] 60%|██████    | 29341/48845 [10:23:24<6:50:26,  1.26s/it] 60%|██████    | 29342/48845 [10:23:25<6:50:14,  1.26s/it] 60%|██████    | 29343/48845 [10:23:26<6:50:08,  1.26s/it] 60%|██████    | 29344/48845 [10:23:27<6:50:22,  1.26s/it] 60%|██████    | 29345/48845 [10:23:29<6:49:57,  1.26s/it]                                                          {'loss': 2.0782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29345/48845 [10:23:29<6:49:57,  1.26s/it] 60%|██████    | 29346/48845 [10:23:30<6:50:04,  1.26s/it] 60%|██████    | 29347/48845 [10:23:31<6:50:01,  1.26s/it] 60%|██████    | 29348/48845 [10:23:32<6:49:44,  1.26s/it] 60%|██████    | 29349/48845 [10:23:34<6:49:38,  1.26s/it] 60%|██████    | 29350/48845 [10:23:35<6:49:42,  1.26s/it]                                                          {'loss': 1.8706, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29350/48845 [10:23:35<6:49:42,  1.26s/it] 60%|██████    | 29351/48845 [10:23:36<6:50:06,  1.26s/it] 60%|██████    | 29352/48845 [10:23:38<6:50:08,  1.26s/it] 60%|██████    | 29353/48845 [10:23:39<6:49:46,  1.26s/it] 60%|██████    | 29354/48845 [10:23:40<6:50:02,  1.26s/it] 60%|██████    | 29355/48845 [10:23:41<6:50:16,  1.26s/it]                                                          {'loss': 2.0508, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.0}
+ 60%|██████    | 29355/48845 [10:23:41<6:50:16,  1.26s/it] 60%|██████    | 29356/48845 [10:23:43<6:50:13,  1.26s/it] 60%|██████    | 29357/48845 [10:23:44<6:50:17,  1.26s/it] 60%|██████    | 29358/48845 [10:23:45<6:50:06,  1.26s/it] 60%|██████    | 29359/48845 [10:23:46<6:50:06,  1.26s/it] 60%|██████    | 29360/48845 [10:23:48<6:50:14,  1.26s/it]                                                          {'loss': 2.0729, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29360/48845 [10:23:48<6:50:14,  1.26s/it] 60%|██████    | 29361/48845 [10:23:49<6:50:02,  1.26s/it] 60%|██████    | 29362/48845 [10:23:50<6:49:56,  1.26s/it] 60%|██████    | 29363/48845 [10:23:51<6:49:38,  1.26s/it] 60%|██████    | 29364/48845 [10:23:53<6:49:21,  1.26s/it] 60%|██████    | 29365/48845 [10:23:54<6:49:13,  1.26s/it]                                                          {'loss': 2.0082, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29365/48845 [10:23:54<6:49:13,  1.26s/it] 60%|██████    | 29366/48845 [10:23:55<6:49:24,  1.26s/it] 60%|██████    | 29367/48845 [10:23:56<6:49:26,  1.26s/it] 60%|██████    | 29368/48845 [10:23:58<6:49:26,  1.26s/it] 60%|██████    | 29369/48845 [10:23:59<6:49:17,  1.26s/it] 60%|██████    | 29370/48845 [10:24:00<6:50:55,  1.27s/it]                                                          {'loss': 1.9654, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29370/48845 [10:24:00<6:50:55,  1.27s/it] 60%|██████    | 29371/48845 [10:24:02<6:50:25,  1.26s/it] 60%|██████    | 29372/48845 [10:24:03<6:49:57,  1.26s/it] 60%|██████    | 29373/48845 [10:24:04<6:49:41,  1.26s/it] 60%|██████    | 29374/48845 [10:24:05<6:49:32,  1.26s/it] 60%|██████    | 29375/48845 [10:24:07<6:49:22,  1.26s/it]                                                          {'loss': 2.0172, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29375/48845 [10:24:07<6:49:22,  1.26s/it] 60%|██████    | 29376/48845 [10:24:08<6:49:38,  1.26s/it] 60%|██████    | 29377/48845 [10:24:09<6:49:18,  1.26s/it] 60%|██████    | 29378/48845 [10:24:10<6:49:17,  1.26s/it] 60%|██████    | 29379/48845 [10:24:12<6:49:13,  1.26s/it] 60%|██████    | 29380/48845 [10:24:13<6:49:32,  1.26s/it]                                                          {'loss': 2.1132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29380/48845 [10:24:13<6:49:32,  1.26s/it] 60%|██████    | 29381/48845 [10:24:14<6:49:33,  1.26s/it] 60%|██████    | 29382/48845 [10:24:15<6:49:23,  1.26s/it] 60%|██████    | 29383/48845 [10:24:17<6:49:41,  1.26s/it] 60%|██████    | 29384/48845 [10:24:18<6:49:36,  1.26s/it] 60%|██████    | 29385/48845 [10:24:19<6:49:14,  1.26s/it]                                                          {'loss': 1.8889, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29385/48845 [10:24:19<6:49:14,  1.26s/it] 60%|██████    | 29386/48845 [10:24:20<6:49:11,  1.26s/it] 60%|██████    | 29387/48845 [10:24:22<6:48:40,  1.26s/it] 60%|██████    | 29388/48845 [10:24:23<6:48:44,  1.26s/it] 60%|██████    | 29389/48845 [10:24:24<6:48:57,  1.26s/it] 60%|██████    | 29390/48845 [10:24:25<6:48:51,  1.26s/it]                                                          {'loss': 1.7981, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29390/48845 [10:24:25<6:48:51,  1.26s/it] 60%|██████    | 29391/48845 [10:24:27<6:49:52,  1.26s/it] 60%|██████    | 29392/48845 [10:24:28<6:49:51,  1.26s/it] 60%|██████    | 29393/48845 [10:24:29<6:49:27,  1.26s/it] 60%|██████    | 29394/48845 [10:24:31<6:49:19,  1.26s/it] 60%|██████    | 29395/48845 [10:24:32<6:49:13,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29395/48845 [10:24:32<6:49:13,  1.26s/it] 60%|██████    | 29396/48845 [10:24:33<6:50:11,  1.27s/it] 60%|██████    | 29397/48845 [10:24:34<6:49:58,  1.26s/it] 60%|██████    | 29398/48845 [10:24:36<6:49:29,  1.26s/it] 60%|██████    | 29399/48845 [10:24:37<6:49:18,  1.26s/it] 60%|██████    | 29400/48845 [10:24:38<6:49:08,  1.26s/it]                                                          {'loss': 2.3152, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29400/48845 [10:24:38<6:49:08,  1.26s/it] 60%|██████    | 29401/48845 [10:24:42<10:51:06,  2.01s/it] 60%|██████    | 29402/48845 [10:24:43<9:39:05,  1.79s/it]  60%|██████    | 29403/48845 [10:24:44<8:48:01,  1.63s/it] 60%|██████    | 29404/48845 [10:24:46<8:12:14,  1.52s/it] 60%|██████    | 29405/48845 [10:24:47<7:47:22,  1.44s/it]                                                          {'loss': 1.9637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29405/48845 [10:24:47<7:47:22,  1.44s/it] 60%|██████    | 29406/48845 [10:24:48<7:30:02,  1.39s/it] 60%|██████    | 29407/48845 [10:24:49<7:17:40,  1.35s/it] 60%|██████    | 29408/48845 [10:24:51<7:09:17,  1.33s/it] 60%|██████    | 29409/48845 [10:24:52<7:02:57,  1.31s/it] 60%|██████    | 29410/48845 [10:24:53<6:58:35,  1.29s/it]                                                          {'loss': 2.1695, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29410/48845 [10:24:53<6:58:35,  1.29s/it] 60%|██████    | 29411/48845 [10:24:55<6:56:23,  1.29s/it] 60%|██████    | 29412/48845 [10:24:56<6:53:56,  1.28s/it] 60%|██████    | 29413/48845 [10:24:57<6:52:48,  1.27s/it] 60%|██████    | 29414/48845 [10:24:58<6:51:46,  1.27s/it] 60%|██████    | 29415/48845 [10:25:00<6:50:50,  1.27s/it]                                                          {'loss': 2.2226, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29415/48845 [10:25:00<6:50:50,  1.27s/it] 60%|██████    | 29416/48845 [10:25:01<6:51:01,  1.27s/it] 60%|██████    | 29417/48845 [10:25:02<6:50:19,  1.27s/it] 60%|██████    | 29418/48845 [10:25:03<6:49:41,  1.27s/it] 60%|██████    | 29419/48845 [10:25:05<6:48:58,  1.26s/it] 60%|██████    | 29420/48845 [10:25:06<6:48:34,  1.26s/it]                                                          {'loss': 2.0623, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29420/48845 [10:25:06<6:48:34,  1.26s/it] 60%|██████    | 29421/48845 [10:25:07<6:48:29,  1.26s/it] 60%|██████    | 29422/48845 [10:25:08<6:48:42,  1.26s/it] 60%|██████    | 29423/48845 [10:25:10<6:48:52,  1.26s/it] 60%|██████    | 29424/48845 [10:25:11<6:48:30,  1.26s/it] 60%|██████    | 29425/48845 [10:25:12<6:48:18,  1.26s/it]                                                          {'loss': 2.1563, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29425/48845 [10:25:12<6:48:18,  1.26s/it] 60%|██████    | 29426/48845 [10:25:13<6:48:41,  1.26s/it] 60%|██████    | 29427/48845 [10:25:15<6:48:33,  1.26s/it] 60%|██████    | 29428/48845 [10:25:16<6:48:35,  1.26s/it] 60%|██████    | 29429/48845 [10:25:17<6:49:00,  1.26s/it] 60%|██████    | 29430/48845 [10:25:19<6:49:02,  1.26s/it]                                                          {'loss': 2.1824, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29430/48845 [10:25:19<6:49:02,  1.26s/it] 60%|██████    | 29431/48845 [10:25:20<6:49:06,  1.26s/it] 60%|██████    | 29432/48845 [10:25:21<6:48:52,  1.26s/it] 60%|██████    | 29433/48845 [10:25:22<6:49:12,  1.26s/it] 60%|██████    | 29434/48845 [10:25:24<6:48:48,  1.26s/it] 60%|██████    | 29435/48845 [10:25:25<6:48:37,  1.26s/it]                                                          {'loss': 1.9419, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29435/48845 [10:25:25<6:48:37,  1.26s/it] 60%|██████    | 29436/48845 [10:25:26<6:49:04,  1.26s/it] 60%|██████    | 29437/48845 [10:25:27<6:48:56,  1.26s/it] 60%|██████    | 29438/48845 [10:25:29<6:48:46,  1.26s/it] 60%|██████    | 29439/48845 [10:25:30<6:48:32,  1.26s/it] 60%|██████    | 29440/48845 [10:25:31<6:48:13,  1.26s/it]                                                          {'loss': 1.944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29440/48845 [10:25:31<6:48:13,  1.26s/it] 60%|██████    | 29441/48845 [10:25:32<6:48:25,  1.26s/it] 60%|██████    | 29442/48845 [10:25:34<6:48:20,  1.26s/it] 60%|██████    | 29443/48845 [10:25:35<6:48:07,  1.26s/it] 60%|██████    | 29444/48845 [10:25:36<6:48:34,  1.26s/it] 60%|██████    | 29445/48845 [10:25:37<6:48:14,  1.26s/it]                                                          {'loss': 2.1179, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29445/48845 [10:25:37<6:48:14,  1.26s/it] 60%|██████    | 29446/48845 [10:25:39<6:48:16,  1.26s/it] 60%|██████    | 29447/48845 [10:25:40<6:48:48,  1.26s/it] 60%|██████    | 29448/48845 [10:25:41<6:48:25,  1.26s/it] 60%|██████    | 29449/48845 [10:25:43<6:48:31,  1.26s/it] 60%|██████    | 29450/48845 [10:25:44<6:48:16,  1.26s/it]                                                          {'loss': 1.963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.01}
+ 60%|██████    | 29450/48845 [10:25:44<6:48:16,  1.26s/it] 60%|██████    | 29451/48845 [10:25:45<6:48:14,  1.26s/it] 60%|██████    | 29452/48845 [10:25:46<6:47:58,  1.26s/it] 60%|██████    | 29453/48845 [10:25:48<6:48:06,  1.26s/it] 60%|██████    | 29454/48845 [10:25:49<6:47:59,  1.26s/it] 60%|██████    | 29455/48845 [10:25:50<6:48:17,  1.26s/it]                                                          {'loss': 2.1115, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29455/48845 [10:25:50<6:48:17,  1.26s/it] 60%|██████    | 29456/48845 [10:25:51<6:48:18,  1.26s/it] 60%|██████    | 29457/48845 [10:25:53<6:48:06,  1.26s/it] 60%|██████    | 29458/48845 [10:25:54<6:47:58,  1.26s/it] 60%|██████    | 29459/48845 [10:25:55<6:47:41,  1.26s/it] 60%|██████    | 29460/48845 [10:25:56<6:47:35,  1.26s/it]                                                          {'loss': 2.0709, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29460/48845 [10:25:56<6:47:35,  1.26s/it] 60%|██████    | 29461/48845 [10:25:58<6:47:33,  1.26s/it] 60%|██████    | 29462/48845 [10:25:59<6:47:38,  1.26s/it] 60%|██████    | 29463/48845 [10:26:00<6:47:17,  1.26s/it] 60%|██████    | 29464/48845 [10:26:01<6:47:17,  1.26s/it] 60%|██████    | 29465/48845 [10:26:03<6:47:47,  1.26s/it]                                                          {'loss': 1.9921, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29465/48845 [10:26:03<6:47:47,  1.26s/it] 60%|██████    | 29466/48845 [10:26:04<6:47:36,  1.26s/it] 60%|██████    | 29467/48845 [10:26:05<6:47:29,  1.26s/it] 60%|██████    | 29468/48845 [10:26:06<6:47:24,  1.26s/it] 60%|██████    | 29469/48845 [10:26:08<6:47:13,  1.26s/it] 60%|██████    | 29470/48845 [10:26:09<6:47:00,  1.26s/it]                                                          {'loss': 1.9637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29470/48845 [10:26:09<6:47:00,  1.26s/it] 60%|██████    | 29471/48845 [10:26:10<6:47:10,  1.26s/it] 60%|██████    | 29472/48845 [10:26:12<6:47:03,  1.26s/it] 60%|██████    | 29473/48845 [10:26:13<6:46:45,  1.26s/it] 60%|██████    | 29474/48845 [10:26:14<6:46:48,  1.26s/it] 60%|██████    | 29475/48845 [10:26:15<6:46:37,  1.26s/it]                                                          {'loss': 2.125, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29475/48845 [10:26:15<6:46:37,  1.26s/it] 60%|██████    | 29476/48845 [10:26:17<6:47:26,  1.26s/it] 60%|██████    | 29477/48845 [10:26:18<6:47:49,  1.26s/it] 60%|██████    | 29478/48845 [10:26:19<6:47:37,  1.26s/it] 60%|██████    | 29479/48845 [10:26:20<6:47:23,  1.26s/it] 60%|██████    | 29480/48845 [10:26:22<6:47:28,  1.26s/it]                                                          {'loss': 2.0205, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29480/48845 [10:26:22<6:47:28,  1.26s/it] 60%|██████    | 29481/48845 [10:26:23<6:47:34,  1.26s/it] 60%|██████    | 29482/48845 [10:26:24<6:47:28,  1.26s/it] 60%|██████    | 29483/48845 [10:26:25<6:47:06,  1.26s/it] 60%|██████    | 29484/48845 [10:26:27<6:47:14,  1.26s/it] 60%|██████    | 29485/48845 [10:26:28<6:47:03,  1.26s/it]                                                          {'loss': 2.0234, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29485/48845 [10:26:28<6:47:03,  1.26s/it] 60%|██████    | 29486/48845 [10:26:29<6:47:03,  1.26s/it] 60%|██████    | 29487/48845 [10:26:30<6:46:53,  1.26s/it] 60%|██████    | 29488/48845 [10:26:32<6:46:44,  1.26s/it] 60%|██████    | 29489/48845 [10:26:33<6:47:01,  1.26s/it] 60%|██████    | 29490/48845 [10:26:34<6:46:55,  1.26s/it]                                                          {'loss': 1.9532, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29490/48845 [10:26:34<6:46:55,  1.26s/it] 60%|██████    | 29491/48845 [10:26:36<6:47:41,  1.26s/it] 60%|██████    | 29492/48845 [10:26:37<6:47:32,  1.26s/it] 60%|██████    | 29493/48845 [10:26:38<6:47:43,  1.26s/it] 60%|██████    | 29494/48845 [10:26:39<6:47:11,  1.26s/it] 60%|██████    | 29495/48845 [10:26:41<6:47:12,  1.26s/it]                                                          {'loss': 2.0808, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29495/48845 [10:26:41<6:47:12,  1.26s/it] 60%|██████    | 29496/48845 [10:26:42<6:46:58,  1.26s/it] 60%|██████    | 29497/48845 [10:26:43<6:46:50,  1.26s/it] 60%|██████    | 29498/48845 [10:26:44<6:46:19,  1.26s/it] 60%|██████    | 29499/48845 [10:26:46<6:46:06,  1.26s/it] 60%|██████    | 29500/48845 [10:26:47<6:46:23,  1.26s/it]                                                          {'loss': 2.0086, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29500/48845 [10:26:47<6:46:23,  1.26s/it] 60%|██████    | 29501/48845 [10:26:48<6:46:26,  1.26s/it] 60%|██████    | 29502/48845 [10:26:49<6:46:25,  1.26s/it] 60%|██████    | 29503/48845 [10:26:51<6:46:35,  1.26s/it] 60%|██████    | 29504/48845 [10:26:52<6:46:15,  1.26s/it] 60%|██████    | 29505/48845 [10:26:53<6:46:44,  1.26s/it]                                                          {'loss': 2.0078, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29505/48845 [10:26:53<6:46:44,  1.26s/it] 60%|██████    | 29506/48845 [10:26:55<6:56:15,  1.29s/it] 60%|██████    | 29507/48845 [10:26:56<6:53:13,  1.28s/it] 60%|██████    | 29508/48845 [10:26:57<6:51:17,  1.28s/it] 60%|██████    | 29509/48845 [10:26:58<6:49:48,  1.27s/it] 60%|██████    | 29510/48845 [10:27:00<6:48:48,  1.27s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29510/48845 [10:27:00<6:48:48,  1.27s/it] 60%|██████    | 29511/48845 [10:27:01<6:48:01,  1.27s/it] 60%|██████    | 29512/48845 [10:27:02<6:47:25,  1.26s/it] 60%|██████    | 29513/48845 [10:27:03<6:47:06,  1.26s/it] 60%|██████    | 29514/48845 [10:27:05<6:46:51,  1.26s/it] 60%|██████    | 29515/48845 [10:27:06<6:46:13,  1.26s/it]                                                          {'loss': 2.1207, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29515/48845 [10:27:06<6:46:13,  1.26s/it] 60%|██████    | 29516/48845 [10:27:07<6:46:39,  1.26s/it] 60%|██████    | 29517/48845 [10:27:08<6:46:34,  1.26s/it] 60%|██████    | 29518/48845 [10:27:10<6:46:37,  1.26s/it] 60%|██████    | 29519/48845 [10:27:11<6:46:29,  1.26s/it] 60%|██████    | 29520/48845 [10:27:12<6:46:22,  1.26s/it]                                                          {'loss': 2.0128, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29520/48845 [10:27:12<6:46:22,  1.26s/it] 60%|██████    | 29521/48845 [10:27:13<6:46:38,  1.26s/it] 60%|██████    | 29522/48845 [10:27:15<6:46:26,  1.26s/it] 60%|██████    | 29523/48845 [10:27:16<6:46:22,  1.26s/it] 60%|██████    | 29524/48845 [10:27:17<6:46:12,  1.26s/it] 60%|██████    | 29525/48845 [10:27:19<6:46:21,  1.26s/it]                                                          {'loss': 1.9814, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29525/48845 [10:27:19<6:46:21,  1.26s/it] 60%|██████    | 29526/48845 [10:27:20<6:47:08,  1.26s/it] 60%|██████    | 29527/48845 [10:27:21<6:47:12,  1.26s/it] 60%|██████    | 29528/48845 [10:27:22<6:47:24,  1.27s/it] 60%|██████    | 29529/48845 [10:27:24<6:47:06,  1.26s/it] 60%|██████    | 29530/48845 [10:27:25<6:46:51,  1.26s/it]                                                          {'loss': 2.0836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29530/48845 [10:27:25<6:46:51,  1.26s/it] 60%|██████    | 29531/48845 [10:27:26<6:46:33,  1.26s/it] 60%|██████    | 29532/48845 [10:27:27<6:46:19,  1.26s/it] 60%|██████    | 29533/48845 [10:27:29<6:46:09,  1.26s/it] 60%|██████    | 29534/48845 [10:27:30<6:46:34,  1.26s/it] 60%|██████    | 29535/48845 [10:27:31<6:46:23,  1.26s/it]                                                          {'loss': 2.0004, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29535/48845 [10:27:31<6:46:23,  1.26s/it] 60%|██████    | 29536/48845 [10:27:32<6:46:35,  1.26s/it] 60%|██████    | 29537/48845 [10:27:34<6:46:28,  1.26s/it] 60%|██████    | 29538/48845 [10:27:35<6:46:18,  1.26s/it] 60%|██████    | 29539/48845 [10:27:36<6:47:03,  1.27s/it] 60%|██████    | 29540/48845 [10:27:37<6:46:42,  1.26s/it]                                                          {'loss': 2.0648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29540/48845 [10:27:37<6:46:42,  1.26s/it] 60%|██████    | 29541/48845 [10:27:39<6:46:43,  1.26s/it] 60%|██████    | 29542/48845 [10:27:40<6:46:25,  1.26s/it] 60%|██████    | 29543/48845 [10:27:41<6:46:25,  1.26s/it] 60%|██████    | 29544/48845 [10:27:43<6:46:12,  1.26s/it] 60%|██████    | 29545/48845 [10:27:44<6:46:06,  1.26s/it]                                                          {'loss': 1.8508, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29545/48845 [10:27:44<6:46:06,  1.26s/it] 60%|██████    | 29546/48845 [10:27:45<6:46:17,  1.26s/it] 60%|██████    | 29547/48845 [10:27:46<6:46:11,  1.26s/it] 60%|██████    | 29548/48845 [10:27:48<6:46:28,  1.26s/it] 60%|██████    | 29549/48845 [10:27:49<6:46:24,  1.26s/it] 60%|██████    | 29550/48845 [10:27:50<6:46:24,  1.26s/it]                                                          {'loss': 2.0113, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.02}
+ 60%|██████    | 29550/48845 [10:27:50<6:46:24,  1.26s/it] 60%|██████    | 29551/48845 [10:27:51<6:46:31,  1.26s/it] 61%|██████    | 29552/48845 [10:27:53<6:46:14,  1.26s/it] 61%|██████    | 29553/48845 [10:27:54<6:46:06,  1.26s/it] 61%|██████    | 29554/48845 [10:27:55<6:45:27,  1.26s/it] 61%|██████    | 29555/48845 [10:27:56<6:45:11,  1.26s/it]                                                          {'loss': 1.9174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29555/48845 [10:27:56<6:45:11,  1.26s/it] 61%|██████    | 29556/48845 [10:27:58<6:45:38,  1.26s/it] 61%|██████    | 29557/48845 [10:27:59<6:45:31,  1.26s/it] 61%|██████    | 29558/48845 [10:28:00<6:45:26,  1.26s/it] 61%|██████    | 29559/48845 [10:28:01<6:45:35,  1.26s/it] 61%|██████    | 29560/48845 [10:28:03<6:45:38,  1.26s/it]                                                          {'loss': 2.096, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29560/48845 [10:28:03<6:45:38,  1.26s/it] 61%|██████    | 29561/48845 [10:28:04<6:45:52,  1.26s/it] 61%|██████    | 29562/48845 [10:28:05<6:46:19,  1.26s/it] 61%|██████    | 29563/48845 [10:28:07<6:46:02,  1.26s/it] 61%|██████    | 29564/48845 [10:28:08<6:45:57,  1.26s/it] 61%|██████    | 29565/48845 [10:28:09<6:45:40,  1.26s/it]                                                          {'loss': 1.9981, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29565/48845 [10:28:09<6:45:40,  1.26s/it] 61%|██████    | 29566/48845 [10:28:10<6:45:43,  1.26s/it] 61%|██████    | 29567/48845 [10:28:12<6:45:28,  1.26s/it] 61%|██████    | 29568/48845 [10:28:13<6:45:16,  1.26s/it] 61%|██████    | 29569/48845 [10:28:14<6:45:24,  1.26s/it] 61%|██████    | 29570/48845 [10:28:15<6:45:06,  1.26s/it]                                                          {'loss': 2.023, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29570/48845 [10:28:15<6:45:06,  1.26s/it] 61%|██████    | 29571/48845 [10:28:17<6:45:16,  1.26s/it] 61%|██████    | 29572/48845 [10:28:18<6:45:13,  1.26s/it] 61%|██████    | 29573/48845 [10:28:19<6:45:59,  1.26s/it] 61%|██████    | 29574/48845 [10:28:20<6:45:50,  1.26s/it] 61%|██████    | 29575/48845 [10:28:22<6:45:54,  1.26s/it]                                                          {'loss': 2.0933, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29575/48845 [10:28:22<6:45:54,  1.26s/it] 61%|██████    | 29576/48845 [10:28:23<6:45:35,  1.26s/it] 61%|██████    | 29577/48845 [10:28:24<6:45:18,  1.26s/it] 61%|██████    | 29578/48845 [10:28:25<6:45:19,  1.26s/it] 61%|██████    | 29579/48845 [10:28:27<6:45:12,  1.26s/it] 61%|██████    | 29580/48845 [10:28:28<6:45:43,  1.26s/it]                                                          {'loss': 1.9842, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29580/48845 [10:28:28<6:45:43,  1.26s/it] 61%|██████    | 29581/48845 [10:28:29<6:45:39,  1.26s/it] 61%|██████    | 29582/48845 [10:28:30<6:45:27,  1.26s/it] 61%|██████    | 29583/48845 [10:28:32<6:46:07,  1.27s/it] 61%|██████    | 29584/48845 [10:28:33<6:45:44,  1.26s/it] 61%|██████    | 29585/48845 [10:28:34<6:45:29,  1.26s/it]                                                          {'loss': 2.0015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29585/48845 [10:28:34<6:45:29,  1.26s/it] 61%|██████    | 29586/48845 [10:28:36<6:45:27,  1.26s/it] 61%|██████    | 29587/48845 [10:28:37<6:45:15,  1.26s/it] 61%|██████    | 29588/48845 [10:28:38<6:44:57,  1.26s/it] 61%|██████    | 29589/48845 [10:28:39<6:45:12,  1.26s/it] 61%|██████    | 29590/48845 [10:28:41<6:45:07,  1.26s/it]                                                          {'loss': 1.9545, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29590/48845 [10:28:41<6:45:07,  1.26s/it] 61%|██████    | 29591/48845 [10:28:42<6:45:34,  1.26s/it] 61%|██████    | 29592/48845 [10:28:43<6:45:08,  1.26s/it] 61%|██████    | 29593/48845 [10:28:44<6:45:02,  1.26s/it] 61%|██████    | 29594/48845 [10:28:46<6:45:09,  1.26s/it] 61%|██████    | 29595/48845 [10:28:47<6:45:08,  1.26s/it]                                                          {'loss': 1.9611, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29595/48845 [10:28:47<6:45:08,  1.26s/it] 61%|██████    | 29596/48845 [10:28:48<6:45:04,  1.26s/it] 61%|██████    | 29597/48845 [10:28:49<6:45:03,  1.26s/it] 61%|██████    | 29598/48845 [10:28:51<6:45:07,  1.26s/it] 61%|██████    | 29599/48845 [10:28:52<6:44:51,  1.26s/it] 61%|██████    | 29600/48845 [10:28:53<6:44:34,  1.26s/it]                                                          {'loss': 2.2297, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29600/48845 [10:28:53<6:44:34,  1.26s/it] 61%|██████    | 29601/48845 [10:28:57<10:42:05,  2.00s/it] 61%|██████    | 29602/48845 [10:28:58<9:31:03,  1.78s/it]  61%|██████    | 29603/48845 [10:28:59<8:41:13,  1.63s/it] 61%|██████    | 29604/48845 [10:29:01<8:06:20,  1.52s/it] 61%|██████    | 29605/48845 [10:29:02<7:41:44,  1.44s/it]                                                          {'loss': 1.9485, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29605/48845 [10:29:02<7:41:44,  1.44s/it] 61%|██████    | 29606/48845 [10:29:03<7:24:51,  1.39s/it] 61%|██████    | 29607/48845 [10:29:05<7:13:07,  1.35s/it] 61%|██████    | 29608/48845 [10:29:06<7:04:28,  1.32s/it] 61%|██████    | 29609/48845 [10:29:07<6:58:33,  1.31s/it] 61%|██████    | 29610/48845 [10:29:08<6:54:07,  1.29s/it]                                                          {'loss': 2.1744, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29610/48845 [10:29:08<6:54:07,  1.29s/it] 61%|██████    | 29611/48845 [10:29:10<6:51:27,  1.28s/it] 61%|██████    | 29612/48845 [10:29:11<6:49:27,  1.28s/it] 61%|██████    | 29613/48845 [10:29:12<6:48:24,  1.27s/it] 61%|██████    | 29614/48845 [10:29:13<6:47:09,  1.27s/it] 61%|██████    | 29615/48845 [10:29:15<6:46:33,  1.27s/it]                                                          {'loss': 2.0733, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29615/48845 [10:29:15<6:46:33,  1.27s/it] 61%|██████    | 29616/48845 [10:29:16<6:45:43,  1.27s/it] 61%|██████    | 29617/48845 [10:29:17<6:45:18,  1.26s/it] 61%|██████    | 29618/48845 [10:29:18<6:45:00,  1.26s/it] 61%|██████    | 29619/48845 [10:29:20<6:44:36,  1.26s/it] 61%|██████    | 29620/48845 [10:29:21<6:44:14,  1.26s/it]                                                          {'loss': 2.0528, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29620/48845 [10:29:21<6:44:14,  1.26s/it] 61%|██████    | 29621/48845 [10:29:22<6:44:10,  1.26s/it] 61%|██████    | 29622/48845 [10:29:23<6:44:07,  1.26s/it] 61%|██████    | 29623/48845 [10:29:25<6:43:59,  1.26s/it] 61%|██████    | 29624/48845 [10:29:26<6:43:42,  1.26s/it] 61%|██████    | 29625/48845 [10:29:27<6:43:50,  1.26s/it]                                                          {'loss': 2.0148, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29625/48845 [10:29:27<6:43:50,  1.26s/it] 61%|██████    | 29626/48845 [10:29:29<6:44:11,  1.26s/it] 61%|██████    | 29627/48845 [10:29:30<6:44:17,  1.26s/it] 61%|██████    | 29628/48845 [10:29:31<6:44:38,  1.26s/it] 61%|██████    | 29629/48845 [10:29:32<6:44:21,  1.26s/it] 61%|██████    | 29630/48845 [10:29:34<6:43:45,  1.26s/it]                                                          {'loss': 2.1247, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29630/48845 [10:29:34<6:43:45,  1.26s/it] 61%|██████    | 29631/48845 [10:29:35<6:43:36,  1.26s/it] 61%|██████    | 29632/48845 [10:29:36<6:43:14,  1.26s/it] 61%|██████    | 29633/48845 [10:29:37<6:43:07,  1.26s/it] 61%|██████    | 29634/48845 [10:29:39<6:43:27,  1.26s/it] 61%|██████    | 29635/48845 [10:29:40<6:43:09,  1.26s/it]                                                          {'loss': 1.9602, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29635/48845 [10:29:40<6:43:09,  1.26s/it] 61%|██████    | 29636/48845 [10:29:41<6:43:12,  1.26s/it] 61%|██████    | 29637/48845 [10:29:42<6:43:13,  1.26s/it] 61%|██████    | 29638/48845 [10:29:44<6:43:03,  1.26s/it] 61%|██████    | 29639/48845 [10:29:45<6:43:14,  1.26s/it] 61%|██████    | 29640/48845 [10:29:46<6:43:58,  1.26s/it]                                                          {'loss': 2.0378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29640/48845 [10:29:46<6:43:58,  1.26s/it] 61%|██████    | 29641/48845 [10:29:47<6:43:57,  1.26s/it] 61%|██████    | 29642/48845 [10:29:49<6:43:38,  1.26s/it] 61%|██████    | 29643/48845 [10:29:50<6:43:42,  1.26s/it] 61%|██████    | 29644/48845 [10:29:51<6:44:00,  1.26s/it] 61%|██████    | 29645/48845 [10:29:52<6:43:51,  1.26s/it]                                                          {'loss': 2.0936, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.03}
+ 61%|██████    | 29645/48845 [10:29:52<6:43:51,  1.26s/it] 61%|██████    | 29646/48845 [10:29:54<6:43:54,  1.26s/it] 61%|██████    | 29647/48845 [10:29:55<6:43:50,  1.26s/it] 61%|██████    | 29648/48845 [10:29:56<6:43:58,  1.26s/it] 61%|██████    | 29649/48845 [10:29:58<6:43:55,  1.26s/it] 61%|██████    | 29650/48845 [10:29:59<6:44:09,  1.26s/it]                                                          {'loss': 2.1137, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29650/48845 [10:29:59<6:44:09,  1.26s/it] 61%|██████    | 29651/48845 [10:30:00<6:44:36,  1.26s/it] 61%|██████    | 29652/48845 [10:30:01<6:44:27,  1.26s/it] 61%|██████    | 29653/48845 [10:30:03<6:44:25,  1.26s/it] 61%|██████    | 29654/48845 [10:30:04<6:44:10,  1.26s/it] 61%|██████    | 29655/48845 [10:30:05<6:44:01,  1.26s/it]                                                          {'loss': 1.9585, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29655/48845 [10:30:05<6:44:01,  1.26s/it] 61%|██████    | 29656/48845 [10:30:06<6:44:35,  1.27s/it] 61%|██████    | 29657/48845 [10:30:08<6:44:04,  1.26s/it] 61%|██████    | 29658/48845 [10:30:09<6:43:46,  1.26s/it] 61%|██████    | 29659/48845 [10:30:10<6:44:09,  1.26s/it] 61%|██████    | 29660/48845 [10:30:11<6:49:36,  1.28s/it]                                                          {'loss': 2.0142, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29660/48845 [10:30:11<6:49:36,  1.28s/it] 61%|██████    | 29661/48845 [10:30:13<6:47:57,  1.28s/it] 61%|██████    | 29662/48845 [10:30:14<6:46:20,  1.27s/it] 61%|██████    | 29663/48845 [10:30:15<6:45:22,  1.27s/it] 61%|██████    | 29664/48845 [10:30:17<6:44:43,  1.27s/it] 61%|██████    | 29665/48845 [10:30:18<6:43:56,  1.26s/it]                                                          {'loss': 2.0997, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29665/48845 [10:30:18<6:43:56,  1.26s/it] 61%|██████    | 29666/48845 [10:30:19<6:43:31,  1.26s/it] 61%|██████    | 29667/48845 [10:30:20<6:43:08,  1.26s/it] 61%|██████    | 29668/48845 [10:30:22<6:42:56,  1.26s/it] 61%|██████    | 29669/48845 [10:30:23<6:42:55,  1.26s/it] 61%|██████    | 29670/48845 [10:30:24<6:42:53,  1.26s/it]                                                          {'loss': 1.9408, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29670/48845 [10:30:24<6:42:53,  1.26s/it] 61%|██████    | 29671/48845 [10:30:25<6:43:08,  1.26s/it] 61%|██████    | 29672/48845 [10:30:27<6:43:01,  1.26s/it] 61%|██████    | 29673/48845 [10:30:28<6:42:45,  1.26s/it] 61%|██████    | 29674/48845 [10:30:29<6:42:31,  1.26s/it] 61%|██████    | 29675/48845 [10:30:30<6:42:32,  1.26s/it]                                                          {'loss': 1.9512, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29675/48845 [10:30:30<6:42:32,  1.26s/it] 61%|██████    | 29676/48845 [10:30:32<6:42:58,  1.26s/it] 61%|██████    | 29677/48845 [10:30:33<6:43:08,  1.26s/it] 61%|██████    | 29678/48845 [10:30:34<6:43:10,  1.26s/it] 61%|██████    | 29679/48845 [10:30:35<6:43:08,  1.26s/it] 61%|██████    | 29680/48845 [10:30:37<6:42:45,  1.26s/it]                                                          {'loss': 1.9544, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29680/48845 [10:30:37<6:42:45,  1.26s/it] 61%|██████    | 29681/48845 [10:30:38<6:43:08,  1.26s/it] 61%|██████    | 29682/48845 [10:30:39<6:43:20,  1.26s/it] 61%|██████    | 29683/48845 [10:30:40<6:42:49,  1.26s/it] 61%|██████    | 29684/48845 [10:30:42<6:42:56,  1.26s/it] 61%|██████    | 29685/48845 [10:30:43<6:43:28,  1.26s/it]                                                          {'loss': 2.103, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29685/48845 [10:30:43<6:43:28,  1.26s/it] 61%|██████    | 29686/48845 [10:30:44<6:43:08,  1.26s/it] 61%|██████    | 29687/48845 [10:30:46<6:42:57,  1.26s/it] 61%|██████    | 29688/48845 [10:30:47<6:42:59,  1.26s/it] 61%|██████    | 29689/48845 [10:30:48<6:42:27,  1.26s/it] 61%|██████    | 29690/48845 [10:30:49<6:42:21,  1.26s/it]                                                          {'loss': 2.0924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29690/48845 [10:30:49<6:42:21,  1.26s/it] 61%|██████    | 29691/48845 [10:30:51<6:42:31,  1.26s/it] 61%|██████    | 29692/48845 [10:30:52<6:42:08,  1.26s/it] 61%|██████    | 29693/48845 [10:30:53<6:41:47,  1.26s/it] 61%|██████    | 29694/48845 [10:30:54<6:42:02,  1.26s/it] 61%|██████    | 29695/48845 [10:30:56<6:42:14,  1.26s/it]                                                          {'loss': 2.1309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29695/48845 [10:30:56<6:42:14,  1.26s/it] 61%|██████    | 29696/48845 [10:30:57<6:42:24,  1.26s/it] 61%|██████    | 29697/48845 [10:30:58<6:42:37,  1.26s/it] 61%|██████    | 29698/48845 [10:30:59<6:42:59,  1.26s/it] 61%|██████    | 29699/48845 [10:31:01<6:42:35,  1.26s/it] 61%|██████    | 29700/48845 [10:31:02<6:42:35,  1.26s/it]                                                          {'loss': 2.1139, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29700/48845 [10:31:02<6:42:35,  1.26s/it] 61%|██████    | 29701/48845 [10:31:03<6:43:56,  1.27s/it] 61%|██████    | 29702/48845 [10:31:04<6:43:26,  1.26s/it] 61%|██████    | 29703/48845 [10:31:06<6:43:08,  1.26s/it] 61%|██████    | 29704/48845 [10:31:07<6:42:49,  1.26s/it] 61%|██████    | 29705/48845 [10:31:08<6:42:36,  1.26s/it]                                                          {'loss': 1.9878, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29705/48845 [10:31:08<6:42:36,  1.26s/it] 61%|██████    | 29706/48845 [10:31:09<6:42:28,  1.26s/it] 61%|██████    | 29707/48845 [10:31:11<6:42:18,  1.26s/it] 61%|██████    | 29708/48845 [10:31:12<6:42:33,  1.26s/it] 61%|██████    | 29709/48845 [10:31:13<6:42:35,  1.26s/it] 61%|██████    | 29710/48845 [10:31:15<6:42:46,  1.26s/it]                                                          {'loss': 1.9761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29710/48845 [10:31:15<6:42:46,  1.26s/it] 61%|██████    | 29711/48845 [10:31:16<6:42:49,  1.26s/it] 61%|██████    | 29712/48845 [10:31:17<6:42:26,  1.26s/it] 61%|██████    | 29713/48845 [10:31:18<6:42:17,  1.26s/it] 61%|██████    | 29714/48845 [10:31:20<6:42:08,  1.26s/it] 61%|██████    | 29715/48845 [10:31:21<6:42:21,  1.26s/it]                                                          {'loss': 2.0613, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29715/48845 [10:31:21<6:42:21,  1.26s/it] 61%|██████    | 29716/48845 [10:31:22<6:42:30,  1.26s/it] 61%|██████    | 29717/48845 [10:31:23<6:42:30,  1.26s/it] 61%|██████    | 29718/48845 [10:31:25<6:42:26,  1.26s/it] 61%|██████    | 29719/48845 [10:31:26<6:42:25,  1.26s/it] 61%|██████    | 29720/48845 [10:31:27<6:42:29,  1.26s/it]                                                          {'loss': 2.0609, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29720/48845 [10:31:27<6:42:29,  1.26s/it] 61%|██████    | 29721/48845 [10:31:28<6:42:09,  1.26s/it] 61%|██████    | 29722/48845 [10:31:30<6:42:00,  1.26s/it] 61%|██████    | 29723/48845 [10:31:31<6:41:51,  1.26s/it] 61%|██████    | 29724/48845 [10:31:32<6:42:16,  1.26s/it] 61%|██████    | 29725/48845 [10:31:33<6:43:19,  1.27s/it]                                                          {'loss': 2.0696, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29725/48845 [10:31:33<6:43:19,  1.27s/it] 61%|██████    | 29726/48845 [10:31:35<6:42:38,  1.26s/it] 61%|██████    | 29727/48845 [10:31:36<6:42:43,  1.26s/it] 61%|██████    | 29728/48845 [10:31:37<6:42:43,  1.26s/it] 61%|██████    | 29729/48845 [10:31:39<6:55:26,  1.30s/it] 61%|██████    | 29730/48845 [10:31:40<6:51:21,  1.29s/it]                                                          {'loss': 2.0176, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29730/48845 [10:31:40<6:51:21,  1.29s/it] 61%|██████    | 29731/48845 [10:31:41<6:49:10,  1.28s/it] 61%|██████    | 29732/48845 [10:31:42<6:47:16,  1.28s/it] 61%|██████    | 29733/48845 [10:31:44<6:45:53,  1.27s/it] 61%|██████    | 29734/48845 [10:31:45<6:44:25,  1.27s/it] 61%|██████    | 29735/48845 [10:31:46<6:43:34,  1.27s/it]                                                          {'loss': 2.2407, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29735/48845 [10:31:46<6:43:34,  1.27s/it] 61%|██████    | 29736/48845 [10:31:48<6:43:30,  1.27s/it] 61%|██████    | 29737/48845 [10:31:49<6:43:19,  1.27s/it] 61%|██████    | 29738/48845 [10:31:50<6:43:12,  1.27s/it] 61%|██████    | 29739/48845 [10:31:51<6:42:35,  1.26s/it] 61%|██████    | 29740/48845 [10:31:53<6:42:11,  1.26s/it]                                                          {'loss': 2.1486, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29740/48845 [10:31:53<6:42:11,  1.26s/it] 61%|██████    | 29741/48845 [10:31:54<6:41:50,  1.26s/it] 61%|██████    | 29742/48845 [10:31:55<6:41:48,  1.26s/it] 61%|██████    | 29743/48845 [10:31:56<6:41:53,  1.26s/it] 61%|██████    | 29744/48845 [10:31:58<6:41:48,  1.26s/it] 61%|██████    | 29745/48845 [10:31:59<6:41:42,  1.26s/it]                                                          {'loss': 2.0053, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.04}
+ 61%|██████    | 29745/48845 [10:31:59<6:41:42,  1.26s/it] 61%|██████    | 29746/48845 [10:32:00<6:41:43,  1.26s/it] 61%|██████    | 29747/48845 [10:32:01<6:41:21,  1.26s/it] 61%|██████    | 29748/48845 [10:32:03<6:41:17,  1.26s/it] 61%|██████    | 29749/48845 [10:32:04<6:40:58,  1.26s/it] 61%|██████    | 29750/48845 [10:32:05<6:41:00,  1.26s/it]                                                          {'loss': 1.9708, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29750/48845 [10:32:05<6:41:00,  1.26s/it] 61%|██████    | 29751/48845 [10:32:06<6:41:15,  1.26s/it] 61%|██████    | 29752/48845 [10:32:08<6:40:49,  1.26s/it] 61%|██████    | 29753/48845 [10:32:09<6:41:24,  1.26s/it] 61%|██████    | 29754/48845 [10:32:10<6:41:34,  1.26s/it] 61%|██████    | 29755/48845 [10:32:11<6:41:27,  1.26s/it]                                                          {'loss': 2.145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29755/48845 [10:32:11<6:41:27,  1.26s/it] 61%|██████    | 29756/48845 [10:32:13<6:41:41,  1.26s/it] 61%|██████    | 29757/48845 [10:32:14<6:41:47,  1.26s/it] 61%|██████    | 29758/48845 [10:32:15<6:41:57,  1.26s/it] 61%|██████    | 29759/48845 [10:32:17<6:41:33,  1.26s/it] 61%|██████    | 29760/48845 [10:32:18<6:41:04,  1.26s/it]                                                          {'loss': 2.2018, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29760/48845 [10:32:18<6:41:04,  1.26s/it] 61%|██████    | 29761/48845 [10:32:19<6:41:22,  1.26s/it] 61%|██████    | 29762/48845 [10:32:20<6:41:23,  1.26s/it] 61%|██████    | 29763/48845 [10:32:22<6:41:12,  1.26s/it] 61%|██████    | 29764/48845 [10:32:23<6:41:06,  1.26s/it] 61%|██████    | 29765/48845 [10:32:24<6:41:40,  1.26s/it]                                                          {'loss': 2.0347, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29765/48845 [10:32:24<6:41:40,  1.26s/it] 61%|██████    | 29766/48845 [10:32:25<6:41:40,  1.26s/it] 61%|██████    | 29767/48845 [10:32:27<6:41:36,  1.26s/it] 61%|██████    | 29768/48845 [10:32:28<6:41:50,  1.26s/it] 61%|██████    | 29769/48845 [10:32:29<6:41:54,  1.26s/it] 61%|██████    | 29770/48845 [10:32:30<6:41:27,  1.26s/it]                                                          {'loss': 2.1408, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29770/48845 [10:32:30<6:41:27,  1.26s/it] 61%|██████    | 29771/48845 [10:32:32<6:41:22,  1.26s/it] 61%|██████    | 29772/48845 [10:32:33<6:41:31,  1.26s/it] 61%|██████    | 29773/48845 [10:32:34<6:41:47,  1.26s/it] 61%|██████    | 29774/48845 [10:32:35<6:41:43,  1.26s/it] 61%|██████    | 29775/48845 [10:32:37<6:41:55,  1.26s/it]                                                          {'loss': 2.0924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29775/48845 [10:32:37<6:41:55,  1.26s/it] 61%|██████    | 29776/48845 [10:32:38<6:41:50,  1.26s/it] 61%|██████    | 29777/48845 [10:32:39<6:42:11,  1.27s/it] 61%|██████    | 29778/48845 [10:32:41<6:41:46,  1.26s/it] 61%|██████    | 29779/48845 [10:32:42<6:41:24,  1.26s/it] 61%|██████    | 29780/48845 [10:32:43<6:41:13,  1.26s/it]                                                          {'loss': 2.0398, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29780/48845 [10:32:43<6:41:13,  1.26s/it] 61%|██████    | 29781/48845 [10:32:44<6:41:10,  1.26s/it] 61%|██████    | 29782/48845 [10:32:46<6:41:18,  1.26s/it] 61%|██████    | 29783/48845 [10:32:47<6:40:59,  1.26s/it] 61%|██████    | 29784/48845 [10:32:48<6:40:50,  1.26s/it] 61%|██████    | 29785/48845 [10:32:49<6:41:07,  1.26s/it]                                                          {'loss': 1.8579, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29785/48845 [10:32:49<6:41:07,  1.26s/it] 61%|██████    | 29786/48845 [10:32:51<6:40:50,  1.26s/it] 61%|██████    | 29787/48845 [10:32:52<6:40:29,  1.26s/it] 61%|██████    | 29788/48845 [10:32:53<6:40:41,  1.26s/it] 61%|██████    | 29789/48845 [10:32:54<6:41:15,  1.26s/it] 61%|██████    | 29790/48845 [10:32:56<6:40:51,  1.26s/it]                                                          {'loss': 2.0711, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29790/48845 [10:32:56<6:40:51,  1.26s/it] 61%|██████    | 29791/48845 [10:32:57<6:41:24,  1.26s/it] 61%|██████    | 29792/48845 [10:32:58<6:41:01,  1.26s/it] 61%|██████    | 29793/48845 [10:32:59<6:40:49,  1.26s/it] 61%|██████    | 29794/48845 [10:33:01<6:40:29,  1.26s/it] 61%|██████    | 29795/48845 [10:33:02<6:40:23,  1.26s/it]                                                          {'loss': 1.9827, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29795/48845 [10:33:02<6:40:23,  1.26s/it] 61%|██████    | 29796/48845 [10:33:03<6:40:30,  1.26s/it] 61%|██████    | 29797/48845 [10:33:05<6:40:37,  1.26s/it] 61%|██████    | 29798/48845 [10:33:06<6:40:23,  1.26s/it] 61%|██████    | 29799/48845 [10:33:07<6:39:52,  1.26s/it] 61%|██████    | 29800/48845 [10:33:08<6:39:44,  1.26s/it]                                                          {'loss': 1.9958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29800/48845 [10:33:08<6:39:44,  1.26s/it] 61%|██████    | 29801/48845 [10:33:12<10:33:34,  2.00s/it] 61%|██████    | 29802/48845 [10:33:13<9:23:43,  1.78s/it]  61%|██████    | 29803/48845 [10:33:15<8:35:06,  1.62s/it] 61%|██████    | 29804/48845 [10:33:16<8:00:40,  1.51s/it] 61%|██████    | 29805/48845 [10:33:17<7:36:36,  1.44s/it]                                                          {'loss': 2.0855, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29805/48845 [10:33:17<7:36:36,  1.44s/it] 61%|██████    | 29806/48845 [10:33:18<7:19:54,  1.39s/it] 61%|██████    | 29807/48845 [10:33:20<7:08:02,  1.35s/it] 61%|██████    | 29808/48845 [10:33:21<6:59:49,  1.32s/it] 61%|██████    | 29809/48845 [10:33:22<6:53:56,  1.30s/it] 61%|██████    | 29810/48845 [10:33:23<6:49:49,  1.29s/it]                                                          {'loss': 2.11, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29810/48845 [10:33:23<6:49:49,  1.29s/it] 61%|██████    | 29811/48845 [10:33:25<6:46:51,  1.28s/it] 61%|██████    | 29812/48845 [10:33:26<6:45:19,  1.28s/it] 61%|██████    | 29813/48845 [10:33:27<6:44:12,  1.27s/it] 61%|██████    | 29814/48845 [10:33:28<6:42:52,  1.27s/it] 61%|██████    | 29815/48845 [10:33:30<6:41:45,  1.27s/it]                                                          {'loss': 1.9392, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29815/48845 [10:33:30<6:41:45,  1.27s/it] 61%|██████    | 29816/48845 [10:33:31<6:41:30,  1.27s/it] 61%|██████    | 29817/48845 [10:33:32<6:40:46,  1.26s/it] 61%|██████    | 29818/48845 [10:33:33<6:41:03,  1.26s/it] 61%|██████    | 29819/48845 [10:33:35<6:41:09,  1.27s/it] 61%|██████    | 29820/48845 [10:33:36<6:40:46,  1.26s/it]                                                          {'loss': 2.1692, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29820/48845 [10:33:36<6:40:46,  1.26s/it] 61%|██████    | 29821/48845 [10:33:37<6:40:53,  1.26s/it] 61%|██████    | 29822/48845 [10:33:39<6:51:32,  1.30s/it] 61%|██████    | 29823/48845 [10:33:40<6:49:26,  1.29s/it] 61%|██████    | 29824/48845 [10:33:41<6:46:20,  1.28s/it] 61%|██████    | 29825/48845 [10:33:42<6:44:53,  1.28s/it]                                                          {'loss': 2.0812, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29825/48845 [10:33:42<6:44:53,  1.28s/it] 61%|██████    | 29826/48845 [10:33:44<6:44:10,  1.28s/it] 61%|██████    | 29827/48845 [10:33:45<6:42:47,  1.27s/it] 61%|██████    | 29828/48845 [10:33:46<6:42:13,  1.27s/it] 61%|██████    | 29829/48845 [10:33:48<6:41:39,  1.27s/it] 61%|██████    | 29830/48845 [10:33:49<6:41:13,  1.27s/it]                                                          {'loss': 2.145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29830/48845 [10:33:49<6:41:13,  1.27s/it] 61%|██████    | 29831/48845 [10:33:50<6:40:47,  1.26s/it] 61%|██████    | 29832/48845 [10:33:51<6:41:04,  1.27s/it] 61%|██████    | 29833/48845 [10:33:53<6:40:45,  1.26s/it] 61%|██████    | 29834/48845 [10:33:54<6:40:42,  1.26s/it] 61%|██████    | 29835/48845 [10:33:55<6:40:15,  1.26s/it]                                                          {'loss': 1.9316, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29835/48845 [10:33:55<6:40:15,  1.26s/it] 61%|██████    | 29836/48845 [10:33:56<6:40:24,  1.26s/it] 61%|██████    | 29837/48845 [10:33:58<6:40:27,  1.26s/it] 61%|██████    | 29838/48845 [10:33:59<6:40:13,  1.26s/it] 61%|██████    | 29839/48845 [10:34:00<6:40:12,  1.26s/it] 61%|██████    | 29840/48845 [10:34:01<6:39:47,  1.26s/it]                                                          {'loss': 1.9861, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.05}
+ 61%|██████    | 29840/48845 [10:34:01<6:39:47,  1.26s/it] 61%|██████    | 29841/48845 [10:34:03<6:39:48,  1.26s/it] 61%|██████    | 29842/48845 [10:34:04<6:39:34,  1.26s/it] 61%|██████    | 29843/48845 [10:34:05<6:40:04,  1.26s/it] 61%|██████    | 29844/48845 [10:34:06<6:40:09,  1.26s/it] 61%|██████    | 29845/48845 [10:34:08<6:39:55,  1.26s/it]                                                          {'loss': 2.0403, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29845/48845 [10:34:08<6:39:55,  1.26s/it] 61%|██████    | 29846/48845 [10:34:09<6:40:02,  1.26s/it] 61%|██████    | 29847/48845 [10:34:10<6:40:07,  1.26s/it] 61%|██████    | 29848/48845 [10:34:12<6:40:23,  1.26s/it] 61%|██████    | 29849/48845 [10:34:13<6:40:01,  1.26s/it] 61%|██████    | 29850/48845 [10:34:14<6:39:42,  1.26s/it]                                                          {'loss': 1.9553, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29850/48845 [10:34:14<6:39:42,  1.26s/it] 61%|██████    | 29851/48845 [10:34:15<6:39:18,  1.26s/it] 61%|██████    | 29852/48845 [10:34:17<6:39:04,  1.26s/it] 61%|██████    | 29853/48845 [10:34:18<6:38:55,  1.26s/it] 61%|██████    | 29854/48845 [10:34:19<6:38:52,  1.26s/it] 61%|██████    | 29855/48845 [10:34:20<6:39:01,  1.26s/it]                                                          {'loss': 2.0159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29855/48845 [10:34:20<6:39:01,  1.26s/it] 61%|██████    | 29856/48845 [10:34:22<6:39:06,  1.26s/it] 61%|██████    | 29857/48845 [10:34:23<6:38:58,  1.26s/it] 61%|██████    | 29858/48845 [10:34:24<6:38:38,  1.26s/it] 61%|██████    | 29859/48845 [10:34:25<6:38:37,  1.26s/it] 61%|██████    | 29860/48845 [10:34:27<6:38:48,  1.26s/it]                                                          {'loss': 1.878, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29860/48845 [10:34:27<6:38:48,  1.26s/it] 61%|██████    | 29861/48845 [10:34:28<6:40:02,  1.26s/it] 61%|██████    | 29862/48845 [10:34:29<6:39:51,  1.26s/it] 61%|██████    | 29863/48845 [10:34:30<6:39:30,  1.26s/it] 61%|██████    | 29864/48845 [10:34:32<6:39:07,  1.26s/it] 61%|██████    | 29865/48845 [10:34:33<6:39:04,  1.26s/it]                                                          {'loss': 2.1444, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29865/48845 [10:34:33<6:39:04,  1.26s/it] 61%|██████    | 29866/48845 [10:34:34<6:39:22,  1.26s/it] 61%|██████    | 29867/48845 [10:34:36<6:41:06,  1.27s/it] 61%|██████    | 29868/48845 [10:34:37<6:40:26,  1.27s/it] 61%|██████    | 29869/48845 [10:34:38<6:40:20,  1.27s/it] 61%|██████    | 29870/48845 [10:34:39<6:39:56,  1.26s/it]                                                          {'loss': 2.0217, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29870/48845 [10:34:39<6:39:56,  1.26s/it] 61%|██████    | 29871/48845 [10:34:41<6:43:29,  1.28s/it] 61%|██████    | 29872/48845 [10:34:42<6:41:49,  1.27s/it] 61%|██████    | 29873/48845 [10:34:43<6:40:35,  1.27s/it] 61%|██████    | 29874/48845 [10:34:44<6:39:43,  1.26s/it] 61%|██████    | 29875/48845 [10:34:46<6:52:07,  1.30s/it]                                                          {'loss': 2.0724, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29875/48845 [10:34:46<6:52:07,  1.30s/it] 61%|██████    | 29876/48845 [10:34:47<6:48:15,  1.29s/it] 61%|██████    | 29877/48845 [10:34:48<6:45:31,  1.28s/it] 61%|██████    | 29878/48845 [10:34:50<6:43:23,  1.28s/it] 61%|██████    | 29879/48845 [10:34:51<6:42:34,  1.27s/it] 61%|██████    | 29880/48845 [10:34:52<6:41:02,  1.27s/it]                                                          {'loss': 2.0142, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29880/48845 [10:34:52<6:41:02,  1.27s/it] 61%|██████    | 29881/48845 [10:34:53<6:41:07,  1.27s/it] 61%|██████    | 29882/48845 [10:34:55<6:40:19,  1.27s/it] 61%|██████    | 29883/48845 [10:34:56<6:39:41,  1.26s/it] 61%|██████    | 29884/48845 [10:34:57<6:39:30,  1.26s/it] 61%|██████    | 29885/48845 [10:34:58<6:38:51,  1.26s/it]                                                          {'loss': 1.9732, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29885/48845 [10:34:58<6:38:51,  1.26s/it] 61%|██████    | 29886/48845 [10:35:00<6:38:38,  1.26s/it] 61%|██████    | 29887/48845 [10:35:01<6:38:32,  1.26s/it] 61%|██████    | 29888/48845 [10:35:02<6:38:25,  1.26s/it] 61%|██████    | 29889/48845 [10:35:03<6:38:37,  1.26s/it] 61%|██████    | 29890/48845 [10:35:05<6:38:20,  1.26s/it]                                                          {'loss': 2.0806, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29890/48845 [10:35:05<6:38:20,  1.26s/it] 61%|██████    | 29891/48845 [10:35:06<6:38:29,  1.26s/it] 61%|██████    | 29892/48845 [10:35:07<6:38:14,  1.26s/it] 61%|██████    | 29893/48845 [10:35:08<6:38:11,  1.26s/it] 61%|██████    | 29894/48845 [10:35:10<6:38:07,  1.26s/it] 61%|██████    | 29895/48845 [10:35:11<6:38:21,  1.26s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29895/48845 [10:35:11<6:38:21,  1.26s/it] 61%|██████    | 29896/48845 [10:35:12<6:38:32,  1.26s/it] 61%|██████    | 29897/48845 [10:35:14<6:38:38,  1.26s/it] 61%|██████    | 29898/48845 [10:35:15<6:38:56,  1.26s/it] 61%|██████    | 29899/48845 [10:35:16<6:39:04,  1.26s/it] 61%|██████    | 29900/48845 [10:35:17<6:39:05,  1.26s/it]                                                          {'loss': 2.008, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29900/48845 [10:35:17<6:39:05,  1.26s/it] 61%|██████    | 29901/48845 [10:35:19<6:39:23,  1.26s/it] 61%|██████    | 29902/48845 [10:35:20<6:38:50,  1.26s/it] 61%|██████    | 29903/48845 [10:35:21<6:38:25,  1.26s/it] 61%|██████    | 29904/48845 [10:35:22<6:38:06,  1.26s/it] 61%|██████    | 29905/48845 [10:35:24<6:38:10,  1.26s/it]                                                          {'loss': 2.0143, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29905/48845 [10:35:24<6:38:10,  1.26s/it] 61%|██████    | 29906/48845 [10:35:25<6:37:58,  1.26s/it] 61%|██████    | 29907/48845 [10:35:26<6:37:48,  1.26s/it] 61%|██████    | 29908/48845 [10:35:27<6:37:21,  1.26s/it] 61%|██████    | 29909/48845 [10:35:29<6:37:42,  1.26s/it] 61%|██████    | 29910/48845 [10:35:30<6:37:53,  1.26s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29910/48845 [10:35:30<6:37:53,  1.26s/it] 61%|██████    | 29911/48845 [10:35:31<6:38:05,  1.26s/it] 61%|██████    | 29912/48845 [10:35:32<6:37:58,  1.26s/it] 61%|██████    | 29913/48845 [10:35:34<6:38:24,  1.26s/it] 61%|██████    | 29914/48845 [10:35:35<6:38:36,  1.26s/it] 61%|██████    | 29915/48845 [10:35:36<6:38:27,  1.26s/it]                                                          {'loss': 2.0376, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████    | 29915/48845 [10:35:36<6:38:27,  1.26s/it] 61%|██████    | 29916/48845 [10:35:38<6:38:29,  1.26s/it] 61%|██████    | 29917/48845 [10:35:39<6:38:20,  1.26s/it] 61%|██████▏   | 29918/48845 [10:35:40<6:38:28,  1.26s/it] 61%|██████▏   | 29919/48845 [10:35:41<6:38:12,  1.26s/it] 61%|██████▏   | 29920/48845 [10:35:43<6:38:01,  1.26s/it]                                                          {'loss': 2.0417, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████▏   | 29920/48845 [10:35:43<6:38:01,  1.26s/it] 61%|██████▏   | 29921/48845 [10:35:44<6:38:11,  1.26s/it] 61%|██████▏   | 29922/48845 [10:35:45<6:37:54,  1.26s/it] 61%|██████▏   | 29923/48845 [10:35:46<6:37:57,  1.26s/it] 61%|██████▏   | 29924/48845 [10:35:48<6:38:47,  1.26s/it] 61%|██████▏   | 29925/48845 [10:35:49<6:38:33,  1.26s/it]                                                          {'loss': 2.0448, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████▏   | 29925/48845 [10:35:49<6:38:33,  1.26s/it] 61%|██████▏   | 29926/48845 [10:35:50<6:38:06,  1.26s/it] 61%|██████▏   | 29927/48845 [10:35:51<6:37:37,  1.26s/it] 61%|██████▏   | 29928/48845 [10:35:53<6:37:24,  1.26s/it] 61%|██████▏   | 29929/48845 [10:35:54<6:37:35,  1.26s/it] 61%|██████▏   | 29930/48845 [10:35:55<6:37:25,  1.26s/it]                                                          {'loss': 2.1109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████▏   | 29930/48845 [10:35:55<6:37:25,  1.26s/it] 61%|██████▏   | 29931/48845 [10:35:56<6:37:47,  1.26s/it] 61%|██████▏   | 29932/48845 [10:35:58<6:37:58,  1.26s/it] 61%|████��█▏   | 29933/48845 [10:35:59<6:37:31,  1.26s/it] 61%|██████▏   | 29934/48845 [10:36:00<6:37:59,  1.26s/it] 61%|██████▏   | 29935/48845 [10:36:01<6:37:48,  1.26s/it]                                                          {'loss': 1.9585, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████▏   | 29935/48845 [10:36:01<6:37:48,  1.26s/it] 61%|██████▏   | 29936/48845 [10:36:03<6:38:03,  1.26s/it] 61%|██████▏   | 29937/48845 [10:36:04<6:38:08,  1.26s/it] 61%|██████▏   | 29938/48845 [10:36:05<6:37:58,  1.26s/it] 61%|██████▏   | 29939/48845 [10:36:07<6:38:06,  1.26s/it] 61%|██████▏   | 29940/48845 [10:36:08<6:37:59,  1.26s/it]                                                          {'loss': 1.9199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.06}
+ 61%|██████▏   | 29940/48845 [10:36:08<6:37:59,  1.26s/it] 61%|██████▏   | 29941/48845 [10:36:09<6:37:40,  1.26s/it] 61%|██████▏   | 29942/48845 [10:36:10<6:37:41,  1.26s/it] 61%|██████▏   | 29943/48845 [10:36:12<6:37:15,  1.26s/it] 61%|██████▏   | 29944/48845 [10:36:13<6:37:06,  1.26s/it] 61%|██████▏   | 29945/48845 [10:36:14<6:37:07,  1.26s/it]                                                          {'loss': 2.1201, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29945/48845 [10:36:14<6:37:07,  1.26s/it] 61%|██████▏   | 29946/48845 [10:36:15<6:37:36,  1.26s/it] 61%|██████▏   | 29947/48845 [10:36:17<6:37:21,  1.26s/it] 61%|██████▏   | 29948/48845 [10:36:18<6:37:29,  1.26s/it] 61%|██████▏   | 29949/48845 [10:36:19<6:37:51,  1.26s/it] 61%|██████▏   | 29950/48845 [10:36:20<6:37:46,  1.26s/it]                                                          {'loss': 2.0726, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29950/48845 [10:36:20<6:37:46,  1.26s/it] 61%|██████▏   | 29951/48845 [10:36:22<6:38:07,  1.26s/it] 61%|██████▏   | 29952/48845 [10:36:23<6:37:47,  1.26s/it] 61%|██████▏   | 29953/48845 [10:36:24<6:37:54,  1.26s/it] 61%|██████▏   | 29954/48845 [10:36:25<6:37:55,  1.26s/it] 61%|██████▏   | 29955/48845 [10:36:27<6:37:33,  1.26s/it]                                                          {'loss': 2.0036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29955/48845 [10:36:27<6:37:33,  1.26s/it] 61%|██████▏   | 29956/48845 [10:36:28<6:37:11,  1.26s/it] 61%|██████▏   | 29957/48845 [10:36:29<6:37:20,  1.26s/it] 61%|██████▏   | 29958/48845 [10:36:31<6:45:25,  1.29s/it] 61%|██████▏   | 29959/48845 [10:36:32<6:42:55,  1.28s/it] 61%|██████▏   | 29960/48845 [10:36:33<6:41:07,  1.27s/it]                                                          {'loss': 1.9629, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29960/48845 [10:36:33<6:41:07,  1.27s/it] 61%|██████▏   | 29961/48845 [10:36:34<6:40:25,  1.27s/it] 61%|██████▏   | 29962/48845 [10:36:36<6:39:34,  1.27s/it] 61%|██████▏   | 29963/48845 [10:36:37<6:38:48,  1.27s/it] 61%|██████▏   | 29964/48845 [10:36:38<6:38:55,  1.27s/it] 61%|██████▏   | 29965/48845 [10:36:39<6:38:56,  1.27s/it]                                                          {'loss': 2.1516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29965/48845 [10:36:39<6:38:56,  1.27s/it] 61%|██████▏   | 29966/48845 [10:36:41<6:38:34,  1.27s/it] 61%|██████▏   | 29967/48845 [10:36:42<6:38:05,  1.27s/it] 61%|██████▏   | 29968/48845 [10:36:43<6:37:39,  1.26s/it] 61%|██████▏   | 29969/48845 [10:36:45<6:37:25,  1.26s/it] 61%|██████▏   | 29970/48845 [10:36:46<6:37:28,  1.26s/it]                                                          {'loss': 1.9786, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29970/48845 [10:36:46<6:37:28,  1.26s/it] 61%|██████▏   | 29971/48845 [10:36:47<6:37:10,  1.26s/it] 61%|██████▏   | 29972/48845 [10:36:48<6:37:06,  1.26s/it] 61%|██████▏   | 29973/48845 [10:36:50<6:36:35,  1.26s/it] 61%|██████▏   | 29974/48845 [10:36:51<6:37:27,  1.26s/it] 61%|██████▏   | 29975/48845 [10:36:52<6:37:59,  1.27s/it]                                                          {'loss': 1.9883, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29975/48845 [10:36:52<6:37:59,  1.27s/it] 61%|██████▏   | 29976/48845 [10:36:53<6:37:28,  1.26s/it] 61%|██████▏   | 29977/48845 [10:36:55<6:36:55,  1.26s/it] 61%|██████▏   | 29978/48845 [10:36:56<6:36:50,  1.26s/it] 61%|██████▏   | 29979/48845 [10:36:57<6:36:34,  1.26s/it] 61%|██████▏   | 29980/48845 [10:36:58<6:36:42,  1.26s/it]                                                          {'loss': 2.0422, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29980/48845 [10:36:58<6:36:42,  1.26s/it] 61%|██████▏   | 29981/48845 [10:37:00<6:36:52,  1.26s/it] 61%|██████▏   | 29982/48845 [10:37:01<6:36:44,  1.26s/it] 61%|██████▏   | 29983/48845 [10:37:02<6:36:55,  1.26s/it] 61%|██████▏   | 29984/48845 [10:37:03<6:36:47,  1.26s/it] 61%|██████▏   | 29985/48845 [10:37:05<6:36:43,  1.26s/it]                                                          {'loss': 2.0205, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29985/48845 [10:37:05<6:36:43,  1.26s/it] 61%|██████▏   | 29986/48845 [10:37:06<6:36:26,  1.26s/it] 61%|██████▏   | 29987/48845 [10:37:07<6:36:18,  1.26s/it] 61%|██████▏   | 29988/48845 [10:37:08<6:36:11,  1.26s/it] 61%|██████▏   | 29989/48845 [10:37:10<6:35:59,  1.26s/it] 61%|██████▏   | 29990/48845 [10:37:11<6:36:27,  1.26s/it]                                                          {'loss': 1.958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29990/48845 [10:37:11<6:36:27,  1.26s/it] 61%|██████▏   | 29991/48845 [10:37:12<6:36:38,  1.26s/it] 61%|██████▏   | 29992/48845 [10:37:14<6:36:19,  1.26s/it] 61%|██████▏   | 29993/48845 [10:37:15<6:36:27,  1.26s/it] 61%|██████▏   | 29994/48845 [10:37:16<6:36:55,  1.26s/it] 61%|██████▏   | 29995/48845 [10:37:17<6:36:28,  1.26s/it]                                                          {'loss': 1.9445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 29995/48845 [10:37:17<6:36:28,  1.26s/it] 61%|██████▏   | 29996/48845 [10:37:19<6:36:33,  1.26s/it] 61%|██████▏   | 29997/48845 [10:37:20<6:36:19,  1.26s/it] 61%|██████▏   | 29998/48845 [10:37:21<6:36:41,  1.26s/it] 61%|██████▏   | 29999/48845 [10:37:22<6:36:24,  1.26s/it] 61%|██████▏   | 30000/48845 [10:37:24<6:36:14,  1.26s/it]                                                          {'loss': 2.0901, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30000/48845 [10:37:24<6:36:14,  1.26s/it] 61%|██████▏   | 30001/48845 [10:37:27<10:26:22,  1.99s/it] 61%|██████▏   | 30002/48845 [10:37:29<9:17:14,  1.77s/it]  61%|██████▏   | 30003/48845 [10:37:30<8:28:46,  1.62s/it] 61%|██████▏   | 30004/48845 [10:37:31<7:54:50,  1.51s/it] 61%|██████▏   | 30005/48845 [10:37:32<7:31:43,  1.44s/it]                                                          {'loss': 2.0361, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30005/48845 [10:37:32<7:31:43,  1.44s/it] 61%|██████▏   | 30006/48845 [10:37:34<7:15:03,  1.39s/it] 61%|██████▏   | 30007/48845 [10:37:35<7:03:42,  1.35s/it] 61%|██████▏   | 30008/48845 [10:37:36<6:58:01,  1.33s/it] 61%|██████▏   | 30009/48845 [10:37:37<6:51:39,  1.31s/it] 61%|██████▏   | 30010/48845 [10:37:39<6:46:27,  1.29s/it]                                                          {'loss': 2.025, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30010/48845 [10:37:39<6:46:27,  1.29s/it] 61%|██████▏   | 30011/48845 [10:37:40<6:43:32,  1.29s/it] 61%|██████▏   | 30012/48845 [10:37:41<6:41:29,  1.28s/it] 61%|██████▏   | 30013/48845 [10:37:43<6:39:51,  1.27s/it] 61%|██████▏   | 30014/48845 [10:37:44<6:38:37,  1.27s/it] 61%|██████▏   | 30015/48845 [10:37:45<6:37:30,  1.27s/it]                                                          {'loss': 2.1467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30015/48845 [10:37:45<6:37:30,  1.27s/it] 61%|██████▏   | 30016/48845 [10:37:46<6:38:10,  1.27s/it] 61%|██████▏   | 30017/48845 [10:37:48<6:37:23,  1.27s/it] 61%|██████▏   | 30018/48845 [10:37:49<6:36:52,  1.26s/it] 61%|██████▏   | 30019/48845 [10:37:50<6:36:48,  1.26s/it] 61%|██████▏   | 30020/48845 [10:37:51<6:36:41,  1.26s/it]                                                          {'loss': 1.859, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30020/48845 [10:37:51<6:36:41,  1.26s/it] 61%|██████▏   | 30021/48845 [10:37:53<6:36:30,  1.26s/it] 61%|██████▏   | 30022/48845 [10:37:54<6:36:45,  1.26s/it] 61%|██████▏   | 30023/48845 [10:37:55<6:36:29,  1.26s/it] 61%|██████▏   | 30024/48845 [10:37:56<6:36:21,  1.26s/it] 61%|██████▏   | 30025/48845 [10:37:58<6:36:43,  1.26s/it]                                                          {'loss': 2.1403, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30025/48845 [10:37:58<6:36:43,  1.26s/it] 61%|██████▏   | 30026/48845 [10:37:59<6:36:18,  1.26s/it] 61%|██████▏   | 30027/48845 [10:38:00<6:36:12,  1.26s/it] 61%|██████▏   | 30028/48845 [10:38:01<6:36:12,  1.26s/it] 61%|██████▏   | 30029/48845 [10:38:03<6:36:00,  1.26s/it] 61%|██████▏   | 30030/48845 [10:38:04<6:35:50,  1.26s/it]                                                          {'loss': 2.0107, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30030/48845 [10:38:04<6:35:50,  1.26s/it] 61%|██████▏   | 30031/48845 [10:38:05<6:35:54,  1.26s/it] 61%|██████▏   | 30032/48845 [10:38:07<6:36:03,  1.26s/it] 61%|██████▏   | 30033/48845 [10:38:08<6:35:57,  1.26s/it] 61%|██████▏   | 30034/48845 [10:38:09<6:36:29,  1.26s/it] 61%|██████▏   | 30035/48845 [10:38:10<6:36:13,  1.26s/it]                                                          {'loss': 2.049, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.07}
+ 61%|██████▏   | 30035/48845 [10:38:10<6:36:13,  1.26s/it] 61%|██████▏   | 30036/48845 [10:38:12<6:35:47,  1.26s/it] 61%|██████▏   | 30037/48845 [10:38:13<6:35:23,  1.26s/it] 61%|██████▏   | 30038/48845 [10:38:14<6:35:18,  1.26s/it] 61%|██████▏   | 30039/48845 [10:38:15<6:35:04,  1.26s/it] 62%|██████▏   | 30040/48845 [10:38:17<6:35:10,  1.26s/it]                                                          {'loss': 1.9103, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30040/48845 [10:38:17<6:35:10,  1.26s/it] 62%|██████▏   | 30041/48845 [10:38:18<6:35:19,  1.26s/it] 62%|██████▏   | 30042/48845 [10:38:19<6:35:18,  1.26s/it] 62%|██████▏   | 30043/48845 [10:38:20<6:35:19,  1.26s/it] 62%|██████▏   | 30044/48845 [10:38:22<6:35:44,  1.26s/it] 62%|██████▏   | 30045/48845 [10:38:23<6:35:40,  1.26s/it]                                                          {'loss': 1.8028, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30045/48845 [10:38:23<6:35:40,  1.26s/it] 62%|██████▏   | 30046/48845 [10:38:24<6:35:36,  1.26s/it] 62%|██████▏   | 30047/48845 [10:38:25<6:35:34,  1.26s/it] 62%|██████▏   | 30048/48845 [10:38:27<6:35:37,  1.26s/it] 62%|██████▏   | 30049/48845 [10:38:28<6:35:44,  1.26s/it] 62%|██████▏   | 30050/48845 [10:38:29<6:35:36,  1.26s/it]                                                          {'loss': 1.9803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30050/48845 [10:38:29<6:35:36,  1.26s/it] 62%|██████▏   | 30051/48845 [10:38:30<6:35:30,  1.26s/it] 62%|██████▏   | 30052/48845 [10:38:32<6:36:19,  1.27s/it] 62%|██████▏   | 30053/48845 [10:38:33<6:35:50,  1.26s/it] 62%|██████▏   | 30054/48845 [10:38:34<6:35:37,  1.26s/it] 62%|██████▏   | 30055/48845 [10:38:36<6:35:31,  1.26s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30055/48845 [10:38:36<6:35:31,  1.26s/it] 62%|██████▏   | 30056/48845 [10:38:37<6:35:13,  1.26s/it] 62%|██████▏   | 30057/48845 [10:38:38<6:35:04,  1.26s/it] 62%|██████▏   | 30058/48845 [10:38:39<6:34:51,  1.26s/it] 62%|██████▏   | 30059/48845 [10:38:41<6:34:47,  1.26s/it] 62%|██████▏   | 30060/48845 [10:38:42<6:35:01,  1.26s/it]                                                          {'loss': 2.0422, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30060/48845 [10:38:42<6:35:01,  1.26s/it] 62%|██████▏   | 30061/48845 [10:38:43<6:35:18,  1.26s/it] 62%|██████▏   | 30062/48845 [10:38:44<6:35:00,  1.26s/it] 62%|██████▏   | 30063/48845 [10:38:46<6:34:27,  1.26s/it] 62%|██████▏   | 30064/48845 [10:38:47<6:34:34,  1.26s/it] 62%|██████▏   | 30065/48845 [10:38:48<6:34:52,  1.26s/it]                                                          {'loss': 2.1106, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30065/48845 [10:38:48<6:34:52,  1.26s/it] 62%|██████▏   | 30066/48845 [10:38:49<6:35:15,  1.26s/it] 62%|█��████▏   | 30067/48845 [10:38:51<6:35:08,  1.26s/it] 62%|██████▏   | 30068/48845 [10:38:52<6:35:25,  1.26s/it] 62%|██████▏   | 30069/48845 [10:38:53<6:35:23,  1.26s/it] 62%|██████▏   | 30070/48845 [10:38:54<6:35:27,  1.26s/it]                                                          {'loss': 2.0544, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30070/48845 [10:38:54<6:35:27,  1.26s/it] 62%|██████▏   | 30071/48845 [10:38:56<6:35:50,  1.27s/it] 62%|██████▏   | 30072/48845 [10:38:57<6:35:28,  1.26s/it] 62%|██████▏   | 30073/48845 [10:38:58<6:35:01,  1.26s/it] 62%|██████▏   | 30074/48845 [10:39:00<6:34:57,  1.26s/it] 62%|██████▏   | 30075/48845 [10:39:01<6:35:18,  1.26s/it]                                                          {'loss': 2.1671, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30075/48845 [10:39:01<6:35:18,  1.26s/it] 62%|██████▏   | 30076/48845 [10:39:02<6:35:18,  1.26s/it] 62%|██████▏   | 30077/48845 [10:39:03<6:35:12,  1.26s/it] 62%|██████▏   | 30078/48845 [10:39:05<6:34:42,  1.26s/it] 62%|██████▏   | 30079/48845 [10:39:06<6:34:33,  1.26s/it] 62%|██████▏   | 30080/48845 [10:39:07<6:34:21,  1.26s/it]                                                          {'loss': 1.9203, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30080/48845 [10:39:07<6:34:21,  1.26s/it] 62%|██████▏   | 30081/48845 [10:39:08<6:34:56,  1.26s/it] 62%|██████▏   | 30082/48845 [10:39:10<6:34:36,  1.26s/it] 62%|██████▏   | 30083/48845 [10:39:11<6:34:15,  1.26s/it] 62%|██████▏   | 30084/48845 [10:39:12<6:34:16,  1.26s/it] 62%|██████▏   | 30085/48845 [10:39:13<6:34:04,  1.26s/it]                                                          {'loss': 2.1075, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30085/48845 [10:39:13<6:34:04,  1.26s/it] 62%|██████▏   | 30086/48845 [10:39:15<6:34:17,  1.26s/it] 62%|██████▏   | 30087/48845 [10:39:16<6:34:31,  1.26s/it] 62%|██████▏   | 30088/48845 [10:39:17<6:34:32,  1.26s/it] 62%|██████▏   | 30089/48845 [10:39:18<6:34:14,  1.26s/it] 62%|██████▏   | 30090/48845 [10:39:20<6:34:30,  1.26s/it]                                                          {'loss': 2.0229, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30090/48845 [10:39:20<6:34:30,  1.26s/it] 62%|██████▏   | 30091/48845 [10:39:21<6:34:21,  1.26s/it] 62%|██████▏   | 30092/48845 [10:39:22<6:34:32,  1.26s/it] 62%|██████▏   | 30093/48845 [10:39:24<6:34:44,  1.26s/it] 62%|██████▏   | 30094/48845 [10:39:25<6:34:38,  1.26s/it] 62%|██████▏   | 30095/48845 [10:39:26<6:34:39,  1.26s/it]                                                          {'loss': 2.0872, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30095/48845 [10:39:26<6:34:39,  1.26s/it] 62%|██████▏   | 30096/48845 [10:39:27<6:34:27,  1.26s/it] 62%|██████▏   | 30097/48845 [10:39:29<6:34:38,  1.26s/it] 62%|██████▏   | 30098/48845 [10:39:30<6:34:31,  1.26s/it] 62%|██████▏   | 30099/48845 [10:39:31<6:34:28,  1.26s/it] 62%|██████▏   | 30100/48845 [10:39:32<6:34:38,  1.26s/it]                                                          {'loss': 2.0412, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30100/48845 [10:39:32<6:34:38,  1.26s/it] 62%|██████▏   | 30101/48845 [10:39:34<6:34:31,  1.26s/it] 62%|██████▏   | 30102/48845 [10:39:35<6:34:52,  1.26s/it] 62%|██████▏   | 30103/48845 [10:39:36<6:35:02,  1.26s/it] 62%|██████▏   | 30104/48845 [10:39:37<6:34:45,  1.26s/it] 62%|██████▏   | 30105/48845 [10:39:39<6:34:37,  1.26s/it]                                                          {'loss': 2.0245, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30105/48845 [10:39:39<6:34:37,  1.26s/it] 62%|██████▏   | 30106/48845 [10:39:40<6:34:43,  1.26s/it] 62%|██████▏   | 30107/48845 [10:39:41<6:34:28,  1.26s/it] 62%|██████▏   | 30108/48845 [10:39:42<6:34:08,  1.26s/it] 62%|██████▏   | 30109/48845 [10:39:44<6:33:53,  1.26s/it] 62%|██████▏   | 30110/48845 [10:39:45<6:33:47,  1.26s/it]                                                          {'loss': 2.1074, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30110/48845 [10:39:45<6:33:47,  1.26s/it] 62%|██████▏   | 30111/48845 [10:39:46<6:33:39,  1.26s/it] 62%|██████▏   | 30112/48845 [10:39:47<6:33:23,  1.26s/it] 62%|██████▏   | 30113/48845 [10:39:49<6:33:22,  1.26s/it] 62%|██████▏   | 30114/48845 [10:39:50<6:33:37,  1.26s/it] 62%|██████▏   | 30115/48845 [10:39:51<6:33:52,  1.26s/it]                                                          {'loss': 2.0239, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30115/48845 [10:39:51<6:33:52,  1.26s/it] 62%|██████▏   | 30116/48845 [10:39:53<6:34:00,  1.26s/it] 62%|██████▏   | 30117/48845 [10:39:54<6:33:45,  1.26s/it] 62%|██████▏   | 30118/48845 [10:39:55<6:33:43,  1.26s/it] 62%|██████▏   | 30119/48845 [10:39:56<6:33:51,  1.26s/it] 62%|██████▏   | 30120/48845 [10:39:58<6:33:54,  1.26s/it]                                                          {'loss': 2.0869, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30120/48845 [10:39:58<6:33:54,  1.26s/it] 62%|██████▏   | 30121/48845 [10:39:59<6:33:57,  1.26s/it] 62%|██████▏   | 30122/48845 [10:40:00<6:34:44,  1.27s/it] 62%|██████▏   | 30123/48845 [10:40:01<6:35:03,  1.27s/it] 62%|██████▏   | 30124/48845 [10:40:03<6:35:04,  1.27s/it] 62%|██████▏   | 30125/48845 [10:40:04<6:34:52,  1.27s/it]                                                          {'loss': 2.1269, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30125/48845 [10:40:04<6:34:52,  1.27s/it] 62%|██████▏   | 30126/48845 [10:40:05<6:34:15,  1.26s/it] 62%|██████▏   | 30127/48845 [10:40:06<6:34:03,  1.26s/it] 62%|██████▏   | 30128/48845 [10:40:08<6:33:44,  1.26s/it] 62%|██████▏   | 30129/48845 [10:40:09<6:33:26,  1.26s/it] 62%|██████▏   | 30130/48845 [10:40:10<6:33:25,  1.26s/it]                                                          {'loss': 2.0978, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30130/48845 [10:40:10<6:33:25,  1.26s/it] 62%|██████▏   | 30131/48845 [10:40:11<6:33:35,  1.26s/it] 62%|██████▏   | 30132/48845 [10:40:13<6:33:25,  1.26s/it] 62%|██████▏   | 30133/48845 [10:40:14<6:33:18,  1.26s/it] 62%|██████▏   | 30134/48845 [10:40:15<6:33:23,  1.26s/it] 62%|██████▏   | 30135/48845 [10:40:17<6:33:34,  1.26s/it]                                                          {'loss': 1.9932, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.08}
+ 62%|██████▏   | 30135/48845 [10:40:17<6:33:34,  1.26s/it] 62%|██████▏   | 30136/48845 [10:40:18<6:33:34,  1.26s/it] 62%|██████▏   | 30137/48845 [10:40:19<6:33:24,  1.26s/it] 62%|██████▏   | 30138/48845 [10:40:20<6:33:40,  1.26s/it] 62%|██████▏   | 30139/48845 [10:40:22<6:33:13,  1.26s/it] 62%|██████▏   | 30140/48845 [10:40:23<6:33:26,  1.26s/it]                                                          {'loss': 2.1509, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30140/48845 [10:40:23<6:33:26,  1.26s/it] 62%|██████▏   | 30141/48845 [10:40:24<6:33:54,  1.26s/it] 62%|██████▏   | 30142/48845 [10:40:25<6:33:33,  1.26s/it] 62%|██████▏   | 30143/48845 [10:40:27<6:33:27,  1.26s/it] 62%|██████▏   | 30144/48845 [10:40:28<6:33:07,  1.26s/it] 62%|██████▏   | 30145/48845 [10:40:29<6:33:10,  1.26s/it]                                                          {'loss': 1.9117, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30145/48845 [10:40:29<6:33:10,  1.26s/it] 62%|██████▏   | 30146/48845 [10:40:30<6:32:51,  1.26s/it] 62%|██████▏   | 30147/48845 [10:40:32<6:32:40,  1.26s/it] 62%|██████▏   | 30148/48845 [10:40:33<6:32:37,  1.26s/it] 62%|██████▏   | 30149/48845 [10:40:34<6:32:57,  1.26s/it] 62%|██████▏   | 30150/48845 [10:40:35<6:32:51,  1.26s/it]                                                          {'loss': 2.0555, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30150/48845 [10:40:35<6:32:51,  1.26s/it] 62%|██████▏   | 30151/48845 [10:40:37<6:33:12,  1.26s/it] 62%|██████▏   | 30152/48845 [10:40:38<6:32:54,  1.26s/it] 62%|██████▏   | 30153/48845 [10:40:39<6:33:11,  1.26s/it] 62%|██████▏   | 30154/48845 [10:40:41<6:33:21,  1.26s/it] 62%|██████▏   | 30155/48845 [10:40:42<6:33:07,  1.26s/it]                                                          {'loss': 1.9414, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30155/48845 [10:40:42<6:33:07,  1.26s/it] 62%|██████▏   | 30156/48845 [10:40:43<6:32:56,  1.26s/it] 62%|██████▏   | 30157/48845 [10:40:44<6:32:41,  1.26s/it] 62%|██████▏   | 30158/48845 [10:40:46<6:33:04,  1.26s/it] 62%|██████▏   | 30159/48845 [10:40:47<6:32:53,  1.26s/it] 62%|██████▏   | 30160/48845 [10:40:48<6:32:39,  1.26s/it]                                                          {'loss': 2.1115, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30160/48845 [10:40:48<6:32:39,  1.26s/it] 62%|██████▏   | 30161/48845 [10:40:49<6:32:58,  1.26s/it] 62%|██████▏   | 30162/48845 [10:40:51<6:33:13,  1.26s/it] 62%|██████▏   | 30163/48845 [10:40:52<6:33:09,  1.26s/it] 62%|██████▏   | 30164/48845 [10:40:53<6:33:04,  1.26s/it] 62%|██████▏   | 30165/48845 [10:40:54<6:32:51,  1.26s/it]                                                          {'loss': 1.9383, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30165/48845 [10:40:54<6:32:51,  1.26s/it] 62%|██████▏   | 30166/48845 [10:40:56<6:32:59,  1.26s/it] 62%|██████▏   | 30167/48845 [10:40:57<6:48:46,  1.31s/it] 62%|██████▏   | 30168/48845 [10:40:58<6:43:47,  1.30s/it] 62%|██████▏   | 30169/48845 [10:41:00<6:40:33,  1.29s/it] 62%|██████▏   | 30170/48845 [10:41:01<6:37:59,  1.28s/it]                                                          {'loss': 1.8802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30170/48845 [10:41:01<6:37:59,  1.28s/it] 62%|██████▏   | 30171/48845 [10:41:02<6:36:21,  1.27s/it] 62%|██████▏   | 30172/48845 [10:41:03<6:34:53,  1.27s/it] 62%|██████▏   | 30173/48845 [10:41:05<6:34:34,  1.27s/it] 62%|██████▏   | 30174/48845 [10:41:06<6:33:46,  1.27s/it] 62%|██████▏   | 30175/48845 [10:41:07<6:33:40,  1.27s/it]                                                          {'loss': 2.0192, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30175/48845 [10:41:07<6:33:40,  1.27s/it] 62%|██████▏   | 30176/48845 [10:41:08<6:33:40,  1.27s/it] 62%|██████▏   | 30177/48845 [10:41:10<6:33:24,  1.26s/it] 62%|██████▏   | 30178/48845 [10:41:11<6:32:56,  1.26s/it] 62%|██████▏   | 30179/48845 [10:41:12<6:32:30,  1.26s/it] 62%|██████▏   | 30180/48845 [10:41:13<6:32:19,  1.26s/it]                                                          {'loss': 1.9547, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30180/48845 [10:41:13<6:32:19,  1.26s/it] 62%|██████▏   | 30181/48845 [10:41:15<6:32:06,  1.26s/it] 62%|██████▏   | 30182/48845 [10:41:16<6:31:56,  1.26s/it] 62%|██████▏   | 30183/48845 [10:41:17<6:32:07,  1.26s/it] 62%|██████▏   | 30184/48845 [10:41:19<6:31:54,  1.26s/it] 62%|██████▏   | 30185/48845 [10:41:20<6:32:05,  1.26s/it]                                                          {'loss': 2.1503, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30185/48845 [10:41:20<6:32:05,  1.26s/it] 62%|██████▏   | 30186/48845 [10:41:21<6:32:18,  1.26s/it] 62%|██████▏   | 30187/48845 [10:41:22<6:32:18,  1.26s/it] 62%|██████▏   | 30188/48845 [10:41:24<6:32:09,  1.26s/it] 62%|██████▏   | 30189/48845 [10:41:25<6:32:04,  1.26s/it] 62%|██████▏   | 30190/48845 [10:41:26<6:32:38,  1.26s/it]                                                          {'loss': 1.8723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30190/48845 [10:41:26<6:32:38,  1.26s/it] 62%|██████▏   | 30191/48845 [10:41:27<6:32:29,  1.26s/it] 62%|██████▏   | 30192/48845 [10:41:29<6:32:47,  1.26s/it] 62%|██████▏   | 30193/48845 [10:41:30<6:32:21,  1.26s/it] 62%|██████▏   | 30194/48845 [10:41:31<6:31:58,  1.26s/it] 62%|██████▏   | 30195/48845 [10:41:32<6:32:01,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30195/48845 [10:41:32<6:32:01,  1.26s/it] 62%|██████▏   | 30196/48845 [10:41:34<6:32:05,  1.26s/it] 62%|██████▏   | 30197/48845 [10:41:35<6:31:51,  1.26s/it] 62%|██████▏   | 30198/48845 [10:41:36<6:32:25,  1.26s/it] 62%|██████▏   | 30199/48845 [10:41:37<6:32:08,  1.26s/it] 62%|██████▏   | 30200/48845 [10:41:39<6:32:18,  1.26s/it]                                                          {'loss': 2.154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30200/48845 [10:41:39<6:32:18,  1.26s/it] 62%|██████▏   | 30201/48845 [10:41:42<10:23:48,  2.01s/it] 62%|██████▏   | 30202/48845 [10:41:44<9:14:25,  1.78s/it]  62%|██████▏   | 30203/48845 [10:41:45<8:25:51,  1.63s/it] 62%|██████▏   | 30204/48845 [10:41:46<7:51:33,  1.52s/it] 62%|██████▏   | 30205/48845 [10:41:48<7:27:39,  1.44s/it]                                                          {'loss': 1.9807, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30205/48845 [10:41:48<7:27:39,  1.44s/it] 62%|██████▏   | 30206/48845 [10:41:49<7:11:01,  1.39s/it] 62%|██████▏   | 30207/48845 [10:41:50<6:59:19,  1.35s/it] 62%|██████▏   | 30208/48845 [10:41:51<6:51:10,  1.32s/it] 62%|██████▏   | 30209/48845 [10:41:53<6:45:16,  1.30s/it] 62%|██████▏   | 30210/48845 [10:41:54<6:41:05,  1.29s/it]                                                          {'loss': 1.9943, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30210/48845 [10:41:54<6:41:05,  1.29s/it] 62%|██████▏   | 30211/48845 [10:41:55<6:38:07,  1.28s/it] 62%|██████▏   | 30212/48845 [10:41:56<6:36:34,  1.28s/it] 62%|██████▏   | 30213/48845 [10:41:58<6:35:19,  1.27s/it] 62%|██████▏   | 30214/48845 [10:41:59<6:34:02,  1.27s/it] 62%|██████▏   | 30215/48845 [10:42:00<6:33:09,  1.27s/it]                                                          {'loss': 1.9792, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30215/48845 [10:42:00<6:33:09,  1.27s/it] 62%|██████▏   | 30216/48845 [10:42:01<6:33:07,  1.27s/it] 62%|██████▏   | 30217/48845 [10:42:03<6:32:20,  1.26s/it] 62%|██████▏   | 30218/48845 [10:42:04<6:32:13,  1.26s/it] 62%|██████▏   | 30219/48845 [10:42:05<6:32:00,  1.26s/it] 62%|██████▏   | 30220/48845 [10:42:06<6:31:37,  1.26s/it]                                                          {'loss': 2.1845, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30220/48845 [10:42:06<6:31:37,  1.26s/it] 62%|██████▏   | 30221/48845 [10:42:08<6:31:26,  1.26s/it] 62%|██████▏   | 30222/48845 [10:42:09<6:31:20,  1.26s/it] 62%|██████▏   | 30223/48845 [10:42:10<6:31:38,  1.26s/it] 62%|██████▏   | 30224/48845 [10:42:11<6:31:39,  1.26s/it] 62%|██████▏   | 30225/48845 [10:42:13<6:31:27,  1.26s/it]                                                          {'loss': 1.8441, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30225/48845 [10:42:13<6:31:27,  1.26s/it] 62%|██████▏   | 30226/48845 [10:42:14<6:31:23,  1.26s/it] 62%|██████▏   | 30227/48845 [10:42:15<6:31:20,  1.26s/it] 62%|██████▏   | 30228/48845 [10:42:17<6:30:59,  1.26s/it] 62%|██████▏   | 30229/48845 [10:42:18<6:31:13,  1.26s/it] 62%|██████▏   | 30230/48845 [10:42:19<6:31:07,  1.26s/it]                                                          {'loss': 1.9827, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30230/48845 [10:42:19<6:31:07,  1.26s/it] 62%|██████▏   | 30231/48845 [10:42:20<6:31:35,  1.26s/it] 62%|██████▏   | 30232/48845 [10:42:22<6:31:28,  1.26s/it] 62%|██████▏   | 30233/48845 [10:42:23<6:31:59,  1.26s/it] 62%|██████▏   | 30234/48845 [10:42:24<6:31:38,  1.26s/it] 62%|██████▏   | 30235/48845 [10:42:25<6:31:24,  1.26s/it]                                                          {'loss': 1.9982, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.09}
+ 62%|██████▏   | 30235/48845 [10:42:25<6:31:24,  1.26s/it] 62%|██████▏   | 30236/48845 [10:42:27<6:31:29,  1.26s/it] 62%|██████▏   | 30237/48845 [10:42:28<6:31:34,  1.26s/it] 62%|██████▏   | 30238/48845 [10:42:29<6:31:26,  1.26s/it] 62%|██████▏   | 30239/48845 [10:42:30<6:31:21,  1.26s/it] 62%|██████▏   | 30240/48845 [10:42:32<6:31:09,  1.26s/it]                                                          {'loss': 1.8944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30240/48845 [10:42:32<6:31:09,  1.26s/it] 62%|██████▏   | 30241/48845 [10:42:33<6:46:09,  1.31s/it] 62%|██████▏   | 30242/48845 [10:42:34<6:42:04,  1.30s/it] 62%|██████▏   | 30243/48845 [10:42:36<6:39:10,  1.29s/it] 62%|██████▏   | 30244/48845 [10:42:37<6:36:16,  1.28s/it] 62%|██████▏   | 30245/48845 [10:42:38<6:34:41,  1.27s/it]                                                          {'loss': 2.233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30245/48845 [10:42:38<6:34:41,  1.27s/it] 62%|██████▏   | 30246/48845 [10:42:39<6:34:43,  1.27s/it] 62%|██████▏   | 30247/48845 [10:42:41<6:33:41,  1.27s/it] 62%|██████▏   | 30248/48845 [10:42:42<6:32:59,  1.27s/it] 62%|██████▏   | 30249/48845 [10:42:43<6:32:26,  1.27s/it] 62%|██████▏   | 30250/48845 [10:42:44<6:31:54,  1.26s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30250/48845 [10:42:44<6:31:54,  1.26s/it] 62%|██████▏   | 30251/48845 [10:42:46<6:31:28,  1.26s/it] 62%|██████▏   | 30252/48845 [10:42:47<6:31:43,  1.26s/it] 62%|██████▏   | 30253/48845 [10:42:48<6:31:36,  1.26s/it] 62%|██████▏   | 30254/48845 [10:42:50<6:31:32,  1.26s/it] 62%|██████▏   | 30255/48845 [10:42:51<6:31:18,  1.26s/it]                                                          {'loss': 2.039, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30255/48845 [10:42:51<6:31:18,  1.26s/it] 62%|██████▏   | 30256/48845 [10:42:52<6:31:13,  1.26s/it] 62%|██████▏   | 30257/48845 [10:42:53<6:30:50,  1.26s/it] 62%|██████▏   | 30258/48845 [10:42:55<6:30:40,  1.26s/it] 62%|██████▏   | 30259/48845 [10:42:56<6:30:53,  1.26s/it] 62%|██████▏   | 30260/48845 [10:42:57<6:31:15,  1.26s/it]                                                          {'loss': 1.9449, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30260/48845 [10:42:57<6:31:15,  1.26s/it] 62%|██████▏   | 30261/48845 [10:42:58<6:31:15,  1.26s/it] 62%|██████▏   | 30262/48845 [10:43:00<6:31:10,  1.26s/it] 62%|██████▏   | 30263/48845 [10:43:01<6:31:30,  1.26s/it] 62%|██████▏   | 30264/48845 [10:43:02<6:31:05,  1.26s/it] 62%|██████▏   | 30265/48845 [10:43:03<6:31:16,  1.26s/it]                                                          {'loss': 2.1439, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30265/48845 [10:43:03<6:31:16,  1.26s/it] 62%|██████▏   | 30266/48845 [10:43:05<6:31:14,  1.26s/it] 62%|██████▏   | 30267/48845 [10:43:06<6:30:37,  1.26s/it] 62%|██████▏   | 30268/48845 [10:43:07<6:30:27,  1.26s/it] 62%|██████▏   | 30269/48845 [10:43:08<6:30:11,  1.26s/it] 62%|██████▏   | 30270/48845 [10:43:10<6:30:09,  1.26s/it]                                                          {'loss': 2.1214, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30270/48845 [10:43:10<6:30:09,  1.26s/it] 62%|██████▏   | 30271/48845 [10:43:11<6:31:42,  1.27s/it] 62%|██████▏   | 30272/48845 [10:43:12<6:31:02,  1.26s/it] 62%|██████▏   | 30273/48845 [10:43:14<6:30:53,  1.26s/it] 62%|██████▏   | 30274/48845 [10:43:15<6:30:41,  1.26s/it] 62%|██████▏   | 30275/48845 [10:43:16<6:30:19,  1.26s/it]                                                          {'loss': 2.0293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30275/48845 [10:43:16<6:30:19,  1.26s/it] 62%|██████▏   | 30276/48845 [10:43:17<6:30:08,  1.26s/it] 62%|██████▏   | 30277/48845 [10:43:19<6:30:14,  1.26s/it] 62%|██████▏   | 30278/48845 [10:43:20<6:30:09,  1.26s/it] 62%|██████▏   | 30279/48845 [10:43:21<6:30:24,  1.26s/it] 62%|██████▏   | 30280/48845 [10:43:22<6:30:16,  1.26s/it]                                                          {'loss': 1.9277, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30280/48845 [10:43:22<6:30:16,  1.26s/it] 62%|██████▏   | 30281/48845 [10:43:24<6:30:08,  1.26s/it] 62%|██████▏   | 30282/48845 [10:43:25<6:30:18,  1.26s/it] 62%|██████▏   | 30283/48845 [10:43:26<6:29:55,  1.26s/it] 62%|██████▏   | 30284/48845 [10:43:27<6:30:21,  1.26s/it] 62%|██████▏   | 30285/48845 [10:43:29<6:30:08,  1.26s/it]                                                          {'loss': 2.1029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30285/48845 [10:43:29<6:30:08,  1.26s/it] 62%|██████▏   | 30286/48845 [10:43:30<6:30:27,  1.26s/it] 62%|██████▏   | 30287/48845 [10:43:31<6:30:08,  1.26s/it] 62%|██████▏   | 30288/48845 [10:43:32<6:29:51,  1.26s/it] 62%|██████▏   | 30289/48845 [10:43:34<6:29:47,  1.26s/it] 62%|██████▏   | 30290/48845 [10:43:35<6:29:51,  1.26s/it]                                                          {'loss': 2.0571, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30290/48845 [10:43:35<6:29:51,  1.26s/it] 62%|██████▏   | 30291/48845 [10:43:36<6:29:35,  1.26s/it] 62%|██████▏   | 30292/48845 [10:43:37<6:29:40,  1.26s/it] 62%|██████▏   | 30293/48845 [10:43:39<6:29:39,  1.26s/it] 62%|██████▏   | 30294/48845 [10:43:40<6:30:09,  1.26s/it] 62%|██████▏   | 30295/48845 [10:43:41<6:29:36,  1.26s/it]                                                          {'loss': 2.0427, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30295/48845 [10:43:41<6:29:36,  1.26s/it] 62%|██████▏   | 30296/48845 [10:43:43<6:29:46,  1.26s/it] 62%|██████▏   | 30297/48845 [10:43:44<6:29:47,  1.26s/it] 62%|██████▏   | 30298/48845 [10:43:45<6:29:24,  1.26s/it] 62%|██████▏   | 30299/48845 [10:43:46<6:29:36,  1.26s/it] 62%|██████▏   | 30300/48845 [10:43:48<6:29:51,  1.26s/it]                                                          {'loss': 2.0256, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30300/48845 [10:43:48<6:29:51,  1.26s/it] 62%|██████▏   | 30301/48845 [10:43:49<6:30:26,  1.26s/it] 62%|██████▏   | 30302/48845 [10:43:50<6:30:13,  1.26s/it] 62%|██████▏   | 30303/48845 [10:43:51<6:30:17,  1.26s/it] 62%|██████▏   | 30304/48845 [10:43:53<6:29:53,  1.26s/it] 62%|██████▏   | 30305/48845 [10:43:54<6:29:40,  1.26s/it]                                                          {'loss': 2.0427, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30305/48845 [10:43:54<6:29:40,  1.26s/it] 62%|██████▏   | 30306/48845 [10:43:55<6:30:04,  1.26s/it] 62%|██████▏   | 30307/48845 [10:43:56<6:30:10,  1.26s/it] 62%|██████▏   | 30308/48845 [10:43:58<6:30:19,  1.26s/it] 62%|██████▏   | 30309/48845 [10:43:59<6:30:10,  1.26s/it] 62%|██████▏   | 30310/48845 [10:44:00<6:29:54,  1.26s/it]                                                          {'loss': 1.9183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30310/48845 [10:44:00<6:29:54,  1.26s/it] 62%|██████▏   | 30311/48845 [10:44:01<6:29:50,  1.26s/it] 62%|██████▏   | 30312/48845 [10:44:03<6:29:52,  1.26s/it] 62%|██████▏   | 30313/48845 [10:44:04<6:29:57,  1.26s/it] 62%|██████▏   | 30314/48845 [10:44:05<6:29:22,  1.26s/it] 62%|██████▏   | 30315/48845 [10:44:06<6:29:19,  1.26s/it]                                                          {'loss': 1.9993, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30315/48845 [10:44:06<6:29:19,  1.26s/it] 62%|██████▏   | 30316/48845 [10:44:08<6:29:15,  1.26s/it] 62%|██████▏   | 30317/48845 [10:44:09<6:29:25,  1.26s/it] 62%|██████▏   | 30318/48845 [10:44:10<6:29:46,  1.26s/it] 62%|██████▏   | 30319/48845 [10:44:12<6:29:26,  1.26s/it] 62%|██████▏   | 30320/48845 [10:44:13<6:34:06,  1.28s/it]                                                          {'loss': 2.1326, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30320/48845 [10:44:13<6:34:06,  1.28s/it] 62%|██████▏   | 30321/48845 [10:44:14<6:32:51,  1.27s/it] 62%|██████▏   | 30322/48845 [10:44:15<6:31:46,  1.27s/it] 62%|██████▏   | 30323/48845 [10:44:17<6:31:17,  1.27s/it] 62%|██████▏   | 30324/48845 [10:44:18<6:30:38,  1.27s/it] 62%|██████▏   | 30325/48845 [10:44:19<6:30:27,  1.27s/it]                                                          {'loss': 1.9684, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30325/48845 [10:44:19<6:30:27,  1.27s/it] 62%|██████▏   | 30326/48845 [10:44:20<6:29:58,  1.26s/it] 62%|██████▏   | 30327/48845 [10:44:22<6:29:59,  1.26s/it] 62%|██████▏   | 30328/48845 [10:44:23<6:29:48,  1.26s/it] 62%|██████▏   | 30329/48845 [10:44:24<6:29:31,  1.26s/it] 62%|██████▏   | 30330/48845 [10:44:25<6:29:38,  1.26s/it]                                                          {'loss': 2.0147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.1}
+ 62%|██████▏   | 30330/48845 [10:44:25<6:29:38,  1.26s/it] 62%|██████▏   | 30331/48845 [10:44:27<6:29:41,  1.26s/it] 62%|██████▏   | 30332/48845 [10:44:28<6:29:37,  1.26s/it] 62%|██████▏   | 30333/48845 [10:44:29<6:29:35,  1.26s/it] 62%|██████▏   | 30334/48845 [10:44:31<6:29:16,  1.26s/it] 62%|██████▏   | 30335/48845 [10:44:32<6:29:00,  1.26s/it]                                                          {'loss': 2.1036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30335/48845 [10:44:32<6:29:00,  1.26s/it] 62%|██████▏   | 30336/48845 [10:44:33<6:28:42,  1.26s/it] 62%|██████▏   | 30337/48845 [10:44:34<6:28:52,  1.26s/it] 62%|██████▏   | 30338/48845 [10:44:36<6:28:52,  1.26s/it] 62%|██████▏   | 30339/48845 [10:44:37<6:29:09,  1.26s/it] 62%|██████▏   | 30340/48845 [10:44:38<6:29:01,  1.26s/it]                                                          {'loss': 2.1051, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30340/48845 [10:44:38<6:29:01,  1.26s/it] 62%|██████▏   | 30341/48845 [10:44:39<6:29:15,  1.26s/it] 62%|██████▏   | 30342/48845 [10:44:41<6:28:54,  1.26s/it] 62%|██████▏   | 30343/48845 [10:44:42<6:28:59,  1.26s/it] 62%|██████▏   | 30344/48845 [10:44:43<6:28:57,  1.26s/it] 62%|██████▏   | 30345/48845 [10:44:44<6:28:47,  1.26s/it]                                                          {'loss': 2.0339, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30345/48845 [10:44:44<6:28:47,  1.26s/it] 62%|██████▏   | 30346/48845 [10:44:46<6:29:04,  1.26s/it] 62%|██████▏   | 30347/48845 [10:44:47<6:28:34,  1.26s/it] 62%|██████▏   | 30348/48845 [10:44:48<6:28:27,  1.26s/it] 62%|██████▏   | 30349/48845 [10:44:49<6:28:24,  1.26s/it] 62%|██████▏   | 30350/48845 [10:44:51<6:28:12,  1.26s/it]                                                          {'loss': 2.0442, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30350/48845 [10:44:51<6:28:12,  1.26s/it] 62%|██████▏   | 30351/48845 [10:44:52<6:28:19,  1.26s/it] 62%|██████▏   | 30352/48845 [10:44:53<6:28:01,  1.26s/it] 62%|██████▏   | 30353/48845 [10:44:54<6:29:13,  1.26s/it] 62%|██████▏   | 30354/48845 [10:44:56<6:29:51,  1.26s/it] 62%|██████▏   | 30355/48845 [10:44:57<6:29:07,  1.26s/it]                                                          {'loss': 2.079, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30355/48845 [10:44:57<6:29:07,  1.26s/it] 62%|██████▏   | 30356/48845 [10:44:58<6:29:07,  1.26s/it] 62%|██████▏   | 30357/48845 [10:45:00<6:28:44,  1.26s/it] 62%|██████▏   | 30358/48845 [10:45:01<6:28:23,  1.26s/it] 62%|██████▏   | 30359/48845 [10:45:02<6:28:19,  1.26s/it] 62%|██████▏   | 30360/48845 [10:45:03<6:28:18,  1.26s/it]                                                          {'loss': 1.9944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30360/48845 [10:45:03<6:28:18,  1.26s/it] 62%|██████▏   | 30361/48845 [10:45:05<6:28:39,  1.26s/it] 62%|██████▏   | 30362/48845 [10:45:06<6:28:33,  1.26s/it] 62%|██████▏   | 30363/48845 [10:45:07<6:28:29,  1.26s/it] 62%|██████▏   | 30364/48845 [10:45:08<6:28:11,  1.26s/it] 62%|██████▏   | 30365/48845 [10:45:10<6:28:11,  1.26s/it]                                                          {'loss': 1.9875, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30365/48845 [10:45:10<6:28:11,  1.26s/it] 62%|██████▏   | 30366/48845 [10:45:11<6:28:18,  1.26s/it] 62%|██████▏   | 30367/48845 [10:45:12<6:28:19,  1.26s/it] 62%|██████▏   | 30368/48845 [10:45:13<6:27:58,  1.26s/it] 62%|██████▏   | 30369/48845 [10:45:15<6:28:27,  1.26s/it] 62%|██████▏   | 30370/48845 [10:45:16<6:28:11,  1.26s/it]                                                          {'loss': 2.1365, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30370/48845 [10:45:16<6:28:11,  1.26s/it] 62%|██████▏   | 30371/48845 [10:45:17<6:28:20,  1.26s/it] 62%|██████▏   | 30372/48845 [10:45:18<6:28:26,  1.26s/it] 62%|██████▏   | 30373/48845 [10:45:20<6:28:37,  1.26s/it] 62%|██████▏   | 30374/48845 [10:45:21<6:28:18,  1.26s/it] 62%|██████▏   | 30375/48845 [10:45:22<6:27:55,  1.26s/it]                                                          {'loss': 2.0248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30375/48845 [10:45:22<6:27:55,  1.26s/it] 62%|██████▏   | 30376/48845 [10:45:23<6:27:59,  1.26s/it] 62%|██████▏   | 30377/48845 [10:45:25<6:28:19,  1.26s/it] 62%|██████▏   | 30378/48845 [10:45:26<6:28:32,  1.26s/it] 62%|██████▏   | 30379/48845 [10:45:27<6:28:28,  1.26s/it] 62%|██████▏   | 30380/48845 [10:45:29<6:28:31,  1.26s/it]                                                          {'loss': 2.1037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30380/48845 [10:45:29<6:28:31,  1.26s/it] 62%|██████▏   | 30381/48845 [10:45:30<6:44:50,  1.32s/it] 62%|██████▏   | 30382/48845 [10:45:31<6:40:19,  1.30s/it] 62%|██████▏   | 30383/48845 [10:45:32<6:36:12,  1.29s/it] 62%|██████▏   | 30384/48845 [10:45:34<6:34:04,  1.28s/it] 62%|██████▏   | 30385/48845 [10:45:35<6:32:48,  1.28s/it]                                                          {'loss': 2.0452, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30385/48845 [10:45:35<6:32:48,  1.28s/it] 62%|██████▏   | 30386/48845 [10:45:36<6:31:20,  1.27s/it] 62%|██████▏   | 30387/48845 [10:45:38<6:30:21,  1.27s/it] 62%|██████▏   | 30388/48845 [10:45:39<6:34:52,  1.28s/it] 62%|██████▏   | 30389/48845 [10:45:40<6:32:59,  1.28s/it] 62%|██████▏   | 30390/48845 [10:45:41<6:31:22,  1.27s/it]                                                          {'loss': 2.064, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30390/48845 [10:45:41<6:31:22,  1.27s/it] 62%|██████▏   | 30391/48845 [10:45:43<6:30:04,  1.27s/it] 62%|██████▏   | 30392/48845 [10:45:44<6:29:14,  1.27s/it] 62%|██████▏   | 30393/48845 [10:45:45<6:28:51,  1.26s/it] 62%|██████▏   | 30394/48845 [10:45:46<6:28:46,  1.26s/it] 62%|██████▏   | 30395/48845 [10:45:48<6:28:31,  1.26s/it]                                                          {'loss': 2.0039, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30395/48845 [10:45:48<6:28:31,  1.26s/it] 62%|██████▏   | 30396/48845 [10:45:49<6:28:25,  1.26s/it] 62%|██████▏   | 30397/48845 [10:45:50<6:28:11,  1.26s/it] 62%|██████▏   | 30398/48845 [10:45:51<6:27:58,  1.26s/it] 62%|██████▏   | 30399/48845 [10:45:53<6:28:00,  1.26s/it] 62%|██████▏   | 30400/48845 [10:45:54<6:27:42,  1.26s/it]                                                          {'loss': 2.0473, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30400/48845 [10:45:54<6:27:42,  1.26s/it] 62%|██████▏   | 30401/48845 [10:45:58<10:13:34,  2.00s/it] 62%|██████▏   | 30402/48845 [10:45:59<9:05:43,  1.78s/it]  62%|██████▏   | 30403/48845 [10:46:00<8:18:06,  1.62s/it] 62%|██████▏   | 30404/48845 [10:46:01<7:44:50,  1.51s/it] 62%|██████▏   | 30405/48845 [10:46:03<7:21:46,  1.44s/it]                                                          {'loss': 2.0618, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30405/48845 [10:46:03<7:21:46,  1.44s/it] 62%|██████▏   | 30406/48845 [10:46:04<7:05:23,  1.38s/it] 62%|██████▏   | 30407/48845 [10:46:05<6:54:07,  1.35s/it] 62%|██████▏   | 30408/48845 [10:46:07<6:46:08,  1.32s/it] 62%|██████▏   | 30409/48845 [10:46:08<6:40:26,  1.30s/it] 62%|██████▏   | 30410/48845 [10:46:09<6:36:34,  1.29s/it]                                                          {'loss': 1.9182, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30410/48845 [10:46:09<6:36:34,  1.29s/it] 62%|██████▏   | 30411/48845 [10:46:10<6:34:15,  1.28s/it] 62%|██████▏   | 30412/48845 [10:46:12<6:32:04,  1.28s/it] 62%|██████▏   | 30413/48845 [10:46:13<6:30:37,  1.27s/it] 62%|██████▏   | 30414/48845 [10:46:14<6:29:14,  1.27s/it] 62%|██████▏   | 30415/48845 [10:46:15<6:28:55,  1.27s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30415/48845 [10:46:15<6:28:55,  1.27s/it] 62%|██████▏   | 30416/48845 [10:46:17<6:28:21,  1.26s/it] 62%|██████▏   | 30417/48845 [10:46:18<6:28:00,  1.26s/it] 62%|██████▏   | 30418/48845 [10:46:19<6:27:41,  1.26s/it] 62%|██████▏   | 30419/48845 [10:46:20<6:27:55,  1.26s/it] 62%|██████▏   | 30420/48845 [10:46:22<6:27:40,  1.26s/it]                                                          {'loss': 1.969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30420/48845 [10:46:22<6:27:40,  1.26s/it] 62%|██████▏   | 30421/48845 [10:46:23<6:27:26,  1.26s/it] 62%|██████▏   | 30422/48845 [10:46:24<6:27:16,  1.26s/it] 62%|██████▏   | 30423/48845 [10:46:25<6:27:31,  1.26s/it] 62%|██████▏   | 30424/48845 [10:46:27<6:27:06,  1.26s/it] 62%|██████▏   | 30425/48845 [10:46:28<6:26:54,  1.26s/it]                                                          {'loss': 1.9555, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30425/48845 [10:46:28<6:26:54,  1.26s/it] 62%|██████▏   | 30426/48845 [10:46:29<6:26:48,  1.26s/it] 62%|██████▏   | 30427/48845 [10:46:30<6:26:42,  1.26s/it] 62%|██████▏   | 30428/48845 [10:46:32<6:26:32,  1.26s/it] 62%|██████▏   | 30429/48845 [10:46:33<6:26:26,  1.26s/it] 62%|██████▏   | 30430/48845 [10:46:34<6:26:31,  1.26s/it]                                                          {'loss': 2.0639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.11}
+ 62%|██████▏   | 30430/48845 [10:46:34<6:26:31,  1.26s/it] 62%|██████▏   | 30431/48845 [10:46:36<6:27:03,  1.26s/it] 62%|██████▏   | 30432/48845 [10:46:37<6:26:48,  1.26s/it] 62%|██████▏   | 30433/48845 [10:46:38<6:26:43,  1.26s/it] 62%|██████▏   | 30434/48845 [10:46:39<6:26:44,  1.26s/it] 62%|██████▏   | 30435/48845 [10:46:41<6:26:48,  1.26s/it]                                                          {'loss': 1.9406, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30435/48845 [10:46:41<6:26:48,  1.26s/it] 62%|██████▏   | 30436/48845 [10:46:42<6:27:13,  1.26s/it] 62%|██████▏   | 30437/48845 [10:46:43<6:27:01,  1.26s/it] 62%|██████▏   | 30438/48845 [10:46:44<6:27:47,  1.26s/it] 62%|██████▏   | 30439/48845 [10:46:46<6:36:06,  1.29s/it] 62%|██████▏   | 30440/48845 [10:46:47<6:33:04,  1.28s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30440/48845 [10:46:47<6:33:04,  1.28s/it] 62%|██████▏   | 30441/48845 [10:46:48<6:31:09,  1.28s/it] 62%|██████▏   | 30442/48845 [10:46:50<6:30:08,  1.27s/it] 62%|██████▏   | 30443/48845 [10:46:51<6:29:09,  1.27s/it] 62%|██████▏   | 30444/48845 [10:46:52<6:29:15,  1.27s/it] 62%|██████▏   | 30445/48845 [10:46:53<6:28:36,  1.27s/it]                                                          {'loss': 1.9653, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30445/48845 [10:46:53<6:28:36,  1.27s/it] 62%|██████▏   | 30446/48845 [10:46:55<6:27:48,  1.26s/it] 62%|██████▏   | 30447/48845 [10:46:56<6:27:29,  1.26s/it] 62%|██████▏   | 30448/48845 [10:46:57<6:26:53,  1.26s/it] 62%|██████▏   | 30449/48845 [10:46:58<6:26:55,  1.26s/it] 62%|██████▏   | 30450/48845 [10:47:00<6:27:15,  1.26s/it]                                                          {'loss': 2.1022, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30450/48845 [10:47:00<6:27:15,  1.26s/it] 62%|██████▏   | 30451/48845 [10:47:01<6:26:51,  1.26s/it] 62%|██████▏   | 30452/48845 [10:47:02<6:26:53,  1.26s/it] 62%|██████▏   | 30453/48845 [10:47:03<6:26:58,  1.26s/it] 62%|██████▏   | 30454/48845 [10:47:05<6:26:37,  1.26s/it] 62%|██████▏   | 30455/48845 [10:47:06<6:26:55,  1.26s/it]                                                          {'loss': 1.9808, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30455/48845 [10:47:06<6:26:55,  1.26s/it] 62%|██████▏   | 30456/48845 [10:47:07<6:27:03,  1.26s/it] 62%|██████▏   | 30457/48845 [10:47:08<6:26:21,  1.26s/it] 62%|██████▏   | 30458/48845 [10:47:10<6:26:21,  1.26s/it] 62%|██████▏   | 30459/48845 [10:47:11<6:26:17,  1.26s/it] 62%|██████▏   | 30460/48845 [10:47:12<6:26:15,  1.26s/it]                                                          {'loss': 2.1144, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30460/48845 [10:47:12<6:26:15,  1.26s/it] 62%|██████▏   | 30461/48845 [10:47:13<6:27:21,  1.26s/it] 62%|██████▏   | 30462/48845 [10:47:15<6:27:22,  1.26s/it] 62%|██████▏   | 30463/48845 [10:47:16<6:27:32,  1.26s/it] 62%|██████▏   | 30464/48845 [10:47:17<6:27:24,  1.26s/it] 62%|██████▏   | 30465/48845 [10:47:19<6:26:43,  1.26s/it]                                                          {'loss': 2.0362, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30465/48845 [10:47:19<6:26:43,  1.26s/it] 62%|██████▏   | 30466/48845 [10:47:20<6:26:39,  1.26s/it] 62%|██████▏   | 30467/48845 [10:47:21<6:25:48,  1.26s/it] 62%|██████▏   | 30468/48845 [10:47:22<6:25:39,  1.26s/it] 62%|██████▏   | 30469/48845 [10:47:24<6:25:24,  1.26s/it] 62%|██████▏   | 30470/48845 [10:47:25<6:25:28,  1.26s/it]                                                          {'loss': 2.0724, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30470/48845 [10:47:25<6:25:28,  1.26s/it] 62%|██████▏   | 30471/48845 [10:47:26<6:25:33,  1.26s/it] 62%|██████▏   | 30472/48845 [10:47:27<6:25:34,  1.26s/it] 62%|██████▏   | 30473/48845 [10:47:29<6:25:39,  1.26s/it] 62%|██████▏   | 30474/48845 [10:47:30<6:34:47,  1.29s/it] 62%|██████▏   | 30475/48845 [10:47:31<6:32:02,  1.28s/it]                                                          {'loss': 2.2331, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30475/48845 [10:47:31<6:32:02,  1.28s/it] 62%|██████▏   | 30476/48845 [10:47:32<6:30:09,  1.27s/it] 62%|██████▏   | 30477/48845 [10:47:34<6:29:21,  1.27s/it] 62%|██████▏   | 30478/48845 [10:47:35<6:28:20,  1.27s/it] 62%|██████▏   | 30479/48845 [10:47:36<6:27:23,  1.27s/it] 62%|██████▏   | 30480/48845 [10:47:38<6:26:53,  1.26s/it]                                                          {'loss': 1.8459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30480/48845 [10:47:38<6:26:53,  1.26s/it] 62%|██████▏   | 30481/48845 [10:47:39<6:26:36,  1.26s/it] 62%|██████▏   | 30482/48845 [10:47:40<6:26:08,  1.26s/it] 62%|██████▏   | 30483/48845 [10:47:41<6:25:48,  1.26s/it] 62%|██████▏   | 30484/48845 [10:47:43<6:26:13,  1.26s/it] 62%|██████▏   | 30485/48845 [10:47:44<6:25:40,  1.26s/it]                                                          {'loss': 1.9228, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30485/48845 [10:47:44<6:25:40,  1.26s/it] 62%|██████▏   | 30486/48845 [10:47:45<6:25:36,  1.26s/it] 62%|██████▏   | 30487/48845 [10:47:46<6:25:39,  1.26s/it] 62%|██████▏   | 30488/48845 [10:47:48<6:30:01,  1.27s/it] 62%|██████▏   | 30489/48845 [10:47:49<6:28:35,  1.27s/it] 62%|██████▏   | 30490/48845 [10:47:50<6:27:46,  1.27s/it]                                                          {'loss': 2.0161, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30490/48845 [10:47:50<6:27:46,  1.27s/it] 62%|██████▏   | 30491/48845 [10:47:51<6:26:55,  1.26s/it] 62%|██████▏   | 30492/48845 [10:47:53<6:33:51,  1.29s/it] 62%|██████▏   | 30493/48845 [10:47:54<6:31:15,  1.28s/it] 62%|██████▏   | 30494/48845 [10:47:55<6:29:48,  1.27s/it] 62%|██████▏   | 30495/48845 [10:47:57<6:28:20,  1.27s/it]                                                          {'loss': 1.9237, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30495/48845 [10:47:57<6:28:20,  1.27s/it] 62%|██████▏   | 30496/48845 [10:47:58<6:27:49,  1.27s/it] 62%|██████▏   | 30497/48845 [10:47:59<6:27:07,  1.27s/it] 62%|██████▏   | 30498/48845 [10:48:00<6:26:36,  1.26s/it] 62%|██████▏   | 30499/48845 [10:48:02<6:26:20,  1.26s/it] 62%|██████▏   | 30500/48845 [10:48:03<6:26:19,  1.26s/it]                                                          {'loss': 1.9244, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30500/48845 [10:48:03<6:26:19,  1.26s/it] 62%|██████▏   | 30501/48845 [10:48:04<6:26:17,  1.26s/it] 62%|██████▏   | 30502/48845 [10:48:05<6:26:21,  1.26s/it] 62%|██████▏   | 30503/48845 [10:48:07<6:25:58,  1.26s/it] 62%|██████▏   | 30504/48845 [10:48:08<6:39:56,  1.31s/it] 62%|██████▏   | 30505/48845 [10:48:09<6:35:28,  1.29s/it]                                                          {'loss': 1.9444, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30505/48845 [10:48:09<6:35:28,  1.29s/it] 62%|██████▏   | 30506/48845 [10:48:11<6:32:54,  1.29s/it] 62%|██████▏   | 30507/48845 [10:48:12<6:30:45,  1.28s/it] 62%|██████▏   | 30508/48845 [10:48:13<6:29:15,  1.27s/it] 62%|██████▏   | 30509/48845 [10:48:14<6:28:34,  1.27s/it] 62%|██████▏   | 30510/48845 [10:48:16<6:27:23,  1.27s/it]                                                          {'loss': 2.077, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30510/48845 [10:48:16<6:27:23,  1.27s/it] 62%|██████▏   | 30511/48845 [10:48:17<6:26:43,  1.27s/it] 62%|██████▏   | 30512/48845 [10:48:18<6:26:18,  1.26s/it] 62%|██████▏   | 30513/48845 [10:48:19<6:25:41,  1.26s/it] 62%|██████▏   | 30514/48845 [10:48:21<6:25:35,  1.26s/it] 62%|██████▏   | 30515/48845 [10:48:22<6:25:27,  1.26s/it]                                                          {'loss': 1.9927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30515/48845 [10:48:22<6:25:27,  1.26s/it] 62%|██████▏   | 30516/48845 [10:48:23<6:25:34,  1.26s/it] 62%|██████▏   | 30517/48845 [10:48:24<6:25:41,  1.26s/it] 62%|██████▏   | 30518/48845 [10:48:26<6:25:34,  1.26s/it] 62%|██████▏   | 30519/48845 [10:48:27<6:25:31,  1.26s/it] 62%|██████▏   | 30520/48845 [10:48:28<6:25:34,  1.26s/it]                                                          {'loss': 1.9973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30520/48845 [10:48:28<6:25:34,  1.26s/it] 62%|██████▏   | 30521/48845 [10:48:30<6:26:01,  1.26s/it] 62%|██████▏   | 30522/48845 [10:48:31<6:25:59,  1.26s/it] 62%|██████▏   | 30523/48845 [10:48:32<6:25:45,  1.26s/it] 62%|██████▏   | 30524/48845 [10:48:33<6:25:06,  1.26s/it] 62%|██████▏   | 30525/48845 [10:48:35<6:24:54,  1.26s/it]                                                          {'loss': 2.0204, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.12}
+ 62%|██████▏   | 30525/48845 [10:48:35<6:24:54,  1.26s/it] 62%|██████▏   | 30526/48845 [10:48:36<6:24:56,  1.26s/it] 62%|██████▏   | 30527/48845 [10:48:37<6:24:49,  1.26s/it] 62%|██████▏   | 30528/48845 [10:48:38<6:24:50,  1.26s/it] 63%|██████▎   | 30529/48845 [10:48:40<6:25:05,  1.26s/it] 63%|██████▎   | 30530/48845 [10:48:41<6:24:55,  1.26s/it]                                                          {'loss': 1.8975, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30530/48845 [10:48:41<6:24:55,  1.26s/it] 63%|██████▎   | 30531/48845 [10:48:42<6:24:54,  1.26s/it] 63%|██████▎   | 30532/48845 [10:48:43<6:24:49,  1.26s/it] 63%|██████▎   | 30533/48845 [10:48:45<6:24:56,  1.26s/it] 63%|██████▎   | 30534/48845 [10:48:46<6:24:36,  1.26s/it] 63%|██████▎   | 30535/48845 [10:48:47<6:24:40,  1.26s/it]                                                          {'loss': 2.0897, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30535/48845 [10:48:47<6:24:40,  1.26s/it] 63%|██████▎   | 30536/48845 [10:48:48<6:24:48,  1.26s/it] 63%|██████▎   | 30537/48845 [10:48:50<6:24:30,  1.26s/it] 63%|██████▎   | 30538/48845 [10:48:51<6:24:33,  1.26s/it] 63%|██████▎   | 30539/48845 [10:48:52<6:24:20,  1.26s/it] 63%|██████▎   | 30540/48845 [10:48:53<6:24:01,  1.26s/it]                                                          {'loss': 2.0274, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30540/48845 [10:48:53<6:24:01,  1.26s/it] 63%|██████▎   | 30541/48845 [10:48:55<6:24:03,  1.26s/it] 63%|██████▎   | 30542/48845 [10:48:56<6:24:12,  1.26s/it] 63%|██████▎   | 30543/48845 [10:48:57<6:24:05,  1.26s/it] 63%|██████▎   | 30544/48845 [10:48:59<6:23:53,  1.26s/it] 63%|██████▎   | 30545/48845 [10:49:00<6:24:06,  1.26s/it]                                                          {'loss': 2.1653, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30545/48845 [10:49:00<6:24:06,  1.26s/it] 63%|██████▎   | 30546/48845 [10:49:01<6:23:59,  1.26s/it] 63%|██████▎   | 30547/48845 [10:49:02<6:24:18,  1.26s/it] 63%|██████▎   | 30548/48845 [10:49:04<6:24:19,  1.26s/it] 63%|██████▎   | 30549/48845 [10:49:05<6:26:37,  1.27s/it] 63%|██████▎   | 30550/48845 [10:49:06<6:26:40,  1.27s/it]                                                          {'loss': 2.0664, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30550/48845 [10:49:06<6:26:40,  1.27s/it] 63%|██████▎   | 30551/48845 [10:49:07<6:26:05,  1.27s/it] 63%|██████▎   | 30552/48845 [10:49:09<6:26:18,  1.27s/it] 63%|██████▎   | 30553/48845 [10:49:10<6:25:12,  1.26s/it] 63%|██████▎   | 30554/48845 [10:49:11<6:25:09,  1.26s/it] 63%|██████▎   | 30555/48845 [10:49:12<6:25:04,  1.26s/it]                                                          {'loss': 2.1605, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30555/48845 [10:49:12<6:25:04,  1.26s/it] 63%|██████▎   | 30556/48845 [10:49:14<6:24:50,  1.26s/it] 63%|██████▎   | 30557/48845 [10:49:15<6:25:04,  1.26s/it] 63%|██████▎   | 30558/48845 [10:49:16<6:24:47,  1.26s/it] 63%|██████▎   | 30559/48845 [10:49:17<6:24:21,  1.26s/it] 63%|██████▎   | 30560/48845 [10:49:19<6:24:15,  1.26s/it]                                                          {'loss': 2.0869, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30560/48845 [10:49:19<6:24:15,  1.26s/it] 63%|██████▎   | 30561/48845 [10:49:20<6:24:26,  1.26s/it] 63%|██████▎   | 30562/48845 [10:49:21<6:24:18,  1.26s/it] 63%|██████▎   | 30563/48845 [10:49:23<6:24:05,  1.26s/it] 63%|██████▎   | 30564/48845 [10:49:24<6:23:41,  1.26s/it] 63%|██████▎   | 30565/48845 [10:49:25<6:23:47,  1.26s/it]                                                          {'loss': 1.9018, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30565/48845 [10:49:25<6:23:47,  1.26s/it] 63%|██████▎   | 30566/48845 [10:49:26<6:24:11,  1.26s/it] 63%|██████▎   | 30567/48845 [10:49:28<6:24:05,  1.26s/it] 63%|██████▎   | 30568/48845 [10:49:29<6:23:47,  1.26s/it] 63%|██████▎   | 30569/48845 [10:49:30<6:24:04,  1.26s/it] 63%|██████▎   | 30570/48845 [10:49:31<6:24:09,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30570/48845 [10:49:31<6:24:09,  1.26s/it] 63%|██████▎   | 30571/48845 [10:49:33<6:24:36,  1.26s/it] 63%|██████▎   | 30572/48845 [10:49:34<6:25:06,  1.26s/it] 63%|██████▎   | 30573/48845 [10:49:35<6:25:02,  1.26s/it] 63%|██████▎   | 30574/48845 [10:49:36<6:24:28,  1.26s/it] 63%|██████▎   | 30575/48845 [10:49:38<6:29:53,  1.28s/it]                                                          {'loss': 2.1066, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30575/48845 [10:49:38<6:29:53,  1.28s/it] 63%|██████▎   | 30576/48845 [10:49:39<6:28:34,  1.28s/it] 63%|██████▎   | 30577/48845 [10:49:40<6:27:03,  1.27s/it] 63%|██████▎   | 30578/48845 [10:49:42<6:26:04,  1.27s/it] 63%|██████▎   | 30579/48845 [10:49:43<6:25:14,  1.27s/it] 63%|██████▎   | 30580/48845 [10:49:44<6:24:38,  1.26s/it]                                                          {'loss': 2.014, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30580/48845 [10:49:44<6:24:38,  1.26s/it] 63%|██████▎   | 30581/48845 [10:49:45<6:24:23,  1.26s/it] 63%|██████▎   | 30582/48845 [10:49:47<6:24:17,  1.26s/it] 63%|██████▎   | 30583/48845 [10:49:48<6:24:20,  1.26s/it] 63%|██████▎   | 30584/48845 [10:49:49<6:24:21,  1.26s/it] 63%|██████▎   | 30585/48845 [10:49:50<6:24:13,  1.26s/it]                                                          {'loss': 1.9635, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30585/48845 [10:49:50<6:24:13,  1.26s/it] 63%|██████▎   | 30586/48845 [10:49:52<6:24:15,  1.26s/it] 63%|██████▎   | 30587/48845 [10:49:53<6:24:09,  1.26s/it] 63%|██████▎   | 30588/48845 [10:49:54<6:24:07,  1.26s/it] 63%|██████▎   | 30589/48845 [10:49:55<6:23:44,  1.26s/it] 63%|██████▎   | 30590/48845 [10:49:57<6:23:33,  1.26s/it]                                                          {'loss': 2.0668, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30590/48845 [10:49:57<6:23:33,  1.26s/it] 63%|██████▎   | 30591/48845 [10:49:58<6:23:40,  1.26s/it] 63%|██████▎   | 30592/48845 [10:49:59<6:23:54,  1.26s/it] 63%|██████▎   | 30593/48845 [10:50:00<6:23:33,  1.26s/it] 63%|██████▎   | 30594/48845 [10:50:02<6:23:35,  1.26s/it] 63%|██████▎   | 30595/48845 [10:50:03<6:23:16,  1.26s/it]                                                          {'loss': 2.1267, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30595/48845 [10:50:03<6:23:16,  1.26s/it] 63%|██████▎   | 30596/48845 [10:50:04<6:23:15,  1.26s/it] 63%|██████▎   | 30597/48845 [10:50:05<6:22:58,  1.26s/it] 63%|██████▎   | 30598/48845 [10:50:07<6:22:55,  1.26s/it] 63%|██████▎   | 30599/48845 [10:50:08<6:22:49,  1.26s/it] 63%|██████▎   | 30600/48845 [10:50:09<6:23:03,  1.26s/it]                                                          {'loss': 2.0861, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30600/48845 [10:50:09<6:23:03,  1.26s/it] 63%|██████▎   | 30601/48845 [10:50:13<10:08:55,  2.00s/it] 63%|██████▎   | 30602/48845 [10:50:14<9:01:50,  1.78s/it]  63%|██████▎   | 30603/48845 [10:50:16<8:14:07,  1.63s/it] 63%|██████▎   | 30604/48845 [10:50:17<7:40:43,  1.52s/it] 63%|██████▎   | 30605/48845 [10:50:18<7:17:39,  1.44s/it]                                                          {'loss': 2.0189, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30605/48845 [10:50:18<7:17:39,  1.44s/it] 63%|██████▎   | 30606/48845 [10:50:19<7:01:09,  1.39s/it] 63%|██████▎   | 30607/48845 [10:50:21<6:50:20,  1.35s/it] 63%|██████▎   | 30608/48845 [10:50:22<6:42:13,  1.32s/it] 63%|██████▎   | 30609/48845 [10:50:23<6:36:27,  1.30s/it] 63%|██████▎   | 30610/48845 [10:50:24<6:32:44,  1.29s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30610/48845 [10:50:24<6:32:44,  1.29s/it] 63%|██████▎   | 30611/48845 [10:50:26<6:30:10,  1.28s/it] 63%|██████▎   | 30612/48845 [10:50:27<6:28:10,  1.28s/it] 63%|██████▎   | 30613/48845 [10:50:28<6:26:22,  1.27s/it] 63%|██████▎   | 30614/48845 [10:50:29<6:25:38,  1.27s/it] 63%|██████▎   | 30615/48845 [10:50:31<6:25:07,  1.27s/it]                                                          {'loss': 1.9983, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30615/48845 [10:50:31<6:25:07,  1.27s/it] 63%|██████▎   | 30616/48845 [10:50:32<6:24:34,  1.27s/it] 63%|██████▎   | 30617/48845 [10:50:33<6:23:50,  1.26s/it] 63%|██████▎   | 30618/48845 [10:50:34<6:23:27,  1.26s/it] 63%|██████▎   | 30619/48845 [10:50:36<6:23:10,  1.26s/it] 63%|██████▎   | 30620/48845 [10:50:37<6:23:07,  1.26s/it]                                                          {'loss': 1.9162, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30620/48845 [10:50:37<6:23:07,  1.26s/it] 63%|██████▎   | 30621/48845 [10:50:38<6:23:02,  1.26s/it] 63%|██████▎   | 30622/48845 [10:50:39<6:22:50,  1.26s/it] 63%|██████▎   | 30623/48845 [10:50:41<6:22:40,  1.26s/it] 63%|██████▎   | 30624/48845 [10:50:42<6:22:33,  1.26s/it] 63%|██████▎   | 30625/48845 [10:50:43<6:22:37,  1.26s/it]                                                          {'loss': 1.9428, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.13}
+ 63%|██████▎   | 30625/48845 [10:50:43<6:22:37,  1.26s/it] 63%|██████▎   | 30626/48845 [10:50:45<6:22:40,  1.26s/it] 63%|██████▎   | 30627/48845 [10:50:46<6:22:34,  1.26s/it] 63%|██████▎   | 30628/48845 [10:50:47<6:22:30,  1.26s/it] 63%|██████▎   | 30629/48845 [10:50:48<6:22:38,  1.26s/it] 63%|██████▎   | 30630/48845 [10:50:50<6:22:28,  1.26s/it]                                                          {'loss': 2.1232, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30630/48845 [10:50:50<6:22:28,  1.26s/it] 63%|██████▎   | 30631/48845 [10:50:51<6:22:38,  1.26s/it] 63%|██████▎   | 30632/48845 [10:50:52<6:22:18,  1.26s/it] 63%|██████▎   | 30633/48845 [10:50:53<6:22:18,  1.26s/it] 63%|██████▎   | 30634/48845 [10:50:55<6:22:16,  1.26s/it] 63%|██████▎   | 30635/48845 [10:50:56<6:22:20,  1.26s/it]                                                          {'loss': 2.144, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30635/48845 [10:50:56<6:22:20,  1.26s/it] 63%|██████▎   | 30636/48845 [10:50:57<6:22:19,  1.26s/it] 63%|██████▎   | 30637/48845 [10:50:58<6:22:22,  1.26s/it] 63%|██████▎   | 30638/48845 [10:51:00<6:22:14,  1.26s/it] 63%|██████▎   | 30639/48845 [10:51:01<6:22:01,  1.26s/it] 63%|██████▎   | 30640/48845 [10:51:02<6:22:10,  1.26s/it]                                                          {'loss': 1.9727, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30640/48845 [10:51:02<6:22:10,  1.26s/it] 63%|██████▎   | 30641/48845 [10:51:03<6:22:11,  1.26s/it] 63%|██████▎   | 30642/48845 [10:51:05<6:22:15,  1.26s/it] 63%|██████▎   | 30643/48845 [10:51:06<6:22:34,  1.26s/it] 63%|██████▎   | 30644/48845 [10:51:07<6:22:40,  1.26s/it] 63%|██████▎   | 30645/48845 [10:51:08<6:22:45,  1.26s/it]                                                          {'loss': 2.1158, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30645/48845 [10:51:08<6:22:45,  1.26s/it] 63%|██████▎   | 30646/48845 [10:51:10<6:23:01,  1.26s/it] 63%|██████▎   | 30647/48845 [10:51:11<6:22:42,  1.26s/it] 63%|██████▎   | 30648/48845 [10:51:12<6:22:36,  1.26s/it] 63%|██████▎   | 30649/48845 [10:51:13<6:22:15,  1.26s/it] 63%|█████���▎   | 30650/48845 [10:51:15<6:22:20,  1.26s/it]                                                          {'loss': 2.0953, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30650/48845 [10:51:15<6:22:20,  1.26s/it] 63%|██████▎   | 30651/48845 [10:51:16<6:22:06,  1.26s/it] 63%|██████▎   | 30652/48845 [10:51:17<6:21:58,  1.26s/it] 63%|██████▎   | 30653/48845 [10:51:19<6:22:03,  1.26s/it] 63%|██████▎   | 30654/48845 [10:51:20<6:21:58,  1.26s/it] 63%|██████▎   | 30655/48845 [10:51:21<6:21:48,  1.26s/it]                                                          {'loss': 1.9937, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30655/48845 [10:51:21<6:21:48,  1.26s/it] 63%|██████▎   | 30656/48845 [10:51:22<6:22:02,  1.26s/it] 63%|██████▎   | 30657/48845 [10:51:24<6:22:07,  1.26s/it] 63%|██████▎   | 30658/48845 [10:51:25<6:22:19,  1.26s/it] 63%|██████▎   | 30659/48845 [10:51:26<6:21:54,  1.26s/it] 63%|██████▎   | 30660/48845 [10:51:27<6:21:34,  1.26s/it]                                                          {'loss': 2.1199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30660/48845 [10:51:27<6:21:34,  1.26s/it] 63%|██████▎   | 30661/48845 [10:51:29<6:22:11,  1.26s/it] 63%|██████▎   | 30662/48845 [10:51:30<6:21:50,  1.26s/it] 63%|██████▎   | 30663/48845 [10:51:31<6:21:43,  1.26s/it] 63%|██████▎   | 30664/48845 [10:51:32<6:21:32,  1.26s/it] 63%|██████▎   | 30665/48845 [10:51:34<6:29:21,  1.29s/it]                                                          {'loss': 1.8094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30665/48845 [10:51:34<6:29:21,  1.29s/it] 63%|██████▎   | 30666/48845 [10:51:35<6:27:08,  1.28s/it] 63%|██████▎   | 30667/48845 [10:51:36<6:25:19,  1.27s/it] 63%|██████▎   | 30668/48845 [10:51:38<6:24:17,  1.27s/it] 63%|██████▎   | 30669/48845 [10:51:39<6:23:54,  1.27s/it] 63%|██████▎   | 30670/48845 [10:51:40<6:23:09,  1.26s/it]                                                          {'loss': 1.9817, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30670/48845 [10:51:40<6:23:09,  1.26s/it] 63%|██████▎   | 30671/48845 [10:51:41<6:23:01,  1.26s/it] 63%|██████▎   | 30672/48845 [10:51:43<6:22:48,  1.26s/it] 63%|██████▎   | 30673/48845 [10:51:44<6:22:40,  1.26s/it] 63%|██████▎   | 30674/48845 [10:51:45<6:22:07,  1.26s/it] 63%|██████▎   | 30675/48845 [10:51:46<6:21:51,  1.26s/it]                                                          {'loss': 2.1113, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30675/48845 [10:51:46<6:21:51,  1.26s/it] 63%|██████▎   | 30676/48845 [10:51:48<6:21:44,  1.26s/it] 63%|██████▎   | 30677/48845 [10:51:49<6:21:56,  1.26s/it] 63%|██████▎   | 30678/48845 [10:51:50<6:21:55,  1.26s/it] 63%|██████▎   | 30679/48845 [10:51:51<6:21:45,  1.26s/it] 63%|██████▎   | 30680/48845 [10:51:53<6:21:53,  1.26s/it]                                                          {'loss': 1.8958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30680/48845 [10:51:53<6:21:53,  1.26s/it] 63%|██████▎   | 30681/48845 [10:51:54<6:21:49,  1.26s/it] 63%|██████▎   | 30682/48845 [10:51:55<6:21:44,  1.26s/it] 63%|██████▎   | 30683/48845 [10:51:56<6:21:42,  1.26s/it] 63%|██████▎   | 30684/48845 [10:51:58<6:21:06,  1.26s/it] 63%|██████▎   | 30685/48845 [10:51:59<6:21:44,  1.26s/it]                                                          {'loss': 2.0092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30685/48845 [10:51:59<6:21:44,  1.26s/it] 63%|██████▎   | 30686/48845 [10:52:00<6:21:54,  1.26s/it] 63%|██████▎   | 30687/48845 [10:52:01<6:21:37,  1.26s/it] 63%|██████▎   | 30688/48845 [10:52:03<6:21:24,  1.26s/it] 63%|██████▎   | 30689/48845 [10:52:04<6:22:05,  1.26s/it] 63%|██████▎   | 30690/48845 [10:52:05<6:22:02,  1.26s/it]                                                          {'loss': 1.9301, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30690/48845 [10:52:05<6:22:02,  1.26s/it] 63%|██████▎   | 30691/48845 [10:52:07<6:21:58,  1.26s/it] 63%|██████▎   | 30692/48845 [10:52:08<6:22:06,  1.26s/it] 63%|██████▎   | 30693/48845 [10:52:09<6:22:02,  1.26s/it] 63%|██████▎   | 30694/48845 [10:52:10<6:21:57,  1.26s/it] 63%|██████▎   | 30695/48845 [10:52:12<6:21:39,  1.26s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30695/48845 [10:52:12<6:21:39,  1.26s/it] 63%|██████▎   | 30696/48845 [10:52:13<6:21:28,  1.26s/it] 63%|██████▎   | 30697/48845 [10:52:14<6:21:42,  1.26s/it] 63%|██████▎   | 30698/48845 [10:52:15<6:21:28,  1.26s/it] 63%|██████▎   | 30699/48845 [10:52:17<6:21:08,  1.26s/it] 63%|██████▎   | 30700/48845 [10:52:18<6:20:35,  1.26s/it]                                                          {'loss': 1.9902, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30700/48845 [10:52:18<6:20:35,  1.26s/it] 63%|██████▎   | 30701/48845 [10:52:19<6:21:17,  1.26s/it] 63%|██████▎   | 30702/48845 [10:52:20<6:21:18,  1.26s/it] 63%|██████▎   | 30703/48845 [10:52:22<6:21:02,  1.26s/it] 63%|██████▎   | 30704/48845 [10:52:23<6:21:10,  1.26s/it] 63%|██████▎   | 30705/48845 [10:52:24<6:21:40,  1.26s/it]                                                          {'loss': 2.0748, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30705/48845 [10:52:24<6:21:40,  1.26s/it] 63%|██████▎   | 30706/48845 [10:52:25<6:21:26,  1.26s/it] 63%|██████▎   | 30707/48845 [10:52:27<6:21:41,  1.26s/it] 63%|██████▎   | 30708/48845 [10:52:28<6:21:21,  1.26s/it] 63%|██████▎   | 30709/48845 [10:52:29<6:21:10,  1.26s/it] 63%|██████▎   | 30710/48845 [10:52:30<6:21:27,  1.26s/it]                                                          {'loss': 1.9927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30710/48845 [10:52:30<6:21:27,  1.26s/it] 63%|██████▎   | 30711/48845 [10:52:32<6:21:11,  1.26s/it] 63%|██████▎   | 30712/48845 [10:52:33<6:21:18,  1.26s/it] 63%|██████▎   | 30713/48845 [10:52:34<6:21:26,  1.26s/it] 63%|██████▎   | 30714/48845 [10:52:36<6:21:18,  1.26s/it] 63%|██████▎   | 30715/48845 [10:52:37<6:21:31,  1.26s/it]                                                          {'loss': 1.9865, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30715/48845 [10:52:37<6:21:31,  1.26s/it] 63%|██████▎   | 30716/48845 [10:52:38<6:21:55,  1.26s/it] 63%|██████▎   | 30717/48845 [10:52:39<6:21:54,  1.26s/it] 63%|██████▎   | 30718/48845 [10:52:41<6:21:33,  1.26s/it] 63%|██████▎   | 30719/48845 [10:52:42<6:21:10,  1.26s/it] 63%|██████▎   | 30720/48845 [10:52:43<6:35:46,  1.31s/it]                                                          {'loss': 2.0417, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.14}
+ 63%|██████▎   | 30720/48845 [10:52:43<6:35:46,  1.31s/it] 63%|██████▎   | 30721/48845 [10:52:45<6:31:28,  1.30s/it] 63%|██████▎   | 30722/48845 [10:52:46<6:28:18,  1.29s/it] 63%|██████▎   | 30723/48845 [10:52:47<6:25:50,  1.28s/it] 63%|██████▎   | 30724/48845 [10:52:48<6:24:25,  1.27s/it] 63%|██████▎   | 30725/48845 [10:52:50<6:23:19,  1.27s/it]                                                          {'loss': 1.989, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30725/48845 [10:52:50<6:23:19,  1.27s/it] 63%|██████▎   | 30726/48845 [10:52:51<6:22:23,  1.27s/it] 63%|██████▎   | 30727/48845 [10:52:52<6:21:32,  1.26s/it] 63%|██████▎   | 30728/48845 [10:52:53<6:21:12,  1.26s/it] 63%|██████▎   | 30729/48845 [10:52:55<6:21:14,  1.26s/it] 63%|██████▎   | 30730/48845 [10:52:56<6:21:08,  1.26s/it]                                                          {'loss': 2.1333, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30730/48845 [10:52:56<6:21:08,  1.26s/it] 63%|██████▎   | 30731/48845 [10:52:57<6:20:47,  1.26s/it] 63%|██████▎   | 30732/48845 [10:52:58<6:20:39,  1.26s/it] 63%|██████▎   | 30733/48845 [10:53:00<6:20:15,  1.26s/it] 63%|██████▎   | 30734/48845 [10:53:01<6:20:08,  1.26s/it] 63%|██████▎   | 30735/48845 [10:53:02<6:20:28,  1.26s/it]                                                          {'loss': 2.0317, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30735/48845 [10:53:02<6:20:28,  1.26s/it] 63%|██████▎   | 30736/48845 [10:53:03<6:20:19,  1.26s/it] 63%|██████▎   | 30737/48845 [10:53:05<6:20:37,  1.26s/it] 63%|██████▎   | 30738/48845 [10:53:06<6:20:31,  1.26s/it] 63%|██████▎   | 30739/48845 [10:53:07<6:20:12,  1.26s/it] 63%|██████▎   | 30740/48845 [10:53:08<6:20:35,  1.26s/it]                                                          {'loss': 1.989, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30740/48845 [10:53:08<6:20:35,  1.26s/it] 63%|██████▎   | 30741/48845 [10:53:10<6:20:37,  1.26s/it] 63%|██████▎   | 30742/48845 [10:53:11<6:20:51,  1.26s/it] 63%|██████▎   | 30743/48845 [10:53:12<6:20:31,  1.26s/it] 63%|██████▎   | 30744/48845 [10:53:14<6:20:18,  1.26s/it] 63%|██████▎   | 30745/48845 [10:53:15<6:20:55,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30745/48845 [10:53:15<6:20:55,  1.26s/it] 63%|██████▎   | 30746/48845 [10:53:16<6:21:02,  1.26s/it] 63%|██████▎   | 30747/48845 [10:53:17<6:20:28,  1.26s/it] 63%|██████▎   | 30748/48845 [10:53:19<6:20:36,  1.26s/it] 63%|██████▎   | 30749/48845 [10:53:20<6:20:17,  1.26s/it] 63%|██████▎   | 30750/48845 [10:53:21<6:20:12,  1.26s/it]                                                          {'loss': 1.994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30750/48845 [10:53:21<6:20:12,  1.26s/it] 63%|██████▎   | 30751/48845 [10:53:22<6:20:44,  1.26s/it] 63%|██████▎   | 30752/48845 [10:53:24<6:20:31,  1.26s/it] 63%|██████▎   | 30753/48845 [10:53:25<6:20:24,  1.26s/it] 63%|██████▎   | 30754/48845 [10:53:26<6:20:17,  1.26s/it] 63%|██████▎   | 30755/48845 [10:53:27<6:19:57,  1.26s/it]                                                          {'loss': 1.9519, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30755/48845 [10:53:27<6:19:57,  1.26s/it] 63%|██████▎   | 30756/48845 [10:53:29<6:20:31,  1.26s/it] 63%|██████▎   | 30757/48845 [10:53:30<6:20:07,  1.26s/it] 63%|██████▎   | 30758/48845 [10:53:31<6:20:09,  1.26s/it] 63%|██████▎   | 30759/48845 [10:53:32<6:20:00,  1.26s/it] 63%|██████▎   | 30760/48845 [10:53:34<6:19:30,  1.26s/it]                                                          {'loss': 2.127, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30760/48845 [10:53:34<6:19:30,  1.26s/it] 63%|██████▎   | 30761/48845 [10:53:35<6:19:30,  1.26s/it] 63%|██████▎   | 30762/48845 [10:53:36<6:19:26,  1.26s/it] 63%|██████▎   | 30763/48845 [10:53:37<6:19:38,  1.26s/it] 63%|██████▎   | 30764/48845 [10:53:39<6:23:45,  1.27s/it] 63%|██████▎   | 30765/48845 [10:53:40<6:22:44,  1.27s/it]                                                          {'loss': 1.9282, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30765/48845 [10:53:40<6:22:44,  1.27s/it] 63%|██████▎   | 30766/48845 [10:53:41<6:21:58,  1.27s/it] 63%|██████▎   | 30767/48845 [10:53:43<6:21:30,  1.27s/it] 63%|██████▎   | 30768/48845 [10:53:44<6:21:06,  1.26s/it] 63%|██████▎   | 30769/48845 [10:53:45<6:20:35,  1.26s/it] 63%|██████▎   | 30770/48845 [10:53:46<6:20:21,  1.26s/it]                                                          {'loss': 1.962, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30770/48845 [10:53:46<6:20:21,  1.26s/it] 63%|██████▎   | 30771/48845 [10:53:48<6:19:53,  1.26s/it] 63%|██████▎   | 30772/48845 [10:53:49<6:20:44,  1.26s/it] 63%|██████▎   | 30773/48845 [10:53:50<6:20:19,  1.26s/it] 63%|██████▎   | 30774/48845 [10:53:51<6:19:58,  1.26s/it] 63%|██████▎   | 30775/48845 [10:53:53<6:20:08,  1.26s/it]                                                          {'loss': 2.0875, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30775/48845 [10:53:53<6:20:08,  1.26s/it] 63%|██████▎   | 30776/48845 [10:53:54<6:20:30,  1.26s/it] 63%|██████▎   | 30777/48845 [10:53:55<6:20:15,  1.26s/it] 63%|██████▎   | 30778/48845 [10:53:56<6:20:11,  1.26s/it] 63%|██████▎   | 30779/48845 [10:53:58<6:20:09,  1.26s/it] 63%|██████▎   | 30780/48845 [10:53:59<6:20:19,  1.26s/it]                                                          {'loss': 2.1316, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30780/48845 [10:53:59<6:20:19,  1.26s/it] 63%|██████▎   | 30781/48845 [10:54:00<6:20:24,  1.26s/it] 63%|██████▎   | 30782/48845 [10:54:02<6:20:12,  1.26s/it] 63%|██████▎   | 30783/48845 [10:54:03<6:20:01,  1.26s/it] 63%|███���██▎   | 30784/48845 [10:54:04<6:20:54,  1.27s/it] 63%|██████▎   | 30785/48845 [10:54:05<6:20:31,  1.26s/it]                                                          {'loss': 2.1159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30785/48845 [10:54:05<6:20:31,  1.26s/it] 63%|██████▎   | 30786/48845 [10:54:07<6:20:36,  1.26s/it] 63%|██████▎   | 30787/48845 [10:54:08<6:20:12,  1.26s/it] 63%|██████▎   | 30788/48845 [10:54:09<6:20:12,  1.26s/it] 63%|██████▎   | 30789/48845 [10:54:10<6:20:00,  1.26s/it] 63%|██████▎   | 30790/48845 [10:54:12<6:19:39,  1.26s/it]                                                          {'loss': 2.0532, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30790/48845 [10:54:12<6:19:39,  1.26s/it] 63%|██████▎   | 30791/48845 [10:54:13<6:19:58,  1.26s/it] 63%|██████▎   | 30792/48845 [10:54:14<6:20:58,  1.27s/it] 63%|██████▎   | 30793/48845 [10:54:15<6:20:14,  1.26s/it] 63%|██████▎   | 30794/48845 [10:54:17<6:20:08,  1.26s/it] 63%|██████▎   | 30795/48845 [10:54:18<6:19:38,  1.26s/it]                                                          {'loss': 1.9241, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30795/48845 [10:54:18<6:19:38,  1.26s/it] 63%|██████▎   | 30796/48845 [10:54:19<6:20:13,  1.26s/it] 63%|██████▎   | 30797/48845 [10:54:20<6:20:04,  1.26s/it] 63%|██████▎   | 30798/48845 [10:54:22<6:19:38,  1.26s/it] 63%|██████▎   | 30799/48845 [10:54:23<6:19:37,  1.26s/it] 63%|██████▎   | 30800/48845 [10:54:24<6:19:49,  1.26s/it]                                                          {'loss': 1.927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30800/48845 [10:54:24<6:19:49,  1.26s/it] 63%|██████▎   | 30801/48845 [10:54:28<10:04:08,  2.01s/it] 63%|██████▎   | 30802/48845 [10:54:29<8:56:42,  1.78s/it]  63%|██████▎   | 30803/48845 [10:54:31<8:09:24,  1.63s/it] 63%|██████▎   | 30804/48845 [10:54:32<7:36:42,  1.52s/it] 63%|██████▎   | 30805/48845 [10:54:33<7:13:25,  1.44s/it]                                                          {'loss': 1.9937, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30805/48845 [10:54:33<7:13:25,  1.44s/it] 63%|██████▎   | 30806/48845 [10:54:34<6:57:00,  1.39s/it] 63%|██████▎   | 30807/48845 [10:54:36<6:45:42,  1.35s/it] 63%|██████▎   | 30808/48845 [10:54:37<6:37:41,  1.32s/it] 63%|██████▎   | 30809/48845 [10:54:38<6:32:19,  1.31s/it] 63%|██████▎   | 30810/48845 [10:54:39<6:28:34,  1.29s/it]                                                          {'loss': 1.8767, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30810/48845 [10:54:39<6:28:34,  1.29s/it] 63%|██████▎   | 30811/48845 [10:54:41<6:25:39,  1.28s/it] 63%|██████▎   | 30812/48845 [10:54:42<6:23:21,  1.28s/it] 63%|██████▎   | 30813/48845 [10:54:43<6:22:34,  1.27s/it] 63%|██████▎   | 30814/48845 [10:54:44<6:21:24,  1.27s/it] 63%|██████▎   | 30815/48845 [10:54:46<6:20:53,  1.27s/it]                                                          {'loss': 2.1044, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30815/48845 [10:54:46<6:20:53,  1.27s/it] 63%|██████▎   | 30816/48845 [10:54:47<6:20:32,  1.27s/it] 63%|██████▎   | 30817/48845 [10:54:48<6:19:53,  1.26s/it] 63%|██████▎   | 30818/48845 [10:54:49<6:19:43,  1.26s/it] 63%|██████▎   | 30819/48845 [10:54:51<6:19:28,  1.26s/it] 63%|██████▎   | 30820/48845 [10:54:52<6:18:58,  1.26s/it]                                                          {'loss': 2.0146, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.15}
+ 63%|██████▎   | 30820/48845 [10:54:52<6:18:58,  1.26s/it] 63%|██████▎   | 30821/48845 [10:54:53<6:18:48,  1.26s/it] 63%|██████▎   | 30822/48845 [10:54:55<6:18:44,  1.26s/it] 63%|██████▎   | 30823/48845 [10:54:56<6:18:43,  1.26s/it] 63%|██████▎   | 30824/48845 [10:54:57<6:18:33,  1.26s/it] 63%|██████▎   | 30825/48845 [10:54:58<6:18:33,  1.26s/it]                                                          {'loss': 2.0592, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30825/48845 [10:54:58<6:18:33,  1.26s/it] 63%|██████▎   | 30826/48845 [10:55:00<6:18:18,  1.26s/it] 63%|██████▎   | 30827/48845 [10:55:01<6:18:07,  1.26s/it] 63%|██████▎   | 30828/48845 [10:55:02<6:18:19,  1.26s/it] 63%|██████▎   | 30829/48845 [10:55:03<6:18:31,  1.26s/it] 63%|██████▎   | 30830/48845 [10:55:05<6:18:03,  1.26s/it]                                                          {'loss': 1.9491, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30830/48845 [10:55:05<6:18:03,  1.26s/it] 63%|██████▎   | 30831/48845 [10:55:06<6:18:17,  1.26s/it] 63%|██████▎   | 30832/48845 [10:55:07<6:18:16,  1.26s/it] 63%|██████▎   | 30833/48845 [10:55:08<6:18:24,  1.26s/it] 63%|██████▎   | 30834/48845 [10:55:10<6:17:58,  1.26s/it] 63%|██████▎   | 30835/48845 [10:55:11<6:17:46,  1.26s/it]                                                          {'loss': 2.1159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30835/48845 [10:55:11<6:17:46,  1.26s/it] 63%|██████▎   | 30836/48845 [10:55:12<6:17:53,  1.26s/it] 63%|██████▎   | 30837/48845 [10:55:13<6:18:02,  1.26s/it] 63%|██████▎   | 30838/48845 [10:55:15<6:17:55,  1.26s/it] 63%|██████▎   | 30839/48845 [10:55:16<6:17:53,  1.26s/it] 63%|██████▎   | 30840/48845 [10:55:17<6:18:05,  1.26s/it]                                                          {'loss': 2.099, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30840/48845 [10:55:17<6:18:05,  1.26s/it] 63%|██████▎   | 30841/48845 [10:55:18<6:18:04,  1.26s/it] 63%|██████▎   | 30842/48845 [10:55:20<6:17:53,  1.26s/it] 63%|██████▎   | 30843/48845 [10:55:21<6:18:22,  1.26s/it] 63%|██████▎   | 30844/48845 [10:55:22<6:19:08,  1.26s/it] 63%|██████▎   | 30845/48845 [10:55:23<6:19:04,  1.26s/it]                                                          {'loss': 2.0425, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30845/48845 [10:55:23<6:19:04,  1.26s/it] 63%|██████▎   | 30846/48845 [10:55:25<6:18:45,  1.26s/it] 63%|██████▎   | 30847/48845 [10:55:26<6:18:28,  1.26s/it] 63%|██████▎   | 30848/48845 [10:55:27<6:18:21,  1.26s/it] 63%|██████▎   | 30849/48845 [10:55:29<6:18:01,  1.26s/it] 63%|██████▎   | 30850/48845 [10:55:30<6:18:04,  1.26s/it]                                                          {'loss': 2.065, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30850/48845 [10:55:30<6:18:04,  1.26s/it] 63%|██████▎   | 30851/48845 [10:55:31<6:17:55,  1.26s/it] 63%|██████▎   | 30852/48845 [10:55:32<6:17:50,  1.26s/it] 63%|██████▎   | 30853/48845 [10:55:34<6:17:37,  1.26s/it] 63%|██████▎   | 30854/48845 [10:55:35<6:17:42,  1.26s/it] 63%|██████▎   | 30855/48845 [10:55:36<6:17:37,  1.26s/it]                                                          {'loss': 2.1622, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30855/48845 [10:55:36<6:17:37,  1.26s/it] 63%|██████▎   | 30856/48845 [10:55:37<6:18:00,  1.26s/it] 63%|██████▎   | 30857/48845 [10:55:39<6:18:06,  1.26s/it] 63%|██████▎   | 30858/48845 [10:55:40<6:17:58,  1.26s/it] 63%|██████▎   | 30859/48845 [10:55:41<6:18:00,  1.26s/it] 63%|██████▎   | 30860/48845 [10:55:42<6:17:31,  1.26s/it]                                                          {'loss': 1.9652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30860/48845 [10:55:42<6:17:31,  1.26s/it] 63%|██████▎   | 30861/48845 [10:55:44<6:17:57,  1.26s/it] 63%|██████▎   | 30862/48845 [10:55:45<6:17:23,  1.26s/it] 63%|██████▎   | 30863/48845 [10:55:46<6:17:14,  1.26s/it] 63%|██████▎   | 30864/48845 [10:55:47<6:17:41,  1.26s/it] 63%|██████▎   | 30865/48845 [10:55:49<6:17:41,  1.26s/it]                                                          {'loss': 2.2014, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30865/48845 [10:55:49<6:17:41,  1.26s/it] 63%|██████▎   | 30866/48845 [10:55:50<6:17:45,  1.26s/it] 63%|██████▎   | 30867/48845 [10:55:51<6:17:44,  1.26s/it] 63%|██████▎   | 30868/48845 [10:55:52<6:17:39,  1.26s/it] 63%|██████▎   | 30869/48845 [10:55:54<6:17:47,  1.26s/it] 63%|██████▎   | 30870/48845 [10:55:55<6:17:50,  1.26s/it]                                                          {'loss': 2.0439, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30870/48845 [10:55:55<6:17:50,  1.26s/it] 63%|██████▎   | 30871/48845 [10:55:56<6:17:39,  1.26s/it] 63%|██████▎   | 30872/48845 [10:55:58<6:17:54,  1.26s/it] 63%|██████▎   | 30873/48845 [10:55:59<6:17:59,  1.26s/it] 63%|██████▎   | 30874/48845 [10:56:00<6:17:26,  1.26s/it] 63%|██████▎   | 30875/48845 [10:56:01<6:17:20,  1.26s/it]                                                          {'loss': 1.9493, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30875/48845 [10:56:01<6:17:20,  1.26s/it] 63%|██████▎   | 30876/48845 [10:56:03<6:17:34,  1.26s/it] 63%|██████▎   | 30877/48845 [10:56:04<6:17:35,  1.26s/it] 63%|██████▎   | 30878/48845 [10:56:05<6:17:16,  1.26s/it] 63%|██████▎   | 30879/48845 [10:56:06<6:17:08,  1.26s/it] 63%|██████▎   | 30880/48845 [10:56:08<6:17:07,  1.26s/it]                                                          {'loss': 2.0314, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30880/48845 [10:56:08<6:17:07,  1.26s/it] 63%|██████▎   | 30881/48845 [10:56:09<6:17:12,  1.26s/it] 63%|██████▎   | 30882/48845 [10:56:10<6:17:20,  1.26s/it] 63%|██████▎   | 30883/48845 [10:56:11<6:17:18,  1.26s/it] 63%|██████▎   | 30884/48845 [10:56:13<6:17:21,  1.26s/it] 63%|██████▎   | 30885/48845 [10:56:14<6:17:17,  1.26s/it]                                                          {'loss': 2.0731, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30885/48845 [10:56:14<6:17:17,  1.26s/it] 63%|██████▎   | 30886/48845 [10:56:15<6:17:15,  1.26s/it] 63%|██████▎   | 30887/48845 [10:56:16<6:17:11,  1.26s/it] 63%|██████▎   | 30888/48845 [10:56:18<6:17:03,  1.26s/it] 63%|██████▎   | 30889/48845 [10:56:19<6:17:20,  1.26s/it] 63%|██████▎   | 30890/48845 [10:56:20<6:17:30,  1.26s/it]                                                          {'loss': 1.9674, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30890/48845 [10:56:20<6:17:30,  1.26s/it] 63%|██████▎   | 30891/48845 [10:56:21<6:17:32,  1.26s/it] 63%|██████▎   | 30892/48845 [10:56:23<6:17:34,  1.26s/it] 63%|██████▎   | 30893/48845 [10:56:24<6:17:21,  1.26s/it] 63%|██████▎   | 30894/48845 [10:56:25<6:17:07,  1.26s/it] 63%|██████▎   | 30895/48845 [10:56:27<6:17:19,  1.26s/it]                                                          {'loss': 1.9321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30895/48845 [10:56:27<6:17:19,  1.26s/it] 63%|██████▎   | 30896/48845 [10:56:28<6:16:51,  1.26s/it] 63%|██████▎   | 30897/48845 [10:56:29<6:16:56,  1.26s/it] 63%|██████▎   | 30898/48845 [10:56:30<6:16:52,  1.26s/it] 63%|██████▎   | 30899/48845 [10:56:32<6:16:49,  1.26s/it] 63%|██████▎   | 30900/48845 [10:56:33<6:16:43,  1.26s/it]                                                          {'loss': 2.0761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30900/48845 [10:56:33<6:16:43,  1.26s/it] 63%|██████▎   | 30901/48845 [10:56:34<6:16:44,  1.26s/it] 63%|██████▎   | 30902/48845 [10:56:35<6:16:35,  1.26s/it] 63%|██████▎   | 30903/48845 [10:56:37<6:16:33,  1.26s/it] 63%|██████▎   | 30904/48845 [10:56:38<6:16:38,  1.26s/it] 63%|██████▎   | 30905/48845 [10:56:39<6:16:41,  1.26s/it]                                                          {'loss': 2.1105, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30905/48845 [10:56:39<6:16:41,  1.26s/it] 63%|██████▎   | 30906/48845 [10:56:40<6:16:42,  1.26s/it] 63%|██████▎   | 30907/48845 [10:56:42<6:16:30,  1.26s/it] 63%|██████▎   | 30908/48845 [10:56:43<6:16:42,  1.26s/it] 63%|██████▎   | 30909/48845 [10:56:44<6:16:33,  1.26s/it] 63%|██████▎   | 30910/48845 [10:56:45<6:16:31,  1.26s/it]                                                          {'loss': 2.1044, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30910/48845 [10:56:45<6:16:31,  1.26s/it] 63%|██████▎   | 30911/48845 [10:56:47<6:16:32,  1.26s/it] 63%|██████▎   | 30912/48845 [10:56:48<6:16:24,  1.26s/it] 63%|██████▎   | 30913/48845 [10:56:49<6:16:31,  1.26s/it] 63%|██████▎   | 30914/48845 [10:56:50<6:16:28,  1.26s/it] 63%|██████▎   | 30915/48845 [10:56:52<6:16:54,  1.26s/it]                                                          {'loss': 2.081, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.16}
+ 63%|██████▎   | 30915/48845 [10:56:52<6:16:54,  1.26s/it] 63%|██████▎   | 30916/48845 [10:56:53<6:28:37,  1.30s/it] 63%|██████▎   | 30917/48845 [10:56:54<6:25:12,  1.29s/it] 63%|���█████▎   | 30918/48845 [10:56:56<6:22:39,  1.28s/it] 63%|██████▎   | 30919/48845 [10:56:57<6:20:38,  1.27s/it] 63%|██████▎   | 30920/48845 [10:56:58<6:19:29,  1.27s/it]                                                          {'loss': 1.9986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30920/48845 [10:56:58<6:19:29,  1.27s/it] 63%|██████▎   | 30921/48845 [10:56:59<6:18:52,  1.27s/it] 63%|██████▎   | 30922/48845 [10:57:01<6:18:14,  1.27s/it] 63%|██████▎   | 30923/48845 [10:57:02<6:17:38,  1.26s/it] 63%|██████▎   | 30924/48845 [10:57:03<6:17:16,  1.26s/it] 63%|██████▎   | 30925/48845 [10:57:04<6:17:05,  1.26s/it]                                                          {'loss': 1.9836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30925/48845 [10:57:04<6:17:05,  1.26s/it] 63%|██████▎   | 30926/48845 [10:57:06<6:17:34,  1.26s/it] 63%|██████▎   | 30927/48845 [10:57:07<6:17:08,  1.26s/it] 63%|██████▎   | 30928/48845 [10:57:08<6:16:56,  1.26s/it] 63%|██████▎   | 30929/48845 [10:57:10<6:16:38,  1.26s/it] 63%|██████▎   | 30930/48845 [10:57:11<6:16:19,  1.26s/it]                                                          {'loss': 1.9912, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30930/48845 [10:57:11<6:16:19,  1.26s/it] 63%|██████▎   | 30931/48845 [10:57:12<6:16:17,  1.26s/it] 63%|██████▎   | 30932/48845 [10:57:13<6:16:13,  1.26s/it] 63%|██████▎   | 30933/48845 [10:57:15<6:16:00,  1.26s/it] 63%|██████▎   | 30934/48845 [10:57:16<6:16:23,  1.26s/it] 63%|██████▎   | 30935/48845 [10:57:17<6:16:22,  1.26s/it]                                                          {'loss': 1.9812, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30935/48845 [10:57:17<6:16:22,  1.26s/it] 63%|██████▎   | 30936/48845 [10:57:18<6:16:38,  1.26s/it] 63%|██████▎   | 30937/48845 [10:57:20<6:16:56,  1.26s/it] 63%|██████▎   | 30938/48845 [10:57:21<6:16:36,  1.26s/it] 63%|██████▎   | 30939/48845 [10:57:22<6:16:48,  1.26s/it] 63%|██████▎   | 30940/48845 [10:57:23<6:16:41,  1.26s/it]                                                          {'loss': 2.1303, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30940/48845 [10:57:23<6:16:41,  1.26s/it] 63%|██████▎   | 30941/48845 [10:57:25<6:16:32,  1.26s/it] 63%|██████▎   | 30942/48845 [10:57:26<6:16:23,  1.26s/it] 63%|██████▎   | 30943/48845 [10:57:27<6:16:03,  1.26s/it] 63%|██████▎   | 30944/48845 [10:57:28<6:16:31,  1.26s/it] 63%|██████▎   | 30945/48845 [10:57:30<6:16:20,  1.26s/it]                                                          {'loss': 2.1087, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30945/48845 [10:57:30<6:16:20,  1.26s/it] 63%|██████▎   | 30946/48845 [10:57:31<6:16:42,  1.26s/it] 63%|██████▎   | 30947/48845 [10:57:32<6:16:48,  1.26s/it] 63%|██████▎   | 30948/48845 [10:57:33<6:16:30,  1.26s/it] 63%|██████▎   | 30949/48845 [10:57:35<6:16:14,  1.26s/it] 63%|██████▎   | 30950/48845 [10:57:36<6:15:59,  1.26s/it]                                                          {'loss': 1.9154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30950/48845 [10:57:36<6:15:59,  1.26s/it] 63%|██████▎   | 30951/48845 [10:57:37<6:15:52,  1.26s/it] 63%|██████▎   | 30952/48845 [10:57:39<6:15:56,  1.26s/it] 63%|██████▎   | 30953/48845 [10:57:40<6:15:51,  1.26s/it] 63%|██████▎   | 30954/48845 [10:57:41<6:15:37,  1.26s/it] 63%|██████▎   | 30955/48845 [10:57:42<6:15:49,  1.26s/it]                                                          {'loss': 2.1936, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30955/48845 [10:57:42<6:15:49,  1.26s/it] 63%|██████▎   | 30956/48845 [10:57:44<6:15:49,  1.26s/it] 63%|██████▎   | 30957/48845 [10:57:45<6:16:06,  1.26s/it] 63%|██████▎   | 30958/48845 [10:57:46<6:15:58,  1.26s/it] 63%|██████▎   | 30959/48845 [10:57:47<6:15:35,  1.26s/it] 63%|██████▎   | 30960/48845 [10:57:49<6:15:46,  1.26s/it]                                                          {'loss': 1.8723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30960/48845 [10:57:49<6:15:46,  1.26s/it] 63%|██████▎   | 30961/48845 [10:57:50<6:15:47,  1.26s/it] 63%|██████▎   | 30962/48845 [10:57:51<6:15:42,  1.26s/it] 63%|██████▎   | 30963/48845 [10:57:52<6:15:34,  1.26s/it] 63%|██████▎   | 30964/48845 [10:57:54<6:15:43,  1.26s/it] 63%|██████▎   | 30965/48845 [10:57:55<6:15:34,  1.26s/it]                                                          {'loss': 1.9798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30965/48845 [10:57:55<6:15:34,  1.26s/it] 63%|██████▎   | 30966/48845 [10:57:56<6:16:02,  1.26s/it] 63%|██████▎   | 30967/48845 [10:57:57<6:15:52,  1.26s/it] 63%|██████▎   | 30968/48845 [10:57:59<6:16:04,  1.26s/it] 63%|██████▎   | 30969/48845 [10:58:00<6:15:36,  1.26s/it] 63%|██████▎   | 30970/48845 [10:58:01<6:15:47,  1.26s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30970/48845 [10:58:01<6:15:47,  1.26s/it] 63%|██████▎   | 30971/48845 [10:58:02<6:15:49,  1.26s/it] 63%|██████▎   | 30972/48845 [10:58:04<6:15:43,  1.26s/it] 63%|██████▎   | 30973/48845 [10:58:05<6:15:47,  1.26s/it] 63%|██████▎   | 30974/48845 [10:58:06<6:15:38,  1.26s/it] 63%|██████▎   | 30975/48845 [10:58:08<6:15:35,  1.26s/it]                                                          {'loss': 1.934, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30975/48845 [10:58:08<6:15:35,  1.26s/it] 63%|██████▎   | 30976/48845 [10:58:09<6:15:41,  1.26s/it] 63%|██████▎   | 30977/48845 [10:58:10<6:15:40,  1.26s/it] 63%|██████▎   | 30978/48845 [10:58:11<6:16:07,  1.26s/it] 63%|██████▎   | 30979/48845 [10:58:13<6:16:07,  1.26s/it] 63%|██████▎   | 30980/48845 [10:58:14<6:15:59,  1.26s/it]                                                          {'loss': 2.0136, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30980/48845 [10:58:14<6:15:59,  1.26s/it] 63%|██████▎   | 30981/48845 [10:58:15<6:15:50,  1.26s/it] 63%|██████▎   | 30982/48845 [10:58:16<6:15:19,  1.26s/it] 63%|██████▎   | 30983/48845 [10:58:18<6:15:30,  1.26s/it] 63%|██████▎   | 30984/48845 [10:58:19<6:15:38,  1.26s/it] 63%|██████▎   | 30985/48845 [10:58:20<6:15:20,  1.26s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30985/48845 [10:58:20<6:15:20,  1.26s/it] 63%|██████▎   | 30986/48845 [10:58:21<6:15:35,  1.26s/it] 63%|██████▎   | 30987/48845 [10:58:23<6:15:28,  1.26s/it] 63%|██████▎   | 30988/48845 [10:58:24<6:15:13,  1.26s/it] 63%|██████▎   | 30989/48845 [10:58:25<6:15:07,  1.26s/it] 63%|██████▎   | 30990/48845 [10:58:26<6:14:55,  1.26s/it]                                                          {'loss': 2.0576, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30990/48845 [10:58:26<6:14:55,  1.26s/it] 63%|██████▎   | 30991/48845 [10:58:28<6:15:35,  1.26s/it] 63%|██████▎   | 30992/48845 [10:58:29<6:15:38,  1.26s/it] 63%|██████▎   | 30993/48845 [10:58:30<6:15:41,  1.26s/it] 63%|██████▎   | 30994/48845 [10:58:31<6:16:00,  1.26s/it] 63%|██████▎   | 30995/48845 [10:58:33<6:15:23,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 30995/48845 [10:58:33<6:15:23,  1.26s/it] 63%|██████▎   | 30996/48845 [10:58:34<6:15:21,  1.26s/it] 63%|██████▎   | 30997/48845 [10:58:35<6:15:30,  1.26s/it] 63%|██████▎   | 30998/48845 [10:58:37<6:15:00,  1.26s/it] 63%|██████▎   | 30999/48845 [10:58:38<6:15:12,  1.26s/it] 63%|██████▎   | 31000/48845 [10:58:39<6:15:24,  1.26s/it]                                                          {'loss': 1.9869, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 31000/48845 [10:58:39<6:15:24,  1.26s/it] 63%|██████▎   | 31001/48845 [10:58:43<9:56:10,  2.00s/it] 63%|██████▎   | 31002/48845 [10:58:44<8:49:51,  1.78s/it] 63%|██████▎   | 31003/48845 [10:58:45<8:03:43,  1.63s/it] 63%|██████▎   | 31004/48845 [10:58:47<7:31:16,  1.52s/it] 63%|██████▎   | 31005/48845 [10:58:48<7:08:17,  1.44s/it]                                                          {'loss': 1.9942, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 31005/48845 [10:58:48<7:08:17,  1.44s/it] 63%|██████▎   | 31006/48845 [10:58:49<6:52:12,  1.39s/it] 63%|██████���   | 31007/48845 [10:58:50<6:41:18,  1.35s/it] 63%|██████▎   | 31008/48845 [10:58:52<6:33:35,  1.32s/it] 63%|██████▎   | 31009/48845 [10:58:53<6:27:37,  1.30s/it] 63%|██████▎   | 31010/48845 [10:58:54<6:23:57,  1.29s/it]                                                          {'loss': 2.0184, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 31010/48845 [10:58:54<6:23:57,  1.29s/it] 63%|██████▎   | 31011/48845 [10:58:55<6:21:14,  1.28s/it] 63%|██████▎   | 31012/48845 [10:58:57<6:19:24,  1.28s/it] 63%|██████▎   | 31013/48845 [10:58:58<6:21:30,  1.28s/it] 63%|██████▎   | 31014/48845 [10:58:59<6:19:39,  1.28s/it] 63%|██████▎   | 31015/48845 [10:59:01<6:18:08,  1.27s/it]                                                          {'loss': 1.8915, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.17}
+ 63%|██████▎   | 31015/48845 [10:59:01<6:18:08,  1.27s/it] 63%|██████▎   | 31016/48845 [10:59:02<6:17:03,  1.27s/it] 64%|██████▎   | 31017/48845 [10:59:03<6:15:58,  1.27s/it] 64%|██████▎   | 31018/48845 [10:59:04<6:15:29,  1.26s/it] 64%|██████▎   | 31019/48845 [10:59:06<6:15:22,  1.26s/it] 64%|██████▎   | 31020/48845 [10:59:07<6:14:54,  1.26s/it]                                                          {'loss': 1.9933, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31020/48845 [10:59:07<6:14:54,  1.26s/it] 64%|██████▎   | 31021/48845 [10:59:08<6:15:01,  1.26s/it] 64%|██████▎   | 31022/48845 [10:59:09<6:14:25,  1.26s/it] 64%|██████▎   | 31023/48845 [10:59:11<6:14:09,  1.26s/it] 64%|██████▎   | 31024/48845 [10:59:12<6:13:51,  1.26s/it] 64%|██████▎   | 31025/48845 [10:59:13<6:13:58,  1.26s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31025/48845 [10:59:13<6:13:58,  1.26s/it] 64%|██████▎   | 31026/48845 [10:59:14<6:14:08,  1.26s/it] 64%|██████▎   | 31027/48845 [10:59:16<6:14:16,  1.26s/it] 64%|██████▎   | 31028/48845 [10:59:17<6:14:04,  1.26s/it] 64%|██████▎   | 31029/48845 [10:59:18<6:13:55,  1.26s/it] 64%|██████▎   | 31030/48845 [10:59:19<6:13:58,  1.26s/it]                                                          {'loss': 2.0809, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31030/48845 [10:59:19<6:13:58,  1.26s/it] 64%|██████▎   | 31031/48845 [10:59:21<6:14:13,  1.26s/it] 64%|██████▎   | 31032/48845 [10:59:22<6:14:01,  1.26s/it] 64%|██████▎   | 31033/48845 [10:59:23<6:13:50,  1.26s/it] 64%|██████▎   | 31034/48845 [10:59:24<6:13:53,  1.26s/it] 64%|██████▎   | 31035/48845 [10:59:26<6:13:49,  1.26s/it]                                                          {'loss': 2.1178, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31035/48845 [10:59:26<6:13:49,  1.26s/it] 64%|██████▎   | 31036/48845 [10:59:27<6:13:46,  1.26s/it] 64%|██████▎   | 31037/48845 [10:59:28<6:13:47,  1.26s/it] 64%|██████▎   | 31038/48845 [10:59:29<6:13:51,  1.26s/it] 64%|██████▎   | 31039/48845 [10:59:31<6:13:49,  1.26s/it] 64%|██████▎   | 31040/48845 [10:59:32<6:13:43,  1.26s/it]                                                          {'loss': 1.9677, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31040/48845 [10:59:32<6:13:43,  1.26s/it] 64%|██████▎   | 31041/48845 [10:59:33<6:14:14,  1.26s/it] 64%|██████▎   | 31042/48845 [10:59:35<6:13:46,  1.26s/it] 64%|██████▎   | 31043/48845 [10:59:36<6:13:41,  1.26s/it] 64%|██████▎   | 31044/48845 [10:59:37<6:13:30,  1.26s/it] 64%|██████▎   | 31045/48845 [10:59:38<6:13:36,  1.26s/it]                                                          {'loss': 1.9886, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31045/48845 [10:59:38<6:13:36,  1.26s/it] 64%|██████▎   | 31046/48845 [10:59:40<6:14:29,  1.26s/it] 64%|██████▎   | 31047/48845 [10:59:41<6:14:44,  1.26s/it] 64%|██████▎   | 31048/48845 [10:59:42<6:14:31,  1.26s/it] 64%|██████▎   | 31049/48845 [10:59:43<6:14:41,  1.26s/it] 64%|██████▎   | 31050/48845 [10:59:45<6:14:34,  1.26s/it]                                                          {'loss': 1.9506, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31050/48845 [10:59:45<6:14:34,  1.26s/it] 64%|██████▎   | 31051/48845 [10:59:46<6:14:26,  1.26s/it] 64%|██████▎   | 31052/48845 [10:59:47<6:14:01,  1.26s/it] 64%|██████▎   | 31053/48845 [10:59:48<6:13:46,  1.26s/it] 64%|██████▎   | 31054/48845 [10:59:50<6:13:46,  1.26s/it] 64%|██████▎   | 31055/48845 [10:59:51<6:13:37,  1.26s/it]                                                          {'loss': 2.1285, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31055/48845 [10:59:51<6:13:37,  1.26s/it] 64%|██████▎   | 31056/48845 [10:59:52<6:13:34,  1.26s/it] 64%|██████▎   | 31057/48845 [10:59:53<6:13:23,  1.26s/it] 64%|██████▎   | 31058/48845 [10:59:55<6:13:34,  1.26s/it] 64%|██████▎   | 31059/48845 [10:59:56<6:13:26,  1.26s/it] 64%|██████▎   | 31060/48845 [10:59:57<6:14:06,  1.26s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31060/48845 [10:59:57<6:14:06,  1.26s/it] 64%|██████▎   | 31061/48845 [10:59:58<6:14:07,  1.26s/it] 64%|██████▎   | 31062/48845 [11:00:00<6:14:17,  1.26s/it] 64%|██████▎   | 31063/48845 [11:00:01<6:14:05,  1.26s/it] 64%|██████▎   | 31064/48845 [11:00:02<6:13:56,  1.26s/it] 64%|██████▎   | 31065/48845 [11:00:04<6:13:55,  1.26s/it]                                                          {'loss': 1.9302, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31065/48845 [11:00:04<6:13:55,  1.26s/it] 64%|██████▎   | 31066/48845 [11:00:05<6:13:49,  1.26s/it] 64%|██████▎   | 31067/48845 [11:00:06<6:13:51,  1.26s/it] 64%|██████▎   | 31068/48845 [11:00:07<6:13:44,  1.26s/it] 64%|██████▎   | 31069/48845 [11:00:09<6:13:46,  1.26s/it] 64%|██████▎   | 31070/48845 [11:00:10<6:13:41,  1.26s/it]                                                          {'loss': 2.0721, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31070/48845 [11:00:10<6:13:41,  1.26s/it] 64%|██████▎   | 31071/48845 [11:00:11<6:13:53,  1.26s/it] 64%|██████▎   | 31072/48845 [11:00:12<6:13:42,  1.26s/it] 64%|██████▎   | 31073/48845 [11:00:14<6:13:34,  1.26s/it] 64%|██████▎   | 31074/48845 [11:00:15<6:13:59,  1.26s/it] 64%|██████▎   | 31075/48845 [11:00:16<6:13:36,  1.26s/it]                                                          {'loss': 2.0, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31075/48845 [11:00:16<6:13:36,  1.26s/it] 64%|██████▎   | 31076/48845 [11:00:17<6:14:24,  1.26s/it] 64%|██████▎   | 31077/48845 [11:00:19<6:14:13,  1.26s/it] 64%|██████▎   | 31078/48845 [11:00:20<6:14:27,  1.26s/it] 64%|██████▎   | 31079/48845 [11:00:21<6:13:55,  1.26s/it] 64%|██████▎   | 31080/48845 [11:00:22<6:13:45,  1.26s/it]                                                          {'loss': 2.0096, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31080/48845 [11:00:22<6:13:45,  1.26s/it] 64%|██████▎   | 31081/48845 [11:00:24<6:13:49,  1.26s/it] 64%|██████▎   | 31082/48845 [11:00:25<6:13:21,  1.26s/it] 64%|██████▎   | 31083/48845 [11:00:26<6:13:22,  1.26s/it] 64%|██████▎   | 31084/48845 [11:00:28<6:24:13,  1.30s/it] 64%|██████▎   | 31085/48845 [11:00:29<6:21:04,  1.29s/it]                                                          {'loss': 1.9003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31085/48845 [11:00:29<6:21:04,  1.29s/it] 64%|██████▎   | 31086/48845 [11:00:30<6:19:03,  1.28s/it] 64%|██████▎   | 31087/48845 [11:00:31<6:17:04,  1.27s/it] 64%|██████▎   | 31088/48845 [11:00:33<6:16:31,  1.27s/it] 64%|██████▎   | 31089/48845 [11:00:34<6:15:21,  1.27s/it] 64%|██████▎   | 31090/48845 [11:00:35<6:14:38,  1.27s/it]                                                          {'loss': 2.0122, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31090/48845 [11:00:35<6:14:38,  1.27s/it] 64%|██████▎   | 31091/48845 [11:00:36<6:14:41,  1.27s/it] 64%|██████▎   | 31092/48845 [11:00:38<6:14:28,  1.27s/it] 64%|██████▎   | 31093/48845 [11:00:39<6:13:56,  1.26s/it] 64%|██████▎   | 31094/48845 [11:00:40<6:13:37,  1.26s/it] 64%|██████▎   | 31095/48845 [11:00:42<6:13:45,  1.26s/it]                                                          {'loss': 1.9817, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31095/48845 [11:00:42<6:13:45,  1.26s/it] 64%|██████▎   | 31096/48845 [11:00:43<6:14:16,  1.27s/it] 64%|██████▎   | 31097/48845 [11:00:44<6:14:18,  1.27s/it] 64%|██████▎   | 31098/48845 [11:00:45<6:14:01,  1.26s/it] 64%|██████▎   | 31099/48845 [11:00:47<6:13:38,  1.26s/it] 64%|██████▎   | 31100/48845 [11:00:48<6:25:59,  1.31s/it]                                                          {'loss': 2.0788, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31100/48845 [11:00:48<6:25:59,  1.31s/it] 64%|██████▎   | 31101/48845 [11:00:49<6:22:34,  1.29s/it] 64%|██████▎   | 31102/48845 [11:00:51<6:19:27,  1.28s/it] 64%|██████▎   | 31103/48845 [11:00:52<6:17:23,  1.28s/it] 64%|██████▎   | 31104/48845 [11:00:53<6:16:09,  1.27s/it] 64%|██████▎   | 31105/48845 [11:00:54<6:15:05,  1.27s/it]                                                          {'loss': 1.856, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31105/48845 [11:00:54<6:15:05,  1.27s/it] 64%|██████▎   | 31106/48845 [11:00:56<6:14:41,  1.27s/it] 64%|██████▎   | 31107/48845 [11:00:57<6:14:07,  1.27s/it] 64%|██████▎   | 31108/48845 [11:00:58<6:14:03,  1.27s/it] 64%|██████▎   | 31109/48845 [11:00:59<6:13:54,  1.26s/it] 64%|██████▎   | 31110/48845 [11:01:01<6:13:22,  1.26s/it]                                                          {'loss': 2.2106, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.18}
+ 64%|██████▎   | 31110/48845 [11:01:01<6:13:22,  1.26s/it] 64%|██████▎   | 31111/48845 [11:01:02<6:13:19,  1.26s/it] 64%|██████▎   | 31112/48845 [11:01:03<6:13:27,  1.26s/it] 64%|██████▎   | 31113/48845 [11:01:04<6:12:52,  1.26s/it] 64%|██████▎   | 31114/48845 [11:01:06<6:13:02,  1.26s/it] 64%|██████▎   | 31115/48845 [11:01:07<6:12:47,  1.26s/it]                                                          {'loss': 2.106, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▎   | 31115/48845 [11:01:07<6:12:47,  1.26s/it] 64%|██████▎   | 31116/48845 [11:01:08<6:13:26,  1.26s/it] 64%|██████▎   | 31117/48845 [11:01:09<6:13:19,  1.26s/it] 64%|██████▎   | 31118/48845 [11:01:11<6:13:03,  1.26s/it] 64%|██████▎   | 31119/48845 [11:01:12<6:12:36,  1.26s/it] 64%|██████▎   | 31120/48845 [11:01:13<6:12:57,  1.26s/it]                                                          {'loss': 1.9829, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▎   | 31120/48845 [11:01:13<6:12:57,  1.26s/it] 64%|██████▎   | 31121/48845 [11:01:14<6:13:08,  1.26s/it] 64%|██████▎   | 31122/48845 [11:01:16<6:12:58,  1.26s/it] 64%|██████▎   | 31123/48845 [11:01:17<6:12:42,  1.26s/it] 64%|██████▎   | 31124/48845 [11:01:18<6:12:55,  1.26s/it] 64%|██████▎   | 31125/48845 [11:01:20<6:12:38,  1.26s/it]                                                          {'loss': 1.9034, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▎   | 31125/48845 [11:01:20<6:12:38,  1.26s/it] 64%|██████▎   | 31126/48845 [11:01:21<6:12:27,  1.26s/it] 64%|██████▎   | 31127/48845 [11:01:22<6:12:56,  1.26s/it] 64%|██████▎   | 31128/48845 [11:01:23<6:12:26,  1.26s/it] 64%|██████▎   | 31129/48845 [11:01:25<6:11:53,  1.26s/it] 64%|██████▎   | 31130/48845 [11:01:26<6:11:44,  1.26s/it]                                                          {'loss': 2.175, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▎   | 31130/48845 [11:01:26<6:11:44,  1.26s/it] 64%|██████▎   | 31131/48845 [11:01:27<6:11:50,  1.26s/it] 64%|██████▎   | 31132/48845 [11:01:28<6:11:53,  1.26s/it] 64%|██████▎   | 31133/48845 [11:01:30<6:12:11,  1.26s/it] 64%|██████▎   | 31134/48845 [11:01:31<6:13:03,  1.26s/it] 64%|██████▎   | 31135/48845 [11:01:32<6:12:44,  1.26s/it]                                                          {'loss': 2.0525, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▎   | 31135/48845 [11:01:32<6:12:44,  1.26s/it] 64%|██████▎   | 31136/48845 [11:01:33<6:12:39,  1.26s/it] 64%|██████▎   | 31137/48845 [11:01:35<6:12:24,  1.26s/it] 64%|██████▎   | 31138/48845 [11:01:36<6:12:23,  1.26s/it] 64%|██████▍   | 31139/48845 [11:01:37<6:12:01,  1.26s/it] 64%|██████▍   | 31140/48845 [11:01:38<6:11:59,  1.26s/it]                                                          {'loss': 2.04, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31140/48845 [11:01:38<6:11:59,  1.26s/it] 64%|█████���▍   | 31141/48845 [11:01:40<6:12:29,  1.26s/it] 64%|██████▍   | 31142/48845 [11:01:41<6:13:04,  1.26s/it] 64%|██████▍   | 31143/48845 [11:01:42<6:12:57,  1.26s/it] 64%|██████▍   | 31144/48845 [11:01:44<6:12:38,  1.26s/it] 64%|██████▍   | 31145/48845 [11:01:45<6:13:01,  1.26s/it]                                                          {'loss': 2.0377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31145/48845 [11:01:45<6:13:01,  1.26s/it] 64%|██████▍   | 31146/48845 [11:01:46<6:12:48,  1.26s/it] 64%|██████▍   | 31147/48845 [11:01:47<6:12:56,  1.26s/it] 64%|██████▍   | 31148/48845 [11:01:49<6:12:35,  1.26s/it] 64%|██████▍   | 31149/48845 [11:01:50<6:12:20,  1.26s/it] 64%|██████▍   | 31150/48845 [11:01:51<6:11:54,  1.26s/it]                                                          {'loss': 1.988, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31150/48845 [11:01:51<6:11:54,  1.26s/it] 64%|██████▍   | 31151/48845 [11:01:52<6:12:06,  1.26s/it] 64%|██████▍   | 31152/48845 [11:01:54<6:12:40,  1.26s/it] 64%|██████▍   | 31153/48845 [11:01:55<6:12:28,  1.26s/it] 64%|██████▍   | 31154/48845 [11:01:56<6:12:02,  1.26s/it] 64%|██████▍   | 31155/48845 [11:01:57<6:12:17,  1.26s/it]                                                          {'loss': 2.174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31155/48845 [11:01:57<6:12:17,  1.26s/it] 64%|██████▍   | 31156/48845 [11:01:59<6:12:14,  1.26s/it] 64%|██████▍   | 31157/48845 [11:02:00<6:11:41,  1.26s/it] 64%|██████▍   | 31158/48845 [11:02:01<6:11:36,  1.26s/it] 64%|██████▍   | 31159/48845 [11:02:02<6:11:43,  1.26s/it] 64%|██████▍   | 31160/48845 [11:02:04<6:12:04,  1.26s/it]                                                          {'loss': 1.9244, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31160/48845 [11:02:04<6:12:04,  1.26s/it] 64%|██████▍   | 31161/48845 [11:02:05<6:12:11,  1.26s/it] 64%|██████▍   | 31162/48845 [11:02:06<6:11:49,  1.26s/it] 64%|██████▍   | 31163/48845 [11:02:07<6:11:30,  1.26s/it] 64%|██████▍   | 31164/48845 [11:02:09<6:11:02,  1.26s/it] 64%|██████▍   | 31165/48845 [11:02:10<6:11:03,  1.26s/it]                                                          {'loss': 2.128, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31165/48845 [11:02:10<6:11:03,  1.26s/it] 64%|██████▍   | 31166/48845 [11:02:11<6:11:46,  1.26s/it] 64%|██████▍   | 31167/48845 [11:02:13<6:12:16,  1.26s/it] 64%|██████▍   | 31168/48845 [11:02:14<6:11:58,  1.26s/it] 64%|██████▍   | 31169/48845 [11:02:15<6:11:38,  1.26s/it] 64%|██████▍   | 31170/48845 [11:02:16<6:11:37,  1.26s/it]                                                          {'loss': 2.1744, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31170/48845 [11:02:16<6:11:37,  1.26s/it] 64%|██████▍   | 31171/48845 [11:02:18<6:11:33,  1.26s/it] 64%|██████▍   | 31172/48845 [11:02:19<6:11:20,  1.26s/it] 64%|██████▍   | 31173/48845 [11:02:20<6:11:20,  1.26s/it] 64%|██████▍   | 31174/48845 [11:02:21<6:11:38,  1.26s/it] 64%|██████▍   | 31175/48845 [11:02:23<6:11:24,  1.26s/it]                                                          {'loss': 2.0469, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31175/48845 [11:02:23<6:11:24,  1.26s/it] 64%|██████▍   | 31176/48845 [11:02:24<6:11:39,  1.26s/it] 64%|██████▍   | 31177/48845 [11:02:25<6:11:42,  1.26s/it] 64%|██████▍   | 31178/48845 [11:02:26<6:11:33,  1.26s/it] 64%|██████▍   | 31179/48845 [11:02:28<6:11:11,  1.26s/it] 64%|██████▍   | 31180/48845 [11:02:29<6:11:44,  1.26s/it]                                                          {'loss': 2.0699, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31180/48845 [11:02:29<6:11:44,  1.26s/it] 64%|██████▍   | 31181/48845 [11:02:30<6:11:45,  1.26s/it] 64%|██████▍   | 31182/48845 [11:02:31<6:11:27,  1.26s/it] 64%|██████▍   | 31183/48845 [11:02:33<6:11:35,  1.26s/it] 64%|██████▍   | 31184/48845 [11:02:34<6:11:44,  1.26s/it] 64%|██████▍   | 31185/48845 [11:02:35<6:11:37,  1.26s/it]                                                          {'loss': 2.0784, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31185/48845 [11:02:35<6:11:37,  1.26s/it] 64%|██████▍   | 31186/48845 [11:02:37<6:11:25,  1.26s/it] 64%|██████▍   | 31187/48845 [11:02:38<6:11:04,  1.26s/it] 64%|██████▍   | 31188/48845 [11:02:39<6:11:29,  1.26s/it] 64%|██████▍   | 31189/48845 [11:02:40<6:11:22,  1.26s/it] 64%|██████▍   | 31190/48845 [11:02:42<6:11:00,  1.26s/it]                                                          {'loss': 2.1123, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31190/48845 [11:02:42<6:11:00,  1.26s/it] 64%|██████▍   | 31191/48845 [11:02:43<6:11:09,  1.26s/it] 64%|██████▍   | 31192/48845 [11:02:44<6:11:25,  1.26s/it] 64%|██████▍   | 31193/48845 [11:02:45<6:11:30,  1.26s/it] 64%|██████▍   | 31194/48845 [11:02:47<6:11:19,  1.26s/it] 64%|██████▍   | 31195/48845 [11:02:48<6:11:08,  1.26s/it]                                                          {'loss': 2.1076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31195/48845 [11:02:48<6:11:08,  1.26s/it] 64%|██████▍   | 31196/48845 [11:02:49<6:10:57,  1.26s/it] 64%|██████▍   | 31197/48845 [11:02:50<6:11:08,  1.26s/it] 64%|██████▍   | 31198/48845 [11:02:52<6:11:26,  1.26s/it] 64%|██████▍   | 31199/48845 [11:02:53<6:11:16,  1.26s/it] 64%|██████▍   | 31200/48845 [11:02:54<6:11:18,  1.26s/it]                                                          {'loss': 2.127, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31200/48845 [11:02:54<6:11:18,  1.26s/it] 64%|██████▍   | 31201/48845 [11:02:58<9:47:19,  2.00s/it] 64%|██████▍   | 31202/48845 [11:02:59<8:42:28,  1.78s/it] 64%|██████▍   | 31203/48845 [11:03:00<7:56:58,  1.62s/it] 64%|██████▍   | 31204/48845 [11:03:02<7:25:41,  1.52s/it] 64%|██████▍   | 31205/48845 [11:03:03<7:03:12,  1.44s/it]                                                          {'loss': 1.9272, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31205/48845 [11:03:03<7:03:12,  1.44s/it] 64%|██████▍   | 31206/48845 [11:03:04<6:47:46,  1.39s/it] 64%|██████▍   | 31207/48845 [11:03:05<6:36:37,  1.35s/it] 64%|██████▍   | 31208/48845 [11:03:07<6:28:48,  1.32s/it] 64%|██████▍   | 31209/48845 [11:03:08<6:23:18,  1.30s/it] 64%|██████▍   | 31210/48845 [11:03:09<6:19:12,  1.29s/it]                                                          {'loss': 2.2651, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.19}
+ 64%|██████▍   | 31210/48845 [11:03:09<6:19:12,  1.29s/it] 64%|██████▍   | 31211/48845 [11:03:11<6:16:55,  1.28s/it] 64%|██████▍   | 31212/48845 [11:03:12<6:15:33,  1.28s/it] 64%|██████▍   | 31213/48845 [11:03:13<6:14:15,  1.27s/it] 64%|██████▍   | 31214/48845 [11:03:14<6:13:11,  1.27s/it] 64%|██████▍   | 31215/48845 [11:03:16<6:13:17,  1.27s/it]                                                          {'loss': 1.9538, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31215/48845 [11:03:16<6:13:17,  1.27s/it] 64%|██████▍   | 31216/48845 [11:03:17<6:12:45,  1.27s/it] 64%|██████▍   | 31217/48845 [11:03:18<6:12:33,  1.27s/it] 64%|██████▍   | 31218/48845 [11:03:19<6:11:52,  1.27s/it] 64%|██████▍   | 31219/48845 [11:03:21<6:11:45,  1.27s/it] 64%|██████▍   | 31220/48845 [11:03:22<6:11:10,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31220/48845 [11:03:22<6:11:10,  1.26s/it] 64%|██████▍   | 31221/48845 [11:03:23<6:10:51,  1.26s/it] 64%|██████▍   | 31222/48845 [11:03:24<6:10:32,  1.26s/it] 64%|██████▍   | 31223/48845 [11:03:26<6:10:36,  1.26s/it] 64%|██████▍   | 31224/48845 [11:03:27<6:10:23,  1.26s/it] 64%|██████▍   | 31225/48845 [11:03:28<6:10:52,  1.26s/it]                                                          {'loss': 1.963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31225/48845 [11:03:28<6:10:52,  1.26s/it] 64%|██████▍   | 31226/48845 [11:03:29<6:10:42,  1.26s/it] 64%|██████▍   | 31227/48845 [11:03:31<6:10:35,  1.26s/it] 64%|██████▍   | 31228/48845 [11:03:32<6:10:23,  1.26s/it] 64%|██████▍   | 31229/48845 [11:03:33<6:10:27,  1.26s/it] 64%|██████▍   | 31230/48845 [11:03:35<6:10:37,  1.26s/it]                                                          {'loss': 2.0708, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31230/48845 [11:03:35<6:10:37,  1.26s/it] 64%|██████▍   | 31231/48845 [11:03:36<6:10:31,  1.26s/it] 64%|██████▍   | 31232/48845 [11:03:37<6:10:06,  1.26s/it] 64%|██████▍   | 31233/48845 [11:03:38<6:10:04,  1.26s/it] 64%|██████▍   | 31234/48845 [11:03:40<6:10:10,  1.26s/it] 64%|██████▍   | 31235/48845 [11:03:41<6:10:09,  1.26s/it]                                                          {'loss': 2.0194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31235/48845 [11:03:41<6:10:09,  1.26s/it] 64%|██████▍   | 31236/48845 [11:03:42<6:10:31,  1.26s/it] 64%|██████▍   | 31237/48845 [11:03:43<6:10:44,  1.26s/it] 64%|██████▍   | 31238/48845 [11:03:45<6:10:40,  1.26s/it] 64%|██████▍   | 31239/48845 [11:03:46<6:10:16,  1.26s/it] 64%|██████▍   | 31240/48845 [11:03:47<6:10:15,  1.26s/it]                                                          {'loss': 1.9643, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31240/48845 [11:03:47<6:10:15,  1.26s/it] 64%|██████▍   | 31241/48845 [11:03:48<6:10:03,  1.26s/it] 64%|██████▍   | 31242/48845 [11:03:50<6:09:42,  1.26s/it] 64%|██████▍   | 31243/48845 [11:03:51<6:09:30,  1.26s/it] 64%|██████▍   | 31244/48845 [11:03:52<6:09:35,  1.26s/it] 64%|██████▍   | 31245/48845 [11:03:53<6:09:33,  1.26s/it]                                                          {'loss': 1.8865, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31245/48845 [11:03:53<6:09:33,  1.26s/it] 64%|██████▍   | 31246/48845 [11:03:55<6:09:38,  1.26s/it] 64%|██████▍   | 31247/48845 [11:03:56<6:09:27,  1.26s/it] 64%|██████▍   | 31248/48845 [11:03:57<6:09:50,  1.26s/it] 64%|██████▍   | 31249/48845 [11:03:58<6:09:47,  1.26s/it] 64%|██████▍   | 31250/48845 [11:04:00<6:09:29,  1.26s/it]                                                          {'loss': 2.0024, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31250/48845 [11:04:00<6:09:29,  1.26s/it] 64%|██████▍   | 31251/48845 [11:04:01<6:09:43,  1.26s/it] 64%|██████▍   | 31252/48845 [11:04:02<6:09:46,  1.26s/it] 64%|██████▍   | 31253/48845 [11:04:04<6:09:34,  1.26s/it] 64%|██████▍   | 31254/48845 [11:04:05<6:09:04,  1.26s/it] 64%|██████▍   | 31255/48845 [11:04:06<6:09:31,  1.26s/it]                                                          {'loss': 2.054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31255/48845 [11:04:06<6:09:31,  1.26s/it] 64%|██████▍   | 31256/48845 [11:04:07<6:09:32,  1.26s/it] 64%|██████▍   | 31257/48845 [11:04:09<6:09:25,  1.26s/it] 64%|██████▍   | 31258/48845 [11:04:10<6:10:05,  1.26s/it] 64%|██████▍   | 31259/48845 [11:04:11<6:09:36,  1.26s/it] 64%|██████▍   | 31260/48845 [11:04:12<6:09:34,  1.26s/it]                                                          {'loss': 1.9969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31260/48845 [11:04:12<6:09:34,  1.26s/it] 64%|██████▍   | 31261/48845 [11:04:14<6:09:41,  1.26s/it] 64%|██████▍   | 31262/48845 [11:04:15<6:09:26,  1.26s/it] 64%|██████▍   | 31263/48845 [11:04:16<6:09:18,  1.26s/it] 64%|██████▍   | 31264/48845 [11:04:17<6:09:12,  1.26s/it] 64%|██████▍   | 31265/48845 [11:04:19<6:09:14,  1.26s/it]                                                          {'loss': 2.1167, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31265/48845 [11:04:19<6:09:14,  1.26s/it] 64%|██████▍   | 31266/48845 [11:04:20<6:09:06,  1.26s/it] 64%|██████▍   | 31267/48845 [11:04:21<6:09:09,  1.26s/it] 64%|██████▍   | 31268/48845 [11:04:22<6:09:07,  1.26s/it] 64%|██████▍   | 31269/48845 [11:04:24<6:08:54,  1.26s/it] 64%|██████▍   | 31270/48845 [11:04:25<6:08:52,  1.26s/it]                                                          {'loss': 2.0482, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31270/48845 [11:04:25<6:08:52,  1.26s/it] 64%|██████▍   | 31271/48845 [11:04:26<6:09:13,  1.26s/it] 64%|██████▍   | 31272/48845 [11:04:27<6:09:17,  1.26s/it] 64%|██████▍   | 31273/48845 [11:04:29<6:09:18,  1.26s/it] 64%|██████▍   | 31274/48845 [11:04:30<6:09:28,  1.26s/it] 64%|██████▍   | 31275/48845 [11:04:31<6:09:18,  1.26s/it]                                                          {'loss': 2.0723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31275/48845 [11:04:31<6:09:18,  1.26s/it] 64%|██████▍   | 31276/48845 [11:04:33<6:09:15,  1.26s/it] 64%|██████▍   | 31277/48845 [11:04:34<6:09:43,  1.26s/it] 64%|██████▍   | 31278/48845 [11:04:35<6:09:34,  1.26s/it] 64%|██████▍   | 31279/48845 [11:04:36<6:09:22,  1.26s/it] 64%|██████▍   | 31280/48845 [11:04:38<6:09:13,  1.26s/it]                                                          {'loss': 2.0637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31280/48845 [11:04:38<6:09:13,  1.26s/it] 64%|██████▍   | 31281/48845 [11:04:39<6:09:05,  1.26s/it] 64%|██████▍   | 31282/48845 [11:04:40<6:08:45,  1.26s/it] 64%|██████▍   | 31283/48845 [11:04:41<6:08:55,  1.26s/it] 64%|██████▍   | 31284/48845 [11:04:43<6:08:45,  1.26s/it] 64%|██████▍   | 31285/48845 [11:04:44<6:08:54,  1.26s/it]                                                          {'loss': 1.9776, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31285/48845 [11:04:44<6:08:54,  1.26s/it] 64%|██████▍   | 31286/48845 [11:04:45<6:08:40,  1.26s/it] 64%|██████▍   | 31287/48845 [11:04:46<6:08:41,  1.26s/it] 64%|██████▍   | 31288/48845 [11:04:48<6:08:56,  1.26s/it] 64%|██████▍   | 31289/48845 [11:04:49<6:08:48,  1.26s/it] 64%|██████▍   | 31290/48845 [11:04:50<6:08:50,  1.26s/it]                                                          {'loss': 2.1304, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31290/48845 [11:04:50<6:08:50,  1.26s/it] 64%|██████▍   | 31291/48845 [11:04:51<6:08:48,  1.26s/it] 64%|██████▍   | 31292/48845 [11:04:53<6:08:58,  1.26s/it] 64%|██████▍   | 31293/48845 [11:04:54<6:08:59,  1.26s/it] 64%|██████▍   | 31294/48845 [11:04:55<6:08:56,  1.26s/it] 64%|██████▍   | 31295/48845 [11:04:56<6:09:15,  1.26s/it]                                                          {'loss': 2.0884, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31295/48845 [11:04:56<6:09:15,  1.26s/it] 64%|██████▍   | 31296/48845 [11:04:58<6:09:02,  1.26s/it] 64%|██████▍   | 31297/48845 [11:04:59<6:08:58,  1.26s/it] 64%|██████▍   | 31298/48845 [11:05:00<6:08:49,  1.26s/it] 64%|██████▍   | 31299/48845 [11:05:02<6:08:38,  1.26s/it] 64%|██████▍   | 31300/48845 [11:05:03<6:08:35,  1.26s/it]                                                          {'loss': 2.0048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31300/48845 [11:05:03<6:08:35,  1.26s/it] 64%|██████▍   | 31301/48845 [11:05:04<6:08:31,  1.26s/it] 64%|██████▍   | 31302/48845 [11:05:05<6:08:23,  1.26s/it] 64%|██████▍   | 31303/48845 [11:05:07<6:08:26,  1.26s/it] 64%|██████▍   | 31304/48845 [11:05:08<6:08:11,  1.26s/it] 64%|██████▍   | 31305/48845 [11:05:09<6:08:20,  1.26s/it]                                                          {'loss': 2.0462, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.2}
+ 64%|██████▍   | 31305/48845 [11:05:09<6:08:20,  1.26s/it] 64%|██████▍   | 31306/48845 [11:05:10<6:08:41,  1.26s/it] 64%|██████▍   | 31307/48845 [11:05:12<6:09:11,  1.26s/it] 64%|██████▍   | 31308/48845 [11:05:13<6:09:05,  1.26s/it] 64%|██████▍   | 31309/48845 [11:05:14<6:08:55,  1.26s/it] 64%|██████▍   | 31310/48845 [11:05:15<6:08:51,  1.26s/it]                                                          {'loss': 2.05, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31310/48845 [11:05:15<6:08:51,  1.26s/it] 64%|██████▍   | 31311/48845 [11:05:17<6:09:20,  1.26s/it] 64%|██████▍   | 31312/48845 [11:05:18<6:09:01,  1.26s/it] 64%|██████▍   | 31313/48845 [11:05:19<6:09:01,  1.26s/it] 64%|██████▍   | 31314/48845 [11:05:20<6:09:23,  1.26s/it] 64%|██████▍   | 31315/48845 [11:05:22<6:08:42,  1.26s/it]                                                          {'loss': 2.0773, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31315/48845 [11:05:22<6:08:42,  1.26s/it] 64%|██████▍   | 31316/48845 [11:05:23<6:20:52,  1.30s/it] 64%|██████▍   | 31317/48845 [11:05:24<6:17:26,  1.29s/it] 64%|██████▍   | 31318/48845 [11:05:26<6:14:33,  1.28s/it] 64%|██████▍   | 31319/48845 [11:05:27<6:12:46,  1.28s/it] 64%|██████▍   | 31320/48845 [11:05:28<6:11:31,  1.27s/it]                                                          {'loss': 1.954, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|█��████▍   | 31320/48845 [11:05:28<6:11:31,  1.27s/it] 64%|██████▍   | 31321/48845 [11:05:29<6:10:23,  1.27s/it] 64%|██████▍   | 31322/48845 [11:05:31<6:09:33,  1.27s/it] 64%|██████▍   | 31323/48845 [11:05:32<6:09:00,  1.26s/it] 64%|██████▍   | 31324/48845 [11:05:33<6:08:38,  1.26s/it] 64%|██████▍   | 31325/48845 [11:05:34<6:08:33,  1.26s/it]                                                          {'loss': 2.15, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31325/48845 [11:05:34<6:08:33,  1.26s/it] 64%|██████▍   | 31326/48845 [11:05:36<6:09:02,  1.26s/it] 64%|██████▍   | 31327/48845 [11:05:37<6:08:41,  1.26s/it] 64%|██████▍   | 31328/48845 [11:05:38<6:08:33,  1.26s/it] 64%|██████▍   | 31329/48845 [11:05:40<6:08:17,  1.26s/it] 64%|██████▍   | 31330/48845 [11:05:41<6:08:00,  1.26s/it]                                                          {'loss': 1.8684, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31330/48845 [11:05:41<6:08:00,  1.26s/it] 64%|██████▍   | 31331/48845 [11:05:42<6:08:00,  1.26s/it] 64%|██████▍   | 31332/48845 [11:05:43<6:08:01,  1.26s/it] 64%|██████▍   | 31333/48845 [11:05:45<6:07:52,  1.26s/it] 64%|██████▍   | 31334/48845 [11:05:46<6:07:45,  1.26s/it] 64%|██████▍   | 31335/48845 [11:05:47<6:07:41,  1.26s/it]                                                          {'loss': 2.1318, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31335/48845 [11:05:47<6:07:41,  1.26s/it] 64%|██████▍   | 31336/48845 [11:05:48<6:07:46,  1.26s/it] 64%|██████▍   | 31337/48845 [11:05:50<6:07:29,  1.26s/it] 64%|██████▍   | 31338/48845 [11:05:51<6:07:14,  1.26s/it] 64%|██████▍   | 31339/48845 [11:05:52<6:07:17,  1.26s/it] 64%|██████▍   | 31340/48845 [11:05:53<6:07:13,  1.26s/it]                                                          {'loss': 2.0401, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31340/48845 [11:05:53<6:07:13,  1.26s/it] 64%|██████▍   | 31341/48845 [11:05:55<6:07:17,  1.26s/it] 64%|██████▍   | 31342/48845 [11:05:56<6:07:17,  1.26s/it] 64%|██████▍   | 31343/48845 [11:05:57<6:07:38,  1.26s/it] 64%|██████▍   | 31344/48845 [11:05:58<6:07:26,  1.26s/it] 64%|██████▍   | 31345/48845 [11:06:00<6:07:47,  1.26s/it]                                                          {'loss': 2.0326, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31345/48845 [11:06:00<6:07:47,  1.26s/it] 64%|██████▍   | 31346/48845 [11:06:01<6:07:29,  1.26s/it] 64%|██████▍   | 31347/48845 [11:06:02<6:20:08,  1.30s/it] 64%|██████▍   | 31348/48845 [11:06:04<6:16:16,  1.29s/it] 64%|██████▍   | 31349/48845 [11:06:05<6:13:13,  1.28s/it] 64%|██████▍   | 31350/48845 [11:06:06<6:11:14,  1.27s/it]                                                          {'loss': 1.935, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31350/48845 [11:06:06<6:11:14,  1.27s/it] 64%|██████▍   | 31351/48845 [11:06:07<6:10:04,  1.27s/it] 64%|██████▍   | 31352/48845 [11:06:09<6:09:24,  1.27s/it] 64%|██████▍   | 31353/48845 [11:06:10<6:08:35,  1.26s/it] 64%|██████▍   | 31354/48845 [11:06:11<6:08:10,  1.26s/it] 64%|██████▍   | 31355/48845 [11:06:12<6:08:04,  1.26s/it]                                                          {'loss': 1.8691, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31355/48845 [11:06:12<6:08:04,  1.26s/it] 64%|██████▍   | 31356/48845 [11:06:14<6:08:00,  1.26s/it] 64%|██████▍   | 31357/48845 [11:06:15<6:07:47,  1.26s/it] 64%|██████▍   | 31358/48845 [11:06:16<6:07:34,  1.26s/it] 64%|██████▍   | 31359/48845 [11:06:17<6:07:15,  1.26s/it] 64%|██████▍   | 31360/48845 [11:06:19<6:07:10,  1.26s/it]                                                          {'loss': 2.077, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31360/48845 [11:06:19<6:07:10,  1.26s/it] 64%|██████▍   | 31361/48845 [11:06:20<6:07:13,  1.26s/it] 64%|██████▍   | 31362/48845 [11:06:21<6:07:23,  1.26s/it] 64%|██████▍   | 31363/48845 [11:06:22<6:07:38,  1.26s/it] 64%|██████▍   | 31364/48845 [11:06:24<6:07:36,  1.26s/it] 64%|██████▍   | 31365/48845 [11:06:25<6:07:31,  1.26s/it]                                                          {'loss': 2.0983, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31365/48845 [11:06:25<6:07:31,  1.26s/it] 64%|██████▍   | 31366/48845 [11:06:26<6:07:27,  1.26s/it] 64%|██████▍   | 31367/48845 [11:06:28<6:07:18,  1.26s/it] 64%|██████▍   | 31368/48845 [11:06:29<6:07:07,  1.26s/it] 64%|██████▍   | 31369/48845 [11:06:30<6:07:00,  1.26s/it] 64%|██████▍   | 31370/48845 [11:06:31<6:06:40,  1.26s/it]                                                          {'loss': 2.1616, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31370/48845 [11:06:31<6:06:40,  1.26s/it] 64%|██████▍   | 31371/48845 [11:06:33<6:06:52,  1.26s/it] 64%|██████▍   | 31372/48845 [11:06:34<6:06:53,  1.26s/it] 64%|██████▍   | 31373/48845 [11:06:35<6:07:03,  1.26s/it] 64%|██████▍   | 31374/48845 [11:06:36<6:07:08,  1.26s/it] 64%|██████▍   | 31375/48845 [11:06:38<6:06:43,  1.26s/it]                                                          {'loss': 2.1504, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31375/48845 [11:06:38<6:06:43,  1.26s/it] 64%|██████▍   | 31376/48845 [11:06:39<6:06:52,  1.26s/it] 64%|██████▍   | 31377/48845 [11:06:40<6:06:57,  1.26s/it] 64%|██████▍   | 31378/48845 [11:06:41<6:06:41,  1.26s/it] 64%|██████▍   | 31379/48845 [11:06:43<6:06:50,  1.26s/it] 64%|██████▍   | 31380/48845 [11:06:44<6:06:31,  1.26s/it]                                                          {'loss': 2.0667, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31380/48845 [11:06:44<6:06:31,  1.26s/it] 64%|██████▍   | 31381/48845 [11:06:45<6:08:02,  1.26s/it] 64%|██████▍   | 31382/48845 [11:06:46<6:07:41,  1.26s/it] 64%|██████▍   | 31383/48845 [11:06:48<6:07:10,  1.26s/it] 64%|██████▍   | 31384/48845 [11:06:49<6:07:09,  1.26s/it] 64%|██████▍   | 31385/48845 [11:06:50<6:07:07,  1.26s/it]                                                          {'loss': 2.1241, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31385/48845 [11:06:50<6:07:07,  1.26s/it] 64%|██████▍   | 31386/48845 [11:06:51<6:07:52,  1.26s/it] 64%|██████▍   | 31387/48845 [11:06:53<6:07:40,  1.26s/it] 64%|██████▍   | 31388/48845 [11:06:54<6:07:39,  1.26s/it] 64%|██████▍   | 31389/48845 [11:06:55<6:07:23,  1.26s/it] 64%|██████▍   | 31390/48845 [11:06:57<6:06:58,  1.26s/it]                                                          {'loss': 1.9057, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31390/48845 [11:06:57<6:06:58,  1.26s/it] 64%|██████▍   | 31391/48845 [11:06:58<6:06:37,  1.26s/it] 64%|██████▍   | 31392/48845 [11:06:59<6:06:41,  1.26s/it] 64%|██████▍   | 31393/48845 [11:07:00<6:06:52,  1.26s/it] 64%|██████▍   | 31394/48845 [11:07:02<6:06:58,  1.26s/it] 64%|██████▍   | 31395/48845 [11:07:03<6:06:37,  1.26s/it]                                                          {'loss': 2.0432, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31395/48845 [11:07:03<6:06:37,  1.26s/it] 64%|██████▍   | 31396/48845 [11:07:04<6:07:00,  1.26s/it] 64%|██████▍   | 31397/48845 [11:07:05<6:07:17,  1.26s/it] 64%|██████▍   | 31398/48845 [11:07:07<6:07:19,  1.26s/it] 64%|██████▍   | 31399/48845 [11:07:08<6:07:26,  1.26s/it] 64%|██████▍   | 31400/48845 [11:07:09<6:07:08,  1.26s/it]                                                          {'loss': 1.9981, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31400/48845 [11:07:09<6:07:08,  1.26s/it] 64%|██████▍   | 31401/48845 [11:07:13<9:50:13,  2.03s/it] 64%|██████▍   | 31402/48845 [11:07:14<8:43:04,  1.80s/it] 64%|██████▍   | 31403/48845 [11:07:16<7:56:07,  1.64s/it] 64%|██████▍   | 31404/48845 [11:07:17<7:23:14,  1.52s/it] 64%|██████▍   | 31405/48845 [11:07:18<7:00:29,  1.45s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.21}
+ 64%|██████▍   | 31405/48845 [11:07:18<7:00:29,  1.45s/it] 64%|██████▍   | 31406/48845 [11:07:19<6:45:07,  1.39s/it] 64%|██████▍   | 31407/48845 [11:07:21<6:33:53,  1.36s/it] 64%|██████▍   | 31408/48845 [11:07:22<6:25:46,  1.33s/it] 64%|██████▍   | 31409/48845 [11:07:23<6:19:53,  1.31s/it] 64%|██████▍   | 31410/48845 [11:07:24<6:15:52,  1.29s/it]                                                          {'loss': 2.0034, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31410/48845 [11:07:24<6:15:52,  1.29s/it] 64%|██████▍   | 31411/48845 [11:07:26<6:13:37,  1.29s/it] 64%|██████▍   | 31412/48845 [11:07:27<6:11:18,  1.28s/it] 64%|██████▍   | 31413/48845 [11:07:28<6:09:43,  1.27s/it] 64%|██████▍   | 31414/48845 [11:07:29<6:08:51,  1.27s/it] 64%|██████▍   | 31415/48845 [11:07:31<6:08:14,  1.27s/it]                                                          {'loss': 2.1279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31415/48845 [11:07:31<6:08:14,  1.27s/it] 64%|██████▍   | 31416/48845 [11:07:32<6:07:40,  1.27s/it] 64%|██████▍   | 31417/48845 [11:07:33<6:07:31,  1.27s/it] 64%|██████▍   | 31418/48845 [11:07:34<6:07:08,  1.26s/it] 64%|██████▍   | 31419/48845 [11:07:36<6:06:42,  1.26s/it] 64%|██████▍   | 31420/48845 [11:07:37<6:06:30,  1.26s/it]                                                          {'loss': 2.1402, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31420/48845 [11:07:37<6:06:30,  1.26s/it] 64%|██████▍   | 31421/48845 [11:07:38<6:06:54,  1.26s/it] 64%|██████▍   | 31422/48845 [11:07:39<6:06:56,  1.26s/it] 64%|██████▍   | 31423/48845 [11:07:41<6:06:46,  1.26s/it] 64%|██████▍   | 31424/48845 [11:07:42<6:06:39,  1.26s/it] 64%|██████▍   | 31425/48845 [11:07:43<6:06:18,  1.26s/it]                                                          {'loss': 1.9813, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31425/48845 [11:07:43<6:06:18,  1.26s/it] 64%|██████▍   | 31426/48845 [11:07:45<6:06:08,  1.26s/it] 64%|██████▍   | 31427/48845 [11:07:46<6:06:09,  1.26s/it] 64%|██████▍   | 31428/48845 [11:07:47<6:06:00,  1.26s/it] 64%|██████▍   | 31429/48845 [11:07:48<6:05:49,  1.26s/it] 64%|██████▍   | 31430/48845 [11:07:50<6:05:44,  1.26s/it]                                                          {'loss': 1.9908, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31430/48845 [11:07:50<6:05:44,  1.26s/it] 64%|██████▍   | 31431/48845 [11:07:51<6:05:38,  1.26s/it] 64%|██████▍   | 31432/48845 [11:07:52<6:05:55,  1.26s/it] 64%|██████▍   | 31433/48845 [11:07:53<6:05:21,  1.26s/it] 64%|██████▍   | 31434/48845 [11:07:55<6:05:33,  1.26s/it] 64%|██████▍   | 31435/48845 [11:07:56<6:05:31,  1.26s/it]                                                          {'loss': 1.9881, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31435/48845 [11:07:56<6:05:31,  1.26s/it] 64%|██████▍   | 31436/48845 [11:07:57<6:05:40,  1.26s/it] 64%|██████▍   | 31437/48845 [11:07:58<6:05:49,  1.26s/it] 64%|██████▍   | 31438/48845 [11:08:00<6:05:45,  1.26s/it] 64%|██████▍   | 31439/48845 [11:08:01<6:05:46,  1.26s/it] 64%|██████▍   | 31440/48845 [11:08:02<6:05:57,  1.26s/it]                                                          {'loss': 2.1166, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31440/48845 [11:08:02<6:05:57,  1.26s/it] 64%|██████▍   | 31441/48845 [11:08:03<6:06:03,  1.26s/it] 64%|██████▍   | 31442/48845 [11:08:05<6:06:02,  1.26s/it] 64%|██████▍   | 31443/48845 [11:08:06<6:05:53,  1.26s/it] 64%|██████▍   | 31444/48845 [11:08:07<6:05:55,  1.26s/it] 64%|██████▍   | 31445/48845 [11:08:09<6:06:04,  1.26s/it]                                                          {'loss': 2.0674, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31445/48845 [11:08:09<6:06:04,  1.26s/it] 64%|██████▍   | 31446/48845 [11:08:10<6:06:05,  1.26s/it] 64%|██████▍   | 31447/48845 [11:08:11<6:06:01,  1.26s/it] 64%|██████▍   | 31448/48845 [11:08:12<6:05:54,  1.26s/it] 64%|██████▍   | 31449/48845 [11:08:14<6:05:54,  1.26s/it] 64%|██████▍   | 31450/48845 [11:08:15<6:06:04,  1.26s/it]                                                          {'loss': 2.0916, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31450/48845 [11:08:15<6:06:04,  1.26s/it] 64%|██████▍   | 31451/48845 [11:08:16<6:05:46,  1.26s/it] 64%|██████▍   | 31452/48845 [11:08:17<6:05:36,  1.26s/it] 64%|██████▍   | 31453/48845 [11:08:19<6:05:34,  1.26s/it] 64%|██████▍   | 31454/48845 [11:08:20<6:05:33,  1.26s/it] 64%|██████▍   | 31455/48845 [11:08:21<6:05:56,  1.26s/it]                                                          {'loss': 2.1365, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31455/48845 [11:08:21<6:05:56,  1.26s/it] 64%|██████▍   | 31456/48845 [11:08:22<6:05:54,  1.26s/it] 64%|██████▍   | 31457/48845 [11:08:24<6:06:13,  1.26s/it] 64%|██████▍   | 31458/48845 [11:08:25<6:06:06,  1.26s/it] 64%|██████▍   | 31459/48845 [11:08:26<6:05:44,  1.26s/it] 64%|██████▍   | 31460/48845 [11:08:27<6:05:23,  1.26s/it]                                                          {'loss': 1.9434, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31460/48845 [11:08:27<6:05:23,  1.26s/it] 64%|██████▍   | 31461/48845 [11:08:29<6:05:17,  1.26s/it] 64%|██████▍   | 31462/48845 [11:08:30<6:05:13,  1.26s/it] 64%|██████▍   | 31463/48845 [11:08:31<6:04:57,  1.26s/it] 64%|██████▍   | 31464/48845 [11:08:32<6:05:01,  1.26s/it] 64%|██████▍   | 31465/48845 [11:08:34<6:04:52,  1.26s/it]                                                          {'loss': 2.0028, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31465/48845 [11:08:34<6:04:52,  1.26s/it] 64%|██████▍   | 31466/48845 [11:08:35<6:05:23,  1.26s/it] 64%|██████▍   | 31467/48845 [11:08:36<6:05:14,  1.26s/it] 64%|██████▍   | 31468/48845 [11:08:38<6:05:13,  1.26s/it] 64%|██████▍   | 31469/48845 [11:08:39<6:05:11,  1.26s/it] 64%|██████▍   | 31470/48845 [11:08:40<6:05:01,  1.26s/it]                                                          {'loss': 2.1845, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31470/48845 [11:08:40<6:05:01,  1.26s/it] 64%|██████▍   | 31471/48845 [11:08:41<6:05:02,  1.26s/it] 64%|██████▍   | 31472/48845 [11:08:43<6:05:05,  1.26s/it] 64%|██████▍   | 31473/48845 [11:08:44<6:05:28,  1.26s/it] 64%|██████▍   | 31474/48845 [11:08:45<6:05:24,  1.26s/it] 64%|██████▍   | 31475/48845 [11:08:46<6:05:12,  1.26s/it]                                                          {'loss': 1.9616, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31475/48845 [11:08:46<6:05:12,  1.26s/it] 64%|██████▍   | 31476/48845 [11:08:48<6:05:05,  1.26s/it] 64%|██████▍   | 31477/48845 [11:08:49<6:05:02,  1.26s/it] 64%|██████▍   | 31478/48845 [11:08:50<6:05:16,  1.26s/it] 64%|██████▍   | 31479/48845 [11:08:51<6:05:29,  1.26s/it] 64%|██████▍   | 31480/48845 [11:08:53<6:05:29,  1.26s/it]                                                          {'loss': 1.9171, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31480/48845 [11:08:53<6:05:29,  1.26s/it] 64%|██████▍   | 31481/48845 [11:08:54<6:05:17,  1.26s/it] 64%|██████▍   | 31482/48845 [11:08:55<6:05:32,  1.26s/it] 64%|██████▍   | 31483/48845 [11:08:56<6:05:40,  1.26s/it] 64%|██████▍   | 31484/48845 [11:08:58<6:05:40,  1.26s/it] 64%|██████▍   | 31485/48845 [11:08:59<6:05:55,  1.26s/it]                                                          {'loss': 1.9445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31485/48845 [11:08:59<6:05:55,  1.26s/it] 64%|██████▍   | 31486/48845 [11:09:00<6:05:35,  1.26s/it] 64%|██████▍   | 31487/48845 [11:09:02<6:05:41,  1.26s/it] 64%|██████▍   | 31488/48845 [11:09:03<6:05:21,  1.26s/it] 64%|██████▍   | 31489/48845 [11:09:04<6:04:58,  1.26s/it] 64%|██████▍   | 31490/48845 [11:09:05<6:04:44,  1.26s/it]                                                          {'loss': 2.0464, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31490/48845 [11:09:05<6:04:44,  1.26s/it] 64%|██████▍   | 31491/48845 [11:09:07<6:04:45,  1.26s/it] 64%|██████▍   | 31492/48845 [11:09:08<6:04:36,  1.26s/it] 64%|██████▍   | 31493/48845 [11:09:09<6:16:50,  1.30s/it] 64%|██████▍   | 31494/48845 [11:09:10<6:13:46,  1.29s/it] 64%|██████▍   | 31495/48845 [11:09:12<6:10:56,  1.28s/it]                                                          {'loss': 2.0052, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31495/48845 [11:09:12<6:10:56,  1.28s/it] 64%|██████▍   | 31496/48845 [11:09:13<6:09:10,  1.28s/it] 64%|██████▍   | 31497/48845 [11:09:14<6:07:50,  1.27s/it] 64%|██████▍   | 31498/48845 [11:09:16<6:06:34,  1.27s/it] 64%|██████▍   | 31499/48845 [11:09:17<6:05:50,  1.27s/it] 64%|██████▍   | 31500/48845 [11:09:18<6:05:39,  1.26s/it]                                                          {'loss': 2.1704, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31500/48845 [11:09:18<6:05:39,  1.26s/it] 64%|██████▍   | 31501/48845 [11:09:19<6:05:34,  1.26s/it] 64%|██████▍   | 31502/48845 [11:09:21<6:05:28,  1.26s/it] 64%|██████▍   | 31503/48845 [11:09:22<6:05:17,  1.26s/it] 64%|██████▍   | 31504/48845 [11:09:23<6:04:44,  1.26s/it] 64%|██████▍   | 31505/48845 [11:09:24<6:04:39,  1.26s/it]                                                          {'loss': 2.1626, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.22}
+ 64%|██████▍   | 31505/48845 [11:09:24<6:04:39,  1.26s/it] 65%|██████▍   | 31506/48845 [11:09:26<6:04:33,  1.26s/it] 65%|██████▍   | 31507/48845 [11:09:27<6:04:40,  1.26s/it] 65%|██████▍   | 31508/48845 [11:09:28<6:04:39,  1.26s/it] 65%|██████▍   | 31509/48845 [11:09:29<6:04:23,  1.26s/it] 65%|██████▍   | 31510/48845 [11:09:31<6:04:25,  1.26s/it]                                                          {'loss': 1.9248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31510/48845 [11:09:31<6:04:25,  1.26s/it] 65%|██████▍   | 31511/48845 [11:09:32<6:04:12,  1.26s/it] 65%|██████▍   | 31512/48845 [11:09:33<6:04:24,  1.26s/it] 65%|██████▍   | 31513/48845 [11:09:34<6:04:17,  1.26s/it] 65%|██████▍   | 31514/48845 [11:09:36<6:04:07,  1.26s/it] 65%|██████▍   | 31515/48845 [11:09:37<6:04:14,  1.26s/it]                                                          {'loss': 2.0361, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31515/48845 [11:09:37<6:04:14,  1.26s/it] 65%|██████▍   | 31516/48845 [11:09:38<6:04:19,  1.26s/it] 65%|██████▍   | 31517/48845 [11:09:39<6:04:39,  1.26s/it] 65%|██████▍   | 31518/48845 [11:09:41<6:04:26,  1.26s/it] 65%|██████▍   | 31519/48845 [11:09:42<6:20:16,  1.32s/it] 65%|██████▍   | 31520/48845 [11:09:43<6:15:26,  1.30s/it]                                                          {'loss': 2.001, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31520/48845 [11:09:43<6:15:26,  1.30s/it] 65%|██████▍   | 31521/48845 [11:09:45<6:12:04,  1.29s/it] 65%|██████▍   | 31522/48845 [11:09:46<6:09:38,  1.28s/it] 65%|██████▍   | 31523/48845 [11:09:47<6:08:17,  1.28s/it] 65%|██████▍   | 31524/48845 [11:09:49<6:06:56,  1.27s/it] 65%|██████▍   | 31525/48845 [11:09:50<6:06:07,  1.27s/it]                                                          {'loss': 1.9723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31525/48845 [11:09:50<6:06:07,  1.27s/it] 65%|██████▍   | 31526/48845 [11:09:51<6:05:26,  1.27s/it] 65%|██████▍   | 31527/48845 [11:09:52<6:05:07,  1.27s/it] 65%|██████▍   | 31528/48845 [11:09:54<6:04:38,  1.26s/it] 65%|██████▍   | 31529/48845 [11:09:55<6:04:26,  1.26s/it] 65%|██████▍   | 31530/48845 [11:09:56<6:04:14,  1.26s/it]                                                          {'loss': 1.9943, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31530/48845 [11:09:56<6:04:14,  1.26s/it] 65%|██████▍   | 31531/48845 [11:09:57<6:04:10,  1.26s/it] 65%|██████▍   | 31532/48845 [11:09:59<6:04:00,  1.26s/it] 65%|██████▍   | 31533/48845 [11:10:00<6:04:06,  1.26s/it] 65%|██████▍   | 31534/48845 [11:10:01<6:03:54,  1.26s/it] 65%|██████▍   | 31535/48845 [11:10:02<6:04:08,  1.26s/it]                                                          {'loss': 1.9814, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31535/48845 [11:10:02<6:04:08,  1.26s/it] 65%|██████▍   | 31536/48845 [11:10:04<6:04:21,  1.26s/it] 65%|██████▍   | 31537/48845 [11:10:05<6:04:02,  1.26s/it] 65%|██████▍   | 31538/48845 [11:10:06<6:04:15,  1.26s/it] 65%|██████▍   | 31539/48845 [11:10:07<6:04:32,  1.26s/it] 65%|██████▍   | 31540/48845 [11:10:09<6:04:12,  1.26s/it]                                                          {'loss': 2.21, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31540/48845 [11:10:09<6:04:12,  1.26s/it] 65%|██████▍   | 31541/48845 [11:10:10<6:04:24,  1.26s/it] 65%|██████▍   | 31542/48845 [11:10:11<6:04:10,  1.26s/it] 65%|██████▍   | 31543/48845 [11:10:12<6:04:21,  1.26s/it] 65%|██████▍   | 31544/48845 [11:10:14<6:04:10,  1.26s/it] 65%|██████▍   | 31545/48845 [11:10:15<6:04:15,  1.26s/it]                                                          {'loss': 2.0978, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31545/48845 [11:10:15<6:04:15,  1.26s/it] 65%|██████▍   | 31546/48845 [11:10:16<6:04:32,  1.26s/it] 65%|██████▍   | 31547/48845 [11:10:18<6:04:19,  1.26s/it] 65%|██████▍   | 31548/48845 [11:10:19<6:04:06,  1.26s/it] 65%|██████▍   | 31549/48845 [11:10:20<6:03:59,  1.26s/it] 65%|██████▍   | 31550/48845 [11:10:21<6:03:37,  1.26s/it]                                                          {'loss': 2.0802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31550/48845 [11:10:21<6:03:37,  1.26s/it] 65%|██████▍   | 31551/48845 [11:10:23<6:03:39,  1.26s/it] 65%|██████▍   | 31552/48845 [11:10:24<6:03:40,  1.26s/it] 65%|██████▍   | 31553/48845 [11:10:25<6:03:55,  1.26s/it] 65%|██████▍   | 31554/48845 [11:10:26<6:04:08,  1.26s/it] 65%|██████▍   | 31555/48845 [11:10:28<6:03:41,  1.26s/it]                                                          {'loss': 1.9281, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31555/48845 [11:10:28<6:03:41,  1.26s/it] 65%|██████▍   | 31556/48845 [11:10:29<6:04:00,  1.26s/it] 65%|██████▍   | 31557/48845 [11:10:30<6:04:04,  1.26s/it] 65%|██████▍   | 31558/48845 [11:10:31<6:03:53,  1.26s/it] 65%|██████▍   | 31559/48845 [11:10:33<6:03:37,  1.26s/it] 65%|██████▍   | 31560/48845 [11:10:34<6:03:42,  1.26s/it]                                                          {'loss': 1.926, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31560/48845 [11:10:34<6:03:42,  1.26s/it] 65%|██████▍   | 31561/48845 [11:10:35<6:03:58,  1.26s/it] 65%|██████▍   | 31562/48845 [11:10:36<6:03:59,  1.26s/it] 65%|██████▍   | 31563/48845 [11:10:38<6:04:07,  1.26s/it] 65%|██████▍   | 31564/48845 [11:10:39<6:04:00,  1.26s/it] 65%|██████▍   | 31565/48845 [11:10:40<6:03:59,  1.26s/it]                                                          {'loss': 2.0592, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31565/48845 [11:10:40<6:03:59,  1.26s/it] 65%|██████▍   | 31566/48845 [11:10:42<6:04:29,  1.27s/it] 65%|██████▍   | 31567/48845 [11:10:43<6:04:07,  1.26s/it] 65%|██████▍   | 31568/48845 [11:10:44<6:03:41,  1.26s/it] 65%|██████▍   | 31569/48845 [11:10:45<6:03:27,  1.26s/it] 65%|██████▍   | 31570/48845 [11:10:47<6:03:30,  1.26s/it]                                                          {'loss': 2.025, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31570/48845 [11:10:47<6:03:30,  1.26s/it] 65%|██████▍   | 31571/48845 [11:10:48<6:03:41,  1.26s/it] 65%|██████▍   | 31572/48845 [11:10:49<6:03:43,  1.26s/it] 65%|██████▍   | 31573/48845 [11:10:50<6:03:45,  1.26s/it] 65%|██████▍   | 31574/48845 [11:10:52<6:03:45,  1.26s/it] 65%|██████▍   | 31575/48845 [11:10:53<6:03:24,  1.26s/it]                                                          {'loss': 2.008, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31575/48845 [11:10:53<6:03:24,  1.26s/it] 65%|██████▍   | 31576/48845 [11:10:54<6:03:21,  1.26s/it] 65%|██████▍   | 31577/48845 [11:10:55<6:03:36,  1.26s/it] 65%|██████▍   | 31578/48845 [11:10:57<6:03:09,  1.26s/it] 65%|██████▍   | 31579/48845 [11:10:58<6:03:04,  1.26s/it] 65%|██████▍   | 31580/48845 [11:10:59<6:03:04,  1.26s/it]                                                          {'loss': 1.9356, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31580/48845 [11:10:59<6:03:04,  1.26s/it] 65%|██████▍   | 31581/48845 [11:11:00<6:03:18,  1.26s/it] 65%|██████▍   | 31582/48845 [11:11:02<6:03:17,  1.26s/it] 65%|██████▍   | 31583/48845 [11:11:03<6:03:33,  1.26s/it] 65%|██████▍   | 31584/48845 [11:11:04<6:04:00,  1.27s/it] 65%|██████▍   | 31585/48845 [11:11:06<6:03:51,  1.26s/it]                                                          {'loss': 2.0094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31585/48845 [11:11:06<6:03:51,  1.26s/it] 65%|██████▍   | 31586/48845 [11:11:07<6:04:23,  1.27s/it] 65%|██████▍   | 31587/48845 [11:11:08<6:03:57,  1.27s/it] 65%|██████▍   | 31588/48845 [11:11:09<6:03:48,  1.26s/it] 65%|██████▍   | 31589/48845 [11:11:11<6:03:23,  1.26s/it] 65%|██████▍   | 31590/48845 [11:11:12<6:03:08,  1.26s/it]                                                          {'loss': 1.9148, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31590/48845 [11:11:12<6:03:08,  1.26s/it] 65%|██████▍   | 31591/48845 [11:11:13<6:03:26,  1.26s/it] 65%|██████▍   | 31592/48845 [11:11:14<6:03:16,  1.26s/it] 65%|██████▍   | 31593/48845 [11:11:16<6:03:08,  1.26s/it] 65%|██████▍   | 31594/48845 [11:11:17<6:02:58,  1.26s/it] 65%|██████▍   | 31595/48845 [11:11:18<6:02:58,  1.26s/it]                                                          {'loss': 2.0097, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31595/48845 [11:11:18<6:02:58,  1.26s/it] 65%|██████▍   | 31596/48845 [11:11:19<6:02:52,  1.26s/it] 65%|██████▍   | 31597/48845 [11:11:21<6:02:32,  1.26s/it] 65%|██████▍   | 31598/48845 [11:11:22<6:02:24,  1.26s/it] 65%|██████▍   | 31599/48845 [11:11:23<6:02:17,  1.26s/it] 65%|██████▍   | 31600/48845 [11:11:24<6:02:08,  1.26s/it]                                                          {'loss': 2.0516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.23}
+ 65%|██████▍   | 31600/48845 [11:11:24<6:02:08,  1.26s/it] 65%|██████▍   | 31601/48845 [11:11:28<9:36:10,  2.00s/it] 65%|██████▍   | 31602/48845 [11:11:29<8:32:02,  1.78s/it] 65%|██████▍   | 31603/48845 [11:11:31<7:47:19,  1.63s/it] 65%|██████▍   | 31604/48845 [11:11:32<7:15:27,  1.52s/it] 65%|██████▍   | 31605/48845 [11:11:33<6:53:21,  1.44s/it]                                                          {'loss': 2.1986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31605/48845 [11:11:33<6:53:21,  1.44s/it] 65%|██████▍   | 31606/48845 [11:11:35<6:38:14,  1.39s/it] 65%|██████▍   | 31607/48845 [11:11:36<6:27:56,  1.35s/it] 65%|██████▍   | 31608/48845 [11:11:37<6:20:14,  1.32s/it] 65%|██████▍   | 31609/48845 [11:11:38<6:15:20,  1.31s/it] 65%|██████▍   | 31610/48845 [11:11:40<6:11:25,  1.29s/it]                                                          {'loss': 2.0314, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31610/48845 [11:11:40<6:11:25,  1.29s/it] 65%|██████▍   | 31611/48845 [11:11:41<6:08:44,  1.28s/it] 65%|██████▍   | 31612/48845 [11:11:42<6:07:15,  1.28s/it] 65%|██████▍   | 31613/48845 [11:11:43<6:05:39,  1.27s/it] 65%|██████▍   | 31614/48845 [11:11:45<6:04:45,  1.27s/it] 65%|██████▍   | 31615/48845 [11:11:46<6:03:41,  1.27s/it]                                                          {'loss': 2.0676, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31615/48845 [11:11:46<6:03:41,  1.27s/it] 65%|██████▍   | 31616/48845 [11:11:47<6:03:49,  1.27s/it] 65%|██████▍   | 31617/48845 [11:11:48<6:03:24,  1.27s/it] 65%|██████▍   | 31618/48845 [11:11:50<6:03:23,  1.27s/it] 65%|██████▍   | 31619/48845 [11:11:51<6:03:32,  1.27s/it] 65%|██████▍   | 31620/48845 [11:11:52<6:03:21,  1.27s/it]                                                          {'loss': 2.0531, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31620/48845 [11:11:52<6:03:21,  1.27s/it] 65%|██████▍   | 31621/48845 [11:11:53<6:02:44,  1.26s/it] 65%|██████▍   | 31622/48845 [11:11:55<6:02:52,  1.26s/it] 65%|██████▍   | 31623/48845 [11:11:56<6:02:28,  1.26s/it] 65%|██████▍   | 31624/48845 [11:11:57<6:02:27,  1.26s/it] 65%|██████▍   | 31625/48845 [11:11:59<6:02:29,  1.26s/it]                                                          {'loss': 1.9859, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31625/48845 [11:11:59<6:02:29,  1.26s/it] 65%|██████▍   | 31626/48845 [11:12:00<6:02:08,  1.26s/it] 65%|██████▍   | 31627/48845 [11:12:01<6:02:18,  1.26s/it] 65%|██████▍   | 31628/48845 [11:12:02<6:01:53,  1.26s/it] 65%|██████▍   | 31629/48845 [11:12:04<6:01:42,  1.26s/it] 65%|██████▍   | 31630/48845 [11:12:05<6:01:53,  1.26s/it]                                                          {'loss': 2.1177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31630/48845 [11:12:05<6:01:53,  1.26s/it] 65%|██████▍   | 31631/48845 [11:12:06<6:01:44,  1.26s/it] 65%|██████▍   | 31632/48845 [11:12:07<6:01:45,  1.26s/it] 65%|██████▍   | 31633/48845 [11:12:09<6:02:08,  1.26s/it] 65%|██████▍   | 31634/48845 [11:12:10<6:01:59,  1.26s/it] 65%|██████▍   | 31635/48845 [11:12:11<6:01:52,  1.26s/it]                                                          {'loss': 1.9642, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31635/48845 [11:12:11<6:01:52,  1.26s/it] 65%|██████▍   | 31636/48845 [11:12:12<6:02:15,  1.26s/it] 65%|██████▍   | 31637/48845 [11:12:14<6:02:11,  1.26s/it] 65%|██████▍   | 31638/48845 [11:12:15<6:02:30,  1.26s/it] 65%|██████▍   | 31639/48845 [11:12:16<6:02:12,  1.26s/it] 65%|██████▍   | 31640/48845 [11:12:17<6:01:59,  1.26s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31640/48845 [11:12:17<6:01:59,  1.26s/it] 65%|██████▍   | 31641/48845 [11:12:19<6:01:51,  1.26s/it] 65%|██████▍   | 31642/48845 [11:12:20<6:01:35,  1.26s/it] 65%|██████▍   | 31643/48845 [11:12:21<6:01:35,  1.26s/it] 65%|██████▍   | 31644/48845 [11:12:22<6:01:28,  1.26s/it] 65%|██████▍   | 31645/48845 [11:12:24<6:01:06,  1.26s/it]                                                          {'loss': 1.9019, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31645/48845 [11:12:24<6:01:06,  1.26s/it] 65%|██████▍   | 31646/48845 [11:12:25<6:01:48,  1.26s/it] 65%|██████▍   | 31647/48845 [11:12:26<6:01:45,  1.26s/it] 65%|██████▍   | 31648/48845 [11:12:28<6:01:31,  1.26s/it] 65%|██████▍   | 31649/48845 [11:12:29<6:01:19,  1.26s/it] 65%|██████▍   | 31650/48845 [11:12:30<6:04:29,  1.27s/it]                                                          {'loss': 2.0871, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31650/48845 [11:12:30<6:04:29,  1.27s/it] 65%|██████▍   | 31651/48845 [11:12:31<6:03:46,  1.27s/it] 65%|██████▍   | 31652/48845 [11:12:33<6:03:08,  1.27s/it] 65%|██████▍   | 31653/48845 [11:12:34<6:03:56,  1.27s/it] 65%|██████▍   | 31654/48845 [11:12:35<6:03:29,  1.27s/it] 65%|██████▍   | 31655/48845 [11:12:36<6:02:53,  1.27s/it]                                                          {'loss': 1.999, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31655/48845 [11:12:36<6:02:53,  1.27s/it] 65%|██████▍   | 31656/48845 [11:12:38<6:02:19,  1.26s/it] 65%|██████▍   | 31657/48845 [11:12:39<6:02:01,  1.26s/it] 65%|██████▍   | 31658/48845 [11:12:40<6:02:21,  1.26s/it] 65%|██████▍   | 31659/48845 [11:12:41<6:01:41,  1.26s/it] 65%|██████▍   | 31660/48845 [11:12:43<6:01:23,  1.26s/it]                                                          {'loss': 1.9772, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31660/48845 [11:12:43<6:01:23,  1.26s/it] 65%|██████▍   | 31661/48845 [11:12:44<6:01:15,  1.26s/it] 65%|██████▍   | 31662/48845 [11:12:45<6:01:55,  1.26s/it] 65%|██████▍   | 31663/48845 [11:12:47<6:01:40,  1.26s/it] 65%|██████▍   | 31664/48845 [11:12:48<6:01:19,  1.26s/it] 65%|██████▍   | 31665/48845 [11:12:49<6:01:03,  1.26s/it]                                                          {'loss': 2.1735, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31665/48845 [11:12:49<6:01:03,  1.26s/it] 65%|██████▍   | 31666/48845 [11:12:50<6:01:52,  1.26s/it] 65%|██████▍   | 31667/48845 [11:12:52<6:01:17,  1.26s/it] 65%|██████▍   | 31668/48845 [11:12:53<6:01:14,  1.26s/it] 65%|██████▍   | 31669/48845 [11:12:54<6:01:32,  1.26s/it] 65%|██████▍   | 31670/48845 [11:12:55<6:01:35,  1.26s/it]                                                          {'loss': 2.003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31670/48845 [11:12:55<6:01:35,  1.26s/it] 65%|██████▍   | 31671/48845 [11:12:57<6:01:11,  1.26s/it] 65%|██████▍   | 31672/48845 [11:12:58<6:00:57,  1.26s/it] 65%|██████▍   | 31673/48845 [11:12:59<6:00:57,  1.26s/it] 65%|██████▍   | 31674/48845 [11:13:00<6:01:14,  1.26s/it] 65%|██████▍   | 31675/48845 [11:13:02<6:01:04,  1.26s/it]                                                          {'loss': 2.1041, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31675/48845 [11:13:02<6:01:04,  1.26s/it] 65%|██████▍   | 31676/48845 [11:13:03<6:01:05,  1.26s/it] 65%|██████▍   | 31677/48845 [11:13:04<6:01:02,  1.26s/it] 65%|██████▍   | 31678/48845 [11:13:05<6:01:19,  1.26s/it] 65%|██████▍   | 31679/48845 [11:13:07<6:01:51,  1.26s/it] 65%|██████▍   | 31680/48845 [11:13:08<6:01:34,  1.26s/it]                                                          {'loss': 2.0354, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31680/48845 [11:13:08<6:01:34,  1.26s/it] 65%|██████▍   | 31681/48845 [11:13:09<6:01:45,  1.26s/it] 65%|██████▍   | 31682/48845 [11:13:11<6:01:41,  1.26s/it] 65%|██████▍   | 31683/48845 [11:13:12<6:01:11,  1.26s/it] 65%|██████▍   | 31684/48845 [11:13:13<6:00:44,  1.26s/it] 65%|██████▍   | 31685/48845 [11:13:14<6:01:05,  1.26s/it]                                                          {'loss': 1.9115, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31685/48845 [11:13:14<6:01:05,  1.26s/it] 65%|██████▍   | 31686/48845 [11:13:16<6:02:10,  1.27s/it] 65%|██████▍   | 31687/48845 [11:13:17<6:01:32,  1.26s/it] 65%|██████▍   | 31688/48845 [11:13:18<6:01:19,  1.26s/it] 65%|██████▍   | 31689/48845 [11:13:19<6:01:10,  1.26s/it] 65%|██████▍   | 31690/48845 [11:13:21<6:00:59,  1.26s/it]                                                          {'loss': 1.9121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31690/48845 [11:13:21<6:00:59,  1.26s/it] 65%|██████▍   | 31691/48845 [11:13:22<6:00:54,  1.26s/it] 65%|██████▍   | 31692/48845 [11:13:23<6:00:44,  1.26s/it] 65%|██████▍   | 31693/48845 [11:13:24<6:00:29,  1.26s/it] 65%|██████▍   | 31694/48845 [11:13:26<6:00:23,  1.26s/it] 65%|██████▍   | 31695/48845 [11:13:27<6:00:08,  1.26s/it]                                                          {'loss': 2.0989, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31695/48845 [11:13:27<6:00:08,  1.26s/it] 65%|██████▍   | 31696/48845 [11:13:28<6:00:46,  1.26s/it] 65%|██████▍   | 31697/48845 [11:13:29<6:00:37,  1.26s/it] 65%|██████▍   | 31698/48845 [11:13:31<6:00:35,  1.26s/it] 65%|██████▍   | 31699/48845 [11:13:32<6:00:21,  1.26s/it] 65%|██████▍   | 31700/48845 [11:13:33<6:00:07,  1.26s/it]                                                          {'loss': 2.0811, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.24}
+ 65%|██████▍   | 31700/48845 [11:13:33<6:00:07,  1.26s/it] 65%|██████▍   | 31701/48845 [11:13:34<6:00:29,  1.26s/it] 65%|██████▍   | 31702/48845 [11:13:36<6:00:33,  1.26s/it] 65%|██████▍   | 31703/48845 [11:13:37<6:00:42,  1.26s/it] 65%|██████▍   | 31704/48845 [11:13:38<6:00:49,  1.26s/it] 65%|██████▍   | 31705/48845 [11:13:40<6:01:01,  1.26s/it]                                                          {'loss': 2.0009, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31705/48845 [11:13:40<6:01:01,  1.26s/it] 65%|██████▍   | 31706/48845 [11:13:41<6:01:15,  1.26s/it] 65%|██████▍   | 31707/48845 [11:13:42<6:00:47,  1.26s/it] 65%|██████▍   | 31708/48845 [11:13:43<6:00:50,  1.26s/it] 65%|██████▍   | 31709/48845 [11:13:45<6:01:12,  1.26s/it] 65%|██████▍   | 31710/48845 [11:13:46<6:00:42,  1.26s/it]                                                          {'loss': 2.1834, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31710/48845 [11:13:46<6:00:42,  1.26s/it] 65%|██████▍   | 31711/48845 [11:13:47<6:00:59,  1.26s/it] 65%|██████▍   | 31712/48845 [11:13:48<6:00:50,  1.26s/it] 65%|██████▍   | 31713/48845 [11:13:50<6:00:24,  1.26s/it] 65%|██████▍   | 31714/48845 [11:13:51<6:00:12,  1.26s/it] 65%|██████▍   | 31715/48845 [11:13:52<6:00:05,  1.26s/it]                                                          {'loss': 1.9639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31715/48845 [11:13:52<6:00:05,  1.26s/it] 65%|██████▍   | 31716/48845 [11:13:53<6:00:29,  1.26s/it] 65%|██████▍   | 31717/48845 [11:13:55<6:00:23,  1.26s/it] 65%|██████▍   | 31718/48845 [11:13:56<6:00:08,  1.26s/it] 65%|██████▍   | 31719/48845 [11:13:57<5:59:56,  1.26s/it] 65%|██████▍   | 31720/48845 [11:13:58<6:00:03,  1.26s/it]                                                          {'loss': 2.1248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31720/48845 [11:13:58<6:00:03,  1.26s/it] 65%|██████▍   | 31721/48845 [11:14:00<6:00:00,  1.26s/it] 65%|██████▍   | 31722/48845 [11:14:01<5:59:47,  1.26s/it] 65%|██████▍   | 31723/48845 [11:14:02<5:59:47,  1.26s/it] 65%|██████▍   | 31724/48845 [11:14:04<5:59:42,  1.26s/it] 65%|██████▍   | 31725/48845 [11:14:05<5:59:50,  1.26s/it]                                                          {'loss': 1.9748, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31725/48845 [11:14:05<5:59:50,  1.26s/it] 65%|██████▍   | 31726/48845 [11:14:06<5:59:39,  1.26s/it] 65%|██████▍   | 31727/48845 [11:14:07<5:59:48,  1.26s/it] 65%|██████▍   | 31728/48845 [11:14:09<6:00:19,  1.26s/it] 65%|██████▍   | 31729/48845 [11:14:10<6:00:22,  1.26s/it] 65%|██████▍   | 31730/48845 [11:14:11<6:00:23,  1.26s/it]                                                          {'loss': 2.1956, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31730/48845 [11:14:11<6:00:23,  1.26s/it] 65%|██████▍   | 31731/48845 [11:14:12<6:00:00,  1.26s/it] 65%|██████▍   | 31732/48845 [11:14:14<5:59:53,  1.26s/it] 65%|██████▍   | 31733/48845 [11:14:15<5:59:35,  1.26s/it] 65%|██████▍   | 31734/48845 [11:14:16<5:59:30,  1.26s/it] 65%|██████▍   | 31735/48845 [11:14:17<5:59:12,  1.26s/it]                                                          {'loss': 2.0945, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31735/48845 [11:14:17<5:59:12,  1.26s/it] 65%|██████▍   | 31736/48845 [11:14:19<5:59:32,  1.26s/it] 65%|██████▍   | 31737/48845 [11:14:20<5:59:22,  1.26s/it] 65%|██████▍   | 31738/48845 [11:14:21<5:59:34,  1.26s/it] 65%|██████▍   | 31739/48845 [11:14:22<5:59:52,  1.26s/it] 65%|██████▍   | 31740/48845 [11:14:24<5:59:40,  1.26s/it]                                                          {'loss': 1.9215, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31740/48845 [11:14:24<5:59:40,  1.26s/it] 65%|██████▍   | 31741/48845 [11:14:25<5:59:45,  1.26s/it] 65%|██████▍   | 31742/48845 [11:14:26<5:59:45,  1.26s/it] 65%|██████▍   | 31743/48845 [11:14:27<5:59:26,  1.26s/it] 65%|██████▍   | 31744/48845 [11:14:29<5:59:33,  1.26s/it] 65%|██████▍   | 31745/48845 [11:14:30<5:59:33,  1.26s/it]                                                          {'loss': 2.0888, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▍   | 31745/48845 [11:14:30<5:59:33,  1.26s/it] 65%|██████▍   | 31746/48845 [11:14:31<5:59:53,  1.26s/it] 65%|██████▍   | 31747/48845 [11:14:33<5:59:57,  1.26s/it] 65%|██████▍   | 31748/48845 [11:14:34<5:59:52,  1.26s/it] 65%|██████▍   | 31749/48845 [11:14:35<6:00:05,  1.26s/it] 65%|██████▌   | 31750/48845 [11:14:36<5:59:41,  1.26s/it]                                                          {'loss': 1.8606, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31750/48845 [11:14:36<5:59:41,  1.26s/it] 65%|██████▌   | 31751/48845 [11:14:38<5:59:39,  1.26s/it] 65%|██████▌   | 31752/48845 [11:14:39<5:59:30,  1.26s/it] 65%|██████▌   | 31753/48845 [11:14:40<5:59:20,  1.26s/it] 65%|██████▌   | 31754/48845 [11:14:41<5:59:10,  1.26s/it] 65%|██████▌   | 31755/48845 [11:14:43<5:59:00,  1.26s/it]                                                          {'loss': 1.9856, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31755/48845 [11:14:43<5:59:00,  1.26s/it] 65%|██████▌   | 31756/48845 [11:14:44<5:59:10,  1.26s/it] 65%|██████▌   | 31757/48845 [11:14:45<5:59:18,  1.26s/it] 65%|██████▌   | 31758/48845 [11:14:46<5:59:14,  1.26s/it] 65%|██████▌   | 31759/48845 [11:14:48<5:59:02,  1.26s/it] 65%|██████▌   | 31760/48845 [11:14:49<5:58:59,  1.26s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31760/48845 [11:14:49<5:58:59,  1.26s/it] 65%|██████▌   | 31761/48845 [11:14:50<5:59:15,  1.26s/it] 65%|██████▌   | 31762/48845 [11:14:51<5:59:02,  1.26s/it] 65%|██████▌   | 31763/48845 [11:14:53<5:59:20,  1.26s/it] 65%|██████▌   | 31764/48845 [11:14:54<5:58:59,  1.26s/it] 65%|██████▌   | 31765/48845 [11:14:55<5:59:03,  1.26s/it]                                                          {'loss': 2.1413, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31765/48845 [11:14:55<5:59:03,  1.26s/it] 65%|██████▌   | 31766/48845 [11:14:57<5:58:55,  1.26s/it] 65%|██████▌   | 31767/48845 [11:14:58<5:59:13,  1.26s/it] 65%|██████▌   | 31768/48845 [11:14:59<5:59:09,  1.26s/it] 65%|█████��▌   | 31769/48845 [11:15:00<5:59:07,  1.26s/it] 65%|██████▌   | 31770/48845 [11:15:02<5:59:19,  1.26s/it]                                                          {'loss': 2.1017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31770/48845 [11:15:02<5:59:19,  1.26s/it] 65%|██████▌   | 31771/48845 [11:15:03<5:59:08,  1.26s/it] 65%|██████▌   | 31772/48845 [11:15:04<6:06:31,  1.29s/it] 65%|██████▌   | 31773/48845 [11:15:05<6:04:27,  1.28s/it] 65%|██████▌   | 31774/48845 [11:15:07<6:02:49,  1.28s/it] 65%|██████▌   | 31775/48845 [11:15:08<6:01:57,  1.27s/it]                                                          {'loss': 2.0779, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31775/48845 [11:15:08<6:01:57,  1.27s/it] 65%|██████▌   | 31776/48845 [11:15:09<6:01:09,  1.27s/it] 65%|██████▌   | 31777/48845 [11:15:10<6:00:18,  1.27s/it] 65%|██████▌   | 31778/48845 [11:15:12<5:59:56,  1.27s/it] 65%|██████▌   | 31779/48845 [11:15:13<5:59:53,  1.27s/it] 65%|██████▌   | 31780/48845 [11:15:14<5:59:58,  1.27s/it]                                                          {'loss': 2.0411, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31780/48845 [11:15:14<5:59:58,  1.27s/it] 65%|██████▌   | 31781/48845 [11:15:16<6:00:09,  1.27s/it] 65%|██████▌   | 31782/48845 [11:15:17<6:00:00,  1.27s/it] 65%|██████▌   | 31783/48845 [11:15:18<5:59:22,  1.26s/it] 65%|██████▌   | 31784/48845 [11:15:19<5:59:52,  1.27s/it] 65%|██████▌   | 31785/48845 [11:15:21<5:59:11,  1.26s/it]                                                          {'loss': 2.0998, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31785/48845 [11:15:21<5:59:11,  1.26s/it] 65%|██████▌   | 31786/48845 [11:15:22<5:59:18,  1.26s/it] 65%|██████▌   | 31787/48845 [11:15:23<5:59:01,  1.26s/it] 65%|██████▌   | 31788/48845 [11:15:24<5:59:02,  1.26s/it] 65%|██████▌   | 31789/48845 [11:15:26<5:58:47,  1.26s/it] 65%|██████▌   | 31790/48845 [11:15:27<5:58:35,  1.26s/it]                                                          {'loss': 1.9095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31790/48845 [11:15:27<5:58:35,  1.26s/it] 65%|██████▌   | 31791/48845 [11:15:28<5:58:17,  1.26s/it] 65%|██████▌   | 31792/48845 [11:15:29<5:58:41,  1.26s/it] 65%|██████▌   | 31793/48845 [11:15:31<5:58:42,  1.26s/it] 65%|██████▌   | 31794/48845 [11:15:32<5:58:26,  1.26s/it] 65%|██████▌   | 31795/48845 [11:15:33<5:58:03,  1.26s/it]                                                          {'loss': 2.1502, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.25}
+ 65%|██████▌   | 31795/48845 [11:15:33<5:58:03,  1.26s/it] 65%|██████▌   | 31796/48845 [11:15:34<5:58:44,  1.26s/it] 65%|██████▌   | 31797/48845 [11:15:36<5:58:50,  1.26s/it] 65%|██████▌   | 31798/48845 [11:15:37<5:58:18,  1.26s/it] 65%|██████▌   | 31799/48845 [11:15:38<5:58:28,  1.26s/it] 65%|██████▌   | 31800/48845 [11:15:40<5:58:44,  1.26s/it]                                                          {'loss': 1.9527, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31800/48845 [11:15:40<5:58:44,  1.26s/it] 65%|██████▌   | 31801/48845 [11:15:43<9:30:02,  2.01s/it] 65%|██████▌   | 31802/48845 [11:15:45<8:38:13,  1.82s/it] 65%|██████▌   | 31803/48845 [11:15:46<7:50:17,  1.66s/it] 65%|██████▌   | 31804/48845 [11:15:47<7:16:39,  1.54s/it] 65%|██████▌   | 31805/48845 [11:15:48<6:52:49,  1.45s/it]                                                          {'loss': 2.1433, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31805/48845 [11:15:48<6:52:49,  1.45s/it] 65%|██████▌   | 31806/48845 [11:15:50<6:36:20,  1.40s/it] 65%|██████▌   | 31807/48845 [11:15:51<6:24:29,  1.35s/it] 65%|██████▌   | 31808/48845 [11:15:52<6:16:21,  1.33s/it] 65%|██████▌   | 31809/48845 [11:15:54<6:11:00,  1.31s/it] 65%|██████▌   | 31810/48845 [11:15:55<6:07:20,  1.29s/it]                                                          {'loss': 1.9786, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31810/48845 [11:15:55<6:07:20,  1.29s/it] 65%|██████▌   | 31811/48845 [11:15:56<6:04:25,  1.28s/it] 65%|██████▌   | 31812/48845 [11:15:57<6:02:43,  1.28s/it] 65%|██████▌   | 31813/48845 [11:15:59<6:05:20,  1.29s/it] 65%|██████▌   | 31814/48845 [11:16:00<6:03:48,  1.28s/it] 65%|██████▌   | 31815/48845 [11:16:01<6:01:51,  1.27s/it]                                                          {'loss': 2.162, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31815/48845 [11:16:01<6:01:51,  1.27s/it] 65%|██████▌   | 31816/48845 [11:16:02<6:01:10,  1.27s/it] 65%|██████▌   | 31817/48845 [11:16:04<6:00:21,  1.27s/it] 65%|██████▌   | 31818/48845 [11:16:05<5:59:47,  1.27s/it] 65%|██████▌   | 31819/48845 [11:16:06<5:59:20,  1.27s/it] 65%|██████▌   | 31820/48845 [11:16:07<5:59:00,  1.27s/it]                                                          {'loss': 1.9819, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31820/48845 [11:16:07<5:59:00,  1.27s/it] 65%|██████▌   | 31821/48845 [11:16:09<5:58:27,  1.26s/it] 65%|██████▌   | 31822/48845 [11:16:10<5:58:06,  1.26s/it] 65%|██████▌   | 31823/48845 [11:16:11<5:57:52,  1.26s/it] 65%|██████▌   | 31824/48845 [11:16:12<5:57:43,  1.26s/it] 65%|██████▌   | 31825/48845 [11:16:14<5:57:40,  1.26s/it]                                                          {'loss': 2.1598, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31825/48845 [11:16:14<5:57:40,  1.26s/it] 65%|██████▌   | 31826/48845 [11:16:15<5:57:57,  1.26s/it] 65%|██████▌   | 31827/48845 [11:16:16<5:57:57,  1.26s/it] 65%|██████▌   | 31828/48845 [11:16:18<5:57:22,  1.26s/it] 65%|██████▌   | 31829/48845 [11:16:19<5:57:14,  1.26s/it] 65%|██████▌   | 31830/48845 [11:16:20<5:57:05,  1.26s/it]                                                          {'loss': 1.9282, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31830/48845 [11:16:20<5:57:05,  1.26s/it] 65%|██████▌   | 31831/48845 [11:16:21<5:57:04,  1.26s/it] 65%|██████▌   | 31832/48845 [11:16:23<5:57:14,  1.26s/it] 65%|██████▌   | 31833/48845 [11:16:24<5:57:44,  1.26s/it] 65%|██████▌   | 31834/48845 [11:16:25<5:58:09,  1.26s/it] 65%|██████▌   | 31835/48845 [11:16:26<5:57:58,  1.26s/it]                                                          {'loss': 2.0802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31835/48845 [11:16:26<5:57:58,  1.26s/it] 65%|██████▌   | 31836/48845 [11:16:28<5:57:43,  1.26s/it] 65%|██████▌   | 31837/48845 [11:16:29<5:57:39,  1.26s/it] 65%|██████▌   | 31838/48845 [11:16:30<5:57:50,  1.26s/it] 65%|██████▌   | 31839/48845 [11:16:31<5:57:19,  1.26s/it] 65%|██████▌   | 31840/48845 [11:16:33<5:56:57,  1.26s/it]                                                          {'loss': 2.1523, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31840/48845 [11:16:33<5:56:57,  1.26s/it] 65%|██████▌   | 31841/48845 [11:16:34<5:56:58,  1.26s/it] 65%|██████▌   | 31842/48845 [11:16:35<5:57:02,  1.26s/it] 65%|██████▌   | 31843/48845 [11:16:36<5:57:06,  1.26s/it] 65%|██████▌   | 31844/48845 [11:16:38<5:56:58,  1.26s/it] 65%|██████▌   | 31845/48845 [11:16:39<5:56:53,  1.26s/it]                                                          {'loss': 2.0254, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31845/48845 [11:16:39<5:56:53,  1.26s/it] 65%|██████▌   | 31846/48845 [11:16:40<5:57:56,  1.26s/it] 65%|██████▌   | 31847/48845 [11:16:41<5:57:56,  1.26s/it] 65%|██████▌   | 31848/48845 [11:16:43<5:57:47,  1.26s/it] 65%|██████▌   | 31849/48845 [11:16:44<5:57:51,  1.26s/it] 65%|██████▌   | 31850/48845 [11:16:45<5:58:08,  1.26s/it]                                                          {'loss': 2.1967, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31850/48845 [11:16:45<5:58:08,  1.26s/it] 65%|██████▌   | 31851/48845 [11:16:47<5:58:25,  1.27s/it] 65%|██████▌   | 31852/48845 [11:16:48<5:57:54,  1.26s/it] 65%|██████▌   | 31853/48845 [11:16:49<5:57:36,  1.26s/it] 65%|██████▌   | 31854/48845 [11:16:50<5:57:58,  1.26s/it] 65%|██████▌   | 31855/48845 [11:16:52<5:57:28,  1.26s/it]                                                          {'loss': 2.017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31855/48845 [11:16:52<5:57:28,  1.26s/it] 65%|██████▌   | 31856/48845 [11:16:53<5:57:12,  1.26s/it] 65%|██████▌   | 31857/48845 [11:16:54<5:57:26,  1.26s/it] 65%|██████▌   | 31858/48845 [11:16:55<5:57:41,  1.26s/it] 65%|██████▌   | 31859/48845 [11:16:57<5:57:22,  1.26s/it] 65%|██████▌   | 31860/48845 [11:16:58<5:57:19,  1.26s/it]                                                          {'loss': 1.9931, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31860/48845 [11:16:58<5:57:19,  1.26s/it] 65%|██████▌   | 31861/48845 [11:16:59<5:57:12,  1.26s/it] 65%|██████▌   | 31862/48845 [11:17:00<5:57:30,  1.26s/it] 65%|██████▌   | 31863/48845 [11:17:02<5:57:16,  1.26s/it] 65%|██████▌   | 31864/48845 [11:17:03<5:57:26,  1.26s/it] 65%|██████▌   | 31865/48845 [11:17:04<5:57:27,  1.26s/it]                                                          {'loss': 2.067, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31865/48845 [11:17:04<5:57:27,  1.26s/it] 65%|██████▌   | 31866/48845 [11:17:06<6:04:01,  1.29s/it] 65%|██████▌   | 31867/48845 [11:17:07<6:02:08,  1.28s/it] 65%|██████▌   | 31868/48845 [11:17:08<6:00:17,  1.27s/it] 65%|██████▌   | 31869/48845 [11:17:09<5:59:05,  1.27s/it] 65%|██████▌   | 31870/48845 [11:17:11<6:04:07,  1.29s/it]                                                          {'loss': 2.0772, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31870/48845 [11:17:11<6:04:07,  1.29s/it] 65%|██████▌   | 31871/48845 [11:17:12<6:03:16,  1.28s/it] 65%|██████▌   | 31872/48845 [11:17:13<6:01:13,  1.28s/it] 65%|██████▌   | 31873/48845 [11:17:14<5:59:58,  1.27s/it] 65%|██████▌   | 31874/48845 [11:17:16<5:59:12,  1.27s/it] 65%|██████▌   | 31875/48845 [11:17:17<5:58:14,  1.27s/it]                                                          {'loss': 2.1461, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31875/48845 [11:17:17<5:58:14,  1.27s/it] 65%|██████▌   | 31876/48845 [11:17:18<5:57:50,  1.27s/it] 65%|██████▌   | 31877/48845 [11:17:20<6:01:05,  1.28s/it] 65%|██████▌   | 31878/48845 [11:17:21<5:59:55,  1.27s/it] 65%|██████▌   | 31879/48845 [11:17:22<5:58:38,  1.27s/it] 65%|██████▌   | 31880/48845 [11:17:23<5:57:59,  1.27s/it]                                                          {'loss': 1.9312, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31880/48845 [11:17:23<5:57:59,  1.27s/it] 65%|██████▌   | 31881/48845 [11:17:25<5:58:02,  1.27s/it] 65%|██████▌   | 31882/48845 [11:17:26<5:57:45,  1.27s/it] 65%|██████▌   | 31883/48845 [11:17:27<5:57:20,  1.26s/it] 65%|██████▌   | 31884/48845 [11:17:28<5:57:04,  1.26s/it] 65%|██████▌   | 31885/48845 [11:17:30<5:56:48,  1.26s/it]                                                          {'loss': 2.093, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31885/48845 [11:17:30<5:56:48,  1.26s/it] 65%|██████▌   | 31886/48845 [11:17:31<5:57:04,  1.26s/it] 65%|██████▌   | 31887/48845 [11:17:32<5:56:44,  1.26s/it] 65%|██████▌   | 31888/48845 [11:17:33<5:56:43,  1.26s/it] 65%|██████▌   | 31889/48845 [11:17:35<5:56:50,  1.26s/it] 65%|██████▌   | 31890/48845 [11:17:36<5:56:34,  1.26s/it]                                                          {'loss': 2.0588, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31890/48845 [11:17:36<5:56:34,  1.26s/it] 65%|██████▌   | 31891/48845 [11:17:37<5:56:48,  1.26s/it] 65%|██████▌   | 31892/48845 [11:17:38<5:56:33,  1.26s/it] 65%|██████▌   | 31893/48845 [11:17:40<5:56:44,  1.26s/it] 65%|██████▌   | 31894/48845 [11:17:41<5:56:35,  1.26s/it] 65%|██████▌   | 31895/48845 [11:17:42<5:56:20,  1.26s/it]                                                          {'loss': 2.1168, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.26}
+ 65%|██████▌   | 31895/48845 [11:17:42<5:56:20,  1.26s/it] 65%|██████▌   | 31896/48845 [11:17:44<5:56:09,  1.26s/it] 65%|██████▌   | 31897/48845 [11:17:45<5:55:43,  1.26s/it] 65%|██████▌   | 31898/48845 [11:17:46<5:55:59,  1.26s/it] 65%|██████▌   | 31899/48845 [11:17:47<5:55:58,  1.26s/it] 65%|██████▌   | 31900/48845 [11:17:49<5:55:52,  1.26s/it]                                                          {'loss': 2.1811, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31900/48845 [11:17:49<5:55:52,  1.26s/it] 65%|██████▌   | 31901/48845 [11:17:50<5:55:53,  1.26s/it] 65%|██████▌   | 31902/48845 [11:17:51<5:56:05,  1.26s/it] 65%|███���██▌   | 31903/48845 [11:17:52<5:56:25,  1.26s/it] 65%|██████▌   | 31904/48845 [11:17:54<5:56:27,  1.26s/it] 65%|██████▌   | 31905/48845 [11:17:55<5:56:08,  1.26s/it]                                                          {'loss': 2.0734, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31905/48845 [11:17:55<5:56:08,  1.26s/it] 65%|██████▌   | 31906/48845 [11:17:56<5:55:57,  1.26s/it] 65%|██████▌   | 31907/48845 [11:17:57<5:56:11,  1.26s/it] 65%|██████▌   | 31908/48845 [11:17:59<5:56:01,  1.26s/it] 65%|██████▌   | 31909/48845 [11:18:00<5:56:04,  1.26s/it] 65%|██████▌   | 31910/48845 [11:18:01<5:56:01,  1.26s/it]                                                          {'loss': 2.1431, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31910/48845 [11:18:01<5:56:01,  1.26s/it] 65%|██████▌   | 31911/48845 [11:18:02<5:55:53,  1.26s/it] 65%|██████▌   | 31912/48845 [11:18:04<5:55:45,  1.26s/it] 65%|██████▌   | 31913/48845 [11:18:05<5:55:42,  1.26s/it] 65%|██████▌   | 31914/48845 [11:18:06<5:55:38,  1.26s/it] 65%|██████▌   | 31915/48845 [11:18:07<5:55:39,  1.26s/it]                                                          {'loss': 2.1221, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31915/48845 [11:18:07<5:55:39,  1.26s/it] 65%|██████▌   | 31916/48845 [11:18:09<5:55:41,  1.26s/it] 65%|██████▌   | 31917/48845 [11:18:10<5:56:09,  1.26s/it] 65%|██████▌   | 31918/48845 [11:18:11<6:10:29,  1.31s/it] 65%|██████▌   | 31919/48845 [11:18:13<6:05:51,  1.30s/it] 65%|██████▌   | 31920/48845 [11:18:14<6:02:39,  1.29s/it]                                                          {'loss': 2.0109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31920/48845 [11:18:14<6:02:39,  1.29s/it] 65%|██████▌   | 31921/48845 [11:18:15<6:01:08,  1.28s/it] 65%|██████▌   | 31922/48845 [11:18:17<5:59:49,  1.28s/it] 65%|██████▌   | 31923/48845 [11:18:18<5:58:25,  1.27s/it] 65%|██████▌   | 31924/48845 [11:18:19<5:57:48,  1.27s/it] 65%|██████▌   | 31925/48845 [11:18:20<5:57:36,  1.27s/it]                                                          {'loss': 1.9551, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31925/48845 [11:18:20<5:57:36,  1.27s/it] 65%|██████▌   | 31926/48845 [11:18:22<5:57:45,  1.27s/it] 65%|██████▌   | 31927/48845 [11:18:23<5:57:23,  1.27s/it] 65%|██████▌   | 31928/48845 [11:18:24<5:56:36,  1.26s/it] 65%|██████▌   | 31929/48845 [11:18:25<5:55:56,  1.26s/it] 65%|██████▌   | 31930/48845 [11:18:27<5:55:59,  1.26s/it]                                                          {'loss': 2.067, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31930/48845 [11:18:27<5:55:59,  1.26s/it] 65%|██████▌   | 31931/48845 [11:18:28<5:55:40,  1.26s/it] 65%|██████▌   | 31932/48845 [11:18:29<5:55:41,  1.26s/it] 65%|██████▌   | 31933/48845 [11:18:30<5:55:39,  1.26s/it] 65%|██████▌   | 31934/48845 [11:18:32<5:55:43,  1.26s/it] 65%|██████▌   | 31935/48845 [11:18:33<5:55:39,  1.26s/it]                                                          {'loss': 1.9152, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31935/48845 [11:18:33<5:55:39,  1.26s/it] 65%|██████▌   | 31936/48845 [11:18:34<5:55:35,  1.26s/it] 65%|██████▌   | 31937/48845 [11:18:36<6:07:42,  1.30s/it] 65%|██████▌   | 31938/48845 [11:18:37<6:04:40,  1.29s/it] 65%|██████▌   | 31939/48845 [11:18:38<6:01:57,  1.28s/it] 65%|██████▌   | 31940/48845 [11:18:39<6:00:04,  1.28s/it]                                                          {'loss': 2.0918, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31940/48845 [11:18:39<6:00:04,  1.28s/it] 65%|██████▌   | 31941/48845 [11:18:41<5:58:37,  1.27s/it] 65%|██████▌   | 31942/48845 [11:18:42<5:58:26,  1.27s/it] 65%|██████▌   | 31943/48845 [11:18:43<5:57:34,  1.27s/it] 65%|██████▌   | 31944/48845 [11:18:44<5:57:03,  1.27s/it] 65%|██████▌   | 31945/48845 [11:18:46<5:56:55,  1.27s/it]                                                          {'loss': 2.1014, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31945/48845 [11:18:46<5:56:55,  1.27s/it] 65%|██████▌   | 31946/48845 [11:18:47<5:56:44,  1.27s/it] 65%|██████▌   | 31947/48845 [11:18:48<5:56:26,  1.27s/it] 65%|██████▌   | 31948/48845 [11:18:49<5:56:04,  1.26s/it] 65%|██████▌   | 31949/48845 [11:18:51<5:55:42,  1.26s/it] 65%|██████▌   | 31950/48845 [11:18:52<5:55:15,  1.26s/it]                                                          {'loss': 2.0735, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31950/48845 [11:18:52<5:55:15,  1.26s/it] 65%|██████▌   | 31951/48845 [11:18:53<5:55:21,  1.26s/it] 65%|██████▌   | 31952/48845 [11:18:55<5:55:34,  1.26s/it] 65%|██████▌   | 31953/48845 [11:18:56<5:55:30,  1.26s/it] 65%|██████▌   | 31954/48845 [11:18:57<5:55:02,  1.26s/it] 65%|██████▌   | 31955/48845 [11:18:58<5:55:01,  1.26s/it]                                                          {'loss': 1.9279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31955/48845 [11:18:58<5:55:01,  1.26s/it] 65%|██████▌   | 31956/48845 [11:19:00<5:55:39,  1.26s/it] 65%|██████▌   | 31957/48845 [11:19:01<5:55:32,  1.26s/it] 65%|██████▌   | 31958/48845 [11:19:02<5:55:15,  1.26s/it] 65%|██████▌   | 31959/48845 [11:19:03<5:55:32,  1.26s/it] 65%|██████▌   | 31960/48845 [11:19:05<5:55:16,  1.26s/it]                                                          {'loss': 2.0486, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31960/48845 [11:19:05<5:55:16,  1.26s/it] 65%|██████▌   | 31961/48845 [11:19:06<5:54:59,  1.26s/it] 65%|██████▌   | 31962/48845 [11:19:07<5:54:52,  1.26s/it] 65%|██████▌   | 31963/48845 [11:19:08<5:54:41,  1.26s/it] 65%|██████▌   | 31964/48845 [11:19:10<5:55:14,  1.26s/it] 65%|██████▌   | 31965/48845 [11:19:11<5:55:05,  1.26s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31965/48845 [11:19:11<5:55:05,  1.26s/it] 65%|██████▌   | 31966/48845 [11:19:12<5:55:32,  1.26s/it] 65%|██████▌   | 31967/48845 [11:19:13<5:55:21,  1.26s/it] 65%|██████▌   | 31968/48845 [11:19:15<5:54:58,  1.26s/it] 65%|██████▌   | 31969/48845 [11:19:16<5:55:02,  1.26s/it] 65%|██████▌   | 31970/48845 [11:19:17<5:55:03,  1.26s/it]                                                          {'loss': 1.9934, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31970/48845 [11:19:17<5:55:03,  1.26s/it] 65%|██████▌   | 31971/48845 [11:19:19<5:55:07,  1.26s/it] 65%|██████▌   | 31972/48845 [11:19:20<5:54:59,  1.26s/it] 65%|██████▌   | 31973/48845 [11:19:21<5:54:37,  1.26s/it] 65%|██████▌   | 31974/48845 [11:19:22<5:54:26,  1.26s/it] 65%|██████▌   | 31975/48845 [11:19:24<5:54:17,  1.26s/it]                                                          {'loss': 1.9092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31975/48845 [11:19:24<5:54:17,  1.26s/it] 65%|██████▌   | 31976/48845 [11:19:25<5:54:59,  1.26s/it] 65%|██████▌   | 31977/48845 [11:19:26<5:54:55,  1.26s/it] 65%|██████▌   | 31978/48845 [11:19:27<5:54:35,  1.26s/it] 65%|██████▌   | 31979/48845 [11:19:29<5:54:38,  1.26s/it] 65%|██████▌   | 31980/48845 [11:19:30<5:54:43,  1.26s/it]                                                          {'loss': 1.8323, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31980/48845 [11:19:30<5:54:43,  1.26s/it] 65%|██████▌   | 31981/48845 [11:19:31<5:54:51,  1.26s/it] 65%|██████▌   | 31982/48845 [11:19:32<5:54:45,  1.26s/it] 65%|██████▌   | 31983/48845 [11:19:34<5:54:27,  1.26s/it] 65%|██████▌   | 31984/48845 [11:19:35<5:54:22,  1.26s/it] 65%|██████▌   | 31985/48845 [11:19:36<5:54:47,  1.26s/it]                                                          {'loss': 1.9841, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31985/48845 [11:19:36<5:54:47,  1.26s/it] 65%|██████▌   | 31986/48845 [11:19:37<5:55:44,  1.27s/it] 65%|██████▌   | 31987/48845 [11:19:39<5:55:10,  1.26s/it] 65%|██████▌   | 31988/48845 [11:19:40<5:55:06,  1.26s/it] 65%|██████▌   | 31989/48845 [11:19:41<5:54:37,  1.26s/it] 65%|██████▌   | 31990/48845 [11:19:43<5:54:22,  1.26s/it]                                                          {'loss': 2.2269, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.27}
+ 65%|██████▌   | 31990/48845 [11:19:43<5:54:22,  1.26s/it] 65%|██████▌   | 31991/48845 [11:19:44<5:54:26,  1.26s/it] 65%|██████▌   | 31992/48845 [11:19:45<5:54:57,  1.26s/it] 65%|██████▌   | 31993/48845 [11:19:46<5:54:51,  1.26s/it] 66%|██████▌   | 31994/48845 [11:19:48<5:54:53,  1.26s/it] 66%|██████▌   | 31995/48845 [11:19:49<5:54:42,  1.26s/it]                                                          {'loss': 2.1407, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 31995/48845 [11:19:49<5:54:42,  1.26s/it] 66%|██████▌   | 31996/48845 [11:19:50<5:54:34,  1.26s/it] 66%|██████▌   | 31997/48845 [11:19:51<5:54:20,  1.26s/it] 66%|██████▌   | 31998/48845 [11:19:53<5:54:03,  1.26s/it] 66%|██████▌   | 31999/48845 [11:19:54<5:53:54,  1.26s/it] 66%|██████▌   | 32000/48845 [11:19:55<5:54:28,  1.26s/it]                                                          {'loss': 2.0803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32000/48845 [11:19:55<5:54:28,  1.26s/it] 66%|██████▌   | 32001/48845 [11:19:59<9:23:35,  2.01s/it] 66%|██████▌   | 32002/48845 [11:20:00<8:20:44,  1.78s/it] 66%|██████▌   | 32003/48845 [11:20:01<7:36:42,  1.63s/it] 66%|██████▌   | 32004/48845 [11:20:03<7:06:13,  1.52s/it] 66%|██████▌   | 32005/48845 [11:20:04<6:44:07,  1.44s/it]                                                          {'loss': 2.037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32005/48845 [11:20:04<6:44:07,  1.44s/it] 66%|██████▌   | 32006/48845 [11:20:05<6:29:24,  1.39s/it] 66%|██████▌   | 32007/48845 [11:20:06<6:18:48,  1.35s/it] 66%|██████▌   | 32008/48845 [11:20:08<6:11:19,  1.32s/it] 66%|██████▌   | 32009/48845 [11:20:09<6:06:50,  1.31s/it] 66%|██████▌   | 32010/48845 [11:20:10<6:03:20,  1.29s/it]                                                          {'loss': 2.0597, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32010/48845 [11:20:10<6:03:20,  1.29s/it] 66%|██████▌   | 32011/48845 [11:20:12<6:00:41,  1.29s/it] 66%|██████▌   | 32012/48845 [11:20:13<5:58:39,  1.28s/it] 66%|██████▌   | 32013/48845 [11:20:14<5:57:19,  1.27s/it] 66%|██████▌   | 32014/48845 [11:20:15<5:56:23,  1.27s/it] 66%|██████▌   | 32015/48845 [11:20:17<5:56:21,  1.27s/it]                                                          {'loss': 2.0578, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32015/48845 [11:20:17<5:56:21,  1.27s/it] 66%|██████▌   | 32016/48845 [11:20:18<5:55:42,  1.27s/it] 66%|██████▌   | 32017/48845 [11:20:19<5:54:56,  1.27s/it] 66%|██████▌   | 32018/48845 [11:20:20<5:54:16,  1.26s/it] 66%|██████▌   | 32019/48845 [11:20:22<5:53:46,  1.26s/it] 66%|██████▌   | 32020/48845 [11:20:23<5:53:38,  1.26s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32020/48845 [11:20:23<5:53:38,  1.26s/it] 66%|██████▌   | 32021/48845 [11:20:24<5:53:59,  1.26s/it] 66%|██████▌   | 32022/48845 [11:20:25<5:53:47,  1.26s/it] 66%|██████▌   | 32023/48845 [11:20:27<5:53:21,  1.26s/it] 66%|██████▌   | 32024/48845 [11:20:28<5:53:27,  1.26s/it] 66%|██████▌   | 32025/48845 [11:20:29<5:53:25,  1.26s/it]                                                          {'loss': 1.938, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32025/48845 [11:20:29<5:53:25,  1.26s/it] 66%|██████▌   | 32026/48845 [11:20:30<5:53:33,  1.26s/it] 66%|██████▌   | 32027/48845 [11:20:32<5:53:42,  1.26s/it] 66%|██████▌   | 32028/48845 [11:20:33<5:54:03,  1.26s/it] 66%|██████▌   | 32029/48845 [11:20:34<5:54:04,  1.26s/it] 66%|██████▌   | 32030/48845 [11:20:35<5:53:53,  1.26s/it]                                                          {'loss': 2.0464, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32030/48845 [11:20:35<5:53:53,  1.26s/it] 66%|██████▌   | 32031/48845 [11:20:37<5:54:07,  1.26s/it] 66%|██████▌   | 32032/48845 [11:20:38<5:54:02,  1.26s/it] 66%|██████▌   | 32033/48845 [11:20:39<5:54:06,  1.26s/it] 66%|██████▌   | 32034/48845 [11:20:41<5:53:54,  1.26s/it] 66%|██████▌   | 32035/48845 [11:20:42<5:53:38,  1.26s/it]                                                          {'loss': 1.9936, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32035/48845 [11:20:42<5:53:38,  1.26s/it] 66%|██████▌   | 32036/48845 [11:20:43<5:53:39,  1.26s/it] 66%|��█████▌   | 32037/48845 [11:20:44<5:53:47,  1.26s/it] 66%|██████▌   | 32038/48845 [11:20:46<5:53:32,  1.26s/it] 66%|██████▌   | 32039/48845 [11:20:47<5:53:51,  1.26s/it] 66%|██████▌   | 32040/48845 [11:20:48<5:53:37,  1.26s/it]                                                          {'loss': 2.1408, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32040/48845 [11:20:48<5:53:37,  1.26s/it] 66%|██████▌   | 32041/48845 [11:20:49<5:53:21,  1.26s/it] 66%|██████▌   | 32042/48845 [11:20:51<5:54:08,  1.26s/it] 66%|██████▌   | 32043/48845 [11:20:52<5:53:37,  1.26s/it] 66%|██████▌   | 32044/48845 [11:20:53<5:53:26,  1.26s/it] 66%|██████▌   | 32045/48845 [11:20:54<5:53:29,  1.26s/it]                                                          {'loss': 2.0179, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32045/48845 [11:20:54<5:53:29,  1.26s/it] 66%|██████▌   | 32046/48845 [11:20:56<5:53:30,  1.26s/it] 66%|██████▌   | 32047/48845 [11:20:57<5:53:27,  1.26s/it] 66%|██████▌   | 32048/48845 [11:20:58<5:53:12,  1.26s/it] 66%|██████▌   | 32049/48845 [11:20:59<5:53:15,  1.26s/it] 66%|██████▌   | 32050/48845 [11:21:01<5:52:41,  1.26s/it]                                                          {'loss': 2.1538, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32050/48845 [11:21:01<5:52:41,  1.26s/it] 66%|██████▌   | 32051/48845 [11:21:02<5:53:14,  1.26s/it] 66%|██████▌   | 32052/48845 [11:21:03<5:53:16,  1.26s/it] 66%|██████▌   | 32053/48845 [11:21:05<5:53:00,  1.26s/it] 66%|██████▌   | 32054/48845 [11:21:06<5:52:53,  1.26s/it] 66%|██████▌   | 32055/48845 [11:21:07<5:53:02,  1.26s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32055/48845 [11:21:07<5:53:02,  1.26s/it] 66%|██████▌   | 32056/48845 [11:21:08<5:53:14,  1.26s/it] 66%|██████▌   | 32057/48845 [11:21:10<5:53:03,  1.26s/it] 66%|██████▌   | 32058/48845 [11:21:11<5:52:51,  1.26s/it] 66%|██████▌   | 32059/48845 [11:21:12<5:53:06,  1.26s/it] 66%|██████▌   | 32060/48845 [11:21:13<5:53:02,  1.26s/it]                                                          {'loss': 1.9643, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32060/48845 [11:21:13<5:53:02,  1.26s/it] 66%|██████▌   | 32061/48845 [11:21:15<5:52:55,  1.26s/it] 66%|██████▌   | 32062/48845 [11:21:16<5:52:35,  1.26s/it] 66%|██████▌   | 32063/48845 [11:21:17<5:52:33,  1.26s/it] 66%|██████▌   | 32064/48845 [11:21:18<5:52:22,  1.26s/it] 66%|██████▌   | 32065/48845 [11:21:20<5:52:24,  1.26s/it]                                                          {'loss': 1.9425, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32065/48845 [11:21:20<5:52:24,  1.26s/it] 66%|██████▌   | 32066/48845 [11:21:21<5:52:33,  1.26s/it] 66%|██████▌   | 32067/48845 [11:21:22<5:52:31,  1.26s/it] 66%|██████▌   | 32068/48845 [11:21:23<5:52:34,  1.26s/it] 66%|██████▌   | 32069/48845 [11:21:25<5:52:52,  1.26s/it] 66%|██████▌   | 32070/48845 [11:21:26<5:52:50,  1.26s/it]                                                          {'loss': 1.9727, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32070/48845 [11:21:26<5:52:50,  1.26s/it] 66%|██████▌   | 32071/48845 [11:21:27<5:52:44,  1.26s/it] 66%|██████▌   | 32072/48845 [11:21:28<5:52:48,  1.26s/it] 66%|██████▌   | 32073/48845 [11:21:30<5:52:42,  1.26s/it] 66%|██████▌   | 32074/48845 [11:21:31<5:52:19,  1.26s/it] 66%|██████▌   | 32075/48845 [11:21:32<5:52:24,  1.26s/it]                                                          {'loss': 2.0172, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32075/48845 [11:21:32<5:52:24,  1.26s/it] 66%|██████▌   | 32076/48845 [11:21:34<5:52:32,  1.26s/it] 66%|██████▌   | 32077/48845 [11:21:35<5:52:38,  1.26s/it] 66%|██████▌   | 32078/48845 [11:21:36<5:53:04,  1.26s/it] 66%|██████▌   | 32079/48845 [11:21:37<5:53:31,  1.27s/it] 66%|██████▌   | 32080/48845 [11:21:39<5:52:37,  1.26s/it]                                                          {'loss': 2.0707, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32080/48845 [11:21:39<5:52:37,  1.26s/it] 66%|██████▌   | 32081/48845 [11:21:40<5:52:34,  1.26s/it] 66%|██████▌   | 32082/48845 [11:21:41<5:52:40,  1.26s/it] 66%|██████▌   | 32083/48845 [11:21:42<5:52:39,  1.26s/it] 66%|██████▌   | 32084/48845 [11:21:44<5:53:08,  1.26s/it] 66%|██████▌   | 32085/48845 [11:21:45<5:52:54,  1.26s/it]                                                          {'loss': 1.8955, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32085/48845 [11:21:45<5:52:54,  1.26s/it] 66%|██████▌   | 32086/48845 [11:21:46<5:52:53,  1.26s/it] 66%|██████▌   | 32087/48845 [11:21:47<5:52:56,  1.26s/it] 66%|██████▌   | 32088/48845 [11:21:49<5:53:11,  1.26s/it] 66%|██████▌   | 32089/48845 [11:21:50<5:52:40,  1.26s/it] 66%|██████▌   | 32090/48845 [11:21:51<5:52:27,  1.26s/it]                                                          {'loss': 1.859, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.28}
+ 66%|██████▌   | 32090/48845 [11:21:51<5:52:27,  1.26s/it] 66%|██████▌   | 32091/48845 [11:21:52<5:52:40,  1.26s/it] 66%|██████▌   | 32092/48845 [11:21:54<5:52:33,  1.26s/it] 66%|██████▌   | 32093/48845 [11:21:55<5:52:26,  1.26s/it] 66%|██████▌   | 32094/48845 [11:21:56<5:52:15,  1.26s/it] 66%|██████▌   | 32095/48845 [11:21:58<5:52:46,  1.26s/it]                                                          {'loss': 2.1105, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32095/48845 [11:21:58<5:52:46,  1.26s/it] 66%|██████▌   | 32096/48845 [11:21:59<5:52:34,  1.26s/it] 66%|██████▌   | 32097/48845 [11:22:00<5:52:05,  1.26s/it] 66%|██████▌   | 32098/48845 [11:22:01<5:52:02,  1.26s/it] 66%|██████▌   | 32099/48845 [11:22:03<5:51:44,  1.26s/it] 66%|██████▌   | 32100/48845 [11:22:04<5:51:51,  1.26s/it]                                                          {'loss': 2.0312, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32100/48845 [11:22:04<5:51:51,  1.26s/it] 66%|██████▌   | 32101/48845 [11:22:05<5:51:42,  1.26s/it] 66%|██████▌   | 32102/48845 [11:22:06<5:51:36,  1.26s/it] 66%|██████▌   | 32103/48845 [11:22:08<5:51:48,  1.26s/it] 66%|██████▌   | 32104/48845 [11:22:09<5:51:57,  1.26s/it] 66%|██████▌   | 32105/48845 [11:22:10<5:52:14,  1.26s/it]                                                          {'loss': 2.134, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32105/48845 [11:22:10<5:52:14,  1.26s/it] 66%|██████▌   | 32106/48845 [11:22:11<5:52:31,  1.26s/it] 66%|██████▌   | 32107/48845 [11:22:13<5:52:12,  1.26s/it] 66%|██████▌   | 32108/48845 [11:22:14<5:52:36,  1.26s/it] 66%|██████▌   | 32109/48845 [11:22:15<5:53:05,  1.27s/it] 66%|██████▌   | 32110/48845 [11:22:16<5:52:31,  1.26s/it]                                                          {'loss': 1.9941, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32110/48845 [11:22:16<5:52:31,  1.26s/it] 66%|██████▌   | 32111/48845 [11:22:18<5:52:31,  1.26s/it] 66%|██████▌   | 32112/48845 [11:22:19<5:52:25,  1.26s/it] 66%|██████▌   | 32113/48845 [11:22:20<5:52:11,  1.26s/it] 66%|██████▌   | 32114/48845 [11:22:22<5:52:09,  1.26s/it] 66%|██████▌   | 32115/48845 [11:22:23<5:52:11,  1.26s/it]                                                          {'loss': 2.1842, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32115/48845 [11:22:23<5:52:11,  1.26s/it] 66%|██████▌   | 32116/48845 [11:22:24<5:52:22,  1.26s/it] 66%|██████▌   | 32117/48845 [11:22:25<5:52:12,  1.26s/it] 66%|██████▌   | 32118/48845 [11:22:27<5:52:12,  1.26s/it] 66%|██████▌   | 32119/48845 [11:22:28<5:51:42,  1.26s/it] 66%|██████▌   | 32120/48845 [11:22:29<5:51:12,  1.26s/it]                                                          {'loss': 1.9927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32120/48845 [11:22:29<5:51:12,  1.26s/it] 66%|██████▌   | 32121/48845 [11:22:30<5:51:24,  1.26s/it] 66%|██████▌   | 32122/48845 [11:22:32<5:51:33,  1.26s/it] 66%|██████▌   | 32123/48845 [11:22:33<5:52:27,  1.26s/it] 66%|██████▌   | 32124/48845 [11:22:34<5:52:42,  1.27s/it] 66%|██████▌   | 32125/48845 [11:22:35<5:52:15,  1.26s/it]                                                          {'loss': 2.079, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32125/48845 [11:22:35<5:52:15,  1.26s/it] 66%|██████▌   | 32126/48845 [11:22:37<5:51:55,  1.26s/it] 66%|██████▌   | 32127/48845 [11:22:38<5:51:57,  1.26s/it] 66%|██████▌   | 32128/48845 [11:22:39<5:52:58,  1.27s/it] 66%|██████▌   | 32129/48845 [11:22:40<5:52:26,  1.27s/it] 66%|██████▌   | 32130/48845 [11:22:42<5:52:26,  1.27s/it]                                                          {'loss': 2.0625, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32130/48845 [11:22:42<5:52:26,  1.27s/it] 66%|██████▌   | 32131/48845 [11:22:43<5:52:23,  1.27s/it] 66%|██████▌   | 32132/48845 [11:22:44<5:52:21,  1.26s/it] 66%|██████▌   | 32133/48845 [11:22:46<5:52:23,  1.27s/it] 66%|██████▌   | 32134/48845 [11:22:47<5:52:17,  1.26s/it] 66%|██████▌   | 32135/48845 [11:22:48<5:52:12,  1.26s/it]                                                          {'loss': 2.0311, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32135/48845 [11:22:48<5:52:12,  1.26s/it] 66%|██████▌   | 32136/48845 [11:22:49<5:52:17,  1.27s/it] 66%|██████▌   | 32137/48845 [11:22:51<5:52:04,  1.26s/it] 66%|██████▌   | 32138/48845 [11:22:52<5:51:45,  1.26s/it] 66%|██████▌   | 32139/48845 [11:22:53<5:51:51,  1.26s/it] 66%|██████▌   | 32140/48845 [11:22:54<5:51:33,  1.26s/it]                                                          {'loss': 2.0717, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32140/48845 [11:22:54<5:51:33,  1.26s/it] 66%|██████▌   | 32141/48845 [11:22:56<5:51:26,  1.26s/it] 66%|██████▌   | 32142/48845 [11:22:57<5:51:09,  1.26s/it] 66%|██████▌   | 32143/48845 [11:22:58<5:50:54,  1.26s/it] 66%|██████▌   | 32144/48845 [11:22:59<5:51:23,  1.26s/it] 66%|██████▌   | 32145/48845 [11:23:01<5:51:03,  1.26s/it]                                                          {'loss': 2.0944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32145/48845 [11:23:01<5:51:03,  1.26s/it] 66%|██████▌   | 32146/48845 [11:23:02<5:51:03,  1.26s/it] 66%|██████▌   | 32147/48845 [11:23:03<5:51:06,  1.26s/it] 66%|██████▌   | 32148/48845 [11:23:04<5:51:16,  1.26s/it] 66%|██████▌   | 32149/48845 [11:23:06<5:51:10,  1.26s/it] 66%|██████▌   | 32150/48845 [11:23:07<5:51:05,  1.26s/it]                                                          {'loss': 1.9756, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32150/48845 [11:23:07<5:51:05,  1.26s/it] 66%|██████▌   | 32151/48845 [11:23:08<5:51:07,  1.26s/it] 66%|██████▌   | 32152/48845 [11:23:10<5:51:02,  1.26s/it] 66%|██████▌   | 32153/48845 [11:23:11<5:50:47,  1.26s/it] 66%|██████▌   | 32154/48845 [11:23:12<5:50:55,  1.26s/it] 66%|██████▌   | 32155/48845 [11:23:13<5:50:33,  1.26s/it]                                                          {'loss': 1.8746, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32155/48845 [11:23:13<5:50:33,  1.26s/it] 66%|██████▌   | 32156/48845 [11:23:15<5:50:51,  1.26s/it] 66%|██████▌   | 32157/48845 [11:23:16<5:50:48,  1.26s/it] 66%|██████▌   | 32158/48845 [11:23:17<5:50:57,  1.26s/it] 66%|██████▌   | 32159/48845 [11:23:18<5:50:39,  1.26s/it] 66%|██████▌   | 32160/48845 [11:23:20<5:50:36,  1.26s/it]                                                          {'loss': 2.0186, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32160/48845 [11:23:20<5:50:36,  1.26s/it] 66%|██████▌   | 32161/48845 [11:23:21<5:51:00,  1.26s/it] 66%|██████▌   | 32162/48845 [11:23:22<5:50:59,  1.26s/it] 66%|██████▌   | 32163/48845 [11:23:23<5:50:45,  1.26s/it] 66%|██████▌   | 32164/48845 [11:23:25<5:50:25,  1.26s/it] 66%|██████▌   | 32165/48845 [11:23:26<5:50:21,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32165/48845 [11:23:26<5:50:21,  1.26s/it] 66%|██████▌   | 32166/48845 [11:23:27<5:50:21,  1.26s/it] 66%|██████▌   | 32167/48845 [11:23:28<5:50:20,  1.26s/it] 66%|██████▌   | 32168/48845 [11:23:30<5:50:13,  1.26s/it] 66%|██████▌   | 32169/48845 [11:23:31<5:50:26,  1.26s/it] 66%|██████▌   | 32170/48845 [11:23:32<5:50:42,  1.26s/it]                                                          {'loss': 2.0064, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32170/48845 [11:23:32<5:50:42,  1.26s/it] 66%|██████▌   | 32171/48845 [11:23:33<5:50:42,  1.26s/it] 66%|██████▌   | 32172/48845 [11:23:35<5:50:47,  1.26s/it] 66%|██████▌   | 32173/48845 [11:23:36<5:50:28,  1.26s/it] 66%|██████▌   | 32174/48845 [11:23:37<5:50:36,  1.26s/it] 66%|██████▌   | 32175/48845 [11:23:39<5:50:29,  1.26s/it]                                                          {'loss': 2.1372, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32175/48845 [11:23:39<5:50:29,  1.26s/it] 66%|██████▌   | 32176/48845 [11:23:40<5:50:29,  1.26s/it] 66%|██████▌   | 32177/48845 [11:23:41<5:50:28,  1.26s/it] 66%|██████▌   | 32178/48845 [11:23:42<5:50:21,  1.26s/it] 66%|██████▌   | 32179/48845 [11:23:44<5:50:28,  1.26s/it] 66%|██████▌   | 32180/48845 [11:23:45<5:50:25,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32180/48845 [11:23:45<5:50:25,  1.26s/it] 66%|██████▌   | 32181/48845 [11:23:46<5:50:51,  1.26s/it] 66%|██████▌   | 32182/48845 [11:23:47<5:50:57,  1.26s/it] 66%|██████▌   | 32183/48845 [11:23:49<5:51:11,  1.26s/it] 66%|██████▌   | 32184/48845 [11:23:50<5:50:53,  1.26s/it] 66%|██████▌   | 32185/48845 [11:23:51<5:50:22,  1.26s/it]                                                          {'loss': 2.0462, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.29}
+ 66%|██████▌   | 32185/48845 [11:23:51<5:50:22,  1.26s/it] 66%|██████▌   | 32186/48845 [11:23:52<5:50:20,  1.26s/it] 66%|██████▌   | 32187/48845 [11:23:54<5:50:24,  1.26s/it] 66%|██████▌   | 32188/48845 [11:23:55<5:50:31,  1.26s/it] 66%|██████▌   | 32189/48845 [11:23:56<5:50:44,  1.26s/it] 66%|██████▌   | 32190/48845 [11:23:57<5:50:28,  1.26s/it]                                                          {'loss': 2.0722, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32190/48845 [11:23:58<5:50:28,  1.26s/it] 66%|██████▌   | 32191/48845 [11:23:59<6:01:24,  1.30s/it] 66%|██████▌   | 32192/48845 [11:24:00<5:58:00,  1.29s/it] 66%|██████▌   | 32193/48845 [11:24:01<5:55:33,  1.28s/it] 66%|██████▌   | 32194/48845 [11:24:03<5:53:38,  1.27s/it] 66%|██████▌   | 32195/48845 [11:24:04<5:52:52,  1.27s/it]                                                          {'loss': 2.0076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32195/48845 [11:24:04<5:52:52,  1.27s/it] 66%|██████▌   | 32196/48845 [11:24:05<5:52:39,  1.27s/it] 66%|██████▌   | 32197/48845 [11:24:06<5:51:45,  1.27s/it] 66%|██████▌   | 32198/48845 [11:24:08<5:51:14,  1.27s/it] 66%|██████▌   | 32199/48845 [11:24:09<5:50:48,  1.26s/it] 66%|██████▌   | 32200/48845 [11:24:10<5:50:48,  1.26s/it]                                                          {'loss': 2.0628, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32200/48845 [11:24:10<5:50:48,  1.26s/it] 66%|██████▌   | 32201/48845 [11:24:14<9:17:56,  2.01s/it] 66%|██████▌   | 32202/48845 [11:24:15<8:15:40,  1.79s/it] 66%|██████▌   | 32203/48845 [11:24:17<7:32:10,  1.63s/it] 66%|██████▌   | 32204/48845 [11:24:18<7:01:11,  1.52s/it] 66%|██████▌   | 32205/48845 [11:24:19<6:40:00,  1.44s/it]                                                          {'loss': 2.1194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32205/48845 [11:24:19<6:40:00,  1.44s/it] 66%|██████▌   | 32206/48845 [11:24:20<6:25:34,  1.39s/it] 66%|██████▌   | 32207/48845 [11:24:22<6:14:46,  1.35s/it] 66%|██████▌   | 32208/48845 [11:24:23<6:07:14,  1.32s/it] 66%|██████▌   | 32209/48845 [11:24:24<6:01:47,  1.30s/it] 66%|██████▌   | 32210/48845 [11:24:25<5:58:03,  1.29s/it]                                                          {'loss': 2.0427, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32210/48845 [11:24:25<5:58:03,  1.29s/it] 66%|██████▌   | 32211/48845 [11:24:27<5:56:25,  1.29s/it] 66%|██████▌   | 32212/48845 [11:24:28<5:54:25,  1.28s/it] 66%|██████▌   | 32213/48845 [11:24:29<5:53:01,  1.27s/it] 66%|██████▌   | 32214/48845 [11:24:30<5:52:13,  1.27s/it] 66%|██████▌   | 32215/48845 [11:24:32<5:51:03,  1.27s/it]                                                          {'loss': 2.1097, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32215/48845 [11:24:32<5:51:03,  1.27s/it] 66%|██████▌   | 32216/48845 [11:24:33<5:50:59,  1.27s/it] 66%|██████▌   | 32217/48845 [11:24:34<5:51:07,  1.27s/it] 66%|██████▌   | 32218/48845 [11:24:35<5:50:43,  1.27s/it] 66%|██████▌   | 32219/48845 [11:24:37<5:50:12,  1.26s/it] 66%|██████▌   | 32220/48845 [11:24:38<5:49:54,  1.26s/it]                                                          {'loss': 1.9819, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32220/48845 [11:24:38<5:49:54,  1.26s/it] 66%|██████▌   | 32221/48845 [11:24:39<5:49:56,  1.26s/it] 66%|██████▌   | 32222/48845 [11:24:40<5:49:47,  1.26s/it] 66%|██████▌   | 32223/48845 [11:24:42<5:49:45,  1.26s/it] 66%|██████▌   | 32224/48845 [11:24:43<5:49:54,  1.26s/it] 66%|██████▌   | 32225/48845 [11:24:44<5:49:50,  1.26s/it]                                                          {'loss': 2.0477, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32225/48845 [11:24:44<5:49:50,  1.26s/it] 66%|██████▌   | 32226/48845 [11:24:46<5:49:54,  1.26s/it] 66%|██████▌   | 32227/48845 [11:24:47<5:49:35,  1.26s/it] 66%|██████▌   | 32228/48845 [11:24:48<5:49:22,  1.26s/it] 66%|██████▌   | 32229/48845 [11:24:49<6:01:21,  1.30s/it] 66%|██████▌   | 32230/48845 [11:24:51<5:57:45,  1.29s/it]                                                          {'loss': 2.0159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32230/48845 [11:24:51<5:57:45,  1.29s/it] 66%|██████▌   | 32231/48845 [11:24:52<5:55:58,  1.29s/it] 66%|██████▌   | 32232/48845 [11:24:53<5:53:56,  1.28s/it] 66%|██████▌   | 32233/48845 [11:24:55<5:52:16,  1.27s/it] 66%|██████▌   | 32234/48845 [11:24:56<5:51:26,  1.27s/it] 66%|██████▌   | 32235/48845 [11:24:57<5:50:22,  1.27s/it]                                                          {'loss': 2.0504, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32235/48845 [11:24:57<5:50:22,  1.27s/it] 66%|██████▌   | 32236/48845 [11:24:58<5:50:11,  1.27s/it] 66%|██████▌   | 32237/48845 [11:25:00<5:50:12,  1.27s/it] 66%|██████▌   | 32238/48845 [11:25:01<5:49:30,  1.26s/it] 66%|██████▌   | 32239/48845 [11:25:02<5:49:33,  1.26s/it] 66%|██████▌   | 32240/48845 [11:25:03<5:49:20,  1.26s/it]                                                          {'loss': 1.8774, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32240/48845 [11:25:03<5:49:20,  1.26s/it] 66%|██████▌   | 32241/48845 [11:25:05<5:49:37,  1.26s/it] 66%|██████▌   | 32242/48845 [11:25:06<5:49:39,  1.26s/it] 66%|██████▌   | 32243/48845 [11:25:07<5:49:23,  1.26s/it] 66%|██████▌   | 32244/48845 [11:25:08<5:49:23,  1.26s/it] 66%|██████▌   | 32245/48845 [11:25:10<5:49:42,  1.26s/it]                                                          {'loss': 2.0987, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32245/48845 [11:25:10<5:49:42,  1.26s/it] 66%|██████▌   | 32246/48845 [11:25:11<5:49:22,  1.26s/it] 66%|██████▌   | 32247/48845 [11:25:12<5:48:54,  1.26s/it] 66%|██████▌   | 32248/48845 [11:25:13<5:48:45,  1.26s/it] 66%|██████▌   | 32249/48845 [11:25:15<5:49:08,  1.26s/it] 66%|██████▌   | 32250/48845 [11:25:16<5:48:55,  1.26s/it]                                                          {'loss': 2.0654, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32250/48845 [11:25:16<5:48:55,  1.26s/it] 66%|██████▌   | 32251/48845 [11:25:17<5:49:18,  1.26s/it] 66%|██████▌   | 32252/48845 [11:25:19<5:49:06,  1.26s/it] 66%|██████▌   | 32253/48845 [11:25:20<5:49:07,  1.26s/it] 66%|██████▌   | 32254/48845 [11:25:21<5:49:10,  1.26s/it] 66%|██████▌   | 32255/48845 [11:25:22<5:48:46,  1.26s/it]                                                          {'loss': 2.1365, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32255/48845 [11:25:22<5:48:46,  1.26s/it] 66%|██████▌   | 32256/48845 [11:25:24<5:48:35,  1.26s/it] 66%|██████▌   | 32257/48845 [11:25:25<5:54:31,  1.28s/it] 66%|██████▌   | 32258/48845 [11:25:26<5:52:28,  1.27s/it] 66%|██████▌   | 32259/48845 [11:25:27<5:51:20,  1.27s/it] 66%|██████▌   | 32260/48845 [11:25:29<5:50:51,  1.27s/it]                                                          {'loss': 1.947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32260/48845 [11:25:29<5:50:51,  1.27s/it] 66%|██████▌   | 32261/48845 [11:25:30<5:50:02,  1.27s/it] 66%|██████▌   | 32262/48845 [11:25:31<5:49:42,  1.27s/it] 66%|██████▌   | 32263/48845 [11:25:32<5:49:13,  1.26s/it] 66%|██████▌   | 32264/48845 [11:25:34<5:49:12,  1.26s/it] 66%|██████▌   | 32265/48845 [11:25:35<5:48:58,  1.26s/it]                                                          {'loss': 2.0281, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32265/48845 [11:25:35<5:48:58,  1.26s/it] 66%|██████▌   | 32266/48845 [11:25:36<5:49:34,  1.27s/it] 66%|██████▌   | 32267/48845 [11:25:38<5:49:07,  1.26s/it] 66%|██████▌   | 32268/48845 [11:25:39<5:48:57,  1.26s/it] 66%|██████▌   | 32269/48845 [11:25:40<5:48:35,  1.26s/it] 66%|██████▌   | 32270/48845 [11:25:41<5:48:56,  1.26s/it]                                                          {'loss': 2.048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32270/48845 [11:25:41<5:48:56,  1.26s/it] 66%|██████▌   | 32271/48845 [11:25:43<5:48:57,  1.26s/it] 66%|██████▌   | 32272/48845 [11:25:44<5:49:10,  1.26s/it] 66%|██████▌   | 32273/48845 [11:25:45<5:49:01,  1.26s/it] 66%|██████▌   | 32274/48845 [11:25:46<5:48:33,  1.26s/it] 66%|██████▌   | 32275/48845 [11:25:48<5:48:24,  1.26s/it]                                                          {'loss': 2.0061, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32275/48845 [11:25:48<5:48:24,  1.26s/it] 66%|██████▌   | 32276/48845 [11:25:49<5:53:19,  1.28s/it] 66%|██████▌   | 32277/48845 [11:25:50<5:51:40,  1.27s/it] 66%|██████▌   | 32278/48845 [11:25:51<5:50:42,  1.27s/it] 66%|██████▌   | 32279/48845 [11:25:53<5:49:59,  1.27s/it] 66%|██████▌   | 32280/48845 [11:25:54<5:49:41,  1.27s/it]                                                          {'loss': 2.0248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32280/48845 [11:25:54<5:49:41,  1.27s/it] 66%|██████▌   | 32281/48845 [11:25:55<5:49:34,  1.27s/it] 66%|██████▌   | 32282/48845 [11:25:56<5:49:04,  1.26s/it] 66%|██████▌   | 32283/48845 [11:25:58<5:48:45,  1.26s/it] 66%|██████▌   | 32284/48845 [11:25:59<5:48:29,  1.26s/it] 66%|██████▌   | 32285/48845 [11:26:00<5:48:18,  1.26s/it]                                                          {'loss': 1.8372, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.3}
+ 66%|██████▌   | 32285/48845 [11:26:00<5:48:18,  1.26s/it] 66%|██████▌   | 32286/48845 [11:26:02<5:47:58,  1.26s/it] 66%|██████▌   | 32287/48845 [11:26:03<5:47:54,  1.26s/it] 66%|██████▌   | 32288/48845 [11:26:04<5:48:07,  1.26s/it] 66%|██████▌   | 32289/48845 [11:26:05<5:48:15,  1.26s/it] 66%|██████▌   | 32290/48845 [11:26:07<5:48:21,  1.26s/it]                                                          {'loss': 1.9251, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32290/48845 [11:26:07<5:48:21,  1.26s/it] 66%|██████▌   | 32291/48845 [11:26:08<5:48:53,  1.26s/it] 66%|██████▌   | 32292/48845 [11:26:09<5:48:51,  1.26s/it] 66%|██████▌   | 32293/48845 [11:26:10<5:48:38,  1.26s/it] 66%|██████▌   | 32294/48845 [11:26:12<5:48:58,  1.27s/it] 66%|██████▌   | 32295/48845 [11:26:13<5:48:36,  1.26s/it]                                                          {'loss': 2.0255, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32295/48845 [11:26:13<5:48:36,  1.26s/it] 66%|██████▌   | 32296/48845 [11:26:14<5:48:24,  1.26s/it] 66%|██████▌   | 32297/48845 [11:26:15<5:48:03,  1.26s/it] 66%|██████▌   | 32298/48845 [11:26:17<5:48:00,  1.26s/it] 66%|██████▌   | 32299/48845 [11:26:18<5:48:19,  1.26s/it] 66%|██████▌   | 32300/48845 [11:26:19<5:47:55,  1.26s/it]                                                          {'loss': 2.0015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32300/48845 [11:26:19<5:47:55,  1.26s/it] 66%|██████▌   | 32301/48845 [11:26:20<5:48:34,  1.26s/it] 66%|██████▌   | 32302/48845 [11:26:22<5:48:23,  1.26s/it] 66%|██████▌   | 32303/48845 [11:26:23<5:48:10,  1.26s/it] 66%|██████▌   | 32304/48845 [11:26:24<5:48:00,  1.26s/it] 66%|██████▌   | 32305/48845 [11:26:26<5:47:35,  1.26s/it]                                                          {'loss': 2.0264, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|█��████▌   | 32305/48845 [11:26:26<5:47:35,  1.26s/it] 66%|██████▌   | 32306/48845 [11:26:27<5:47:44,  1.26s/it] 66%|██████▌   | 32307/48845 [11:26:28<5:47:42,  1.26s/it] 66%|██████▌   | 32308/48845 [11:26:29<5:47:41,  1.26s/it] 66%|██████▌   | 32309/48845 [11:26:31<5:47:59,  1.26s/it] 66%|██████▌   | 32310/48845 [11:26:32<5:48:10,  1.26s/it]                                                          {'loss': 1.9588, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32310/48845 [11:26:32<5:48:10,  1.26s/it] 66%|██████▌   | 32311/48845 [11:26:33<5:48:09,  1.26s/it] 66%|██████▌   | 32312/48845 [11:26:34<5:48:12,  1.26s/it] 66%|██████▌   | 32313/48845 [11:26:36<5:47:59,  1.26s/it] 66%|██████▌   | 32314/48845 [11:26:37<5:47:44,  1.26s/it] 66%|██████▌   | 32315/48845 [11:26:38<5:47:52,  1.26s/it]                                                          {'loss': 2.0386, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32315/48845 [11:26:38<5:47:52,  1.26s/it] 66%|██████▌   | 32316/48845 [11:26:39<5:48:01,  1.26s/it] 66%|██████▌   | 32317/48845 [11:26:41<5:47:36,  1.26s/it] 66%|██████▌   | 32318/48845 [11:26:42<5:47:29,  1.26s/it] 66%|██████▌   | 32319/48845 [11:26:43<5:47:35,  1.26s/it] 66%|██████▌   | 32320/48845 [11:26:44<5:47:41,  1.26s/it]                                                          {'loss': 2.1378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32320/48845 [11:26:44<5:47:41,  1.26s/it] 66%|██████▌   | 32321/48845 [11:26:46<5:47:41,  1.26s/it] 66%|██████▌   | 32322/48845 [11:26:47<5:47:23,  1.26s/it] 66%|██████▌   | 32323/48845 [11:26:48<5:47:10,  1.26s/it] 66%|██████▌   | 32324/48845 [11:26:50<5:46:53,  1.26s/it] 66%|██████▌   | 32325/48845 [11:26:51<5:46:52,  1.26s/it]                                                          {'loss': 2.122, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32325/48845 [11:26:51<5:46:52,  1.26s/it] 66%|██████▌   | 32326/48845 [11:26:52<5:47:05,  1.26s/it] 66%|██████▌   | 32327/48845 [11:26:53<5:46:55,  1.26s/it] 66%|██████▌   | 32328/48845 [11:26:55<5:47:16,  1.26s/it] 66%|██████▌   | 32329/48845 [11:26:56<5:47:26,  1.26s/it] 66%|██████▌   | 32330/48845 [11:26:57<5:47:23,  1.26s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32330/48845 [11:26:57<5:47:23,  1.26s/it] 66%|██████▌   | 32331/48845 [11:26:58<5:47:56,  1.26s/it] 66%|██████▌   | 32332/48845 [11:27:00<5:47:57,  1.26s/it] 66%|██████▌   | 32333/48845 [11:27:01<5:47:29,  1.26s/it] 66%|██████▌   | 32334/48845 [11:27:02<5:47:38,  1.26s/it] 66%|██████▌   | 32335/48845 [11:27:03<5:47:23,  1.26s/it]                                                          {'loss': 1.9594, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32335/48845 [11:27:03<5:47:23,  1.26s/it] 66%|██████▌   | 32336/48845 [11:27:05<5:47:41,  1.26s/it] 66%|██████▌   | 32337/48845 [11:27:06<5:47:49,  1.26s/it] 66%|██████▌   | 32338/48845 [11:27:07<5:47:45,  1.26s/it] 66%|██████▌   | 32339/48845 [11:27:08<5:48:02,  1.27s/it] 66%|██████▌   | 32340/48845 [11:27:10<5:47:45,  1.26s/it]                                                          {'loss': 2.0342, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32340/48845 [11:27:10<5:47:45,  1.26s/it] 66%|██████▌   | 32341/48845 [11:27:11<5:47:31,  1.26s/it] 66%|██████▌   | 32342/48845 [11:27:12<5:47:24,  1.26s/it] 66%|██████▌   | 32343/48845 [11:27:14<5:47:21,  1.26s/it] 66%|██████▌   | 32344/48845 [11:27:15<5:47:15,  1.26s/it] 66%|██████▌   | 32345/48845 [11:27:16<5:47:26,  1.26s/it]                                                          {'loss': 1.9882, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32345/48845 [11:27:16<5:47:26,  1.26s/it] 66%|██████▌   | 32346/48845 [11:27:17<5:47:29,  1.26s/it] 66%|██████▌   | 32347/48845 [11:27:19<5:47:15,  1.26s/it] 66%|██████▌   | 32348/48845 [11:27:20<5:47:16,  1.26s/it] 66%|██████▌   | 32349/48845 [11:27:21<5:47:14,  1.26s/it] 66%|██████▌   | 32350/48845 [11:27:22<5:47:02,  1.26s/it]                                                          {'loss': 2.1823, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32350/48845 [11:27:22<5:47:02,  1.26s/it] 66%|██████▌   | 32351/48845 [11:27:24<5:47:21,  1.26s/it] 66%|██████▌   | 32352/48845 [11:27:25<5:47:02,  1.26s/it] 66%|██████▌   | 32353/48845 [11:27:26<5:47:26,  1.26s/it] 66%|██████▌   | 32354/48845 [11:27:27<5:47:18,  1.26s/it] 66%|██████▌   | 32355/48845 [11:27:29<5:47:03,  1.26s/it]                                                          {'loss': 1.9095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▌   | 32355/48845 [11:27:29<5:47:03,  1.26s/it] 66%|██████▌   | 32356/48845 [11:27:30<5:46:55,  1.26s/it] 66%|██████▌   | 32357/48845 [11:27:31<5:47:04,  1.26s/it] 66%|██████▌   | 32358/48845 [11:27:32<5:47:03,  1.26s/it] 66%|██████▌   | 32359/48845 [11:27:34<5:47:17,  1.26s/it] 66%|██████▋   | 32360/48845 [11:27:35<5:47:11,  1.26s/it]                                                          {'loss': 2.1131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▋   | 32360/48845 [11:27:35<5:47:11,  1.26s/it] 66%|██████▋   | 32361/48845 [11:27:36<5:47:24,  1.26s/it] 66%|██████▋   | 32362/48845 [11:27:38<5:47:02,  1.26s/it] 66%|██████▋   | 32363/48845 [11:27:39<5:47:06,  1.26s/it] 66%|██████▋   | 32364/48845 [11:27:40<5:46:45,  1.26s/it] 66%|██████▋   | 32365/48845 [11:27:41<5:46:56,  1.26s/it]                                                          {'loss': 2.0707, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▋   | 32365/48845 [11:27:41<5:46:56,  1.26s/it] 66%|██████▋   | 32366/48845 [11:27:43<5:46:46,  1.26s/it] 66%|██████▋   | 32367/48845 [11:27:44<5:46:37,  1.26s/it] 66%|██████▋   | 32368/48845 [11:27:45<5:46:21,  1.26s/it] 66%|██████▋   | 32369/48845 [11:27:46<5:46:15,  1.26s/it] 66%|██████▋   | 32370/48845 [11:27:48<5:46:07,  1.26s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▋   | 32370/48845 [11:27:48<5:46:07,  1.26s/it] 66%|██████▋   | 32371/48845 [11:27:49<5:46:21,  1.26s/it] 66%|██████▋   | 32372/48845 [11:27:50<5:46:37,  1.26s/it] 66%|██████▋   | 32373/48845 [11:27:51<5:46:18,  1.26s/it] 66%|██████▋   | 32374/48845 [11:27:53<5:46:24,  1.26s/it] 66%|██████▋   | 32375/48845 [11:27:54<5:46:45,  1.26s/it]                                                          {'loss': 1.926, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▋   | 32375/48845 [11:27:54<5:46:45,  1.26s/it] 66%|██████▋   | 32376/48845 [11:27:55<5:46:31,  1.26s/it] 66%|██████▋   | 32377/48845 [11:27:56<5:46:30,  1.26s/it] 66%|██████▋   | 32378/48845 [11:27:58<5:46:08,  1.26s/it] 66%|██████▋   | 32379/48845 [11:27:59<5:46:01,  1.26s/it] 66%|██████▋   | 32380/48845 [11:28:00<5:46:04,  1.26s/it]                                                          {'loss': 1.8391, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.31}
+ 66%|██████▋   | 32380/48845 [11:28:00<5:46:04,  1.26s/it] 66%|██████▋   | 32381/48845 [11:28:01<5:46:10,  1.26s/it] 66%|██████▋   | 32382/48845 [11:28:03<5:46:12,  1.26s/it] 66%|██████▋   | 32383/48845 [11:28:04<5:46:23,  1.26s/it] 66%|██████▋   | 32384/48845 [11:28:05<5:46:20,  1.26s/it] 66%|██████▋   | 32385/48845 [11:28:07<5:46:06,  1.26s/it]                                                          {'loss': 2.0751, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32385/48845 [11:28:07<5:46:06,  1.26s/it] 66%|██████▋   | 32386/48845 [11:28:08<5:46:10,  1.26s/it] 66%|██████▋   | 32387/48845 [11:28:09<5:45:52,  1.26s/it] 66%|██████▋   | 32388/48845 [11:28:10<5:46:12,  1.26s/it] 66%|██████▋   | 32389/48845 [11:28:12<5:46:16,  1.26s/it] 66%|██████▋   | 32390/48845 [11:28:13<5:46:45,  1.26s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32390/48845 [11:28:13<5:46:45,  1.26s/it] 66%|██████▋   | 32391/48845 [11:28:14<5:46:35,  1.26s/it] 66%|██████▋   | 32392/48845 [11:28:15<5:46:16,  1.26s/it] 66%|██████▋   | 32393/48845 [11:28:17<5:46:26,  1.26s/it] 66%|██████▋   | 32394/48845 [11:28:18<5:46:11,  1.26s/it] 66%|██████▋   | 32395/48845 [11:28:19<5:46:09,  1.26s/it]                                                          {'loss': 2.0551, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32395/48845 [11:28:19<5:46:09,  1.26s/it] 66%|██████▋   | 32396/48845 [11:28:20<5:46:31,  1.26s/it] 66%|██████▋   | 32397/48845 [11:28:22<5:46:16,  1.26s/it] 66%|██████▋   | 32398/48845 [11:28:23<5:46:05,  1.26s/it] 66%|██████▋   | 32399/48845 [11:28:24<5:46:37,  1.26s/it] 66%|██████▋   | 32400/48845 [11:28:25<5:46:25,  1.26s/it]                                                          {'loss': 2.0244, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32400/48845 [11:28:25<5:46:25,  1.26s/it] 66%|██████▋   | 32401/48845 [11:28:29<9:11:29,  2.01s/it] 66%|██████▋   | 32402/48845 [11:28:31<8:10:23,  1.79s/it] 66%|██████▋   | 32403/48845 [11:28:32<7:26:37,  1.63s/it] 66%|██████▋   | 32404/48845 [11:28:33<6:56:24,  1.52s/it] 66%|██████▋   | 32405/48845 [11:28:34<6:35:17,  1.44s/it]                                                          {'loss': 1.9736, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32405/48845 [11:28:34<6:35:17,  1.44s/it] 66%|██████▋   | 32406/48845 [11:28:36<6:21:01,  1.39s/it] 66%|██████▋   | 32407/48845 [11:28:37<6:10:18,  1.35s/it] 66%|██████▋   | 32408/48845 [11:28:38<6:02:50,  1.32s/it] 66%|██████▋   | 32409/48845 [11:28:39<5:57:40,  1.31s/it] 66%|██████▋   | 32410/48845 [11:28:41<5:54:02,  1.29s/it]                                                          {'loss': 1.9891, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32410/48845 [11:28:41<5:54:02,  1.29s/it] 66%|██████▋   | 32411/48845 [11:28:42<5:51:36,  1.28s/it] 66%|██████▋   | 32412/48845 [11:28:43<5:49:18,  1.28s/it] 66%|██████▋   | 32413/48845 [11:28:44<5:47:56,  1.27s/it] 66%|██████▋   | 32414/48845 [11:28:46<5:47:08,  1.27s/it] 66%|██████▋   | 32415/48845 [11:28:47<5:46:24,  1.27s/it]                                                          {'loss': 1.9157, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32415/48845 [11:28:47<5:46:24,  1.27s/it] 66%|██████▋   | 32416/48845 [11:28:48<5:51:10,  1.28s/it] 66%|██████▋   | 32417/48845 [11:28:49<5:49:24,  1.28s/it] 66%|██████▋   | 32418/48845 [11:28:51<5:47:56,  1.27s/it] 66%|██████▋   | 32419/48845 [11:28:52<5:47:13,  1.27s/it] 66%|██████▋   | 32420/48845 [11:28:53<5:46:32,  1.27s/it]                                                          {'loss': 2.0569, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32420/48845 [11:28:53<5:46:32,  1.27s/it] 66%|██████▋   | 32421/48845 [11:28:55<5:46:09,  1.26s/it] 66%|██████▋   | 32422/48845 [11:28:56<5:46:02,  1.26s/it] 66%|██████▋   | 32423/48845 [11:28:57<5:45:37,  1.26s/it] 66%|██████▋   | 32424/48845 [11:28:58<5:45:25,  1.26s/it] 66%|██████▋   | 32425/48845 [11:29:00<5:45:43,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32425/48845 [11:29:00<5:45:43,  1.26s/it] 66%|██████▋   | 32426/48845 [11:29:01<5:46:09,  1.26s/it] 66%|██████▋   | 32427/48845 [11:29:02<5:46:00,  1.26s/it] 66%|██████▋   | 32428/48845 [11:29:03<5:45:34,  1.26s/it] 66%|██████▋   | 32429/48845 [11:29:05<5:45:23,  1.26s/it] 66%|██████▋   | 32430/48845 [11:29:06<5:45:17,  1.26s/it]                                                          {'loss': 2.0474, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32430/48845 [11:29:06<5:45:17,  1.26s/it] 66%|██████▋   | 32431/48845 [11:29:07<5:45:36,  1.26s/it] 66%|██████▋   | 32432/48845 [11:29:08<5:44:58,  1.26s/it] 66%|██████▋   | 32433/48845 [11:29:10<5:44:54,  1.26s/it] 66%|██████▋   | 32434/48845 [11:29:11<5:45:03,  1.26s/it] 66%|██████▋   | 32435/48845 [11:29:12<5:45:01,  1.26s/it]                                                          {'loss': 2.0403, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32435/48845 [11:29:12<5:45:01,  1.26s/it] 66%|██████▋   | 32436/48845 [11:29:13<5:44:46,  1.26s/it] 66%|██████▋   | 32437/48845 [11:29:15<5:44:57,  1.26s/it] 66%|██████▋   | 32438/48845 [11:29:16<5:45:00,  1.26s/it] 66%|██████▋   | 32439/48845 [11:29:17<5:45:03,  1.26s/it] 66%|██████▋   | 32440/48845 [11:29:19<5:44:56,  1.26s/it]                                                          {'loss': 2.0703, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32440/48845 [11:29:19<5:44:56,  1.26s/it] 66%|██████▋   | 32441/48845 [11:29:20<5:44:58,  1.26s/it] 66%|██████▋   | 32442/48845 [11:29:21<5:44:38,  1.26s/it] 66%|██████▋   | 32443/48845 [11:29:22<5:44:36,  1.26s/it] 66%|██████▋   | 32444/48845 [11:29:24<5:44:37,  1.26s/it] 66%|██████▋   | 32445/48845 [11:29:25<5:44:40,  1.26s/it]                                                          {'loss': 2.0712, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32445/48845 [11:29:25<5:44:40,  1.26s/it] 66%|██████▋   | 32446/48845 [11:29:26<5:45:19,  1.26s/it] 66%|██████▋   | 32447/48845 [11:29:27<5:45:12,  1.26s/it] 66%|██████▋   | 32448/48845 [11:29:29<5:45:28,  1.26s/it] 66%|██████▋   | 32449/48845 [11:29:30<5:45:30,  1.26s/it] 66%|██████▋   | 32450/48845 [11:29:31<5:45:10,  1.26s/it]                                                          {'loss': 2.0345, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32450/48845 [11:29:31<5:45:10,  1.26s/it] 66%|██████▋   | 32451/48845 [11:29:32<5:45:38,  1.27s/it] 66%|██████▋   | 32452/48845 [11:29:34<5:45:16,  1.26s/it] 66%|██████▋   | 32453/48845 [11:29:35<5:45:04,  1.26s/it] 66%|██████▋   | 32454/48845 [11:29:36<5:44:58,  1.26s/it] 66%|██████▋   | 32455/48845 [11:29:37<5:44:55,  1.26s/it]                                                          {'loss': 1.9446, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32455/48845 [11:29:37<5:44:55,  1.26s/it] 66%|██████▋   | 32456/48845 [11:29:39<5:45:09,  1.26s/it] 66%|██████▋   | 32457/48845 [11:29:40<5:45:13,  1.26s/it] 66%|██████▋   | 32458/48845 [11:29:41<5:44:54,  1.26s/it] 66%|██████▋   | 32459/48845 [11:29:43<5:44:43,  1.26s/it] 66%|██████▋   | 32460/48845 [11:29:44<5:44:29,  1.26s/it]                                                          {'loss': 2.2258, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32460/48845 [11:29:44<5:44:29,  1.26s/it] 66%|██████▋   | 32461/48845 [11:29:45<5:44:40,  1.26s/it] 66%|██████▋   | 32462/48845 [11:29:46<5:44:43,  1.26s/it] 66%|██████▋   | 32463/48845 [11:29:48<5:44:17,  1.26s/it] 66%|██████▋   | 32464/48845 [11:29:49<5:44:24,  1.26s/it] 66%|██████▋   | 32465/48845 [11:29:50<5:44:19,  1.26s/it]                                                          {'loss': 2.1516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32465/48845 [11:29:50<5:44:19,  1.26s/it] 66%|██████▋   | 32466/48845 [11:29:51<5:44:47,  1.26s/it] 66%|██████▋   | 32467/48845 [11:29:53<5:44:38,  1.26s/it] 66%|██████▋   | 32468/48845 [11:29:54<5:44:29,  1.26s/it] 66%|██████▋   | 32469/48845 [11:29:55<5:44:27,  1.26s/it] 66%|██████▋   | 32470/48845 [11:29:56<5:44:35,  1.26s/it]                                                          {'loss': 2.0854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32470/48845 [11:29:56<5:44:35,  1.26s/it] 66%|██████▋   | 32471/48845 [11:29:58<5:44:39,  1.26s/it] 66%|██████▋   | 32472/48845 [11:29:59<5:44:39,  1.26s/it] 66%|██████▋   | 32473/48845 [11:30:00<5:44:48,  1.26s/it] 66%|██████▋   | 32474/48845 [11:30:01<5:44:46,  1.26s/it] 66%|██████▋   | 32475/48845 [11:30:03<5:44:51,  1.26s/it]                                                          {'loss': 1.9831, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32475/48845 [11:30:03<5:44:51,  1.26s/it] 66%|██████▋   | 32476/48845 [11:30:04<5:45:00,  1.26s/it] 66%|██████▋   | 32477/48845 [11:30:05<5:44:42,  1.26s/it] 66%|██████▋   | 32478/48845 [11:30:07<5:44:47,  1.26s/it] 66%|██████▋   | 32479/48845 [11:30:08<5:44:47,  1.26s/it] 66%|██████▋   | 32480/48845 [11:30:09<5:44:52,  1.26s/it]                                                          {'loss': 2.1503, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.32}
+ 66%|██████▋   | 32480/48845 [11:30:09<5:44:52,  1.26s/it] 66%|██████▋   | 32481/48845 [11:30:10<5:44:44,  1.26s/it] 67%|██████▋   | 32482/48845 [11:30:12<5:44:22,  1.26s/it] 67%|██████▋   | 32483/48845 [11:30:13<5:44:11,  1.26s/it] 67%|██████▋   | 32484/48845 [11:30:14<5:44:19,  1.26s/it] 67%|██████▋   | 32485/48845 [11:30:15<5:44:05,  1.26s/it]                                                          {'loss': 2.1175, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32485/48845 [11:30:15<5:44:05,  1.26s/it] 67%|██████▋   | 32486/48845 [11:30:17<5:44:37,  1.26s/it] 67%|██████▋   | 32487/48845 [11:30:18<5:44:38,  1.26s/it] 67%|██████▋   | 32488/48845 [11:30:19<5:44:27,  1.26s/it] 67%|██████▋   | 32489/48845 [11:30:20<5:44:33,  1.26s/it] 67%|██████▋   | 32490/48845 [11:30:22<5:44:23,  1.26s/it]                                                          {'loss': 1.9489, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32490/48845 [11:30:22<5:44:23,  1.26s/it] 67%|██████▋   | 32491/48845 [11:30:23<5:44:43,  1.26s/it] 67%|██████▋   | 32492/48845 [11:30:24<5:44:26,  1.26s/it] 67%|██████▋   | 32493/48845 [11:30:25<5:44:44,  1.26s/it] 67%|██████▋   | 32494/48845 [11:30:27<5:44:19,  1.26s/it] 67%|██████▋   | 32495/48845 [11:30:28<5:44:21,  1.26s/it]                                                          {'loss': 2.0093, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32495/48845 [11:30:28<5:44:21,  1.26s/it] 67%|██████▋   | 32496/48845 [11:30:29<5:44:12,  1.26s/it] 67%|██████▋   | 32497/48845 [11:30:31<5:43:56,  1.26s/it] 67%|██████▋   | 32498/48845 [11:30:32<5:43:56,  1.26s/it] 67%|██████▋   | 32499/48845 [11:30:33<5:43:39,  1.26s/it] 67%|██████▋   | 32500/48845 [11:30:34<5:44:00,  1.26s/it]                                                          {'loss': 1.9861, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32500/48845 [11:30:34<5:44:00,  1.26s/it] 67%|██████▋   | 32501/48845 [11:30:36<5:44:57,  1.27s/it] 67%|██████▋   | 32502/48845 [11:30:37<5:44:35,  1.27s/it] 67%|██████▋   | 32503/48845 [11:30:38<5:44:30,  1.26s/it] 67%|██████▋   | 32504/48845 [11:30:39<5:44:18,  1.26s/it] 67%|██████▋   | 32505/48845 [11:30:41<5:44:19,  1.26s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32505/48845 [11:30:41<5:44:19,  1.26s/it] 67%|██████▋   | 32506/48845 [11:30:42<5:44:25,  1.26s/it] 67%|██████▋   | 32507/48845 [11:30:43<5:44:15,  1.26s/it] 67%|██████▋   | 32508/48845 [11:30:44<5:43:53,  1.26s/it] 67%|██████▋   | 32509/48845 [11:30:46<5:44:21,  1.26s/it] 67%|██████▋   | 32510/48845 [11:30:47<5:44:09,  1.26s/it]                                                          {'loss': 2.1383, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32510/48845 [11:30:47<5:44:09,  1.26s/it] 67%|██████▋   | 32511/48845 [11:30:48<5:44:19,  1.26s/it] 67%|██████▋   | 32512/48845 [11:30:49<5:44:10,  1.26s/it] 67%|██████▋   | 32513/48845 [11:30:51<5:43:57,  1.26s/it] 67%|██████▋   | 32514/48845 [11:30:52<5:43:38,  1.26s/it] 67%|██████▋   | 32515/48845 [11:30:53<5:43:28,  1.26s/it]                                                          {'loss': 2.1373, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32515/48845 [11:30:53<5:43:28,  1.26s/it] 67%|██████▋   | 32516/48845 [11:30:55<5:44:07,  1.26s/it] 67%|██████▋   | 32517/48845 [11:30:56<5:43:40,  1.26s/it] 67%|██████▋   | 32518/48845 [11:30:57<5:43:23,  1.26s/it] 67%|██████▋   | 32519/48845 [11:30:58<5:43:24,  1.26s/it] 67%|██████▋   | 32520/48845 [11:31:00<5:43:33,  1.26s/it]                                                          {'loss': 1.8172, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32520/48845 [11:31:00<5:43:33,  1.26s/it] 67%|██████▋   | 32521/48845 [11:31:01<5:43:48,  1.26s/it] 67%|██████▋   | 32522/48845 [11:31:02<5:43:36,  1.26s/it] 67%|██████▋   | 32523/48845 [11:31:03<5:43:33,  1.26s/it] 67%|██████▋   | 32524/48845 [11:31:05<5:43:23,  1.26s/it] 67%|██████▋   | 32525/48845 [11:31:06<5:43:27,  1.26s/it]                                                          {'loss': 2.001, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32525/48845 [11:31:06<5:43:27,  1.26s/it] 67%|██████▋   | 32526/48845 [11:31:07<5:43:19,  1.26s/it] 67%|██████▋   | 32527/48845 [11:31:08<5:43:08,  1.26s/it] 67%|██████▋   | 32528/48845 [11:31:10<5:43:01,  1.26s/it] 67%|██████▋   | 32529/48845 [11:31:11<5:42:55,  1.26s/it] 67%|██████▋   | 32530/48845 [11:31:12<5:43:09,  1.26s/it]                                                          {'loss': 1.8841, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32530/48845 [11:31:12<5:43:09,  1.26s/it] 67%|██████▋   | 32531/48845 [11:31:13<5:43:27,  1.26s/it] 67%|██████▋   | 32532/48845 [11:31:15<5:43:27,  1.26s/it] 67%|██████▋   | 32533/48845 [11:31:16<5:43:05,  1.26s/it] 67%|██████▋   | 32534/48845 [11:31:17<5:43:09,  1.26s/it] 67%|██████▋   | 32535/48845 [11:31:19<5:43:01,  1.26s/it]                                                          {'loss': 1.9399, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32535/48845 [11:31:19<5:43:01,  1.26s/it] 67%|██████▋   | 32536/48845 [11:31:20<5:43:32,  1.26s/it] 67%|██████▋   | 32537/48845 [11:31:21<5:43:49,  1.27s/it] 67%|██████▋   | 32538/48845 [11:31:22<5:43:12,  1.26s/it] 67%|██████▋   | 32539/48845 [11:31:24<5:43:18,  1.26s/it] 67%|██████▋   | 32540/48845 [11:31:25<5:43:06,  1.26s/it]                                                          {'loss': 2.0152, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32540/48845 [11:31:25<5:43:06,  1.26s/it] 67%|██████▋   | 32541/48845 [11:31:26<5:43:30,  1.26s/it] 67%|██████▋   | 32542/48845 [11:31:27<5:43:18,  1.26s/it] 67%|██████▋   | 32543/48845 [11:31:29<5:43:15,  1.26s/it] 67%|██████▋   | 32544/48845 [11:31:30<5:43:15,  1.26s/it] 67%|██████▋   | 32545/48845 [11:31:31<5:43:33,  1.26s/it]                                                          {'loss': 2.0753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32545/48845 [11:31:31<5:43:33,  1.26s/it] 67%|██████▋   | 32546/48845 [11:31:32<5:43:32,  1.26s/it] 67%|██████▋   | 32547/48845 [11:31:34<5:43:13,  1.26s/it] 67%|██████▋   | 32548/48845 [11:31:35<5:42:55,  1.26s/it] 67%|██████▋   | 32549/48845 [11:31:36<5:42:29,  1.26s/it] 67%|██████▋   | 32550/48845 [11:31:37<5:42:49,  1.26s/it]                                                          {'loss': 1.9082, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32550/48845 [11:31:37<5:42:49,  1.26s/it] 67%|██████▋   | 32551/48845 [11:31:39<5:42:59,  1.26s/it] 67%|██████▋   | 32552/48845 [11:31:40<5:42:57,  1.26s/it] 67%|██████▋   | 32553/48845 [11:31:41<5:43:00,  1.26s/it] 67%|██████▋   | 32554/48845 [11:31:43<5:42:47,  1.26s/it] 67%|██████▋   | 32555/48845 [11:31:44<5:42:53,  1.26s/it]                                                          {'loss': 1.9457, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32555/48845 [11:31:44<5:42:53,  1.26s/it] 67%|██████▋   | 32556/48845 [11:31:45<5:42:52,  1.26s/it] 67%|██████▋   | 32557/48845 [11:31:46<5:42:29,  1.26s/it] 67%|██████▋   | 32558/48845 [11:31:48<5:42:37,  1.26s/it] 67%|██████▋   | 32559/48845 [11:31:49<5:42:42,  1.26s/it] 67%|██████▋   | 32560/48845 [11:31:50<5:42:38,  1.26s/it]                                                          {'loss': 2.0397, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32560/48845 [11:31:50<5:42:38,  1.26s/it] 67%|██████▋   | 32561/48845 [11:31:51<5:42:31,  1.26s/it] 67%|██████▋   | 32562/48845 [11:31:53<5:46:18,  1.28s/it] 67%|██████▋   | 32563/48845 [11:31:54<5:45:48,  1.27s/it] 67%|██████▋   | 32564/48845 [11:31:55<5:44:31,  1.27s/it] 67%|██████▋   | 32565/48845 [11:31:56<5:44:19,  1.27s/it]                                                          {'loss': 2.091, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32565/48845 [11:31:56<5:44:19,  1.27s/it] 67%|██████▋   | 32566/48845 [11:31:58<5:44:02,  1.27s/it] 67%|██████▋   | 32567/48845 [11:31:59<5:43:42,  1.27s/it] 67%|██████▋   | 32568/48845 [11:32:00<5:43:23,  1.27s/it] 67%|██████▋   | 32569/48845 [11:32:02<5:42:51,  1.26s/it] 67%|██████▋   | 32570/48845 [11:32:03<5:43:01,  1.26s/it]                                                          {'loss': 2.0095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32570/48845 [11:32:03<5:43:01,  1.26s/it] 67%|██████▋   | 32571/48845 [11:32:04<5:42:45,  1.26s/it] 67%|██████▋   | 32572/48845 [11:32:05<5:42:29,  1.26s/it] 67%|██████▋   | 32573/48845 [11:32:07<5:42:30,  1.26s/it] 67%|██████▋   | 32574/48845 [11:32:08<5:42:27,  1.26s/it] 67%|██████▋   | 32575/48845 [11:32:09<5:42:14,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.33}
+ 67%|██████▋   | 32575/48845 [11:32:09<5:42:14,  1.26s/it] 67%|██████▋   | 32576/48845 [11:32:10<5:42:03,  1.26s/it] 67%|██████▋   | 32577/48845 [11:32:12<5:41:51,  1.26s/it] 67%|██████▋   | 32578/48845 [11:32:13<5:41:46,  1.26s/it] 67%|██████▋   | 32579/48845 [11:32:14<5:41:42,  1.26s/it] 67%|██████▋   | 32580/48845 [11:32:15<5:42:20,  1.26s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32580/48845 [11:32:15<5:42:20,  1.26s/it] 67%|██████▋   | 32581/48845 [11:32:17<5:42:10,  1.26s/it] 67%|██████▋   | 32582/48845 [11:32:18<5:42:09,  1.26s/it] 67%|██████▋   | 32583/48845 [11:32:19<5:42:13,  1.26s/it] 67%|██████▋   | 32584/48845 [11:32:20<5:42:14,  1.26s/it] 67%|██████▋   | 32585/48845 [11:32:22<5:41:47,  1.26s/it]                                                          {'loss': 1.9721, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32585/48845 [11:32:22<5:41:47,  1.26s/it] 67%|██████▋   | 32586/48845 [11:32:23<5:42:06,  1.26s/it] 67%|██████▋   | 32587/48845 [11:32:24<5:41:51,  1.26s/it] 67%|██████▋   | 32588/48845 [11:32:25<5:42:01,  1.26s/it] 67%|██████▋   | 32589/48845 [11:32:27<5:42:37,  1.26s/it] 67%|██████▋   | 32590/48845 [11:32:28<5:42:17,  1.26s/it]                                                          {'loss': 1.9782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32590/48845 [11:32:28<5:42:17,  1.26s/it] 67%|██████▋   | 32591/48845 [11:32:29<5:42:25,  1.26s/it] 67%|██████▋   | 32592/48845 [11:32:31<5:42:17,  1.26s/it] 67%|██████▋   | 32593/48845 [11:32:32<5:42:03,  1.26s/it] 67%|██████▋   | 32594/48845 [11:32:33<5:41:42,  1.26s/it] 67%|██████▋   | 32595/48845 [11:32:34<5:41:51,  1.26s/it]                                                          {'loss': 2.0133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32595/48845 [11:32:34<5:41:51,  1.26s/it] 67%|██████▋   | 32596/48845 [11:32:36<5:41:47,  1.26s/it] 67%|██████▋   | 32597/48845 [11:32:37<5:41:44,  1.26s/it] 67%|██████▋   | 32598/48845 [11:32:38<5:41:39,  1.26s/it] 67%|██████▋   | 32599/48845 [11:32:39<5:42:03,  1.26s/it] 67%|██████▋   | 32600/48845 [11:32:41<5:41:57,  1.26s/it]                                                          {'loss': 2.054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32600/48845 [11:32:41<5:41:57,  1.26s/it] 67%|██████▋   | 32601/48845 [11:32:44<9:05:23,  2.01s/it] 67%|██████▋   | 32602/48845 [11:32:46<8:04:11,  1.79s/it] 67%|██████▋   | 32603/48845 [11:32:47<7:21:34,  1.63s/it] 67%|██████▋   | 32604/48845 [11:32:48<6:51:25,  1.52s/it] 67%|██████▋   | 32605/48845 [11:32:49<6:30:13,  1.44s/it]                                                          {'loss': 2.065, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32605/48845 [11:32:49<6:30:13,  1.44s/it] 67%|██████▋   | 32606/48845 [11:32:51<6:15:44,  1.39s/it] 67%|██████▋   | 32607/48845 [11:32:52<6:05:43,  1.35s/it] 67%|██████▋   | 32608/48845 [11:32:53<5:58:36,  1.33s/it] 67%|██████▋   | 32609/48845 [11:32:55<5:53:45,  1.31s/it] 67%|██████▋   | 32610/48845 [11:32:56<5:50:13,  1.29s/it]                                                          {'loss': 2.07, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32610/48845 [11:32:56<5:50:13,  1.29s/it] 67%|██████▋   | 32611/48845 [11:32:57<5:47:36,  1.28s/it] 67%|██████▋   | 32612/48845 [11:32:58<5:46:01,  1.28s/it] 67%|██████▋   | 32613/48845 [11:33:00<5:44:24,  1.27s/it] 67%|██████▋   | 32614/48845 [11:33:01<5:43:25,  1.27s/it] 67%|██████▋   | 32615/48845 [11:33:02<5:42:45,  1.27s/it]                                                          {'loss': 2.1043, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32615/48845 [11:33:02<5:42:45,  1.27s/it] 67%|██████▋   | 32616/48845 [11:33:03<5:42:31,  1.27s/it] 67%|██████▋   | 32617/48845 [11:33:05<5:42:37,  1.27s/it] 67%|██████▋   | 32618/48845 [11:33:06<5:42:17,  1.27s/it] 67%|██████▋   | 32619/48845 [11:33:07<5:41:46,  1.26s/it] 67%|██████▋   | 32620/48845 [11:33:08<5:41:22,  1.26s/it]                                                          {'loss': 2.1102, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32620/48845 [11:33:08<5:41:22,  1.26s/it] 67%|██████▋   | 32621/48845 [11:33:10<5:41:11,  1.26s/it] 67%|██████▋   | 32622/48845 [11:33:11<5:40:59,  1.26s/it] 67%|██████▋   | 32623/48845 [11:33:12<5:40:51,  1.26s/it] 67%|██████▋   | 32624/48845 [11:33:13<5:40:44,  1.26s/it] 67%|██████▋   | 32625/48845 [11:33:15<5:40:43,  1.26s/it]                                                          {'loss': 2.1146, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32625/48845 [11:33:15<5:40:43,  1.26s/it] 67%|██████▋   | 32626/48845 [11:33:16<5:40:46,  1.26s/it] 67%|██████▋   | 32627/48845 [11:33:17<5:40:42,  1.26s/it] 67%|██████▋   | 32628/48845 [11:33:18<5:40:21,  1.26s/it] 67%|██████▋   | 32629/48845 [11:33:20<5:40:40,  1.26s/it] 67%|██████▋   | 32630/48845 [11:33:21<5:40:32,  1.26s/it]                                                          {'loss': 2.1031, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32630/48845 [11:33:21<5:40:32,  1.26s/it] 67%|██████▋   | 32631/48845 [11:33:22<5:40:56,  1.26s/it] 67%|██████▋   | 32632/48845 [11:33:24<5:40:55,  1.26s/it] 67%|██████▋   | 32633/48845 [11:33:25<5:41:21,  1.26s/it] 67%|██████▋   | 32634/48845 [11:33:26<5:41:09,  1.26s/it] 67%|██████▋   | 32635/48845 [11:33:27<5:40:56,  1.26s/it]                                                          {'loss': 2.0409, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32635/48845 [11:33:27<5:40:56,  1.26s/it] 67%|██████▋   | 32636/48845 [11:33:29<5:40:59,  1.26s/it] 67%|██████▋   | 32637/48845 [11:33:30<5:45:07,  1.28s/it] 67%|██████▋   | 32638/48845 [11:33:31<5:43:38,  1.27s/it] 67%|██████▋   | 32639/48845 [11:33:32<5:42:59,  1.27s/it] 67%|██████▋   | 32640/48845 [11:33:34<5:42:21,  1.27s/it]                                                          {'loss': 2.0619, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32640/48845 [11:33:34<5:42:21,  1.27s/it] 67%|██████▋   | 32641/48845 [11:33:35<5:42:17,  1.27s/it] 67%|██████▋   | 32642/48845 [11:33:36<5:42:15,  1.27s/it] 67%|██████▋   | 32643/48845 [11:33:37<5:41:38,  1.27s/it] 67%|██████▋   | 32644/48845 [11:33:39<5:41:09,  1.26s/it] 67%|██████▋   | 32645/48845 [11:33:40<5:40:43,  1.26s/it]                                                          {'loss': 1.8404, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32645/48845 [11:33:40<5:40:43,  1.26s/it] 67%|██████▋   | 32646/48845 [11:33:41<5:40:40,  1.26s/it] 67%|██████▋   | 32647/48845 [11:33:43<5:40:54,  1.26s/it] 67%|██████▋   | 32648/48845 [11:33:44<5:40:52,  1.26s/it] 67%|██████▋   | 32649/48845 [11:33:45<5:41:09,  1.26s/it] 67%|██████▋   | 32650/48845 [11:33:46<5:41:00,  1.26s/it]                                                          {'loss': 2.1026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32650/48845 [11:33:46<5:41:00,  1.26s/it] 67%|██████▋   | 32651/48845 [11:33:48<5:40:45,  1.26s/it] 67%|██████▋   | 32652/48845 [11:33:49<5:40:50,  1.26s/it] 67%|██████▋   | 32653/48845 [11:33:50<5:46:45,  1.28s/it] 67%|██████▋   | 32654/48845 [11:33:51<5:45:10,  1.28s/it] 67%|██████▋   | 32655/48845 [11:33:53<5:43:44,  1.27s/it]                                                          {'loss': 2.0297, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32655/48845 [11:33:53<5:43:44,  1.27s/it] 67%|██████▋   | 32656/48845 [11:33:54<5:43:10,  1.27s/it] 67%|██████▋   | 32657/48845 [11:33:55<5:42:19,  1.27s/it] 67%|██████▋   | 32658/48845 [11:33:56<5:41:34,  1.27s/it] 67%|██████▋   | 32659/48845 [11:33:58<5:40:59,  1.26s/it] 67%|██████▋   | 32660/48845 [11:33:59<5:40:44,  1.26s/it]                                                          {'loss': 2.1265, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32660/48845 [11:33:59<5:40:44,  1.26s/it] 67%|██████▋   | 32661/48845 [11:34:00<5:49:08,  1.29s/it] 67%|██████▋   | 32662/48845 [11:34:02<5:46:21,  1.28s/it] 67%|██████▋   | 32663/48845 [11:34:03<5:44:21,  1.28s/it] 67%|██████▋   | 32664/48845 [11:34:04<5:43:05,  1.27s/it] 67%|██████▋   | 32665/48845 [11:34:05<5:42:31,  1.27s/it]                                                          {'loss': 1.9761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32665/48845 [11:34:05<5:42:31,  1.27s/it] 67%|██████▋   | 32666/48845 [11:34:07<5:42:00,  1.27s/it] 67%|██████▋   | 32667/48845 [11:34:08<5:41:19,  1.27s/it] 67%|██████▋   | 32668/48845 [11:34:09<5:41:18,  1.27s/it] 67%|██████▋   | 32669/48845 [11:34:10<5:41:12,  1.27s/it] 67%|██████▋   | 32670/48845 [11:34:12<5:41:00,  1.26s/it]                                                          {'loss': 2.1202, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32670/48845 [11:34:12<5:41:00,  1.26s/it] 67%|██████▋   | 32671/48845 [11:34:13<5:40:45,  1.26s/it] 67%|██████▋   | 32672/48845 [11:34:14<5:41:09,  1.27s/it] 67%|██████▋   | 32673/48845 [11:34:16<5:40:57,  1.26s/it] 67%|██████▋   | 32674/48845 [11:34:17<5:40:51,  1.26s/it] 67%|██████▋   | 32675/48845 [11:34:18<5:40:35,  1.26s/it]                                                          {'loss': 2.0293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.34}
+ 67%|██████▋   | 32675/48845 [11:34:18<5:40:35,  1.26s/it] 67%|██████▋   | 32676/48845 [11:34:19<5:40:39,  1.26s/it] 67%|██████▋   | 32677/48845 [11:34:21<5:40:36,  1.26s/it] 67%|██████▋   | 32678/48845 [11:34:22<5:40:25,  1.26s/it] 67%|██████▋   | 32679/48845 [11:34:23<5:40:04,  1.26s/it] 67%|██████▋   | 32680/48845 [11:34:24<5:39:38,  1.26s/it]                                                          {'loss': 1.9859, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32680/48845 [11:34:24<5:39:38,  1.26s/it] 67%|██████▋   | 32681/48845 [11:34:26<5:39:42,  1.26s/it] 67%|██████▋   | 32682/48845 [11:34:27<5:39:39,  1.26s/it] 67%|██████▋   | 32683/48845 [11:34:28<5:39:39,  1.26s/it] 67%|██████▋   | 32684/48845 [11:34:29<5:39:45,  1.26s/it] 67%|██████▋   | 32685/48845 [11:34:31<5:39:38,  1.26s/it]                                                          {'loss': 2.0039, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32685/48845 [11:34:31<5:39:38,  1.26s/it] 67%|██████▋   | 32686/48845 [11:34:32<5:39:49,  1.26s/it] 67%|██████▋   | 32687/48845 [11:34:33<5:39:57,  1.26s/it] 67%|██████▋   | 32688/48845 [11:34:34<5:40:05,  1.26s/it] 67%|██████▋   | 32689/48845 [11:34:36<5:39:58,  1.26s/it] 67%|██████▋   | 32690/48845 [11:34:37<5:40:03,  1.26s/it]                                                          {'loss': 2.037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32690/48845 [11:34:37<5:40:03,  1.26s/it] 67%|██████▋   | 32691/48845 [11:34:38<5:40:00,  1.26s/it] 67%|██████▋   | 32692/48845 [11:34:40<5:39:47,  1.26s/it] 67%|██████▋   | 32693/48845 [11:34:41<5:39:33,  1.26s/it] 67%|██████▋   | 32694/48845 [11:34:42<5:39:45,  1.26s/it] 67%|██████▋   | 32695/48845 [11:34:43<5:39:45,  1.26s/it]                                                          {'loss': 2.1103, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32695/48845 [11:34:43<5:39:45,  1.26s/it] 67%|██████▋   | 32696/48845 [11:34:45<5:39:49,  1.26s/it] 67%|██████▋   | 32697/48845 [11:34:46<5:39:51,  1.26s/it] 67%|██████▋   | 32698/48845 [11:34:47<5:39:49,  1.26s/it] 67%|██████▋   | 32699/48845 [11:34:48<5:39:38,  1.26s/it] 67%|██████▋   | 32700/48845 [11:34:50<5:40:21,  1.26s/it]                                                          {'loss': 2.0531, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32700/48845 [11:34:50<5:40:21,  1.26s/it] 67%|██████▋   | 32701/48845 [11:34:51<5:40:00,  1.26s/it] 67%|██████▋   | 32702/48845 [11:34:52<5:39:24,  1.26s/it] 67%|██████▋   | 32703/48845 [11:34:53<5:39:09,  1.26s/it] 67%|██████▋   | 32704/48845 [11:34:55<5:38:53,  1.26s/it] 67%|██████▋   | 32705/48845 [11:34:56<5:39:03,  1.26s/it]                                                          {'loss': 2.1249, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32705/48845 [11:34:56<5:39:03,  1.26s/it] 67%|██████▋   | 32706/48845 [11:34:57<5:39:09,  1.26s/it] 67%|██████▋   | 32707/48845 [11:34:58<5:39:13,  1.26s/it] 67%|██████▋   | 32708/48845 [11:35:00<5:39:36,  1.26s/it] 67%|██████▋   | 32709/48845 [11:35:01<5:39:39,  1.26s/it] 67%|██████▋   | 32710/48845 [11:35:02<5:39:41,  1.26s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32710/48845 [11:35:02<5:39:41,  1.26s/it] 67%|██████▋   | 32711/48845 [11:35:03<5:39:37,  1.26s/it] 67%|██████▋   | 32712/48845 [11:35:05<5:38:53,  1.26s/it] 67%|██████▋   | 32713/48845 [11:35:06<5:39:12,  1.26s/it] 67%|██████▋   | 32714/48845 [11:35:07<5:39:22,  1.26s/it] 67%|██████▋   | 32715/48845 [11:35:09<5:39:21,  1.26s/it]                                                          {'loss': 2.178, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32715/48845 [11:35:09<5:39:21,  1.26s/it] 67%|██████▋   | 32716/48845 [11:35:10<5:39:34,  1.26s/it] 67%|██████▋   | 32717/48845 [11:35:11<5:39:12,  1.26s/it] 67%|██████▋   | 32718/48845 [11:35:12<5:39:02,  1.26s/it] 67%|██████▋   | 32719/48845 [11:35:14<5:39:15,  1.26s/it] 67%|██████▋   | 32720/48845 [11:35:15<5:39:00,  1.26s/it]                                                          {'loss': 2.0118, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32720/48845 [11:35:15<5:39:00,  1.26s/it] 67%|██████▋   | 32721/48845 [11:35:16<5:38:50,  1.26s/it] 67%|██████▋   | 32722/48845 [11:35:17<5:39:01,  1.26s/it] 67%|██████▋   | 32723/48845 [11:35:19<5:39:27,  1.26s/it] 67%|██████▋   | 32724/48845 [11:35:20<5:39:25,  1.26s/it] 67%|██████▋   | 32725/48845 [11:35:21<5:39:01,  1.26s/it]                                                          {'loss': 2.1688, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32725/48845 [11:35:21<5:39:01,  1.26s/it] 67%|██████▋   | 32726/48845 [11:35:22<5:39:23,  1.26s/it] 67%|██████▋   | 32727/48845 [11:35:24<5:39:13,  1.26s/it] 67%|██████▋   | 32728/48845 [11:35:25<5:38:51,  1.26s/it] 67%|██████▋   | 32729/48845 [11:35:26<5:38:47,  1.26s/it] 67%|██████▋   | 32730/48845 [11:35:27<5:39:15,  1.26s/it]                                                          {'loss': 1.9971, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32730/48845 [11:35:27<5:39:15,  1.26s/it] 67%|██████▋   | 32731/48845 [11:35:29<5:39:23,  1.26s/it] 67%|██████▋   | 32732/48845 [11:35:30<5:39:22,  1.26s/it] 67%|██████▋   | 32733/48845 [11:35:31<5:39:07,  1.26s/it] 67%|██████▋   | 32734/48845 [11:35:33<5:38:56,  1.26s/it] 67%|██████▋   | 32735/48845 [11:35:34<5:38:47,  1.26s/it]                                                          {'loss': 1.9884, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32735/48845 [11:35:34<5:38:47,  1.26s/it] 67%|██████▋   | 32736/48845 [11:35:35<5:39:08,  1.26s/it] 67%|██████▋   | 32737/48845 [11:35:36<5:39:13,  1.26s/it] 67%|██████▋   | 32738/48845 [11:35:38<5:38:59,  1.26s/it] 67%|██████▋   | 32739/48845 [11:35:39<5:38:43,  1.26s/it] 67%|██████▋   | 32740/48845 [11:35:40<5:38:44,  1.26s/it]                                                          {'loss': 2.1538, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32740/48845 [11:35:40<5:38:44,  1.26s/it] 67%|██████▋   | 32741/48845 [11:35:41<5:38:46,  1.26s/it] 67%|██████▋   | 32742/48845 [11:35:43<5:38:58,  1.26s/it] 67%|██████▋   | 32743/48845 [11:35:44<5:38:56,  1.26s/it] 67%|██████▋   | 32744/48845 [11:35:45<5:38:39,  1.26s/it] 67%|██████▋   | 32745/48845 [11:35:46<5:38:31,  1.26s/it]                                                          {'loss': 2.1284, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32745/48845 [11:35:46<5:38:31,  1.26s/it] 67%|██████▋   | 32746/48845 [11:35:48<5:38:55,  1.26s/it] 67%|██████▋   | 32747/48845 [11:35:49<5:38:40,  1.26s/it] 67%|██████▋   | 32748/48845 [11:35:50<5:38:31,  1.26s/it] 67%|██████▋   | 32749/48845 [11:35:51<5:38:38,  1.26s/it] 67%|██████▋   | 32750/48845 [11:35:53<5:38:28,  1.26s/it]                                                          {'loss': 2.024, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32750/48845 [11:35:53<5:38:28,  1.26s/it] 67%|██████▋   | 32751/48845 [11:35:54<5:38:54,  1.26s/it] 67%|██████▋   | 32752/48845 [11:35:55<5:38:22,  1.26s/it] 67%|██████▋   | 32753/48845 [11:35:57<5:38:07,  1.26s/it] 67%|█████���▋   | 32754/48845 [11:35:58<5:38:06,  1.26s/it] 67%|██████▋   | 32755/48845 [11:35:59<5:38:05,  1.26s/it]                                                          {'loss': 1.9132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32755/48845 [11:35:59<5:38:05,  1.26s/it] 67%|██████▋   | 32756/48845 [11:36:00<5:38:07,  1.26s/it] 67%|██████▋   | 32757/48845 [11:36:02<5:37:47,  1.26s/it] 67%|██████▋   | 32758/48845 [11:36:03<5:37:46,  1.26s/it] 67%|██████▋   | 32759/48845 [11:36:04<5:38:28,  1.26s/it] 67%|██████▋   | 32760/48845 [11:36:05<5:38:23,  1.26s/it]                                                          {'loss': 2.2511, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32760/48845 [11:36:05<5:38:23,  1.26s/it] 67%|██████▋   | 32761/48845 [11:36:07<5:38:31,  1.26s/it] 67%|██████▋   | 32762/48845 [11:36:08<5:38:28,  1.26s/it] 67%|██████▋   | 32763/48845 [11:36:09<5:38:17,  1.26s/it] 67%|██████▋   | 32764/48845 [11:36:10<5:38:08,  1.26s/it] 67%|██████▋   | 32765/48845 [11:36:12<5:38:15,  1.26s/it]                                                          {'loss': 1.9089, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32765/48845 [11:36:12<5:38:15,  1.26s/it] 67%|██████▋   | 32766/48845 [11:36:13<5:38:06,  1.26s/it] 67%|██████▋   | 32767/48845 [11:36:14<5:38:08,  1.26s/it] 67%|██████▋   | 32768/48845 [11:36:15<5:38:44,  1.26s/it] 67%|██████▋   | 32769/48845 [11:36:17<5:38:28,  1.26s/it] 67%|██████▋   | 32770/48845 [11:36:18<5:38:14,  1.26s/it]                                                          {'loss': 1.918, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.35}
+ 67%|██████▋   | 32770/48845 [11:36:18<5:38:14,  1.26s/it] 67%|██████▋   | 32771/48845 [11:36:19<5:37:54,  1.26s/it] 67%|██████▋   | 32772/48845 [11:36:20<5:37:47,  1.26s/it] 67%|██████▋   | 32773/48845 [11:36:22<5:37:34,  1.26s/it] 67%|██████▋   | 32774/48845 [11:36:23<5:37:27,  1.26s/it] 67%|██████▋   | 32775/48845 [11:36:24<5:37:36,  1.26s/it]                                                          {'loss': 2.1758, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32775/48845 [11:36:24<5:37:36,  1.26s/it] 67%|██████▋   | 32776/48845 [11:36:26<5:38:02,  1.26s/it] 67%|██████▋   | 32777/48845 [11:36:27<5:37:58,  1.26s/it] 67%|██████▋   | 32778/48845 [11:36:28<5:38:29,  1.26s/it] 67%|██████▋   | 32779/48845 [11:36:29<5:38:17,  1.26s/it] 67%|██████▋   | 32780/48845 [11:36:31<5:38:25,  1.26s/it]                                                          {'loss': 2.099, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32780/48845 [11:36:31<5:38:25,  1.26s/it] 67%|██████▋   | 32781/48845 [11:36:32<5:38:22,  1.26s/it] 67%|██████▋   | 32782/48845 [11:36:33<5:38:12,  1.26s/it] 67%|██████▋   | 32783/48845 [11:36:34<5:38:18,  1.26s/it] 67%|██████▋   | 32784/48845 [11:36:36<5:37:58,  1.26s/it] 67%|██████▋   | 32785/48845 [11:36:37<5:37:42,  1.26s/it]                                                          {'loss': 2.0978, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32785/48845 [11:36:37<5:37:42,  1.26s/it] 67%|██████▋   | 32786/48845 [11:36:38<5:38:15,  1.26s/it] 67%|██████▋   | 32787/48845 [11:36:39<5:37:59,  1.26s/it] 67%|██████▋   | 32788/48845 [11:36:41<5:37:52,  1.26s/it] 67%|██████▋   | 32789/48845 [11:36:42<5:38:24,  1.26s/it] 67%|██████▋   | 32790/48845 [11:36:43<5:38:02,  1.26s/it]                                                          {'loss': 1.9398, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32790/48845 [11:36:43<5:38:02,  1.26s/it] 67%|██████▋   | 32791/48845 [11:36:44<5:39:11,  1.27s/it] 67%|██████▋   | 32792/48845 [11:36:46<5:38:45,  1.27s/it] 67%|██████▋   | 32793/48845 [11:36:47<5:38:11,  1.26s/it] 67%|██████▋   | 32794/48845 [11:36:48<5:38:06,  1.26s/it] 67%|██████▋   | 32795/48845 [11:36:50<5:38:11,  1.26s/it]                                                          {'loss': 2.1091, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32795/48845 [11:36:50<5:38:11,  1.26s/it] 67%|██████▋   | 32796/48845 [11:36:51<5:38:25,  1.27s/it] 67%|██████▋   | 32797/48845 [11:36:52<5:37:59,  1.26s/it] 67%|██████▋   | 32798/48845 [11:36:53<5:37:33,  1.26s/it] 67%|██████▋   | 32799/48845 [11:36:55<5:37:17,  1.26s/it] 67%|██████▋   | 32800/48845 [11:36:56<5:37:52,  1.26s/it]                                                          {'loss': 2.0393, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32800/48845 [11:36:56<5:37:52,  1.26s/it] 67%|██████▋   | 32801/48845 [11:37:00<8:57:59,  2.01s/it] 67%|██████▋   | 32802/48845 [11:37:01<7:57:11,  1.78s/it] 67%|██████▋   | 32803/48845 [11:37:02<7:15:08,  1.63s/it] 67%|██████▋   | 32804/48845 [11:37:03<6:45:35,  1.52s/it] 67%|██████▋   | 32805/48845 [11:37:05<6:25:24,  1.44s/it]                                                          {'loss': 1.927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32805/48845 [11:37:05<6:25:24,  1.44s/it] 67%|██████▋   | 32806/48845 [11:37:06<6:11:13,  1.39s/it] 67%|██████▋   | 32807/48845 [11:37:07<6:01:11,  1.35s/it] 67%|██████▋   | 32808/48845 [11:37:08<5:54:46,  1.33s/it] 67%|██████▋   | 32809/48845 [11:37:10<5:50:03,  1.31s/it] 67%|██████▋   | 32810/48845 [11:37:11<5:46:00,  1.29s/it]                                                          {'loss': 2.0187, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32810/48845 [11:37:11<5:46:00,  1.29s/it] 67%|██████▋   | 32811/48845 [11:37:12<5:43:33,  1.29s/it] 67%|██████▋   | 32812/48845 [11:37:14<5:41:38,  1.28s/it] 67%|██████▋   | 32813/48845 [11:37:15<5:40:24,  1.27s/it] 67%|██████▋   | 32814/48845 [11:37:16<5:40:10,  1.27s/it] 67%|██████▋   | 32815/48845 [11:37:17<5:38:55,  1.27s/it]                                                          {'loss': 1.9658, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32815/48845 [11:37:17<5:38:55,  1.27s/it] 67%|██████▋   | 32816/48845 [11:37:19<5:38:21,  1.27s/it] 67%|██████▋   | 32817/48845 [11:37:20<5:37:49,  1.26s/it] 67%|██████▋   | 32818/48845 [11:37:21<5:37:21,  1.26s/it] 67%|██████▋   | 32819/48845 [11:37:22<5:37:26,  1.26s/it] 67%|██████▋   | 32820/48845 [11:37:24<5:37:19,  1.26s/it]                                                          {'loss': 1.9566, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32820/48845 [11:37:24<5:37:19,  1.26s/it] 67%|██████▋   | 32821/48845 [11:37:25<5:37:11,  1.26s/it] 67%|██████▋   | 32822/48845 [11:37:26<5:37:03,  1.26s/it] 67%|██████▋   | 32823/48845 [11:37:27<5:36:56,  1.26s/it] 67%|██████▋   | 32824/48845 [11:37:29<5:37:03,  1.26s/it] 67%|██████▋   | 32825/48845 [11:37:30<5:36:52,  1.26s/it]                                                          {'loss': 2.0556, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32825/48845 [11:37:30<5:36:52,  1.26s/it] 67%|██████▋   | 32826/48845 [11:37:31<5:36:40,  1.26s/it] 67%|██████▋   | 32827/48845 [11:37:32<5:36:49,  1.26s/it] 67%|██████▋   | 32828/48845 [11:37:34<5:36:32,  1.26s/it] 67%|██████▋   | 32829/48845 [11:37:35<5:36:11,  1.26s/it] 67%|██████▋   | 32830/48845 [11:37:36<5:36:25,  1.26s/it]                                                          {'loss': 2.0556, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32830/48845 [11:37:36<5:36:25,  1.26s/it] 67%|██████▋   | 32831/48845 [11:37:37<5:36:32,  1.26s/it] 67%|██████▋   | 32832/48845 [11:37:39<5:36:34,  1.26s/it] 67%|██████▋   | 32833/48845 [11:37:40<5:36:17,  1.26s/it] 67%|██████▋   | 32834/48845 [11:37:41<5:36:29,  1.26s/it] 67%|██████▋   | 32835/48845 [11:37:43<5:36:38,  1.26s/it]                                                          {'loss': 1.9593, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32835/48845 [11:37:43<5:36:38,  1.26s/it] 67%|██████▋   | 32836/48845 [11:37:44<5:36:46,  1.26s/it] 67%|██████▋   | 32837/48845 [11:37:45<5:36:49,  1.26s/it] 67%|██████▋   | 32838/48845 [11:37:46<5:36:37,  1.26s/it] 67%|██████▋   | 32839/48845 [11:37:48<5:36:57,  1.26s/it] 67%|██████▋   | 32840/48845 [11:37:49<5:36:51,  1.26s/it]                                                          {'loss': 1.9263, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32840/48845 [11:37:49<5:36:51,  1.26s/it] 67%|██████▋   | 32841/48845 [11:37:50<5:36:40,  1.26s/it] 67%|██████▋   | 32842/48845 [11:37:51<5:36:23,  1.26s/it] 67%|██████▋   | 32843/48845 [11:37:53<5:36:29,  1.26s/it] 67%|██████▋   | 32844/48845 [11:37:54<5:36:29,  1.26s/it] 67%|██████▋   | 32845/48845 [11:37:55<5:36:31,  1.26s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32845/48845 [11:37:55<5:36:31,  1.26s/it] 67%|██████▋   | 32846/48845 [11:37:56<5:36:23,  1.26s/it] 67%|██████▋   | 32847/48845 [11:37:58<5:36:18,  1.26s/it] 67%|██████▋   | 32848/48845 [11:37:59<5:36:18,  1.26s/it] 67%|██████▋   | 32849/48845 [11:38:00<5:36:02,  1.26s/it] 67%|██████▋   | 32850/48845 [11:38:01<5:35:54,  1.26s/it]                                                          {'loss': 1.9899, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32850/48845 [11:38:01<5:35:54,  1.26s/it] 67%|██████▋   | 32851/48845 [11:38:03<5:36:03,  1.26s/it] 67%|██████▋   | 32852/48845 [11:38:04<5:35:49,  1.26s/it] 67%|██████▋   | 32853/48845 [11:38:05<5:35:53,  1.26s/it] 67%|██████▋   | 32854/48845 [11:38:06<5:35:47,  1.26s/it] 67%|██████▋   | 32855/48845 [11:38:08<5:36:06,  1.26s/it]                                                          {'loss': 2.0335, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32855/48845 [11:38:08<5:36:06,  1.26s/it] 67%|██████▋   | 32856/48845 [11:38:09<5:36:18,  1.26s/it] 67%|██████▋   | 32857/48845 [11:38:10<5:36:14,  1.26s/it] 67%|██████▋   | 32858/48845 [11:38:12<5:36:30,  1.26s/it] 67%|██████▋   | 32859/48845 [11:38:13<5:36:23,  1.26s/it] 67%|██████▋   | 32860/48845 [11:38:14<5:36:16,  1.26s/it]                                                          {'loss': 1.9449, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32860/48845 [11:38:14<5:36:16,  1.26s/it] 67%|██████▋   | 32861/48845 [11:38:15<5:36:50,  1.26s/it] 67%|██████▋   | 32862/48845 [11:38:17<5:36:38,  1.26s/it] 67%|██████▋   | 32863/48845 [11:38:18<5:36:20,  1.26s/it] 67%|██████▋   | 32864/48845 [11:38:19<5:36:21,  1.26s/it] 67%|██████▋   | 32865/48845 [11:38:20<5:35:56,  1.26s/it]                                                          {'loss': 1.9733, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32865/48845 [11:38:20<5:35:56,  1.26s/it] 67%|██████▋   | 32866/48845 [11:38:22<5:36:20,  1.26s/it] 67%|██████▋   | 32867/48845 [11:38:23<5:35:59,  1.26s/it] 67%|██████▋   | 32868/48845 [11:38:24<5:35:54,  1.26s/it] 67%|██████▋   | 32869/48845 [11:38:25<5:36:01,  1.26s/it] 67%|██████▋   | 32870/48845 [11:38:27<5:35:50,  1.26s/it]                                                          {'loss': 2.1575, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.36}
+ 67%|██████▋   | 32870/48845 [11:38:27<5:35:50,  1.26s/it] 67%|██████▋   | 32871/48845 [11:38:28<5:36:30,  1.26s/it] 67%|██████▋   | 32872/48845 [11:38:29<5:36:18,  1.26s/it] 67%|██████▋   | 32873/48845 [11:38:30<5:35:57,  1.26s/it] 67%|██████▋   | 32874/48845 [11:38:32<5:35:32,  1.26s/it] 67%|██████▋   | 32875/48845 [11:38:33<5:35:42,  1.26s/it]                                                          {'loss': 1.9024, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32875/48845 [11:38:33<5:35:42,  1.26s/it] 67%|██████▋   | 32876/48845 [11:38:34<5:35:39,  1.26s/it] 67%|██████▋   | 32877/48845 [11:38:36<5:35:42,  1.26s/it] 67%|██████▋   | 32878/48845 [11:38:37<5:35:38,  1.26s/it] 67%|██████▋   | 32879/48845 [11:38:38<5:35:32,  1.26s/it] 67%|██████▋   | 32880/48845 [11:38:39<5:36:07,  1.26s/it]                                                          {'loss': 1.9128, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32880/48845 [11:38:39<5:36:07,  1.26s/it] 67%|██████▋   | 32881/48845 [11:38:41<5:36:09,  1.26s/it] 67%|██████▋   | 32882/48845 [11:38:42<5:35:51,  1.26s/it] 67%|██████▋   | 32883/48845 [11:38:43<5:36:05,  1.26s/it] 67%|██████▋   | 32884/48845 [11:38:44<5:36:09,  1.26s/it] 67%|██████▋   | 32885/48845 [11:38:46<5:36:13,  1.26s/it]                                                          {'loss': 2.156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32885/48845 [11:38:46<5:36:13,  1.26s/it] 67%|██████▋   | 32886/48845 [11:38:47<5:35:56,  1.26s/it] 67%|██████▋   | 32887/48845 [11:38:48<5:35:32,  1.26s/it] 67%|██████▋   | 32888/48845 [11:38:49<5:35:27,  1.26s/it] 67%|██████▋   | 32889/48845 [11:38:51<5:35:20,  1.26s/it] 67%|██████▋   | 32890/48845 [11:38:52<5:35:04,  1.26s/it]                                                          {'loss': 2.1959, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32890/48845 [11:38:52<5:35:04,  1.26s/it] 67%|██████▋   | 32891/48845 [11:38:53<5:35:36,  1.26s/it] 67%|██████▋   | 32892/48845 [11:38:54<5:35:15,  1.26s/it] 67%|██████▋   | 32893/48845 [11:38:56<5:35:28,  1.26s/it] 67%|██████▋   | 32894/48845 [11:38:57<5:35:35,  1.26s/it] 67%|██████▋   | 32895/48845 [11:38:58<5:35:40,  1.26s/it]                                                          {'loss': 2.0873, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32895/48845 [11:38:58<5:35:40,  1.26s/it] 67%|██████▋   | 32896/48845 [11:39:00<5:36:28,  1.27s/it] 67%|██████▋   | 32897/48845 [11:39:01<5:36:12,  1.26s/it] 67%|██████▋   | 32898/48845 [11:39:02<5:36:21,  1.27s/it] 67%|██████▋   | 32899/48845 [11:39:03<5:35:55,  1.26s/it] 67%|██████▋   | 32900/48845 [11:39:05<5:36:07,  1.26s/it]                                                          {'loss': 2.0236, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32900/48845 [11:39:05<5:36:07,  1.26s/it] 67%|██████▋   | 32901/48845 [11:39:06<5:35:53,  1.26s/it] 67%|██████▋   | 32902/48845 [11:39:07<5:35:47,  1.26s/it] 67%|██████▋   | 32903/48845 [11:39:08<5:35:48,  1.26s/it] 67%|██████▋   | 32904/48845 [11:39:10<5:35:30,  1.26s/it] 67%|██████▋   | 32905/48845 [11:39:11<5:35:31,  1.26s/it]                                                          {'loss': 1.9719, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32905/48845 [11:39:11<5:35:31,  1.26s/it] 67%|██████▋   | 32906/48845 [11:39:12<5:35:34,  1.26s/it] 67%|██████▋   | 32907/48845 [11:39:13<5:35:14,  1.26s/it] 67%|██████▋   | 32908/48845 [11:39:15<5:35:06,  1.26s/it] 67%|██████▋   | 32909/48845 [11:39:16<5:35:06,  1.26s/it] 67%|██████▋   | 32910/48845 [11:39:17<5:35:19,  1.26s/it]                                                          {'loss': 1.958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32910/48845 [11:39:17<5:35:19,  1.26s/it] 67%|██████▋   | 32911/48845 [11:39:18<5:35:22,  1.26s/it] 67%|██████▋   | 32912/48845 [11:39:20<5:35:20,  1.26s/it] 67%|██████▋   | 32913/48845 [11:39:21<5:34:59,  1.26s/it] 67%|██████▋   | 32914/48845 [11:39:22<5:35:07,  1.26s/it] 67%|██████▋   | 32915/48845 [11:39:24<5:35:13,  1.26s/it]                                                          {'loss': 1.9648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32915/48845 [11:39:24<5:35:13,  1.26s/it] 67%|██████▋   | 32916/48845 [11:39:25<5:35:10,  1.26s/it] 67%|██████▋   | 32917/48845 [11:39:26<5:35:23,  1.26s/it] 67%|██████▋   | 32918/48845 [11:39:27<5:35:13,  1.26s/it] 67%|██████▋   | 32919/48845 [11:39:29<5:35:01,  1.26s/it] 67%|██████▋   | 32920/48845 [11:39:30<5:35:02,  1.26s/it]                                                          {'loss': 1.8946, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32920/48845 [11:39:30<5:35:02,  1.26s/it] 67%|██████▋   | 32921/48845 [11:39:31<5:35:02,  1.26s/it] 67%|██████▋   | 32922/48845 [11:39:32<5:35:06,  1.26s/it] 67%|██████▋   | 32923/48845 [11:39:34<5:35:22,  1.26s/it] 67%|██████▋   | 32924/48845 [11:39:35<5:35:15,  1.26s/it] 67%|██████▋   | 32925/48845 [11:39:36<5:35:30,  1.26s/it]                                                          {'loss': 2.214, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32925/48845 [11:39:36<5:35:30,  1.26s/it] 67%|██████▋   | 32926/48845 [11:39:37<5:35:49,  1.27s/it] 67%|██████▋   | 32927/48845 [11:39:39<5:35:40,  1.27s/it] 67%|██████▋   | 32928/48845 [11:39:40<5:35:13,  1.26s/it] 67%|██████▋   | 32929/48845 [11:39:41<5:35:17,  1.26s/it] 67%|██████▋   | 32930/48845 [11:39:42<5:34:54,  1.26s/it]                                                          {'loss': 2.0263, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32930/48845 [11:39:42<5:34:54,  1.26s/it] 67%|██████▋   | 32931/48845 [11:39:44<5:34:59,  1.26s/it] 67%|██████▋   | 32932/48845 [11:39:45<5:35:19,  1.26s/it] 67%|██████▋   | 32933/48845 [11:39:46<5:35:02,  1.26s/it] 67%|██████▋   | 32934/48845 [11:39:48<5:35:05,  1.26s/it] 67%|██████▋   | 32935/48845 [11:39:49<5:34:48,  1.26s/it]                                                          {'loss': 2.0216, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32935/48845 [11:39:49<5:34:48,  1.26s/it] 67%|██████▋   | 32936/48845 [11:39:50<5:35:10,  1.26s/it] 67%|██████▋   | 32937/48845 [11:39:51<5:35:16,  1.26s/it] 67%|██████▋   | 32938/48845 [11:39:53<5:35:08,  1.26s/it] 67%|██████▋   | 32939/48845 [11:39:54<5:34:34,  1.26s/it] 67%|██████▋   | 32940/48845 [11:39:55<5:34:56,  1.26s/it]                                                          {'loss': 1.9661, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32940/48845 [11:39:55<5:34:56,  1.26s/it] 67%|██████▋   | 32941/48845 [11:39:56<5:34:53,  1.26s/it] 67%|██████▋   | 32942/48845 [11:39:58<5:34:40,  1.26s/it] 67%|██████▋   | 32943/48845 [11:39:59<5:34:56,  1.26s/it] 67%|██████▋   | 32944/48845 [11:40:00<5:34:42,  1.26s/it] 67%|██████▋   | 32945/48845 [11:40:01<5:34:26,  1.26s/it]                                                          {'loss': 1.959, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32945/48845 [11:40:01<5:34:26,  1.26s/it] 67%|██████▋   | 32946/48845 [11:40:03<5:34:35,  1.26s/it] 67%|██████▋   | 32947/48845 [11:40:04<5:34:28,  1.26s/it] 67%|██████▋   | 32948/48845 [11:40:05<5:34:59,  1.26s/it] 67%|██████▋   | 32949/48845 [11:40:06<5:34:39,  1.26s/it] 67%|██████▋   | 32950/48845 [11:40:08<5:34:31,  1.26s/it]                                                          {'loss': 1.9514, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32950/48845 [11:40:08<5:34:31,  1.26s/it] 67%|██████▋   | 32951/48845 [11:40:09<5:34:41,  1.26s/it] 67%|██████▋   | 32952/48845 [11:40:10<5:47:56,  1.31s/it] 67%|██████▋   | 32953/48845 [11:40:12<5:44:20,  1.30s/it] 67%|██████▋   | 32954/48845 [11:40:13<5:41:07,  1.29s/it] 67%|██████▋   | 32955/48845 [11:40:14<5:39:11,  1.28s/it]                                                          {'loss': 2.1716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32955/48845 [11:40:14<5:39:11,  1.28s/it] 67%|██████▋   | 32956/48845 [11:40:15<5:38:50,  1.28s/it] 67%|██████▋   | 32957/48845 [11:40:17<5:37:02,  1.27s/it] 67%|██████▋   | 32958/48845 [11:40:18<5:35:48,  1.27s/it] 67%|██████▋   | 32959/48845 [11:40:19<5:35:23,  1.27s/it] 67%|██████▋   | 32960/48845 [11:40:21<5:35:09,  1.27s/it]                                                          {'loss': 1.9965, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32960/48845 [11:40:21<5:35:09,  1.27s/it] 67%|██████▋   | 32961/48845 [11:40:22<5:35:18,  1.27s/it] 67%|██████▋   | 32962/48845 [11:40:23<5:35:03,  1.27s/it] 67%|██████▋   | 32963/48845 [11:40:24<5:34:42,  1.26s/it] 67%|██████▋   | 32964/48845 [11:40:26<5:34:51,  1.27s/it] 67%|██████▋   | 32965/48845 [11:40:27<5:34:41,  1.26s/it]                                                          {'loss': 1.9604, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32965/48845 [11:40:27<5:34:41,  1.26s/it] 67%|██████▋   | 32966/48845 [11:40:28<5:34:31,  1.26s/it] 67%|██████▋   | 32967/48845 [11:40:29<5:34:25,  1.26s/it] 67%|██████▋   | 32968/48845 [11:40:31<5:34:29,  1.26s/it] 67%|██████▋   | 32969/48845 [11:40:32<5:34:20,  1.26s/it] 67%|██████▋   | 32970/48845 [11:40:33<5:34:14,  1.26s/it]                                                          {'loss': 2.0076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.37}
+ 67%|██████▋   | 32970/48845 [11:40:33<5:34:14,  1.26s/it] 68%|██████▊   | 32971/48845 [11:40:34<5:34:18,  1.26s/it] 68%|██████▊   | 32972/48845 [11:40:36<5:34:46,  1.27s/it] 68%|██████▊   | 32973/48845 [11:40:37<5:34:20,  1.26s/it] 68%|██████▊   | 32974/48845 [11:40:38<5:34:28,  1.26s/it] 68%|██████▊   | 32975/48845 [11:40:40<5:34:19,  1.26s/it]                                                          {'loss': 1.9477, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 32975/48845 [11:40:40<5:34:19,  1.26s/it] 68%|██████▊   | 32976/48845 [11:40:41<5:34:50,  1.27s/it] 68%|██████▊   | 32977/48845 [11:40:42<5:34:32,  1.26s/it] 68%|██████▊   | 32978/48845 [11:40:43<5:34:29,  1.26s/it] 68%|██████▊   | 32979/48845 [11:40:45<5:34:33,  1.27s/it] 68%|██████▊   | 32980/48845 [11:40:46<5:37:37,  1.28s/it]                                                          {'loss': 2.0847, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 32980/48845 [11:40:46<5:37:37,  1.28s/it] 68%|██████▊   | 32981/48845 [11:40:47<5:36:32,  1.27s/it] 68%|██████▊   | 32982/48845 [11:40:48<5:35:45,  1.27s/it] 68%|██████▊   | 32983/48845 [11:40:50<5:35:08,  1.27s/it] 68%|██████▊   | 32984/48845 [11:40:51<5:34:42,  1.27s/it] 68%|██████▊   | 32985/48845 [11:40:52<5:34:39,  1.27s/it]                                                          {'loss': 2.061, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 32985/48845 [11:40:52<5:34:39,  1.27s/it] 68%|██████▊   | 32986/48845 [11:40:53<5:34:56,  1.27s/it] 68%|██████▊   | 32987/48845 [11:40:55<5:34:33,  1.27s/it] 68%|██████▊   | 32988/48845 [11:40:56<5:34:10,  1.26s/it] 68%|██████▊   | 32989/48845 [11:40:57<5:34:13,  1.26s/it] 68%|██████▊   | 32990/48845 [11:40:59<5:33:56,  1.26s/it]                                                          {'loss': 2.1397, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 32990/48845 [11:40:59<5:33:56,  1.26s/it] 68%|██████▊   | 32991/48845 [11:41:00<5:33:43,  1.26s/it] 68%|██████▊   | 32992/48845 [11:41:01<5:33:52,  1.26s/it] 68%|██████▊   | 32993/48845 [11:41:02<5:33:32,  1.26s/it] 68%|██████▊   | 32994/48845 [11:41:04<5:33:20,  1.26s/it] 68%|██████▊   | 32995/48845 [11:41:05<5:33:18,  1.26s/it]                                                          {'loss': 2.0929, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 32995/48845 [11:41:05<5:33:18,  1.26s/it] 68%|██████▊   | 32996/48845 [11:41:06<5:33:10,  1.26s/it] 68%|██████▊   | 32997/48845 [11:41:07<5:33:02,  1.26s/it] 68%|██████▊   | 32998/48845 [11:41:09<5:33:04,  1.26s/it] 68%|██████▊   | 32999/48845 [11:41:10<5:32:58,  1.26s/it] 68%|██████▊   | 33000/48845 [11:41:11<5:32:41,  1.26s/it]                                                          {'loss': 1.9661, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33000/48845 [11:41:11<5:32:41,  1.26s/it] 68%|██████▊   | 33001/48845 [11:41:15<8:51:14,  2.01s/it] 68%|██████▊   | 33002/48845 [11:41:16<7:52:07,  1.79s/it] 68%|██████▊   | 33003/48845 [11:41:17<7:10:22,  1.63s/it] 68%|██████▊   | 33004/48845 [11:41:19<6:41:02,  1.52s/it] 68%|██████▊   | 33005/48845 [11:41:20<6:20:32,  1.44s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33005/48845 [11:41:20<6:20:32,  1.44s/it] 68%|██████▊   | 33006/48845 [11:41:21<6:06:03,  1.39s/it] 68%|██████▊   | 33007/48845 [11:41:22<5:56:09,  1.35s/it] 68%|██████▊   | 33008/48845 [11:41:24<5:48:52,  1.32s/it] 68%|██████▊   | 33009/48845 [11:41:25<5:44:27,  1.31s/it] 68%|██████▊   | 33010/48845 [11:41:26<5:40:55,  1.29s/it]                                                          {'loss': 1.9622, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33010/48845 [11:41:26<5:40:55,  1.29s/it] 68%|██████▊   | 33011/48845 [11:41:27<5:38:31,  1.28s/it] 68%|██████▊   | 33012/48845 [11:41:29<5:37:23,  1.28s/it] 68%|██████▊   | 33013/48845 [11:41:30<5:35:55,  1.27s/it] 68%|██████▊   | 33014/48845 [11:41:31<5:34:54,  1.27s/it] 68%|██████▊   | 33015/48845 [11:41:33<5:34:01,  1.27s/it]                                                          {'loss': 1.9645, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33015/48845 [11:41:33<5:34:01,  1.27s/it] 68%|██████▊   | 33016/48845 [11:41:34<5:33:49,  1.27s/it] 68%|██████▊   | 33017/48845 [11:41:35<5:33:26,  1.26s/it] 68%|██████▊   | 33018/48845 [11:41:36<5:32:51,  1.26s/it] 68%|██████▊   | 33019/48845 [11:41:38<5:33:07,  1.26s/it] 68%|██████▊   | 33020/48845 [11:41:39<5:33:06,  1.26s/it]                                                          {'loss': 2.0834, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33020/48845 [11:41:39<5:33:06,  1.26s/it] 68%|██████▊   | 33021/48845 [11:41:40<5:33:08,  1.26s/it] 68%|��█████▊   | 33022/48845 [11:41:41<5:33:14,  1.26s/it] 68%|██████▊   | 33023/48845 [11:41:43<5:32:49,  1.26s/it] 68%|██████▊   | 33024/48845 [11:41:44<5:32:44,  1.26s/it] 68%|██████▊   | 33025/48845 [11:41:45<5:32:43,  1.26s/it]                                                          {'loss': 2.0356, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33025/48845 [11:41:45<5:32:43,  1.26s/it] 68%|██████▊   | 33026/48845 [11:41:46<5:32:56,  1.26s/it] 68%|██████▊   | 33027/48845 [11:41:48<5:32:42,  1.26s/it] 68%|██████▊   | 33028/48845 [11:41:49<5:32:39,  1.26s/it] 68%|██████▊   | 33029/48845 [11:41:50<5:32:53,  1.26s/it] 68%|██████▊   | 33030/48845 [11:41:51<5:32:44,  1.26s/it]                                                          {'loss': 1.9565, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33030/48845 [11:41:51<5:32:44,  1.26s/it] 68%|██████▊   | 33031/48845 [11:41:53<5:32:32,  1.26s/it] 68%|██████▊   | 33032/48845 [11:41:54<5:32:45,  1.26s/it] 68%|██████▊   | 33033/48845 [11:41:55<5:33:44,  1.27s/it] 68%|██████▊   | 33034/48845 [11:41:57<5:33:05,  1.26s/it] 68%|██████▊   | 33035/48845 [11:41:58<5:32:49,  1.26s/it]                                                          {'loss': 2.0825, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33035/48845 [11:41:58<5:32:49,  1.26s/it] 68%|██████▊   | 33036/48845 [11:41:59<5:33:06,  1.26s/it] 68%|██████▊   | 33037/48845 [11:42:00<5:33:12,  1.26s/it] 68%|██████▊   | 33038/48845 [11:42:02<5:32:57,  1.26s/it] 68%|██████▊   | 33039/48845 [11:42:03<5:32:59,  1.26s/it] 68%|██████▊   | 33040/48845 [11:42:04<5:33:11,  1.26s/it]                                                          {'loss': 2.007, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33040/48845 [11:42:04<5:33:11,  1.26s/it] 68%|██████▊   | 33041/48845 [11:42:05<5:32:55,  1.26s/it] 68%|██████▊   | 33042/48845 [11:42:07<5:33:06,  1.26s/it] 68%|██████▊   | 33043/48845 [11:42:08<5:32:49,  1.26s/it] 68%|██████▊   | 33044/48845 [11:42:09<5:32:49,  1.26s/it] 68%|██████▊   | 33045/48845 [11:42:10<5:32:22,  1.26s/it]                                                          {'loss': 2.0413, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33045/48845 [11:42:10<5:32:22,  1.26s/it] 68%|██████▊   | 33046/48845 [11:42:12<5:32:33,  1.26s/it] 68%|██████▊   | 33047/48845 [11:42:13<5:32:25,  1.26s/it] 68%|██████▊   | 33048/48845 [11:42:14<5:32:05,  1.26s/it] 68%|██████▊   | 33049/48845 [11:42:15<5:32:10,  1.26s/it] 68%|██████▊   | 33050/48845 [11:42:17<5:32:48,  1.26s/it]                                                          {'loss': 2.0886, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33050/48845 [11:42:17<5:32:48,  1.26s/it] 68%|██████▊   | 33051/48845 [11:42:18<5:32:38,  1.26s/it] 68%|██████▊   | 33052/48845 [11:42:19<5:32:41,  1.26s/it] 68%|██████▊   | 33053/48845 [11:42:21<5:32:27,  1.26s/it] 68%|██████▊   | 33054/48845 [11:42:22<5:32:07,  1.26s/it] 68%|██████▊   | 33055/48845 [11:42:23<5:31:48,  1.26s/it]                                                          {'loss': 2.1107, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33055/48845 [11:42:23<5:31:48,  1.26s/it] 68%|██████▊   | 33056/48845 [11:42:24<5:32:24,  1.26s/it] 68%|██████▊   | 33057/48845 [11:42:26<5:32:37,  1.26s/it] 68%|██████▊   | 33058/48845 [11:42:27<5:32:13,  1.26s/it] 68%|██████▊   | 33059/48845 [11:42:28<5:31:55,  1.26s/it] 68%|██████▊   | 33060/48845 [11:42:29<5:31:43,  1.26s/it]                                                          {'loss': 1.9968, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33060/48845 [11:42:29<5:31:43,  1.26s/it] 68%|██████▊   | 33061/48845 [11:42:31<5:31:42,  1.26s/it] 68%|██████▊   | 33062/48845 [11:42:32<5:31:43,  1.26s/it] 68%|██████▊   | 33063/48845 [11:42:33<5:31:40,  1.26s/it] 68%|██████▊   | 33064/48845 [11:42:34<5:31:45,  1.26s/it] 68%|██████▊   | 33065/48845 [11:42:36<5:31:49,  1.26s/it]                                                          {'loss': 2.0446, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.38}
+ 68%|██████▊   | 33065/48845 [11:42:36<5:31:49,  1.26s/it] 68%|██████▊   | 33066/48845 [11:42:37<5:32:03,  1.26s/it] 68%|██████▊   | 33067/48845 [11:42:38<5:31:59,  1.26s/it] 68%|██████▊   | 33068/48845 [11:42:39<5:31:55,  1.26s/it] 68%|██████▊   | 33069/48845 [11:42:41<5:31:46,  1.26s/it] 68%|██████▊   | 33070/48845 [11:42:42<5:31:33,  1.26s/it]                                                          {'loss': 2.0237, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33070/48845 [11:42:42<5:31:33,  1.26s/it] 68%|██████▊   | 33071/48845 [11:42:43<5:31:33,  1.26s/it] 68%|██████▊   | 33072/48845 [11:42:45<5:31:47,  1.26s/it] 68%|██████▊   | 33073/48845 [11:42:46<5:31:55,  1.26s/it] 68%|██████▊   | 33074/48845 [11:42:47<5:31:58,  1.26s/it] 68%|██████▊   | 33075/48845 [11:42:48<5:31:42,  1.26s/it]                                                          {'loss': 1.9149, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33075/48845 [11:42:48<5:31:42,  1.26s/it] 68%|██████▊   | 33076/48845 [11:42:50<5:31:37,  1.26s/it] 68%|██████▊   | 33077/48845 [11:42:51<5:31:19,  1.26s/it] 68%|██████▊   | 33078/48845 [11:42:52<5:31:53,  1.26s/it] 68%|██████▊   | 33079/48845 [11:42:53<5:31:44,  1.26s/it] 68%|██████▊   | 33080/48845 [11:42:55<5:31:31,  1.26s/it]                                                          {'loss': 1.978, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33080/48845 [11:42:55<5:31:31,  1.26s/it] 68%|██████▊   | 33081/48845 [11:42:56<5:31:42,  1.26s/it] 68%|██████▊   | 33082/48845 [11:42:57<5:31:36,  1.26s/it] 68%|██████▊   | 33083/48845 [11:42:58<5:31:27,  1.26s/it] 68%|██████▊   | 33084/48845 [11:43:00<5:31:32,  1.26s/it] 68%|██████▊   | 33085/48845 [11:43:01<5:31:20,  1.26s/it]                                                          {'loss': 1.9763, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33085/48845 [11:43:01<5:31:20,  1.26s/it] 68%|██████▊   | 33086/48845 [11:43:02<5:31:35,  1.26s/it] 68%|██████▊   | 33087/48845 [11:43:03<5:31:22,  1.26s/it] 68%|██████▊   | 33088/48845 [11:43:05<5:31:08,  1.26s/it] 68%|██████▊   | 33089/48845 [11:43:06<5:30:56,  1.26s/it] 68%|██████▊   | 33090/48845 [11:43:07<5:30:52,  1.26s/it]                                                          {'loss': 2.0569, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33090/48845 [11:43:07<5:30:52,  1.26s/it] 68%|██████▊   | 33091/48845 [11:43:08<5:31:38,  1.26s/it] 68%|██████▊   | 33092/48845 [11:43:10<5:31:30,  1.26s/it] 68%|██████▊   | 33093/48845 [11:43:11<5:31:06,  1.26s/it] 68%|██████▊   | 33094/48845 [11:43:12<5:31:11,  1.26s/it] 68%|██████▊   | 33095/48845 [11:43:14<5:31:25,  1.26s/it]                                                          {'loss': 2.0687, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33095/48845 [11:43:14<5:31:25,  1.26s/it] 68%|██████▊   | 33096/48845 [11:43:15<5:31:15,  1.26s/it] 68%|██████▊   | 33097/48845 [11:43:16<5:31:00,  1.26s/it] 68%|██████▊   | 33098/48845 [11:43:17<5:30:56,  1.26s/it] 68%|██████▊   | 33099/48845 [11:43:19<5:31:07,  1.26s/it] 68%|██████▊   | 33100/48845 [11:43:20<5:31:29,  1.26s/it]                                                          {'loss': 2.0446, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33100/48845 [11:43:20<5:31:29,  1.26s/it] 68%|██████▊   | 33101/48845 [11:43:21<5:31:12,  1.26s/it] 68%|██████▊   | 33102/48845 [11:43:22<5:30:51,  1.26s/it] 68%|██████▊   | 33103/48845 [11:43:24<5:30:45,  1.26s/it] 68%|██████▊   | 33104/48845 [11:43:25<5:31:01,  1.26s/it] 68%|██████▊   | 33105/48845 [11:43:26<5:30:42,  1.26s/it]                                                          {'loss': 2.0891, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33105/48845 [11:43:26<5:30:42,  1.26s/it] 68%|██████▊   | 33106/48845 [11:43:27<5:30:43,  1.26s/it] 68%|██████▊   | 33107/48845 [11:43:29<5:30:30,  1.26s/it] 68%|██████▊   | 33108/48845 [11:43:30<5:30:46,  1.26s/it] 68%|██████▊   | 33109/48845 [11:43:31<5:30:47,  1.26s/it] 68%|██████▊   | 33110/48845 [11:43:32<5:30:38,  1.26s/it]                                                          {'loss': 2.0257, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33110/48845 [11:43:32<5:30:38,  1.26s/it] 68%|██████▊   | 33111/48845 [11:43:34<5:30:52,  1.26s/it] 68%|██████▊   | 33112/48845 [11:43:35<5:31:06,  1.26s/it] 68%|██████▊   | 33113/48845 [11:43:36<5:31:35,  1.26s/it] 68%|██████▊   | 33114/48845 [11:43:38<5:31:01,  1.26s/it] 68%|██████▊   | 33115/48845 [11:43:39<5:30:38,  1.26s/it]                                                          {'loss': 2.0871, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33115/48845 [11:43:39<5:30:38,  1.26s/it] 68%|██████▊   | 33116/48845 [11:43:40<5:31:10,  1.26s/it] 68%|██████▊   | 33117/48845 [11:43:41<5:31:14,  1.26s/it] 68%|██████▊   | 33118/48845 [11:43:43<5:31:18,  1.26s/it] 68%|██████▊   | 33119/48845 [11:43:44<5:30:51,  1.26s/it] 68%|██████▊   | 33120/48845 [11:43:45<5:30:58,  1.26s/it]                                                          {'loss': 2.023, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33120/48845 [11:43:45<5:30:58,  1.26s/it] 68%|██████▊   | 33121/48845 [11:43:46<5:31:05,  1.26s/it] 68%|██████▊   | 33122/48845 [11:43:48<5:30:56,  1.26s/it] 68%|██████▊   | 33123/48845 [11:43:49<5:38:44,  1.29s/it] 68%|██████▊   | 33124/48845 [11:43:50<5:36:22,  1.28s/it] 68%|██████▊   | 33125/48845 [11:43:51<5:34:27,  1.28s/it]                                                          {'loss': 2.009, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33125/48845 [11:43:51<5:34:27,  1.28s/it] 68%|██████▊   | 33126/48845 [11:43:53<5:33:09,  1.27s/it] 68%|██████▊   | 33127/48845 [11:43:54<5:32:37,  1.27s/it] 68%|██████▊   | 33128/48845 [11:43:55<5:31:54,  1.27s/it] 68%|██████▊   | 33129/48845 [11:43:57<5:31:27,  1.27s/it] 68%|██████▊   | 33130/48845 [11:43:58<5:31:01,  1.26s/it]                                                          {'loss': 2.1394, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33130/48845 [11:43:58<5:31:01,  1.26s/it] 68%|██████▊   | 33131/48845 [11:43:59<5:30:47,  1.26s/it] 68%|██████▊   | 33132/48845 [11:44:00<5:30:35,  1.26s/it] 68%|██████▊   | 33133/48845 [11:44:02<5:30:29,  1.26s/it] 68%|██████▊   | 33134/48845 [11:44:03<5:30:36,  1.26s/it] 68%|██████▊   | 33135/48845 [11:44:04<5:30:59,  1.26s/it]                                                          {'loss': 1.9952, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33135/48845 [11:44:04<5:30:59,  1.26s/it] 68%|██████▊   | 33136/48845 [11:44:05<5:30:42,  1.26s/it] 68%|██████▊   | 33137/48845 [11:44:07<5:30:52,  1.26s/it] 68%|██████▊   | 33138/48845 [11:44:08<5:30:34,  1.26s/it] 68%|██████▊   | 33139/48845 [11:44:09<5:30:37,  1.26s/it] 68%|██████▊   | 33140/48845 [11:44:10<5:30:33,  1.26s/it]                                                          {'loss': 2.0027, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33140/48845 [11:44:10<5:30:33,  1.26s/it] 68%|██████▊   | 33141/48845 [11:44:12<5:30:59,  1.26s/it] 68%|██████▊   | 33142/48845 [11:44:13<5:30:32,  1.26s/it] 68%|██████▊   | 33143/48845 [11:44:14<5:30:39,  1.26s/it] 68%|██████▊   | 33144/48845 [11:44:15<5:30:42,  1.26s/it] 68%|██████▊   | 33145/48845 [11:44:17<5:30:23,  1.26s/it]                                                          {'loss': 2.036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33145/48845 [11:44:17<5:30:23,  1.26s/it] 68%|██████▊   | 33146/48845 [11:44:18<5:30:32,  1.26s/it] 68%|██████▊   | 33147/48845 [11:44:19<5:30:31,  1.26s/it] 68%|██████▊   | 33148/48845 [11:44:21<5:30:28,  1.26s/it] 68%|██████▊   | 33149/48845 [11:44:22<5:30:36,  1.26s/it] 68%|██████▊   | 33150/48845 [11:44:23<5:30:17,  1.26s/it]                                                          {'loss': 2.1661, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33150/48845 [11:44:23<5:30:17,  1.26s/it] 68%|██████▊   | 33151/48845 [11:44:24<5:30:17,  1.26s/it] 68%|██████▊   | 33152/48845 [11:44:26<5:37:11,  1.29s/it] 68%|██████▊   | 33153/48845 [11:44:27<5:35:28,  1.28s/it] 68%|██████▊   | 33154/48845 [11:44:28<5:34:01,  1.28s/it] 68%|██████▊   | 33155/48845 [11:44:29<5:32:54,  1.27s/it]                                                          {'loss': 2.131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33155/48845 [11:44:29<5:32:54,  1.27s/it] 68%|██████▊   | 33156/48845 [11:44:31<5:32:52,  1.27s/it] 68%|██████▊   | 33157/48845 [11:44:32<5:32:10,  1.27s/it] 68%|██████▊   | 33158/48845 [11:44:33<5:31:25,  1.27s/it] 68%|██████▊   | 33159/48845 [11:44:35<5:30:53,  1.27s/it] 68%|██████▊   | 33160/48845 [11:44:36<5:30:54,  1.27s/it]                                                          {'loss': 1.8993, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33160/48845 [11:44:36<5:30:54,  1.27s/it] 68%|██████▊   | 33161/48845 [11:44:37<5:30:42,  1.27s/it] 68%|██████▊   | 33162/48845 [11:44:38<5:30:15,  1.26s/it] 68%|██████▊   | 33163/48845 [11:44:40<5:30:08,  1.26s/it] 68%|██████▊   | 33164/48845 [11:44:41<5:30:15,  1.26s/it] 68%|██████▊   | 33165/48845 [11:44:42<5:30:21,  1.26s/it]                                                          {'loss': 1.9171, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.39}
+ 68%|██████▊   | 33165/48845 [11:44:42<5:30:21,  1.26s/it] 68%|██████▊   | 33166/48845 [11:44:43<5:30:18,  1.26s/it] 68%|██████▊   | 33167/48845 [11:44:45<5:30:02,  1.26s/it] 68%|██████▊   | 33168/48845 [11:44:46<5:29:50,  1.26s/it] 68%|██████▊   | 33169/48845 [11:44:47<5:29:28,  1.26s/it] 68%|██████▊   | 33170/48845 [11:44:48<5:29:22,  1.26s/it]                                                          {'loss': 2.1915, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33170/48845 [11:44:48<5:29:22,  1.26s/it] 68%|██████▊   | 33171/48845 [11:44:50<5:29:18,  1.26s/it] 68%|██████▊   | 33172/48845 [11:44:51<5:29:35,  1.26s/it] 68%|██████▊   | 33173/48845 [11:44:52<5:29:34,  1.26s/it] 68%|██████▊   | 33174/48845 [11:44:53<5:29:26,  1.26s/it] 68%|██████▊   | 33175/48845 [11:44:55<5:29:35,  1.26s/it]                                                          {'loss': 1.9389, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33175/48845 [11:44:55<5:29:35,  1.26s/it] 68%|██████▊   | 33176/48845 [11:44:56<5:29:57,  1.26s/it] 68%|██████▊   | 33177/48845 [11:44:57<5:29:52,  1.26s/it] 68%|██████▊   | 33178/48845 [11:44:59<5:29:55,  1.26s/it] 68%|██████▊   | 33179/48845 [11:45:00<5:30:22,  1.27s/it] 68%|██████▊   | 33180/48845 [11:45:01<5:30:03,  1.26s/it]                                                          {'loss': 1.9489, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33180/48845 [11:45:01<5:30:03,  1.26s/it] 68%|██████▊   | 33181/48845 [11:45:02<5:29:58,  1.26s/it] 68%|██████▊   | 33182/48845 [11:45:04<5:29:40,  1.26s/it] 68%|██████▊   | 33183/48845 [11:45:05<5:29:27,  1.26s/it] 68%|██████▊   | 33184/48845 [11:45:06<5:29:44,  1.26s/it] 68%|██████▊   | 33185/48845 [11:45:07<5:29:26,  1.26s/it]                                                          {'loss': 2.0013, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33185/48845 [11:45:07<5:29:26,  1.26s/it] 68%|██████▊   | 33186/48845 [11:45:09<5:29:22,  1.26s/it] 68%|██████▊   | 33187/48845 [11:45:10<5:29:42,  1.26s/it] 68%|██████▊   | 33188/48845 [11:45:11<5:29:31,  1.26s/it] 68%|██████▊   | 33189/48845 [11:45:12<5:29:34,  1.26s/it] 68%|██████▊   | 33190/48845 [11:45:14<5:29:23,  1.26s/it]                                                          {'loss': 2.023, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33190/48845 [11:45:14<5:29:23,  1.26s/it] 68%|██████▊   | 33191/48845 [11:45:15<5:29:33,  1.26s/it] 68%|██████▊   | 33192/48845 [11:45:16<5:29:27,  1.26s/it] 68%|██████▊   | 33193/48845 [11:45:17<5:29:21,  1.26s/it] 68%|██████▊   | 33194/48845 [11:45:19<5:29:14,  1.26s/it] 68%|██████▊   | 33195/48845 [11:45:20<5:29:08,  1.26s/it]                                                          {'loss': 2.1128, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33195/48845 [11:45:20<5:29:08,  1.26s/it] 68%|██████▊   | 33196/48845 [11:45:21<5:29:24,  1.26s/it] 68%|██████▊   | 33197/48845 [11:45:23<5:29:35,  1.26s/it] 68%|██████▊   | 33198/48845 [11:45:24<5:29:13,  1.26s/it] 68%|██████▊   | 33199/48845 [11:45:25<5:29:27,  1.26s/it] 68%|██████▊   | 33200/48845 [11:45:26<5:29:13,  1.26s/it]                                                          {'loss': 2.0348, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33200/48845 [11:45:26<5:29:13,  1.26s/it] 68%|██████▊   | 33201/48845 [11:45:30<8:44:20,  2.01s/it] 68%|██████▊   | 33202/48845 [11:45:31<7:45:30,  1.79s/it] 68%|██████▊   | 33203/48845 [11:45:33<7:04:55,  1.63s/it] 68%|██████▊   | 33204/48845 [11:45:34<6:35:49,  1.52s/it] 68%|██████▊   | 33205/48845 [11:45:35<6:15:48,  1.44s/it]                                                          {'loss': 2.0174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33205/48845 [11:45:35<6:15:48,  1.44s/it] 68%|██████▊   | 33206/48845 [11:45:36<6:01:14,  1.39s/it] 68%|██████▊   | 33207/48845 [11:45:38<5:51:14,  1.35s/it] 68%|██████▊   | 33208/48845 [11:45:39<5:44:42,  1.32s/it] 68%|██████▊   | 33209/48845 [11:45:40<5:39:53,  1.30s/it] 68%|██████▊   | 33210/48845 [11:45:41<5:36:31,  1.29s/it]                                                          {'loss': 1.9428, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33210/48845 [11:45:41<5:36:31,  1.29s/it] 68%|██████▊   | 33211/48845 [11:45:43<5:34:21,  1.28s/it] 68%|██████▊   | 33212/48845 [11:45:44<5:32:37,  1.28s/it] 68%|██████▊   | 33213/48845 [11:45:45<5:32:06,  1.27s/it] 68%|██████▊   | 33214/48845 [11:45:46<5:31:10,  1.27s/it] 68%|██████▊   | 33215/48845 [11:45:48<5:30:05,  1.27s/it]                                                          {'loss': 2.1526, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33215/48845 [11:45:48<5:30:05,  1.27s/it] 68%|██████▊   | 33216/48845 [11:45:49<5:29:35,  1.27s/it] 68%|██████▊   | 33217/48845 [11:45:50<5:29:32,  1.27s/it] 68%|██████▊   | 33218/48845 [11:45:52<5:29:22,  1.26s/it] 68%|██████▊   | 33219/48845 [11:45:53<5:29:01,  1.26s/it] 68%|██████▊   | 33220/48845 [11:45:54<5:28:36,  1.26s/it]                                                          {'loss': 1.9888, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33220/48845 [11:45:54<5:28:36,  1.26s/it] 68%|██████▊   | 33221/48845 [11:45:55<5:28:36,  1.26s/it] 68%|██████▊   | 33222/48845 [11:45:57<5:28:31,  1.26s/it] 68%|██████▊   | 33223/48845 [11:45:58<5:28:11,  1.26s/it] 68%|██████▊   | 33224/48845 [11:45:59<5:28:15,  1.26s/it] 68%|██████▊   | 33225/48845 [11:46:00<5:28:03,  1.26s/it]                                                          {'loss': 1.9238, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33225/48845 [11:46:00<5:28:03,  1.26s/it] 68%|██████▊   | 33226/48845 [11:46:02<5:27:49,  1.26s/it] 68%|██████▊   | 33227/48845 [11:46:03<5:27:49,  1.26s/it] 68%|██████▊   | 33228/48845 [11:46:04<5:27:47,  1.26s/it] 68%|██████▊   | 33229/48845 [11:46:05<5:28:00,  1.26s/it] 68%|██████▊   | 33230/48845 [11:46:07<5:27:50,  1.26s/it]                                                          {'loss': 2.0606, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33230/48845 [11:46:07<5:27:50,  1.26s/it] 68%|██████▊   | 33231/48845 [11:46:08<5:27:40,  1.26s/it] 68%|██████▊   | 33232/48845 [11:46:09<5:27:40,  1.26s/it] 68%|██████▊   | 33233/48845 [11:46:10<5:27:56,  1.26s/it] 68%|██████▊   | 33234/48845 [11:46:12<5:28:04,  1.26s/it] 68%|██████▊   | 33235/48845 [11:46:13<5:28:10,  1.26s/it]                                                          {'loss': 1.9886, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33235/48845 [11:46:13<5:28:10,  1.26s/it] 68%|██████▊   | 33236/48845 [11:46:14<5:27:59,  1.26s/it] 68%|██████▊   | 33237/48845 [11:46:15<5:28:19,  1.26s/it] 68%|██████▊   | 33238/48845 [11:46:17<5:28:05,  1.26s/it] 68%|██████▊   | 33239/48845 [11:46:18<5:28:28,  1.26s/it] 68%|██████▊   | 33240/48845 [11:46:19<5:28:31,  1.26s/it]                                                          {'loss': 1.9992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33240/48845 [11:46:19<5:28:31,  1.26s/it] 68%|██████▊   | 33241/48845 [11:46:21<5:28:24,  1.26s/it] 68%|██████▊   | 33242/48845 [11:46:22<5:28:25,  1.26s/it] 68%|██████▊   | 33243/48845 [11:46:23<5:28:17,  1.26s/it] 68%|██████▊   | 33244/48845 [11:46:24<5:28:00,  1.26s/it] 68%|██████▊   | 33245/48845 [11:46:26<5:27:48,  1.26s/it]                                                          {'loss': 2.0629, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33245/48845 [11:46:26<5:27:48,  1.26s/it] 68%|██████▊   | 33246/48845 [11:46:27<5:27:49,  1.26s/it] 68%|██████▊   | 33247/48845 [11:46:28<5:28:01,  1.26s/it] 68%|██████▊   | 33248/48845 [11:46:29<5:27:58,  1.26s/it] 68%|██████▊   | 33249/48845 [11:46:31<5:27:51,  1.26s/it] 68%|██████▊   | 33250/48845 [11:46:32<5:27:46,  1.26s/it]                                                          {'loss': 1.9154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33250/48845 [11:46:32<5:27:46,  1.26s/it] 68%|██████▊   | 33251/48845 [11:46:33<5:28:14,  1.26s/it] 68%|██████▊   | 33252/48845 [11:46:34<5:28:13,  1.26s/it] 68%|██████▊   | 33253/48845 [11:46:36<5:28:28,  1.26s/it] 68%|██████▊   | 33254/48845 [11:46:37<5:28:17,  1.26s/it] 68%|██████▊   | 33255/48845 [11:46:38<5:28:02,  1.26s/it]                                                          {'loss': 1.9462, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33255/48845 [11:46:38<5:28:02,  1.26s/it] 68%|██████▊   | 33256/48845 [11:46:39<5:29:11,  1.27s/it] 68%|██████▊   | 33257/48845 [11:46:41<5:28:47,  1.27s/it] 68%|██████▊   | 33258/48845 [11:46:42<5:28:31,  1.26s/it] 68%|██████▊   | 33259/48845 [11:46:43<5:28:06,  1.26s/it] 68%|██████▊   | 33260/48845 [11:46:45<5:28:16,  1.26s/it]                                                          {'loss': 1.9901, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.4}
+ 68%|██████▊   | 33260/48845 [11:46:45<5:28:16,  1.26s/it] 68%|██████▊   | 33261/48845 [11:46:46<5:28:28,  1.26s/it] 68%|██████▊   | 33262/48845 [11:46:47<5:28:08,  1.26s/it] 68%|██████▊   | 33263/48845 [11:46:48<5:27:59,  1.26s/it] 68%|██████▊   | 33264/48845 [11:46:50<5:27:43,  1.26s/it] 68%|██████▊   | 33265/48845 [11:46:51<5:27:31,  1.26s/it]                                                          {'loss': 2.1237, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33265/48845 [11:46:51<5:27:31,  1.26s/it] 68%|██████▊   | 33266/48845 [11:46:52<5:27:49,  1.26s/it] 68%|██████▊   | 33267/48845 [11:46:53<5:27:28,  1.26s/it] 68%|██████▊   | 33268/48845 [11:46:55<5:27:32,  1.26s/it] 68%|██████▊   | 33269/48845 [11:46:56<5:27:32,  1.26s/it] 68%|██████▊   | 33270/48845 [11:46:57<5:27:30,  1.26s/it]                                                          {'loss': 2.1313, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33270/48845 [11:46:57<5:27:30,  1.26s/it] 68%|██████▊   | 33271/48845 [11:46:58<5:27:54,  1.26s/it] 68%|██████▊   | 33272/48845 [11:47:00<5:27:34,  1.26s/it] 68%|██████▊   | 33273/48845 [11:47:01<5:27:27,  1.26s/it] 68%|██████▊   | 33274/48845 [11:47:02<5:27:35,  1.26s/it] 68%|██████▊   | 33275/48845 [11:47:03<5:27:17,  1.26s/it]                                                          {'loss': 2.1028, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33275/48845 [11:47:03<5:27:17,  1.26s/it] 68%|██████▊   | 33276/48845 [11:47:05<5:27:20,  1.26s/it] 68%|██████▊   | 33277/48845 [11:47:06<5:27:15,  1.26s/it] 68%|██████▊   | 33278/48845 [11:47:07<5:27:17,  1.26s/it] 68%|██████▊   | 33279/48845 [11:47:08<5:27:12,  1.26s/it] 68%|██████▊   | 33280/48845 [11:47:10<5:27:00,  1.26s/it]                                                          {'loss': 2.0969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33280/48845 [11:47:10<5:27:00,  1.26s/it] 68%|██████▊   | 33281/48845 [11:47:11<5:27:07,  1.26s/it] 68%|██████▊   | 33282/48845 [11:47:12<5:26:58,  1.26s/it] 68%|██████▊   | 33283/48845 [11:47:14<5:27:14,  1.26s/it] 68%|██████▊   | 33284/48845 [11:47:15<5:27:12,  1.26s/it] 68%|██████▊   | 33285/48845 [11:47:16<5:27:37,  1.26s/it]                                                          {'loss': 2.0974, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33285/48845 [11:47:16<5:27:37,  1.26s/it] 68%|██████▊   | 33286/48845 [11:47:17<5:27:18,  1.26s/it] 68%|██████▊   | 33287/48845 [11:47:19<5:27:13,  1.26s/it] 68%|██████▊   | 33288/48845 [11:47:20<5:27:15,  1.26s/it] 68%|██████▊   | 33289/48845 [11:47:21<5:27:13,  1.26s/it] 68%|██████▊   | 33290/48845 [11:47:22<5:27:25,  1.26s/it]                                                          {'loss': 1.907, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██���███▊   | 33290/48845 [11:47:22<5:27:25,  1.26s/it] 68%|██████▊   | 33291/48845 [11:47:24<5:27:21,  1.26s/it] 68%|██████▊   | 33292/48845 [11:47:25<5:27:15,  1.26s/it] 68%|██████▊   | 33293/48845 [11:47:26<5:27:22,  1.26s/it] 68%|██████▊   | 33294/48845 [11:47:27<5:27:09,  1.26s/it] 68%|██████▊   | 33295/48845 [11:47:29<5:27:13,  1.26s/it]                                                          {'loss': 1.9521, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33295/48845 [11:47:29<5:27:13,  1.26s/it] 68%|██████▊   | 33296/48845 [11:47:30<5:27:24,  1.26s/it] 68%|██████▊   | 33297/48845 [11:47:31<5:27:13,  1.26s/it] 68%|██████▊   | 33298/48845 [11:47:32<5:27:05,  1.26s/it] 68%|██████▊   | 33299/48845 [11:47:34<5:26:59,  1.26s/it] 68%|██████▊   | 33300/48845 [11:47:35<5:26:52,  1.26s/it]                                                          {'loss': 2.0015, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33300/48845 [11:47:35<5:26:52,  1.26s/it] 68%|██████▊   | 33301/48845 [11:47:36<5:27:37,  1.26s/it] 68%|██████▊   | 33302/48845 [11:47:38<5:27:26,  1.26s/it] 68%|██████▊   | 33303/48845 [11:47:39<5:27:21,  1.26s/it] 68%|██████▊   | 33304/48845 [11:47:40<5:27:14,  1.26s/it] 68%|██████▊   | 33305/48845 [11:47:41<5:27:01,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33305/48845 [11:47:41<5:27:01,  1.26s/it] 68%|██████▊   | 33306/48845 [11:47:43<5:26:51,  1.26s/it] 68%|██████▊   | 33307/48845 [11:47:44<5:26:50,  1.26s/it] 68%|██████▊   | 33308/48845 [11:47:45<5:33:50,  1.29s/it] 68%|██████▊   | 33309/48845 [11:47:46<5:31:27,  1.28s/it] 68%|██████▊   | 33310/48845 [11:47:48<5:29:41,  1.27s/it]                                                          {'loss': 2.0725, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33310/48845 [11:47:48<5:29:41,  1.27s/it] 68%|██████▊   | 33311/48845 [11:47:49<5:29:03,  1.27s/it] 68%|██████▊   | 33312/48845 [11:47:50<5:28:17,  1.27s/it] 68%|██████▊   | 33313/48845 [11:47:51<5:27:37,  1.27s/it] 68%|██████▊   | 33314/48845 [11:47:53<5:27:47,  1.27s/it] 68%|██████▊   | 33315/48845 [11:47:54<5:27:47,  1.27s/it]                                                          {'loss': 2.0094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33315/48845 [11:47:54<5:27:47,  1.27s/it] 68%|██████▊   | 33316/48845 [11:47:55<5:27:45,  1.27s/it] 68%|██████▊   | 33317/48845 [11:47:57<5:27:11,  1.26s/it] 68%|██████▊   | 33318/48845 [11:47:58<5:27:02,  1.26s/it] 68%|██████▊   | 33319/48845 [11:47:59<5:27:03,  1.26s/it] 68%|██████▊   | 33320/48845 [11:48:00<5:27:00,  1.26s/it]                                                          {'loss': 2.0947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33320/48845 [11:48:00<5:27:00,  1.26s/it] 68%|██████▊   | 33321/48845 [11:48:02<5:27:01,  1.26s/it] 68%|██████▊   | 33322/48845 [11:48:03<5:26:52,  1.26s/it] 68%|██████▊   | 33323/48845 [11:48:04<5:26:35,  1.26s/it] 68%|██████▊   | 33324/48845 [11:48:05<5:26:46,  1.26s/it] 68%|██████▊   | 33325/48845 [11:48:07<5:26:27,  1.26s/it]                                                          {'loss': 2.0437, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33325/48845 [11:48:07<5:26:27,  1.26s/it] 68%|██████▊   | 33326/48845 [11:48:08<5:26:28,  1.26s/it] 68%|██████▊   | 33327/48845 [11:48:09<5:26:33,  1.26s/it] 68%|██████▊   | 33328/48845 [11:48:10<5:26:20,  1.26s/it] 68%|██████▊   | 33329/48845 [11:48:12<5:26:19,  1.26s/it] 68%|██████▊   | 33330/48845 [11:48:13<5:26:23,  1.26s/it]                                                          {'loss': 2.1448, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33330/48845 [11:48:13<5:26:23,  1.26s/it] 68%|██████▊   | 33331/48845 [11:48:14<5:26:40,  1.26s/it] 68%|██████▊   | 33332/48845 [11:48:15<5:26:25,  1.26s/it] 68%|██████▊   | 33333/48845 [11:48:17<5:26:18,  1.26s/it] 68%|██████▊   | 33334/48845 [11:48:18<5:26:02,  1.26s/it] 68%|██████▊   | 33335/48845 [11:48:19<5:25:58,  1.26s/it]                                                          {'loss': 2.0927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33335/48845 [11:48:19<5:25:58,  1.26s/it] 68%|██████▊   | 33336/48845 [11:48:21<5:26:09,  1.26s/it] 68%|██████▊   | 33337/48845 [11:48:22<5:25:58,  1.26s/it] 68%|██████▊   | 33338/48845 [11:48:23<5:25:59,  1.26s/it] 68%|██████▊   | 33339/48845 [11:48:24<5:25:59,  1.26s/it] 68%|██████▊   | 33340/48845 [11:48:26<5:25:51,  1.26s/it]                                                          {'loss': 1.8474, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33340/48845 [11:48:26<5:25:51,  1.26s/it] 68%|██████▊   | 33341/48845 [11:48:27<5:26:36,  1.26s/it] 68%|██████▊   | 33342/48845 [11:48:28<5:27:16,  1.27s/it] 68%|██████▊   | 33343/48845 [11:48:29<5:26:53,  1.27s/it] 68%|██████▊   | 33344/48845 [11:48:31<5:26:39,  1.26s/it] 68%|██████▊   | 33345/48845 [11:48:32<5:26:23,  1.26s/it]                                                          {'loss': 1.9666, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33345/48845 [11:48:32<5:26:23,  1.26s/it] 68%|██████▊   | 33346/48845 [11:48:33<5:26:36,  1.26s/it] 68%|██████▊   | 33347/48845 [11:48:34<5:26:25,  1.26s/it] 68%|██████▊   | 33348/48845 [11:48:36<5:26:21,  1.26s/it] 68%|██████▊   | 33349/48845 [11:48:37<5:26:10,  1.26s/it] 68%|██████▊   | 33350/48845 [11:48:38<5:26:13,  1.26s/it]                                                          {'loss': 1.9585, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33350/48845 [11:48:38<5:26:13,  1.26s/it] 68%|██████▊   | 33351/48845 [11:48:39<5:26:09,  1.26s/it] 68%|██████▊   | 33352/48845 [11:48:41<5:26:08,  1.26s/it] 68%|██████▊   | 33353/48845 [11:48:42<5:26:02,  1.26s/it] 68%|██████▊   | 33354/48845 [11:48:43<5:25:48,  1.26s/it] 68%|██████▊   | 33355/48845 [11:48:45<5:25:40,  1.26s/it]                                                          {'loss': 2.0109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33355/48845 [11:48:45<5:25:40,  1.26s/it] 68%|██████▊   | 33356/48845 [11:48:46<5:25:47,  1.26s/it] 68%|██████▊   | 33357/48845 [11:48:47<5:25:44,  1.26s/it] 68%|██████▊   | 33358/48845 [11:48:48<5:25:52,  1.26s/it] 68%|██████▊   | 33359/48845 [11:48:50<5:25:32,  1.26s/it] 68%|██████▊   | 33360/48845 [11:48:51<5:25:30,  1.26s/it]                                                          {'loss': 2.0259, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.41}
+ 68%|██████▊   | 33360/48845 [11:48:51<5:25:30,  1.26s/it] 68%|██████▊   | 33361/48845 [11:48:52<5:25:40,  1.26s/it] 68%|██████▊   | 33362/48845 [11:48:53<5:25:54,  1.26s/it] 68%|██████▊   | 33363/48845 [11:48:55<5:25:45,  1.26s/it] 68%|██████▊   | 33364/48845 [11:48:56<5:25:30,  1.26s/it] 68%|██████▊   | 33365/48845 [11:48:57<5:25:25,  1.26s/it]                                                          {'loss': 1.9083, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33365/48845 [11:48:57<5:25:25,  1.26s/it] 68%|██████▊   | 33366/48845 [11:48:58<5:25:48,  1.26s/it] 68%|██████▊   | 33367/48845 [11:49:00<5:25:51,  1.26s/it] 68%|██████▊   | 33368/48845 [11:49:01<5:25:29,  1.26s/it] 68%|██████▊   | 33369/48845 [11:49:02<5:25:23,  1.26s/it] 68%|██████▊   | 33370/48845 [11:49:03<5:25:34,  1.26s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33370/48845 [11:49:03<5:25:34,  1.26s/it] 68%|██████▊   | 33371/48845 [11:49:05<5:25:35,  1.26s/it] 68%|██████▊   | 33372/48845 [11:49:06<5:25:42,  1.26s/it] 68%|██████▊   | 33373/48845 [11:49:07<5:25:34,  1.26s/it] 68%|██████▊   | 33374/48845 [11:49:09<5:25:32,  1.26s/it] 68%|██████▊   | 33375/48845 [11:49:10<5:25:41,  1.26s/it]                                                          {'loss': 2.0716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33375/48845 [11:49:10<5:25:41,  1.26s/it] 68%|██████▊   | 33376/48845 [11:49:11<5:25:22,  1.26s/it] 68%|██████▊   | 33377/48845 [11:49:12<5:25:34,  1.26s/it] 68%|██████▊   | 33378/48845 [11:49:14<5:25:30,  1.26s/it] 68%|██████▊   | 33379/48845 [11:49:15<5:25:38,  1.26s/it] 68%|██████▊   | 33380/48845 [11:49:16<5:27:26,  1.27s/it]                                                          {'loss': 2.0467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33380/48845 [11:49:16<5:27:26,  1.27s/it] 68%|██████▊   | 33381/48845 [11:49:17<5:26:49,  1.27s/it] 68%|██████▊   | 33382/48845 [11:49:19<5:26:12,  1.27s/it] 68%|██████▊   | 33383/48845 [11:49:20<5:25:53,  1.26s/it] 68%|██████▊   | 33384/48845 [11:49:21<5:25:40,  1.26s/it] 68%|██████▊   | 33385/48845 [11:49:22<5:25:42,  1.26s/it]                                                          {'loss': 2.0544, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33385/48845 [11:49:22<5:25:42,  1.26s/it] 68%|██████▊   | 33386/48845 [11:49:24<5:25:32,  1.26s/it] 68%|██████▊   | 33387/48845 [11:49:25<5:25:19,  1.26s/it] 68%|██████▊   | 33388/48845 [11:49:26<5:25:18,  1.26s/it] 68%|██████▊   | 33389/48845 [11:49:27<5:25:24,  1.26s/it] 68%|██████▊   | 33390/48845 [11:49:29<5:25:16,  1.26s/it]                                                          {'loss': 1.9828, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33390/48845 [11:49:29<5:25:16,  1.26s/it] 68%|██████▊   | 33391/48845 [11:49:30<5:25:29,  1.26s/it] 68%|██████▊   | 33392/48845 [11:49:31<5:25:55,  1.27s/it] 68%|██████▊   | 33393/48845 [11:49:33<5:25:34,  1.26s/it] 68%|██████▊   | 33394/48845 [11:49:34<5:25:36,  1.26s/it] 68%|██████▊   | 33395/48845 [11:49:35<5:25:29,  1.26s/it]                                                          {'loss': 2.1803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33395/48845 [11:49:35<5:25:29,  1.26s/it] 68%|██████▊   | 33396/48845 [11:49:36<5:25:27,  1.26s/it] 68%|██████▊   | 33397/48845 [11:49:38<5:25:13,  1.26s/it] 68%|██████▊   | 33398/48845 [11:49:39<5:25:02,  1.26s/it] 68%|██████▊   | 33399/48845 [11:49:40<5:25:06,  1.26s/it] 68%|██████▊   | 33400/48845 [11:49:41<5:24:46,  1.26s/it]                                                          {'loss': 1.9659, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33400/48845 [11:49:41<5:24:46,  1.26s/it] 68%|██████▊   | 33401/48845 [11:49:45<8:35:57,  2.00s/it] 68%|██████▊   | 33402/48845 [11:49:46<7:38:20,  1.78s/it] 68%|██████▊   | 33403/48845 [11:49:48<6:58:14,  1.63s/it] 68%|██████▊   | 33404/48845 [11:49:49<6:30:28,  1.52s/it] 68%|██████▊   | 33405/48845 [11:49:50<6:10:46,  1.44s/it]                                                          {'loss': 1.9799, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33405/48845 [11:49:50<6:10:46,  1.44s/it] 68%|██████▊   | 33406/48845 [11:49:51<5:57:48,  1.39s/it] 68%|██████▊   | 33407/48845 [11:49:53<5:48:00,  1.35s/it] 68%|██████▊   | 33408/48845 [11:49:54<5:41:10,  1.33s/it] 68%|██████▊   | 33409/48845 [11:49:55<5:36:41,  1.31s/it] 68%|██████▊   | 33410/48845 [11:49:56<5:33:06,  1.29s/it]                                                          {'loss': 1.9596, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33410/48845 [11:49:57<5:33:06,  1.29s/it] 68%|██████▊   | 33411/48845 [11:49:58<5:30:36,  1.29s/it] 68%|██████▊   | 33412/48845 [11:49:59<5:28:49,  1.28s/it] 68%|██████▊   | 33413/48845 [11:50:00<5:27:16,  1.27s/it] 68%|██████▊   | 33414/48845 [11:50:02<5:26:20,  1.27s/it] 68%|██████▊   | 33415/48845 [11:50:03<5:25:41,  1.27s/it]                                                          {'loss': 1.9413, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33415/48845 [11:50:03<5:25:41,  1.27s/it] 68%|██████▊   | 33416/48845 [11:50:04<5:25:29,  1.27s/it] 68%|██████▊   | 33417/48845 [11:50:05<5:25:10,  1.26s/it] 68%|██████▊   | 33418/48845 [11:50:07<5:24:38,  1.26s/it] 68%|██████▊   | 33419/48845 [11:50:08<5:24:21,  1.26s/it] 68%|██████▊   | 33420/48845 [11:50:09<5:24:17,  1.26s/it]                                                          {'loss': 2.0816, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33420/48845 [11:50:09<5:24:17,  1.26s/it] 68%|██████▊   | 33421/48845 [11:50:10<5:24:17,  1.26s/it] 68%|██████▊   | 33422/48845 [11:50:12<5:24:10,  1.26s/it] 68%|██████▊   | 33423/48845 [11:50:13<5:24:11,  1.26s/it] 68%|██████▊   | 33424/48845 [11:50:14<5:24:02,  1.26s/it] 68%|██████▊   | 33425/48845 [11:50:15<5:24:16,  1.26s/it]                                                          {'loss': 1.9555, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33425/48845 [11:50:15<5:24:16,  1.26s/it] 68%|██████▊   | 33426/48845 [11:50:17<5:25:04,  1.26s/it] 68%|██████▊   | 33427/48845 [11:50:18<5:24:48,  1.26s/it] 68%|██████▊   | 33428/48845 [11:50:19<5:24:58,  1.26s/it] 68%|██████▊   | 33429/48845 [11:50:20<5:24:38,  1.26s/it] 68%|██████▊   | 33430/48845 [11:50:22<5:24:14,  1.26s/it]                                                          {'loss': 1.9378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33430/48845 [11:50:22<5:24:14,  1.26s/it] 68%|██████▊   | 33431/48845 [11:50:23<5:24:15,  1.26s/it] 68%|██████▊   | 33432/48845 [11:50:24<5:24:18,  1.26s/it] 68%|██████▊   | 33433/48845 [11:50:26<5:24:08,  1.26s/it] 68%|██████▊   | 33434/48845 [11:50:27<5:23:54,  1.26s/it] 68%|██████▊   | 33435/48845 [11:50:28<5:24:07,  1.26s/it]                                                          {'loss': 2.0735, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33435/48845 [11:50:28<5:24:07,  1.26s/it] 68%|██████▊   | 33436/48845 [11:50:29<5:24:27,  1.26s/it] 68%|██████▊   | 33437/48845 [11:50:31<5:24:11,  1.26s/it] 68%|██████▊   | 33438/48845 [11:50:32<5:23:55,  1.26s/it] 68%|██████▊   | 33439/48845 [11:50:33<5:23:48,  1.26s/it] 68%|██████▊   | 33440/48845 [11:50:34<5:23:50,  1.26s/it]                                                          {'loss': 1.9067, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33440/48845 [11:50:34<5:23:50,  1.26s/it] 68%|██████▊   | 33441/48845 [11:50:36<5:23:56,  1.26s/it] 68%|██████▊   | 33442/48845 [11:50:37<5:23:57,  1.26s/it] 68%|██████▊   | 33443/48845 [11:50:38<5:24:07,  1.26s/it] 68%|██████▊   | 33444/48845 [11:50:39<5:24:19,  1.26s/it] 68%|██████▊   | 33445/48845 [11:50:41<5:24:22,  1.26s/it]                                                          {'loss': 2.0497, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33445/48845 [11:50:41<5:24:22,  1.26s/it] 68%|██████▊   | 33446/48845 [11:50:42<5:24:14,  1.26s/it] 68%|██████▊   | 33447/48845 [11:50:43<5:24:04,  1.26s/it] 68%|██████▊   | 33448/48845 [11:50:44<5:23:57,  1.26s/it] 68%|██████▊   | 33449/48845 [11:50:46<5:23:49,  1.26s/it] 68%|██████▊   | 33450/48845 [11:50:47<5:24:17,  1.26s/it]                                                          {'loss': 2.0456, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33450/48845 [11:50:47<5:24:17,  1.26s/it] 68%|██████▊   | 33451/48845 [11:50:48<5:24:09,  1.26s/it] 68%|██████▊   | 33452/48845 [11:50:50<5:24:25,  1.26s/it] 68%|██████▊   | 33453/48845 [11:50:51<5:24:33,  1.27s/it] 68%|██████▊   | 33454/48845 [11:50:52<5:24:21,  1.26s/it] 68%|██████▊   | 33455/48845 [11:50:53<5:24:09,  1.26s/it]                                                          {'loss': 2.0495, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.42}
+ 68%|██████▊   | 33455/48845 [11:50:53<5:24:09,  1.26s/it] 68%|██████▊   | 33456/48845 [11:50:55<5:23:51,  1.26s/it] 68%|██████▊   | 33457/48845 [11:50:56<5:23:39,  1.26s/it] 68%|██████▊   | 33458/48845 [11:50:57<5:23:52,  1.26s/it] 69%|██████▊   | 33459/48845 [11:50:58<5:23:34,  1.26s/it] 69%|██████▊   | 33460/48845 [11:51:00<5:23:19,  1.26s/it]                                                          {'loss': 2.1144, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33460/48845 [11:51:00<5:23:19,  1.26s/it] 69%|██████▊   | 33461/48845 [11:51:01<5:23:50,  1.26s/it] 69%|██████▊   | 33462/48845 [11:51:02<5:23:49,  1.26s/it] 69%|██████▊   | 33463/48845 [11:51:03<5:23:44,  1.26s/it] 69%|██████▊   | 33464/48845 [11:51:05<5:23:58,  1.26s/it] 69%|██████▊   | 33465/48845 [11:51:06<5:23:43,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33465/48845 [11:51:06<5:23:43,  1.26s/it] 69%|██████▊   | 33466/48845 [11:51:07<5:23:57,  1.26s/it] 69%|██████▊   | 33467/48845 [11:51:08<5:23:39,  1.26s/it] 69%|██████▊   | 33468/48845 [11:51:10<5:23:49,  1.26s/it] 69%|██████▊   | 33469/48845 [11:51:11<5:23:27,  1.26s/it] 69%|██████▊   | 33470/48845 [11:51:12<5:23:37,  1.26s/it]                                                          {'loss': 2.048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33470/48845 [11:51:12<5:23:37,  1.26s/it] 69%|██████▊   | 33471/48845 [11:51:14<5:23:36,  1.26s/it] 69%|██████▊   | 33472/48845 [11:51:15<5:23:31,  1.26s/it] 69%|██████▊   | 33473/48845 [11:51:16<5:23:13,  1.26s/it] 69%|██████▊   | 33474/48845 [11:51:17<5:23:31,  1.26s/it] 69%|██████▊   | 33475/48845 [11:51:19<5:23:27,  1.26s/it]                                                          {'loss': 1.9194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33475/48845 [11:51:19<5:23:27,  1.26s/it] 69%|██████▊   | 33476/48845 [11:51:20<5:23:39,  1.26s/it] 69%|██████▊   | 33477/48845 [11:51:21<5:23:33,  1.26s/it] 69%|██████▊   | 33478/48845 [11:51:22<5:23:25,  1.26s/it] 69%|██████▊   | 33479/48845 [11:51:24<5:23:09,  1.26s/it] 69%|██████▊   | 33480/48845 [11:51:25<5:23:09,  1.26s/it]                                                          {'loss': 2.1254, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33480/48845 [11:51:25<5:23:09,  1.26s/it] 69%|██████▊   | 33481/48845 [11:51:26<5:23:51,  1.26s/it] 69%|██████▊   | 33482/48845 [11:51:27<5:23:35,  1.26s/it] 69%|██████▊   | 33483/48845 [11:51:29<5:23:20,  1.26s/it] 69%|██████▊   | 33484/48845 [11:51:30<5:23:36,  1.26s/it] 69%|██████▊   | 33485/48845 [11:51:31<5:23:55,  1.27s/it]                                                          {'loss': 2.0775, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33485/48845 [11:51:31<5:23:55,  1.27s/it] 69%|██████▊   | 33486/48845 [11:51:32<5:23:37,  1.26s/it] 69%|██████▊   | 33487/48845 [11:51:34<5:23:11,  1.26s/it] 69%|██████▊   | 33488/48845 [11:51:35<5:23:08,  1.26s/it] 69%|██████▊   | 33489/48845 [11:51:36<5:23:23,  1.26s/it] 69%|██████▊   | 33490/48845 [11:51:38<5:23:10,  1.26s/it]                                                          {'loss': 2.1542, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33490/48845 [11:51:38<5:23:10,  1.26s/it] 69%|██████▊   | 33491/48845 [11:51:39<5:23:18,  1.26s/it] 69%|██████▊   | 33492/48845 [11:51:40<5:23:35,  1.26s/it] 69%|██████▊   | 33493/48845 [11:51:41<5:23:43,  1.27s/it] 69%|██████▊   | 33494/48845 [11:51:43<5:23:44,  1.27s/it] 69%|██████▊   | 33495/48845 [11:51:44<5:23:27,  1.26s/it]                                                          {'loss': 2.0526, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33495/48845 [11:51:44<5:23:27,  1.26s/it] 69%|██████▊   | 33496/48845 [11:51:45<5:23:24,  1.26s/it] 69%|██████▊   | 33497/48845 [11:51:46<5:23:40,  1.27s/it] 69%|██████▊   | 33498/48845 [11:51:48<5:23:15,  1.26s/it] 69%|██████▊   | 33499/48845 [11:51:49<5:22:58,  1.26s/it] 69%|██████▊   | 33500/48845 [11:51:50<5:23:07,  1.26s/it]                                                          {'loss': 1.9856, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33500/48845 [11:51:50<5:23:07,  1.26s/it] 69%|██████▊   | 33501/48845 [11:51:51<5:22:52,  1.26s/it] 69%|██████▊   | 33502/48845 [11:51:53<5:22:55,  1.26s/it] 69%|██████▊   | 33503/48845 [11:51:54<5:22:41,  1.26s/it] 69%|██████▊   | 33504/48845 [11:51:55<5:22:18,  1.26s/it] 69%|██████▊   | 33505/48845 [11:51:56<5:22:08,  1.26s/it]                                                          {'loss': 1.9517, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33505/48845 [11:51:56<5:22:08,  1.26s/it] 69%|██████▊   | 33506/48845 [11:51:58<5:22:32,  1.26s/it] 69%|██████▊   | 33507/48845 [11:51:59<5:22:43,  1.26s/it] 69%|██████▊   | 33508/48845 [11:52:00<5:22:20,  1.26s/it] 69%|██████▊   | 33509/48845 [11:52:02<5:22:11,  1.26s/it] 69%|██████▊   | 33510/48845 [11:52:03<5:22:10,  1.26s/it]                                                          {'loss': 2.0603, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33510/48845 [11:52:03<5:22:10,  1.26s/it] 69%|██████▊   | 33511/48845 [11:52:04<5:23:15,  1.26s/it] 69%|██████▊   | 33512/48845 [11:52:05<5:22:57,  1.26s/it] 69%|██████▊   | 33513/48845 [11:52:07<5:22:52,  1.26s/it] 69%|██████▊   | 33514/48845 [11:52:08<5:22:30,  1.26s/it] 69%|██████▊   | 33515/48845 [11:52:09<5:23:04,  1.26s/it]                                                          {'loss': 2.2219, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33515/48845 [11:52:09<5:23:04,  1.26s/it] 69%|██████▊   | 33516/48845 [11:52:10<5:22:20,  1.26s/it] 69%|██████▊   | 33517/48845 [11:52:12<5:21:47,  1.26s/it] 69%|██████▊   | 33518/48845 [11:52:13<5:21:48,  1.26s/it] 69%|██████▊   | 33519/48845 [11:52:14<5:25:46,  1.28s/it] 69%|██████▊   | 33520/48845 [11:52:15<5:24:18,  1.27s/it]                                                          {'loss': 2.2443, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33520/48845 [11:52:15<5:24:18,  1.27s/it] 69%|██████▊   | 33521/48845 [11:52:17<5:23:50,  1.27s/it] 69%|██████▊   | 33522/48845 [11:52:18<5:23:23,  1.27s/it] 69%|██████▊   | 33523/48845 [11:52:19<5:28:54,  1.29s/it] 69%|██████▊   | 33524/48845 [11:52:21<5:26:43,  1.28s/it] 69%|██████▊   | 33525/48845 [11:52:22<5:25:12,  1.27s/it]                                                          {'loss': 2.0649, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33525/48845 [11:52:22<5:25:12,  1.27s/it] 69%|██████▊   | 33526/48845 [11:52:23<5:24:16,  1.27s/it] 69%|██████▊   | 33527/48845 [11:52:24<5:23:39,  1.27s/it] 69%|██████▊   | 33528/48845 [11:52:26<5:22:56,  1.27s/it] 69%|██████▊   | 33529/48845 [11:52:27<5:22:32,  1.26s/it] 69%|██████▊   | 33530/48845 [11:52:28<5:22:09,  1.26s/it]                                                          {'loss': 2.0129, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33530/48845 [11:52:28<5:22:09,  1.26s/it] 69%|██████▊   | 33531/48845 [11:52:29<5:22:01,  1.26s/it] 69%|██████▊   | 33532/48845 [11:52:31<5:21:43,  1.26s/it] 69%|██████▊   | 33533/48845 [11:52:32<5:21:25,  1.26s/it] 69%|██████▊   | 33534/48845 [11:52:33<5:21:36,  1.26s/it] 69%|██████▊   | 33535/48845 [11:52:34<5:22:13,  1.26s/it]                                                          {'loss': 2.1089, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33535/48845 [11:52:34<5:22:13,  1.26s/it] 69%|██████▊   | 33536/48845 [11:52:36<5:21:54,  1.26s/it] 69%|██████▊   | 33537/48845 [11:52:37<5:21:28,  1.26s/it] 69%|██████▊   | 33538/48845 [11:52:38<5:21:36,  1.26s/it] 69%|██████▊   | 33539/48845 [11:52:39<5:21:50,  1.26s/it] 69%|██████▊   | 33540/48845 [11:52:41<5:21:34,  1.26s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33540/48845 [11:52:41<5:21:34,  1.26s/it] 69%|██████▊   | 33541/48845 [11:52:42<5:21:25,  1.26s/it] 69%|██████▊   | 33542/48845 [11:52:43<5:21:23,  1.26s/it] 69%|██████▊   | 33543/48845 [11:52:45<5:22:31,  1.26s/it] 69%|██████▊   | 33544/48845 [11:52:46<5:22:21,  1.26s/it] 69%|██████▊   | 33545/48845 [11:52:47<5:22:05,  1.26s/it]                                                          {'loss': 2.1854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33545/48845 [11:52:47<5:22:05,  1.26s/it] 69%|██████▊   | 33546/48845 [11:52:48<5:21:49,  1.26s/it] 69%|██████▊   | 33547/48845 [11:52:50<5:22:13,  1.26s/it] 69%|██████▊   | 33548/48845 [11:52:51<5:21:44,  1.26s/it] 69%|██████▊   | 33549/48845 [11:52:52<5:21:27,  1.26s/it] 69%|██████▊   | 33550/48845 [11:52:53<5:21:28,  1.26s/it]                                                          {'loss': 2.1611, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33550/48845 [11:52:53<5:21:28,  1.26s/it] 69%|██████▊   | 33551/48845 [11:52:55<5:21:41,  1.26s/it] 69%|██████▊   | 33552/48845 [11:52:56<5:21:24,  1.26s/it] 69%|██████▊   | 33553/48845 [11:52:57<5:21:12,  1.26s/it] 69%|██████▊   | 33554/48845 [11:52:58<5:21:02,  1.26s/it] 69%|██████▊   | 33555/48845 [11:53:00<5:21:45,  1.26s/it]                                                          {'loss': 2.1123, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.43}
+ 69%|██████▊   | 33555/48845 [11:53:00<5:21:45,  1.26s/it] 69%|██████▊   | 33556/48845 [11:53:01<5:21:29,  1.26s/it] 69%|██████▊   | 33557/48845 [11:53:02<5:21:28,  1.26s/it] 69%|██████▊   | 33558/48845 [11:53:03<5:21:16,  1.26s/it] 69%|██████▊   | 33559/48845 [11:53:05<5:21:29,  1.26s/it] 69%|██████▊   | 33560/48845 [11:53:06<5:21:37,  1.26s/it]                                                          {'loss': 2.1261, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▊   | 33560/48845 [11:53:06<5:21:37,  1.26s/it] 69%|██████▊   | 33561/48845 [11:53:07<5:21:33,  1.26s/it] 69%|██████▊   | 33562/48845 [11:53:08<5:21:08,  1.26s/it] 69%|██████▊   | 33563/48845 [11:53:10<5:21:09,  1.26s/it] 69%|██████▊   | 33564/48845 [11:53:11<5:21:01,  1.26s/it] 69%|██████▊   | 33565/48845 [11:53:12<5:20:48,  1.26s/it]                                                          {'loss': 1.9645, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▊   | 33565/48845 [11:53:12<5:20:48,  1.26s/it] 69%|██████▊   | 33566/48845 [11:53:14<5:20:57,  1.26s/it] 69%|██████▊   | 33567/48845 [11:53:15<5:21:03,  1.26s/it] 69%|██████▊   | 33568/48845 [11:53:16<5:20:56,  1.26s/it] 69%|██████▊   | 33569/48845 [11:53:17<5:20:43,  1.26s/it] 69%|██████▊   | 33570/48845 [11:53:19<5:20:34,  1.26s/it]                                                          {'loss': 2.0374, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▊   | 33570/48845 [11:53:19<5:20:34,  1.26s/it] 69%|██████▊   | 33571/48845 [11:53:20<5:20:34,  1.26s/it] 69%|██████▊   | 33572/48845 [11:53:21<5:20:34,  1.26s/it] 69%|██████▊   | 33573/48845 [11:53:22<5:20:35,  1.26s/it] 69%|██████▊   | 33574/48845 [11:53:24<5:20:28,  1.26s/it] 69%|██████▊   | 33575/48845 [11:53:25<5:22:04,  1.27s/it]                                                          {'loss': 2.0822, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▊   | 33575/48845 [11:53:25<5:22:04,  1.27s/it] 69%|██████▊   | 33576/48845 [11:53:26<5:21:59,  1.27s/it] 69%|██████▊   | 33577/48845 [11:53:27<5:21:35,  1.26s/it] 69%|██████▊   | 33578/48845 [11:53:29<5:22:54,  1.27s/it] 69%|██████▊   | 33579/48845 [11:53:30<5:22:24,  1.27s/it] 69%|██████▊   | 33580/48845 [11:53:31<5:21:44,  1.26s/it]                                                          {'loss': 2.059, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▊   | 33580/48845 [11:53:31<5:21:44,  1.26s/it] 69%|██████▉   | 33581/48845 [11:53:32<5:21:34,  1.26s/it] 69%|██████▉   | 33582/48845 [11:53:34<5:21:31,  1.26s/it] 69%|██████▉   | 33583/48845 [11:53:35<5:21:43,  1.26s/it] 69%|██████▉   | 33584/48845 [11:53:36<5:21:26,  1.26s/it] 69%|██████▉   | 33585/48845 [11:53:38<5:21:19,  1.26s/it]                                                          {'loss': 1.9147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33585/48845 [11:53:38<5:21:19,  1.26s/it] 69%|██████▉   | 33586/48845 [11:53:39<5:21:43,  1.27s/it] 69%|██████▉   | 33587/48845 [11:53:40<5:21:22,  1.26s/it] 69%|██████▉   | 33588/48845 [11:53:41<5:20:58,  1.26s/it] 69%|██████▉   | 33589/48845 [11:53:43<5:20:36,  1.26s/it] 69%|██████▉   | 33590/48845 [11:53:44<5:20:47,  1.26s/it]                                                          {'loss': 2.1222, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33590/48845 [11:53:44<5:20:47,  1.26s/it] 69%|██████▉   | 33591/48845 [11:53:45<5:21:15,  1.26s/it] 69%|██████▉   | 33592/48845 [11:53:46<5:20:55,  1.26s/it] 69%|██████▉   | 33593/48845 [11:53:48<5:20:52,  1.26s/it] 69%|██████▉   | 33594/48845 [11:53:49<5:20:54,  1.26s/it] 69%|██████▉   | 33595/48845 [11:53:50<5:21:05,  1.26s/it]                                                          {'loss': 2.1458, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33595/48845 [11:53:50<5:21:05,  1.26s/it] 69%|██████▉   | 33596/48845 [11:53:51<5:20:43,  1.26s/it] 69%|██████▉   | 33597/48845 [11:53:53<5:20:26,  1.26s/it] 69%|██████▉   | 33598/48845 [11:53:54<5:20:29,  1.26s/it] 69%|██████▉   | 33599/48845 [11:53:55<5:20:43,  1.26s/it] 69%|██████▉   | 33600/48845 [11:53:56<5:20:49,  1.26s/it]                                                          {'loss': 1.9857, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33600/48845 [11:53:56<5:20:49,  1.26s/it] 69%|██████▉   | 33601/48845 [11:54:00<8:42:25,  2.06s/it] 69%|██████▉   | 33602/48845 [11:54:02<7:41:53,  1.82s/it] 69%|██████▉   | 33603/48845 [11:54:03<6:59:34,  1.65s/it] 69%|██████▉   | 33604/48845 [11:54:04<6:29:54,  1.54s/it] 69%|██████��   | 33605/48845 [11:54:06<6:21:44,  1.50s/it]                                                          {'loss': 2.072, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33605/48845 [11:54:06<6:21:44,  1.50s/it] 69%|██████▉   | 33606/48845 [11:54:07<6:03:22,  1.43s/it] 69%|██████▉   | 33607/48845 [11:54:08<5:50:22,  1.38s/it] 69%|██████▉   | 33608/48845 [11:54:09<5:41:33,  1.34s/it] 69%|██████▉   | 33609/48845 [11:54:11<5:46:56,  1.37s/it] 69%|██████▉   | 33610/48845 [11:54:12<5:39:20,  1.34s/it]                                                          {'loss': 2.1944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33610/48845 [11:54:12<5:39:20,  1.34s/it] 69%|██████▉   | 33611/48845 [11:54:13<5:33:35,  1.31s/it] 69%|██████▉   | 33612/48845 [11:54:15<5:29:21,  1.30s/it] 69%|██████▉   | 33613/48845 [11:54:16<5:26:55,  1.29s/it] 69%|██████▉   | 33614/48845 [11:54:17<5:24:59,  1.28s/it] 69%|██████▉   | 33615/48845 [11:54:18<5:23:48,  1.28s/it]                                                          {'loss': 2.0192, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33615/48845 [11:54:18<5:23:48,  1.28s/it] 69%|██████▉   | 33616/48845 [11:54:20<5:22:27,  1.27s/it] 69%|██████▉   | 33617/48845 [11:54:21<5:21:41,  1.27s/it] 69%|██████▉   | 33618/48845 [11:54:22<5:21:23,  1.27s/it] 69%|██████▉   | 33619/48845 [11:54:23<5:20:39,  1.26s/it] 69%|██████▉   | 33620/48845 [11:54:25<5:20:24,  1.26s/it]                                                          {'loss': 2.0601, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33620/48845 [11:54:25<5:20:24,  1.26s/it] 69%|██████▉   | 33621/48845 [11:54:26<5:21:08,  1.27s/it] 69%|██████▉   | 33622/48845 [11:54:27<5:20:40,  1.26s/it] 69%|██████▉   | 33623/48845 [11:54:28<5:20:55,  1.26s/it] 69%|██████▉   | 33624/48845 [11:54:30<5:20:26,  1.26s/it] 69%|██████▉   | 33625/48845 [11:54:31<5:20:33,  1.26s/it]                                                          {'loss': 1.9183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33625/48845 [11:54:31<5:20:33,  1.26s/it] 69%|██████▉   | 33626/48845 [11:54:32<5:20:59,  1.27s/it] 69%|██████▉   | 33627/48845 [11:54:34<5:21:09,  1.27s/it] 69%|██████▉   | 33628/48845 [11:54:35<5:20:36,  1.26s/it] 69%|██████▉   | 33629/48845 [11:54:36<5:20:53,  1.27s/it] 69%|██████▉   | 33630/48845 [11:54:37<5:20:26,  1.26s/it]                                                          {'loss': 2.2483, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33630/48845 [11:54:37<5:20:26,  1.26s/it] 69%|██████▉   | 33631/48845 [11:54:39<5:20:20,  1.26s/it] 69%|██████▉   | 33632/48845 [11:54:40<5:20:07,  1.26s/it] 69%|██████▉   | 33633/48845 [11:54:41<5:19:58,  1.26s/it] 69%|██████▉   | 33634/48845 [11:54:42<5:19:57,  1.26s/it] 69%|██████▉   | 33635/48845 [11:54:44<5:19:44,  1.26s/it]                                                          {'loss': 2.0441, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33635/48845 [11:54:44<5:19:44,  1.26s/it] 69%|██████▉   | 33636/48845 [11:54:45<5:19:38,  1.26s/it] 69%|██████▉   | 33637/48845 [11:54:46<5:19:49,  1.26s/it] 69%|██████▉   | 33638/48845 [11:54:47<5:19:41,  1.26s/it] 69%|██████▉   | 33639/48845 [11:54:49<5:20:06,  1.26s/it] 69%|██████▉   | 33640/48845 [11:54:50<5:20:37,  1.27s/it]                                                          {'loss': 2.0373, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33640/48845 [11:54:50<5:20:37,  1.27s/it] 69%|██████▉   | 33641/48845 [11:54:51<5:31:01,  1.31s/it] 69%|██████▉   | 33642/48845 [11:54:53<5:27:22,  1.29s/it] 69%|██████▉   | 33643/48845 [11:54:54<5:25:10,  1.28s/it] 69%|██████▉   | 33644/48845 [11:54:55<5:23:39,  1.28s/it] 69%|██████▉   | 33645/48845 [11:54:56<5:22:37,  1.27s/it]                                                          {'loss': 2.1055, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33645/48845 [11:54:56<5:22:37,  1.27s/it] 69%|██████▉   | 33646/48845 [11:54:58<5:21:35,  1.27s/it] 69%|██████▉   | 33647/48845 [11:54:59<5:21:00,  1.27s/it] 69%|██████▉   | 33648/48845 [11:55:00<5:20:35,  1.27s/it] 69%|██████▉   | 33649/48845 [11:55:01<5:20:14,  1.26s/it] 69%|██████▉   | 33650/48845 [11:55:03<5:20:15,  1.26s/it]                                                          {'loss': 2.1899, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.44}
+ 69%|██████▉   | 33650/48845 [11:55:03<5:20:15,  1.26s/it] 69%|██████▉   | 33651/48845 [11:55:04<5:20:40,  1.27s/it] 69%|██████▉   | 33652/48845 [11:55:05<5:20:22,  1.27s/it] 69%|██████▉   | 33653/48845 [11:55:07<5:21:47,  1.27s/it] 69%|██████▉   | 33654/48845 [11:55:08<5:20:58,  1.27s/it] 69%|██████▉   | 33655/48845 [11:55:09<5:20:13,  1.26s/it]                                                          {'loss': 2.0392, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33655/48845 [11:55:09<5:20:13,  1.26s/it] 69%|██████▉   | 33656/48845 [11:55:10<5:20:11,  1.26s/it] 69%|██████▉   | 33657/48845 [11:55:12<5:20:01,  1.26s/it] 69%|██████▉   | 33658/48845 [11:55:13<5:19:23,  1.26s/it] 69%|██████▉   | 33659/48845 [11:55:14<5:19:13,  1.26s/it] 69%|██████▉   | 33660/48845 [11:55:15<5:19:19,  1.26s/it]                                                          {'loss': 2.0246, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33660/48845 [11:55:16<5:19:19,  1.26s/it] 69%|██████▉   | 33661/48845 [11:55:17<5:32:30,  1.31s/it] 69%|██████▉   | 33662/48845 [11:55:18<5:28:24,  1.30s/it] 69%|██████▉   | 33663/48845 [11:55:19<5:25:33,  1.29s/it] 69%|██████▉   | 33664/48845 [11:55:21<5:23:27,  1.28s/it] 69%|██████▉   | 33665/48845 [11:55:22<5:21:58,  1.27s/it]                                                          {'loss': 1.9231, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33665/48845 [11:55:22<5:21:58,  1.27s/it] 69%|██████▉   | 33666/48845 [11:55:23<5:21:04,  1.27s/it] 69%|██████▉   | 33667/48845 [11:55:24<5:20:12,  1.27s/it] 69%|██████▉   | 33668/48845 [11:55:26<5:19:52,  1.26s/it] 69%|██████▉   | 33669/48845 [11:55:27<5:19:38,  1.26s/it] 69%|██████▉   | 33670/48845 [11:55:28<5:19:24,  1.26s/it]                                                          {'loss': 1.9549, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33670/48845 [11:55:28<5:19:24,  1.26s/it] 69%|██████▉   | 33671/48845 [11:55:29<5:19:19,  1.26s/it] 69%|██████▉   | 33672/48845 [11:55:31<5:19:06,  1.26s/it] 69%|██████▉   | 33673/48845 [11:55:32<5:19:07,  1.26s/it] 69%|██████▉   | 33674/48845 [11:55:33<5:18:52,  1.26s/it] 69%|██████▉   | 33675/48845 [11:55:34<5:18:46,  1.26s/it]                                                          {'loss': 1.9746, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33675/48845 [11:55:34<5:18:46,  1.26s/it] 69%|██████▉   | 33676/48845 [11:55:36<5:19:07,  1.26s/it] 69%|██████▉   | 33677/48845 [11:55:37<5:19:35,  1.26s/it] 69%|██████▉   | 33678/48845 [11:55:38<5:19:29,  1.26s/it] 69%|██████▉   | 33679/48845 [11:55:39<5:19:57,  1.27s/it] 69%|██████▉   | 33680/48845 [11:55:41<5:19:26,  1.26s/it]                                                          {'loss': 2.0613, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33680/48845 [11:55:41<5:19:26,  1.26s/it] 69%|██████▉   | 33681/48845 [11:55:42<5:19:34,  1.26s/it] 69%|██████▉   | 33682/48845 [11:55:43<5:19:15,  1.26s/it] 69%|██████▉   | 33683/48845 [11:55:45<5:18:53,  1.26s/it] 69%|██████▉   | 33684/48845 [11:55:46<5:18:50,  1.26s/it] 69%|██████▉   | 33685/48845 [11:55:47<5:18:46,  1.26s/it]                                                          {'loss': 1.8988, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33685/48845 [11:55:47<5:18:46,  1.26s/it] 69%|██████▉   | 33686/48845 [11:55:48<5:19:04,  1.26s/it] 69%|██████▉   | 33687/48845 [11:55:50<5:18:56,  1.26s/it] 69%|██████▉   | 33688/48845 [11:55:51<5:18:51,  1.26s/it] 69%|██████▉   | 33689/48845 [11:55:52<5:18:51,  1.26s/it] 69%|██████▉   | 33690/48845 [11:55:53<5:18:51,  1.26s/it]                                                          {'loss': 2.1979, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33690/48845 [11:55:53<5:18:51,  1.26s/it] 69%|██████▉   | 33691/48845 [11:55:55<5:19:04,  1.26s/it] 69%|██████▉   | 33692/48845 [11:55:56<5:19:03,  1.26s/it] 69%|██████▉   | 33693/48845 [11:55:57<5:20:35,  1.27s/it] 69%|██████▉   | 33694/48845 [11:55:58<5:19:55,  1.27s/it] 69%|██████▉   | 33695/48845 [11:56:00<5:19:17,  1.26s/it]                                                          {'loss': 2.0065, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33695/48845 [11:56:00<5:19:17,  1.26s/it] 69%|██████▉   | 33696/48845 [11:56:01<5:19:01,  1.26s/it] 69%|██████▉   | 33697/48845 [11:56:02<5:19:03,  1.26s/it] 69%|██████▉   | 33698/48845 [11:56:03<5:18:46,  1.26s/it] 69%|██████▉   | 33699/48845 [11:56:05<5:19:10,  1.26s/it] 69%|██████▉   | 33700/48845 [11:56:06<5:18:55,  1.26s/it]                                                          {'loss': 2.0451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33700/48845 [11:56:06<5:18:55,  1.26s/it] 69%|██████▉   | 33701/48845 [11:56:07<5:19:20,  1.27s/it] 69%|██████▉   | 33702/48845 [11:56:09<5:18:54,  1.26s/it] 69%|██████▉   | 33703/48845 [11:56:10<5:18:45,  1.26s/it] 69%|██████▉   | 33704/48845 [11:56:11<5:18:41,  1.26s/it] 69%|██████▉   | 33705/48845 [11:56:12<5:18:49,  1.26s/it]                                                          {'loss': 2.0561, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33705/48845 [11:56:12<5:18:49,  1.26s/it] 69%|██████▉   | 33706/48845 [11:56:14<5:18:34,  1.26s/it] 69%|██████▉   | 33707/48845 [11:56:15<5:18:16,  1.26s/it] 69%|██████▉   | 33708/48845 [11:56:16<5:18:07,  1.26s/it] 69%|██████▉   | 33709/48845 [11:56:17<5:18:35,  1.26s/it] 69%|██████▉   | 33710/48845 [11:56:19<5:18:27,  1.26s/it]                                                          {'loss': 2.1002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33710/48845 [11:56:19<5:18:27,  1.26s/it] 69%|██████▉   | 33711/48845 [11:56:20<5:18:23,  1.26s/it] 69%|██████▉   | 33712/48845 [11:56:21<5:18:28,  1.26s/it] 69%|██████▉   | 33713/48845 [11:56:22<5:18:32,  1.26s/it] 69%|██████▉   | 33714/48845 [11:56:24<5:18:16,  1.26s/it] 69%|██████▉   | 33715/48845 [11:56:25<5:18:08,  1.26s/it]                                                          {'loss': 2.1984, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33715/48845 [11:56:25<5:18:08,  1.26s/it] 69%|██████▉   | 33716/48845 [11:56:26<5:18:25,  1.26s/it] 69%|██████▉   | 33717/48845 [11:56:27<5:19:07,  1.27s/it] 69%|██████▉   | 33718/48845 [11:56:29<5:18:45,  1.26s/it] 69%|██████▉   | 33719/48845 [11:56:30<5:18:25,  1.26s/it] 69%|██████▉   | 33720/48845 [11:56:31<5:18:12,  1.26s/it]                                                          {'loss': 2.0862, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33720/48845 [11:56:31<5:18:12,  1.26s/it] 69%|██████▉   | 33721/48845 [11:56:33<5:18:15,  1.26s/it] 69%|██████▉   | 33722/48845 [11:56:34<5:18:02,  1.26s/it] 69%|██████▉   | 33723/48845 [11:56:35<5:18:01,  1.26s/it] 69%|██████▉   | 33724/48845 [11:56:36<5:17:47,  1.26s/it] 69%|██████▉   | 33725/48845 [11:56:38<5:18:09,  1.26s/it]                                                          {'loss': 2.3555, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33725/48845 [11:56:38<5:18:09,  1.26s/it] 69%|██████▉   | 33726/48845 [11:56:39<5:18:10,  1.26s/it] 69%|██████▉   | 33727/48845 [11:56:40<5:17:58,  1.26s/it] 69%|██████▉   | 33728/48845 [11:56:41<5:17:50,  1.26s/it] 69%|██████▉   | 33729/48845 [11:56:43<5:17:57,  1.26s/it] 69%|██████▉   | 33730/48845 [11:56:44<5:17:49,  1.26s/it]                                                          {'loss': 1.9867, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33730/48845 [11:56:44<5:17:49,  1.26s/it] 69%|██████▉   | 33731/48845 [11:56:45<5:17:55,  1.26s/it] 69%|██████▉   | 33732/48845 [11:56:46<5:17:41,  1.26s/it] 69%|██████▉   | 33733/48845 [11:56:48<5:18:38,  1.27s/it] 69%|██████▉   | 33734/48845 [11:56:49<5:18:26,  1.26s/it] 69%|██████▉   | 33735/48845 [11:56:50<5:18:10,  1.26s/it]                                                          {'loss': 1.9672, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33735/48845 [11:56:50<5:18:10,  1.26s/it] 69%|██████▉   | 33736/48845 [11:56:51<5:18:47,  1.27s/it] 69%|██████▉   | 33737/48845 [11:56:53<5:18:30,  1.26s/it] 69%|██████▉   | 33738/48845 [11:56:54<5:17:55,  1.26s/it] 69%|███���██▉   | 33739/48845 [11:56:55<5:17:44,  1.26s/it] 69%|██████▉   | 33740/48845 [11:56:57<5:17:38,  1.26s/it]                                                          {'loss': 2.1094, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33740/48845 [11:56:57<5:17:38,  1.26s/it] 69%|██████▉   | 33741/48845 [11:56:58<5:17:30,  1.26s/it] 69%|██████▉   | 33742/48845 [11:56:59<5:17:51,  1.26s/it] 69%|██████▉   | 33743/48845 [11:57:00<5:17:46,  1.26s/it] 69%|██████▉   | 33744/48845 [11:57:02<5:17:42,  1.26s/it] 69%|██████▉   | 33745/48845 [11:57:03<5:18:02,  1.26s/it]                                                          {'loss': 2.0721, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33745/48845 [11:57:03<5:18:02,  1.26s/it] 69%|██████▉   | 33746/48845 [11:57:04<5:18:05,  1.26s/it] 69%|██████▉   | 33747/48845 [11:57:05<5:17:59,  1.26s/it] 69%|██████▉   | 33748/48845 [11:57:07<5:17:47,  1.26s/it] 69%|██████▉   | 33749/48845 [11:57:08<5:17:25,  1.26s/it] 69%|██████▉   | 33750/48845 [11:57:09<5:17:46,  1.26s/it]                                                          {'loss': 1.9723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.45}
+ 69%|██████▉   | 33750/48845 [11:57:09<5:17:46,  1.26s/it] 69%|██████▉   | 33751/48845 [11:57:10<5:17:37,  1.26s/it] 69%|██████▉   | 33752/48845 [11:57:12<5:17:30,  1.26s/it] 69%|██████▉   | 33753/48845 [11:57:13<5:17:15,  1.26s/it] 69%|██████▉   | 33754/48845 [11:57:14<5:17:34,  1.26s/it] 69%|██████▉   | 33755/48845 [11:57:15<5:17:26,  1.26s/it]                                                          {'loss': 1.9556, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33755/48845 [11:57:15<5:17:26,  1.26s/it] 69%|██████▉   | 33756/48845 [11:57:17<5:17:18,  1.26s/it] 69%|██████▉   | 33757/48845 [11:57:18<5:17:17,  1.26s/it] 69%|██████▉   | 33758/48845 [11:57:19<5:17:37,  1.26s/it] 69%|██████▉   | 33759/48845 [11:57:21<5:17:28,  1.26s/it] 69%|██████▉   | 33760/48845 [11:57:22<5:17:15,  1.26s/it]                                                          {'loss': 1.9062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33760/48845 [11:57:22<5:17:15,  1.26s/it] 69%|██████▉   | 33761/48845 [11:57:23<5:17:01,  1.26s/it] 69%|██████▉   | 33762/48845 [11:57:24<5:17:11,  1.26s/it] 69%|██████▉   | 33763/48845 [11:57:26<5:17:14,  1.26s/it] 69%|██████▉   | 33764/48845 [11:57:27<5:17:05,  1.26s/it] 69%|██████▉   | 33765/48845 [11:57:28<5:17:15,  1.26s/it]                                                          {'loss': 1.9982, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33765/48845 [11:57:28<5:17:15,  1.26s/it] 69%|██████▉   | 33766/48845 [11:57:29<5:17:48,  1.26s/it] 69%|██████▉   | 33767/48845 [11:57:31<5:17:23,  1.26s/it] 69%|██████▉   | 33768/48845 [11:57:32<5:17:17,  1.26s/it] 69%|██████▉   | 33769/48845 [11:57:33<5:17:06,  1.26s/it] 69%|██████▉   | 33770/48845 [11:57:34<5:17:33,  1.26s/it]                                                          {'loss': 1.9914, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33770/48845 [11:57:34<5:17:33,  1.26s/it] 69%|██████▉   | 33771/48845 [11:57:36<5:17:35,  1.26s/it] 69%|██████▉   | 33772/48845 [11:57:37<5:17:11,  1.26s/it] 69%|██████▉   | 33773/48845 [11:57:38<5:17:05,  1.26s/it] 69%|██████▉   | 33774/48845 [11:57:39<5:17:33,  1.26s/it] 69%|██████▉   | 33775/48845 [11:57:41<5:17:12,  1.26s/it]                                                          {'loss': 1.9447, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33775/48845 [11:57:41<5:17:12,  1.26s/it] 69%|██████▉   | 33776/48845 [11:57:42<5:17:19,  1.26s/it] 69%|██████▉   | 33777/48845 [11:57:43<5:17:18,  1.26s/it] 69%|██████▉   | 33778/48845 [11:57:45<5:17:17,  1.26s/it] 69%|██████▉   | 33779/48845 [11:57:46<5:16:50,  1.26s/it] 69%|██████▉   | 33780/48845 [11:57:47<5:16:32,  1.26s/it]                                                          {'loss': 1.9107, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33780/48845 [11:57:47<5:16:32,  1.26s/it] 69%|██████▉   | 33781/48845 [11:57:48<5:16:24,  1.26s/it] 69%|██████▉   | 33782/48845 [11:57:50<5:16:54,  1.26s/it] 69%|██████▉   | 33783/48845 [11:57:51<5:16:42,  1.26s/it] 69%|██████▉   | 33784/48845 [11:57:52<5:16:48,  1.26s/it] 69%|██████▉   | 33785/48845 [11:57:53<5:16:42,  1.26s/it]                                                          {'loss': 1.9726, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33785/48845 [11:57:53<5:16:42,  1.26s/it] 69%|██████▉   | 33786/48845 [11:57:55<5:28:14,  1.31s/it] 69%|██████▉   | 33787/48845 [11:57:56<5:24:34,  1.29s/it] 69%|██████▉   | 33788/48845 [11:57:57<5:22:01,  1.28s/it] 69%|██████▉   | 33789/48845 [11:57:59<5:20:29,  1.28s/it] 69%|██████▉   | 33790/48845 [11:58:00<5:19:37,  1.27s/it]                                                          {'loss': 1.9105, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33790/48845 [11:58:00<5:19:37,  1.27s/it] 69%|██████▉   | 33791/48845 [11:58:01<5:18:39,  1.27s/it] 69%|██████▉   | 33792/48845 [11:58:02<5:17:56,  1.27s/it] 69%|██████▉   | 33793/48845 [11:58:04<5:17:21,  1.27s/it] 69%|██████▉   | 33794/48845 [11:58:05<5:17:27,  1.27s/it] 69%|██████▉   | 33795/48845 [11:58:06<5:18:08,  1.27s/it]                                                          {'loss': 2.0267, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33795/48845 [11:58:06<5:18:08,  1.27s/it] 69%|██████▉   | 33796/48845 [11:58:07<5:17:28,  1.27s/it] 69%|██████▉   | 33797/48845 [11:58:09<5:16:58,  1.26s/it] 69%|██████▉   | 33798/48845 [11:58:10<5:16:51,  1.26s/it] 69%|██████▉   | 33799/48845 [11:58:11<5:16:57,  1.26s/it] 69%|██████▉   | 33800/48845 [11:58:12<5:16:50,  1.26s/it]                                                          {'loss': 2.0923, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33800/48845 [11:58:12<5:16:50,  1.26s/it] 69%|██████▉   | 33801/48845 [11:58:16<8:24:48,  2.01s/it] 69%|██████▉   | 33802/48845 [11:58:17<7:28:06,  1.79s/it] 69%|██████▉   | 33803/48845 [11:58:19<6:48:27,  1.63s/it] 69%|██████▉   | 33804/48845 [11:58:20<6:20:36,  1.52s/it] 69%|██████▉   | 33805/48845 [11:58:21<6:01:38,  1.44s/it]                                                          {'loss': 1.9454, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33805/48845 [11:58:21<6:01:38,  1.44s/it] 69%|██████▉   | 33806/48845 [11:58:23<5:47:48,  1.39s/it] 69%|██████▉   | 33807/48845 [11:58:24<5:38:13,  1.35s/it] 69%|██████▉   | 33808/48845 [11:58:25<5:32:28,  1.33s/it] 69%|██████▉   | 33809/48845 [11:58:26<5:27:16,  1.31s/it] 69%|██████▉   | 33810/48845 [11:58:28<5:23:36,  1.29s/it]                                                          {'loss': 2.2779, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33810/48845 [11:58:28<5:23:36,  1.29s/it] 69%|██████▉   | 33811/48845 [11:58:29<5:21:25,  1.28s/it] 69%|██████▉   | 33812/48845 [11:58:30<5:19:39,  1.28s/it] 69%|██████▉   | 33813/48845 [11:58:31<5:18:34,  1.27s/it] 69%|██████▉   | 33814/48845 [11:58:33<5:17:26,  1.27s/it] 69%|██████▉   | 33815/48845 [11:58:34<5:16:49,  1.26s/it]                                                          {'loss': 2.078, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33815/48845 [11:58:34<5:16:49,  1.26s/it] 69%|██████▉   | 33816/48845 [11:58:35<5:16:31,  1.26s/it] 69%|██████▉   | 33817/48845 [11:58:36<5:16:35,  1.26s/it] 69%|██████▉   | 33818/48845 [11:58:38<5:16:03,  1.26s/it] 69%|██████▉   | 33819/48845 [11:58:39<5:16:14,  1.26s/it] 69%|██████▉   | 33820/48845 [11:58:40<5:16:06,  1.26s/it]                                                          {'loss': 1.9487, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33820/48845 [11:58:40<5:16:06,  1.26s/it] 69%|██████▉   | 33821/48845 [11:58:41<5:16:55,  1.27s/it] 69%|██████▉   | 33822/48845 [11:58:43<5:16:40,  1.26s/it] 69%|██████▉   | 33823/48845 [11:58:44<5:16:17,  1.26s/it] 69%|██████▉   | 33824/48845 [11:58:45<5:16:09,  1.26s/it] 69%|██████▉   | 33825/48845 [11:58:46<5:16:28,  1.26s/it]                                                          {'loss': 2.061, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33825/48845 [11:58:46<5:16:28,  1.26s/it] 69%|██████▉   | 33826/48845 [11:58:48<5:16:18,  1.26s/it] 69%|██████▉   | 33827/48845 [11:58:49<5:15:56,  1.26s/it] 69%|██████▉   | 33828/48845 [11:58:50<5:15:48,  1.26s/it] 69%|██████▉   | 33829/48845 [11:58:52<5:16:13,  1.26s/it] 69%|██████▉   | 33830/48845 [11:58:53<5:15:50,  1.26s/it]                                                          {'loss': 2.0713, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33830/48845 [11:58:53<5:15:50,  1.26s/it] 69%|██████▉   | 33831/48845 [11:58:54<5:15:56,  1.26s/it] 69%|██████▉   | 33832/48845 [11:58:55<5:15:57,  1.26s/it] 69%|██████▉   | 33833/48845 [11:58:57<5:16:02,  1.26s/it] 69%|██████▉   | 33834/48845 [11:58:58<5:15:52,  1.26s/it] 69%|██████▉   | 33835/48845 [11:58:59<5:15:33,  1.26s/it]                                                          {'loss': 1.993, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33835/48845 [11:58:59<5:15:33,  1.26s/it] 69%|██████▉   | 33836/48845 [11:59:00<5:15:48,  1.26s/it] 69%|██████▉   | 33837/48845 [11:59:02<5:15:46,  1.26s/it] 69%|██████▉   | 33838/48845 [11:59:03<5:15:53,  1.26s/it] 69%|██████▉   | 33839/48845 [11:59:04<5:15:55,  1.26s/it] 69%|██████▉   | 33840/48845 [11:59:05<5:16:12,  1.26s/it]                                                          {'loss': 2.092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33840/48845 [11:59:05<5:16:12,  1.26s/it] 69%|██████▉   | 33841/48845 [11:59:07<5:16:11,  1.26s/it] 69%|██████▉   | 33842/48845 [11:59:08<5:15:45,  1.26s/it] 69%|██████▉   | 33843/48845 [11:59:09<5:16:07,  1.26s/it] 69%|██████▉   | 33844/48845 [11:59:10<5:15:56,  1.26s/it] 69%|██████▉   | 33845/48845 [11:59:12<5:15:44,  1.26s/it]                                                          {'loss': 2.2213, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.46}
+ 69%|██████▉   | 33845/48845 [11:59:12<5:15:44,  1.26s/it] 69%|██████▉   | 33846/48845 [11:59:13<5:15:46,  1.26s/it] 69%|██████▉   | 33847/48845 [11:59:14<5:15:38,  1.26s/it] 69%|██████▉   | 33848/48845 [11:59:16<5:15:33,  1.26s/it] 69%|██████▉   | 33849/48845 [11:59:17<5:16:00,  1.26s/it] 69%|██████▉   | 33850/48845 [11:59:18<5:15:38,  1.26s/it]                                                          {'loss': 2.1941, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33850/48845 [11:59:18<5:15:38,  1.26s/it] 69%|██████▉   | 33851/48845 [11:59:19<5:15:52,  1.26s/it] 69%|██████▉   | 33852/48845 [11:59:21<5:15:39,  1.26s/it] 69%|██████▉   | 33853/48845 [11:59:22<5:24:37,  1.30s/it] 69%|██████▉   | 33854/48845 [11:59:23<5:21:40,  1.29s/it] 69%|██████▉   | 33855/48845 [11:59:24<5:19:42,  1.28s/it]                                                          {'loss': 2.1637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33855/48845 [11:59:25<5:19:42,  1.28s/it] 69%|██████▉   | 33856/48845 [11:59:26<5:18:23,  1.27s/it] 69%|██████▉   | 33857/48845 [11:59:27<5:17:33,  1.27s/it] 69%|██████▉   | 33858/48845 [11:59:28<5:16:38,  1.27s/it] 69%|██████▉   | 33859/48845 [11:59:30<5:15:59,  1.27s/it] 69%|██████▉   | 33860/48845 [11:59:31<5:15:43,  1.26s/it]                                                          {'loss': 1.9433, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33860/48845 [11:59:31<5:15:43,  1.26s/it] 69%|██████▉   | 33861/48845 [11:59:32<5:15:46,  1.26s/it] 69%|██████▉   | 33862/48845 [11:59:33<5:15:22,  1.26s/it] 69%|██████▉   | 33863/48845 [11:59:35<5:15:04,  1.26s/it] 69%|██████▉   | 33864/48845 [11:59:36<5:15:07,  1.26s/it] 69%|██████▉   | 33865/48845 [11:59:37<5:20:09,  1.28s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33865/48845 [11:59:37<5:20:09,  1.28s/it] 69%|██████▉   | 33866/48845 [11:59:38<5:18:25,  1.28s/it] 69%|██████▉   | 33867/48845 [11:59:40<5:17:05,  1.27s/it] 69%|██████▉   | 33868/48845 [11:59:41<5:16:18,  1.27s/it] 69%|██████▉   | 33869/48845 [11:59:42<5:16:09,  1.27s/it] 69%|██████▉   | 33870/48845 [11:59:43<5:15:35,  1.26s/it]                                                          {'loss': 1.8777, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33870/48845 [11:59:43<5:15:35,  1.26s/it] 69%|██████▉   | 33871/48845 [11:59:45<5:15:24,  1.26s/it] 69%|██████▉   | 33872/48845 [11:59:46<5:15:10,  1.26s/it] 69%|██████▉   | 33873/48845 [11:59:47<5:16:44,  1.27s/it] 69%|██████▉   | 33874/48845 [11:59:49<5:16:04,  1.27s/it] 69%|██████▉   | 33875/48845 [11:59:50<5:15:35,  1.26s/it]                                                          {'loss': 2.0562, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33875/48845 [11:59:50<5:15:35,  1.26s/it] 69%|██████▉   | 33876/48845 [11:59:51<5:15:18,  1.26s/it] 69%|██████▉   | 33877/48845 [11:59:52<5:20:57,  1.29s/it] 69%|██████▉   | 33878/48845 [11:59:54<5:19:02,  1.28s/it] 69%|██████▉   | 33879/48845 [11:59:55<5:17:33,  1.27s/it] 69%|██████▉   | 33880/48845 [11:59:56<5:16:28,  1.27s/it]                                                          {'loss': 1.9459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33880/48845 [11:59:56<5:16:28,  1.27s/it] 69%|██████▉   | 33881/48845 [11:59:58<5:22:17,  1.29s/it] 69%|██████▉   | 33882/48845 [11:59:59<5:19:50,  1.28s/it] 69%|██████▉   | 33883/48845 [12:00:00<5:17:52,  1.27s/it] 69%|██████▉   | 33884/48845 [12:00:01<5:16:48,  1.27s/it] 69%|██████▉   | 33885/48845 [12:00:03<5:21:33,  1.29s/it]                                                          {'loss': 2.0765, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33885/48845 [12:00:03<5:21:33,  1.29s/it] 69%|██████▉   | 33886/48845 [12:00:04<5:20:01,  1.28s/it] 69%|██████▉   | 33887/48845 [12:00:05<5:18:02,  1.28s/it] 69%|██████▉   | 33888/48845 [12:00:06<5:17:00,  1.27s/it] 69%|██████▉   | 33889/48845 [12:00:08<5:21:31,  1.29s/it] 69%|██████▉   | 33890/48845 [12:00:09<5:19:19,  1.28s/it]                                                          {'loss': 2.0533, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33890/48845 [12:00:09<5:19:19,  1.28s/it] 69%|██████▉   | 33891/48845 [12:00:10<5:18:27,  1.28s/it] 69%|██████▉   | 33892/48845 [12:00:12<5:17:25,  1.27s/it] 69%|██████▉   | 33893/48845 [12:00:13<5:16:39,  1.27s/it] 69%|██████▉   | 33894/48845 [12:00:14<5:15:54,  1.27s/it] 69%|██████▉   | 33895/48845 [12:00:15<5:15:40,  1.27s/it]                                                          {'loss': 2.0418, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33895/48845 [12:00:15<5:15:40,  1.27s/it] 69%|██████▉   | 33896/48845 [12:00:17<5:15:15,  1.27s/it] 69%|██████▉   | 33897/48845 [12:00:18<5:15:03,  1.26s/it] 69%|██████▉   | 33898/48845 [12:00:19<5:14:59,  1.26s/it] 69%|██████▉   | 33899/48845 [12:00:20<5:14:48,  1.26s/it] 69%|██████▉   | 33900/48845 [12:00:22<5:14:27,  1.26s/it]                                                          {'loss': 1.8787, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33900/48845 [12:00:22<5:14:27,  1.26s/it] 69%|██████▉   | 33901/48845 [12:00:23<5:14:44,  1.26s/it] 69%|██████▉   | 33902/48845 [12:00:24<5:14:34,  1.26s/it] 69%|██████▉   | 33903/48845 [12:00:25<5:14:21,  1.26s/it] 69%|██████▉   | 33904/48845 [12:00:27<5:14:05,  1.26s/it] 69%|██████▉   | 33905/48845 [12:00:28<5:13:54,  1.26s/it]                                                          {'loss': 2.0059, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33905/48845 [12:00:28<5:13:54,  1.26s/it] 69%|██████▉   | 33906/48845 [12:00:29<5:13:59,  1.26s/it] 69%|██████▉   | 33907/48845 [12:00:30<5:14:03,  1.26s/it] 69%|██████▉   | 33908/48845 [12:00:32<5:14:05,  1.26s/it] 69%|██████▉   | 33909/48845 [12:00:33<5:14:13,  1.26s/it] 69%|██████▉   | 33910/48845 [12:00:34<5:13:59,  1.26s/it]                                                          {'loss': 1.9211, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33910/48845 [12:00:34<5:13:59,  1.26s/it] 69%|██████▉   | 33911/48845 [12:00:36<5:13:51,  1.26s/it] 69%|██████▉   | 33912/48845 [12:00:37<5:13:46,  1.26s/it] 69%|██████▉   | 33913/48845 [12:00:38<5:19:01,  1.28s/it] 69%|██████▉   | 33914/48845 [12:00:39<5:17:16,  1.27s/it] 69%|██████▉   | 33915/48845 [12:00:41<5:15:59,  1.27s/it]                                                          {'loss': 1.9096, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33915/48845 [12:00:41<5:15:59,  1.27s/it] 69%|██████▉   | 33916/48845 [12:00:42<5:15:47,  1.27s/it] 69%|██████▉   | 33917/48845 [12:00:43<5:23:31,  1.30s/it] 69%|██████▉   | 33918/48845 [12:00:45<5:20:45,  1.29s/it] 69%|██████▉   | 33919/48845 [12:00:46<5:18:35,  1.28s/it] 69%|██████▉   | 33920/48845 [12:00:47<5:17:08,  1.27s/it]                                                          {'loss': 1.8959, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33920/48845 [12:00:47<5:17:08,  1.27s/it] 69%|██████▉   | 33921/48845 [12:00:48<5:16:15,  1.27s/it] 69%|██████▉   | 33922/48845 [12:00:50<5:15:29,  1.27s/it] 69%|██████▉   | 33923/48845 [12:00:51<5:15:00,  1.27s/it] 69%|██████▉   | 33924/48845 [12:00:52<5:14:33,  1.26s/it] 69%|██████▉   | 33925/48845 [12:00:53<5:14:35,  1.27s/it]                                                          {'loss': 2.2457, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33925/48845 [12:00:53<5:14:35,  1.27s/it] 69%|██████▉   | 33926/48845 [12:00:55<5:14:13,  1.26s/it] 69%|██████▉   | 33927/48845 [12:00:56<5:13:53,  1.26s/it] 69%|██████▉   | 33928/48845 [12:00:57<5:13:47,  1.26s/it] 69%|██████▉   | 33929/48845 [12:00:58<5:13:55,  1.26s/it] 69%|██████▉   | 33930/48845 [12:01:00<5:13:38,  1.26s/it]                                                          {'loss': 2.0568, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33930/48845 [12:01:00<5:13:38,  1.26s/it] 69%|██████▉   | 33931/48845 [12:01:01<5:13:25,  1.26s/it] 69%|██████▉   | 33932/48845 [12:01:02<5:13:43,  1.26s/it] 69%|██████▉   | 33933/48845 [12:01:03<5:14:12,  1.26s/it] 69%|██████▉   | 33934/48845 [12:01:05<5:13:55,  1.26s/it] 69%|██████▉   | 33935/48845 [12:01:06<5:13:47,  1.26s/it]                                                          {'loss': 2.0506, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33935/48845 [12:01:06<5:13:47,  1.26s/it] 69%|██████▉   | 33936/48845 [12:01:07<5:13:48,  1.26s/it] 69%|██████▉   | 33937/48845 [12:01:09<5:22:54,  1.30s/it] 69%|██████▉   | 33938/48845 [12:01:10<5:19:41,  1.29s/it] 69%|██████▉   | 33939/48845 [12:01:11<5:17:46,  1.28s/it] 69%|██████▉   | 33940/48845 [12:01:12<5:16:10,  1.27s/it]                                                          {'loss': 1.8812, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33940/48845 [12:01:12<5:16:10,  1.27s/it] 69%|██████▉   | 33941/48845 [12:01:14<5:17:39,  1.28s/it] 69%|██████▉   | 33942/48845 [12:01:15<5:16:14,  1.27s/it] 69%|██████▉   | 33943/48845 [12:01:16<5:15:19,  1.27s/it] 69%|██████▉   | 33944/48845 [12:01:18<5:14:44,  1.27s/it] 69%|██████▉   | 33945/48845 [12:01:19<5:14:22,  1.27s/it]                                                          {'loss': 2.0064, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.47}
+ 69%|██████▉   | 33945/48845 [12:01:19<5:14:22,  1.27s/it] 69%|██████▉   | 33946/48845 [12:01:20<5:14:41,  1.27s/it] 69%|██████▉   | 33947/48845 [12:01:21<5:14:13,  1.27s/it] 70%|██████▉   | 33948/48845 [12:01:23<5:14:01,  1.26s/it] 70%|██████▉   | 33949/48845 [12:01:24<5:13:55,  1.26s/it] 70%|██████▉   | 33950/48845 [12:01:25<5:13:35,  1.26s/it]                                                          {'loss': 2.0803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33950/48845 [12:01:25<5:13:35,  1.26s/it] 70%|██████▉   | 33951/48845 [12:01:26<5:13:17,  1.26s/it] 70%|██████▉   | 33952/48845 [12:01:28<5:13:25,  1.26s/it] 70%|██████▉   | 33953/48845 [12:01:29<5:13:40,  1.26s/it] 70%|██████▉   | 33954/48845 [12:01:30<5:13:25,  1.26s/it] 70%|██████▉   | 33955/48845 [12:01:31<5:13:05,  1.26s/it]                                                          {'loss': 2.141, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33955/48845 [12:01:31<5:13:05,  1.26s/it] 70%|██████▉   | 33956/48845 [12:01:33<5:13:38,  1.26s/it] 70%|██████▉   | 33957/48845 [12:01:34<5:13:59,  1.27s/it] 70%|██████▉   | 33958/48845 [12:01:35<5:13:38,  1.26s/it] 70%|██████▉   | 33959/48845 [12:01:36<5:13:13,  1.26s/it] 70%|██████▉   | 33960/48845 [12:01:38<5:13:23,  1.26s/it]                                                          {'loss': 1.9724, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33960/48845 [12:01:38<5:13:23,  1.26s/it] 70%|██████▉   | 33961/48845 [12:01:39<5:14:02,  1.27s/it] 70%|██████▉   | 33962/48845 [12:01:40<5:13:21,  1.26s/it] 70%|██████▉   | 33963/48845 [12:01:42<5:13:11,  1.26s/it] 70%|██████▉   | 33964/48845 [12:01:43<5:13:05,  1.26s/it] 70%|██████▉   | 33965/48845 [12:01:44<5:15:52,  1.27s/it]                                                          {'loss': 2.002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33965/48845 [12:01:44<5:15:52,  1.27s/it] 70%|██████▉   | 33966/48845 [12:01:45<5:15:12,  1.27s/it] 70%|██████▉   | 33967/48845 [12:01:47<5:14:28,  1.27s/it] 70%|██████▉   | 33968/48845 [12:01:48<5:13:40,  1.27s/it] 70%|██████▉   | 33969/48845 [12:01:49<5:13:28,  1.26s/it] 70%|██████▉   | 33970/48845 [12:01:50<5:13:22,  1.26s/it]                                                          {'loss': 2.0253, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33970/48845 [12:01:50<5:13:22,  1.26s/it] 70%|██████▉   | 33971/48845 [12:01:52<5:13:18,  1.26s/it] 70%|██████▉   | 33972/48845 [12:01:53<5:12:55,  1.26s/it] 70%|██████▉   | 33973/48845 [12:01:54<5:13:24,  1.26s/it] 70%|██████▉   | 33974/48845 [12:01:55<5:13:05,  1.26s/it] 70%|██████▉   | 33975/48845 [12:01:57<5:13:00,  1.26s/it]                                                          {'loss': 2.0939, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33975/48845 [12:01:57<5:13:00,  1.26s/it] 70%|██████▉   | 33976/48845 [12:01:58<5:12:43,  1.26s/it] 70%|██████▉   | 33977/48845 [12:01:59<5:12:40,  1.26s/it] 70%|██████▉   | 33978/48845 [12:02:00<5:12:18,  1.26s/it] 70%|██████▉   | 33979/48845 [12:02:02<5:12:11,  1.26s/it] 70%|██████▉   | 33980/48845 [12:02:03<5:11:55,  1.26s/it]                                                          {'loss': 2.1121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33980/48845 [12:02:03<5:11:55,  1.26s/it] 70%|██████▉   | 33981/48845 [12:02:04<5:12:36,  1.26s/it] 70%|██████▉   | 33982/48845 [12:02:06<5:12:52,  1.26s/it] 70%|██████▉   | 33983/48845 [12:02:07<5:12:36,  1.26s/it] 70%|██████▉   | 33984/48845 [12:02:08<5:12:31,  1.26s/it] 70%|██████▉   | 33985/48845 [12:02:09<5:12:39,  1.26s/it]                                                          {'loss': 2.0345, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33985/48845 [12:02:09<5:12:39,  1.26s/it] 70%|██████▉   | 33986/48845 [12:02:11<5:12:35,  1.26s/it] 70%|██████▉   | 33987/48845 [12:02:12<5:12:14,  1.26s/it] 70%|██████▉   | 33988/48845 [12:02:13<5:12:09,  1.26s/it] 70%|██████▉   | 33989/48845 [12:02:14<5:12:46,  1.26s/it] 70%|██████▉   | 33990/48845 [12:02:16<5:12:39,  1.26s/it]                                                          {'loss': 1.9248, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33990/48845 [12:02:16<5:12:39,  1.26s/it] 70%|██████▉   | 33991/48845 [12:02:17<5:12:27,  1.26s/it] 70%|██████▉   | 33992/48845 [12:02:18<5:12:18,  1.26s/it] 70%|██████▉   | 33993/48845 [12:02:19<5:12:27,  1.26s/it] 70%|██████▉   | 33994/48845 [12:02:21<5:12:20,  1.26s/it] 70%|██████▉   | 33995/48845 [12:02:22<5:12:58,  1.26s/it]                                                          {'loss': 1.9854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 33995/48845 [12:02:22<5:12:58,  1.26s/it] 70%|██████▉   | 33996/48845 [12:02:23<5:12:53,  1.26s/it] 70%|██████▉   | 33997/48845 [12:02:25<5:15:02,  1.27s/it] 70%|██████▉   | 33998/48845 [12:02:26<5:14:53,  1.27s/it] 70%|██████▉   | 33999/48845 [12:02:27<5:14:06,  1.27s/it] 70%|██████▉   | 34000/48845 [12:02:28<5:13:37,  1.27s/it]                                                          {'loss': 1.9939, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34000/48845 [12:02:28<5:13:37,  1.27s/it] 70%|██████▉   | 34001/48845 [12:02:32<8:18:43,  2.02s/it] 70%|██████▉   | 34002/48845 [12:02:33<7:22:39,  1.79s/it] 70%|██████▉   | 34003/48845 [12:02:35<6:46:51,  1.64s/it] 70%|██████▉   | 34004/48845 [12:02:36<6:18:16,  1.53s/it] 70%|██████▉   | 34005/48845 [12:02:37<5:57:57,  1.45s/it]                                                          {'loss': 1.982, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34005/48845 [12:02:37<5:57:57,  1.45s/it] 70%|██████▉   | 34006/48845 [12:02:38<5:44:21,  1.39s/it] 70%|██████▉   | 34007/48845 [12:02:40<5:34:43,  1.35s/it] 70%|██████▉   | 34008/48845 [12:02:41<5:27:40,  1.33s/it] 70%|██████▉   | 34009/48845 [12:02:42<5:22:55,  1.31s/it] 70%|██████▉   | 34010/48845 [12:02:43<5:19:22,  1.29s/it]                                                          {'loss': 1.935, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34010/48845 [12:02:44<5:19:22,  1.29s/it] 70%|██████▉   | 34011/48845 [12:02:45<5:21:30,  1.30s/it] 70%|██████▉   | 34012/48845 [12:02:46<5:18:42,  1.29s/it] 70%|██████▉   | 34013/48845 [12:02:47<5:16:28,  1.28s/it] 70%|██████▉   | 34014/48845 [12:02:49<5:15:23,  1.28s/it] 70%|██████▉   | 34015/48845 [12:02:50<5:14:10,  1.27s/it]                                                          {'loss': 2.0629, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34015/48845 [12:02:50<5:14:10,  1.27s/it] 70%|██████▉   | 34016/48845 [12:02:51<5:13:20,  1.27s/it] 70%|██████▉   | 34017/48845 [12:02:52<5:12:38,  1.27s/it] 70%|██████▉   | 34018/48845 [12:02:54<5:12:24,  1.26s/it] 70%|██████▉   | 34019/48845 [12:02:55<5:12:09,  1.26s/it] 70%|██████▉   | 34020/48845 [12:02:56<5:11:43,  1.26s/it]                                                          {'loss': 2.0477, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34020/48845 [12:02:56<5:11:43,  1.26s/it] 70%|██████▉   | 34021/48845 [12:02:57<5:11:24,  1.26s/it] 70%|██████▉   | 34022/48845 [12:02:59<5:11:13,  1.26s/it] 70%|██████▉   | 34023/48845 [12:03:00<5:11:31,  1.26s/it] 70%|██████▉   | 34024/48845 [12:03:01<5:11:31,  1.26s/it] 70%|██████▉   | 34025/48845 [12:03:02<5:11:29,  1.26s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34025/48845 [12:03:02<5:11:29,  1.26s/it] 70%|██████▉   | 34026/48845 [12:03:04<5:11:10,  1.26s/it] 70%|██████▉   | 34027/48845 [12:03:05<5:11:24,  1.26s/it] 70%|██████▉   | 34028/48845 [12:03:06<5:11:07,  1.26s/it] 70%|██████▉   | 34029/48845 [12:03:07<5:11:36,  1.26s/it] 70%|██████▉   | 34030/48845 [12:03:09<5:11:23,  1.26s/it]                                                          {'loss': 2.1596, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34030/48845 [12:03:09<5:11:23,  1.26s/it] 70%|██████▉   | 34031/48845 [12:03:10<5:11:05,  1.26s/it] 70%|██████▉   | 34032/48845 [12:03:11<5:11:13,  1.26s/it] 70%|██████▉   | 34033/48845 [12:03:13<5:11:24,  1.26s/it] 70%|██████▉   | 34034/48845 [12:03:14<5:11:31,  1.26s/it] 70%|██████▉   | 34035/48845 [12:03:15<5:11:12,  1.26s/it]                                                          {'loss': 1.9918, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34035/48845 [12:03:15<5:11:12,  1.26s/it] 70%|██████▉   | 34036/48845 [12:03:16<5:11:12,  1.26s/it] 70%|██████▉   | 34037/48845 [12:03:18<5:11:14,  1.26s/it] 70%|██████▉   | 34038/48845 [12:03:19<5:11:18,  1.26s/it] 70%|██████▉   | 34039/48845 [12:03:20<5:11:08,  1.26s/it] 70%|██████▉   | 34040/48845 [12:03:21<5:11:06,  1.26s/it]                                                          {'loss': 1.9457, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.48}
+ 70%|██████▉   | 34040/48845 [12:03:21<5:11:06,  1.26s/it] 70%|██████▉   | 34041/48845 [12:03:23<5:11:24,  1.26s/it] 70%|██████▉   | 34042/48845 [12:03:24<5:11:16,  1.26s/it] 70%|██████▉   | 34043/48845 [12:03:25<5:11:09,  1.26s/it] 70%|██████▉   | 34044/48845 [12:03:26<5:10:58,  1.26s/it] 70%|██████▉   | 34045/48845 [12:03:28<5:11:18,  1.26s/it]                                                          {'loss': 1.8761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34045/48845 [12:03:28<5:11:18,  1.26s/it] 70%|██████▉   | 34046/48845 [12:03:29<5:11:09,  1.26s/it] 70%|██████▉   | 34047/48845 [12:03:30<5:11:56,  1.26s/it] 70%|██████▉   | 34048/48845 [12:03:31<5:11:25,  1.26s/it] 70%|██████▉   | 34049/48845 [12:03:33<5:11:33,  1.26s/it] 70%|██████▉   | 34050/48845 [12:03:34<5:11:31,  1.26s/it]                                                          {'loss': 2.1784, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34050/48845 [12:03:34<5:11:31,  1.26s/it] 70%|██████▉   | 34051/48845 [12:03:35<5:11:10,  1.26s/it] 70%|██████▉   | 34052/48845 [12:03:36<5:10:59,  1.26s/it] 70%|██████▉   | 34053/48845 [12:03:38<5:13:03,  1.27s/it] 70%|██████▉   | 34054/48845 [12:03:39<5:12:23,  1.27s/it] 70%|██████▉   | 34055/48845 [12:03:40<5:11:52,  1.27s/it]                                                          {'loss': 1.9648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34055/48845 [12:03:40<5:11:52,  1.27s/it] 70%|██████▉   | 34056/48845 [12:03:42<5:11:34,  1.26s/it] 70%|██████▉   | 34057/48845 [12:03:43<5:11:27,  1.26s/it] 70%|██████▉   | 34058/48845 [12:03:44<5:11:18,  1.26s/it] 70%|██████▉   | 34059/48845 [12:03:45<5:11:03,  1.26s/it] 70%|██████▉   | 34060/48845 [12:03:47<5:10:48,  1.26s/it]                                                          {'loss': 2.1298, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34060/48845 [12:03:47<5:10:48,  1.26s/it] 70%|██████▉   | 34061/48845 [12:03:48<5:11:16,  1.26s/it] 70%|██████▉   | 34062/48845 [12:03:49<5:10:57,  1.26s/it] 70%|██████▉   | 34063/48845 [12:03:50<5:10:33,  1.26s/it] 70%|██████▉   | 34064/48845 [12:03:52<5:10:40,  1.26s/it] 70%|██████▉   | 34065/48845 [12:03:53<5:10:15,  1.26s/it]                                                          {'loss': 2.0345, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34065/48845 [12:03:53<5:10:15,  1.26s/it] 70%|██████▉   | 34066/48845 [12:03:54<5:10:10,  1.26s/it] 70%|██████▉   | 34067/48845 [12:03:55<5:10:03,  1.26s/it] 70%|██████▉   | 34068/48845 [12:03:57<5:10:03,  1.26s/it] 70%|██████▉   | 34069/48845 [12:03:58<5:10:30,  1.26s/it] 70%|██████▉   | 34070/48845 [12:03:59<5:10:13,  1.26s/it]                                                          {'loss': 2.1201, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34070/48845 [12:03:59<5:10:13,  1.26s/it] 70%|██████▉   | 34071/48845 [12:04:00<5:10:14,  1.26s/it] 70%|██████▉   | 34072/48845 [12:04:02<5:10:11,  1.26s/it] 70%|██████▉   | 34073/48845 [12:04:03<5:10:25,  1.26s/it] 70%|██████▉   | 34074/48845 [12:04:04<5:10:21,  1.26s/it] 70%|██████▉   | 34075/48845 [12:04:06<5:10:08,  1.26s/it]                                                          {'loss': 2.0026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34075/48845 [12:04:06<5:10:08,  1.26s/it] 70%|██████▉   | 34076/48845 [12:04:07<5:10:27,  1.26s/it] 70%|██████▉   | 34077/48845 [12:04:08<5:10:16,  1.26s/it] 70%|██████▉   | 34078/48845 [12:04:09<5:10:13,  1.26s/it] 70%|██████▉   | 34079/48845 [12:04:11<5:10:13,  1.26s/it] 70%|██████▉   | 34080/48845 [12:04:12<5:10:05,  1.26s/it]                                                          {'loss': 1.951, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34080/48845 [12:04:12<5:10:05,  1.26s/it] 70%|██████▉   | 34081/48845 [12:04:13<5:10:30,  1.26s/it] 70%|██████▉   | 34082/48845 [12:04:14<5:10:19,  1.26s/it] 70%|██████▉   | 34083/48845 [12:04:16<5:10:20,  1.26s/it] 70%|██████▉   | 34084/48845 [12:04:17<5:10:20,  1.26s/it] 70%|██████▉   | 34085/48845 [12:04:18<5:10:47,  1.26s/it]                                                          {'loss': 2.0216, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34085/48845 [12:04:18<5:10:47,  1.26s/it] 70%|██████▉   | 34086/48845 [12:04:19<5:11:20,  1.27s/it] 70%|██████▉   | 34087/48845 [12:04:21<5:11:04,  1.26s/it] 70%|██████▉   | 34088/48845 [12:04:22<5:11:09,  1.27s/it] 70%|██████▉   | 34089/48845 [12:04:23<5:10:38,  1.26s/it] 70%|██████▉   | 34090/48845 [12:04:24<5:10:29,  1.26s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34090/48845 [12:04:24<5:10:29,  1.26s/it] 70%|██████▉   | 34091/48845 [12:04:26<5:10:59,  1.26s/it] 70%|██████▉   | 34092/48845 [12:04:27<5:10:50,  1.26s/it] 70%|██████▉   | 34093/48845 [12:04:28<5:10:51,  1.26s/it] 70%|██████▉   | 34094/48845 [12:04:29<5:10:25,  1.26s/it] 70%|██████▉   | 34095/48845 [12:04:31<5:10:20,  1.26s/it]                                                          {'loss': 1.9898, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34095/48845 [12:04:31<5:10:20,  1.26s/it] 70%|████��█▉   | 34096/48845 [12:04:32<5:10:35,  1.26s/it] 70%|██████▉   | 34097/48845 [12:04:33<5:10:22,  1.26s/it] 70%|██████▉   | 34098/48845 [12:04:35<5:10:10,  1.26s/it] 70%|██████▉   | 34099/48845 [12:04:36<5:09:52,  1.26s/it] 70%|██████▉   | 34100/48845 [12:04:37<5:09:47,  1.26s/it]                                                          {'loss': 2.0765, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34100/48845 [12:04:37<5:09:47,  1.26s/it] 70%|██████▉   | 34101/48845 [12:04:38<5:19:05,  1.30s/it] 70%|██████▉   | 34102/48845 [12:04:40<5:16:33,  1.29s/it] 70%|██████▉   | 34103/48845 [12:04:41<5:14:46,  1.28s/it] 70%|██████▉   | 34104/48845 [12:04:42<5:13:23,  1.28s/it] 70%|██████▉   | 34105/48845 [12:04:44<5:12:29,  1.27s/it]                                                          {'loss': 2.0938, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34105/48845 [12:04:44<5:12:29,  1.27s/it] 70%|██████▉   | 34106/48845 [12:04:45<5:11:35,  1.27s/it] 70%|██████▉   | 34107/48845 [12:04:46<5:10:56,  1.27s/it] 70%|██████▉   | 34108/48845 [12:04:47<5:10:20,  1.26s/it] 70%|██████▉   | 34109/48845 [12:04:49<5:18:16,  1.30s/it] 70%|██████▉   | 34110/48845 [12:04:50<5:15:40,  1.29s/it]                                                          {'loss': 1.9213, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34110/48845 [12:04:50<5:15:40,  1.29s/it] 70%|██████▉   | 34111/48845 [12:04:51<5:13:55,  1.28s/it] 70%|██████▉   | 34112/48845 [12:04:52<5:12:38,  1.27s/it] 70%|██████▉   | 34113/48845 [12:04:54<5:17:22,  1.29s/it] 70%|██████▉   | 34114/48845 [12:04:55<5:15:11,  1.28s/it] 70%|██████▉   | 34115/48845 [12:04:56<5:13:17,  1.28s/it]                                                          {'loss': 1.8696, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34115/48845 [12:04:56<5:13:17,  1.28s/it] 70%|██████▉   | 34116/48845 [12:04:58<5:11:55,  1.27s/it] 70%|██████▉   | 34117/48845 [12:04:59<5:11:19,  1.27s/it] 70%|██████▉   | 34118/48845 [12:05:00<5:10:49,  1.27s/it] 70%|██████▉   | 34119/48845 [12:05:01<5:09:56,  1.26s/it] 70%|██████▉   | 34120/48845 [12:05:03<5:09:39,  1.26s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34120/48845 [12:05:03<5:09:39,  1.26s/it] 70%|██████▉   | 34121/48845 [12:05:04<5:21:26,  1.31s/it] 70%|██████▉   | 34122/48845 [12:05:05<5:17:43,  1.29s/it] 70%|██████▉   | 34123/48845 [12:05:07<5:14:57,  1.28s/it] 70%|██████▉   | 34124/48845 [12:05:08<5:13:10,  1.28s/it] 70%|██████▉   | 34125/48845 [12:05:09<5:22:21,  1.31s/it]                                                          {'loss': 2.1476, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34125/48845 [12:05:09<5:22:21,  1.31s/it] 70%|██████▉   | 34126/48845 [12:05:10<5:18:14,  1.30s/it] 70%|██████▉   | 34127/48845 [12:05:12<5:15:30,  1.29s/it] 70%|██████▉   | 34128/48845 [12:05:13<5:13:25,  1.28s/it] 70%|██████▉   | 34129/48845 [12:05:14<5:12:20,  1.27s/it] 70%|██████▉   | 34130/48845 [12:05:15<5:11:17,  1.27s/it]                                                          {'loss': 1.9063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34130/48845 [12:05:15<5:11:17,  1.27s/it] 70%|██████▉   | 34131/48845 [12:05:17<5:10:54,  1.27s/it] 70%|██████▉   | 34132/48845 [12:05:18<5:10:08,  1.26s/it] 70%|██████▉   | 34133/48845 [12:05:19<5:10:30,  1.27s/it] 70%|██████▉   | 34134/48845 [12:05:21<5:09:58,  1.26s/it] 70%|██████▉   | 34135/48845 [12:05:22<5:09:49,  1.26s/it]                                                          {'loss': 1.9707, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34135/48845 [12:05:22<5:09:49,  1.26s/it] 70%|██████▉   | 34136/48845 [12:05:23<5:09:31,  1.26s/it] 70%|██████▉   | 34137/48845 [12:05:24<5:09:46,  1.26s/it] 70%|██████▉   | 34138/48845 [12:05:26<5:09:24,  1.26s/it] 70%|██████▉   | 34139/48845 [12:05:27<5:09:37,  1.26s/it] 70%|██████▉   | 34140/48845 [12:05:28<5:09:15,  1.26s/it]                                                          {'loss': 2.0584, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.49}
+ 70%|██████▉   | 34140/48845 [12:05:28<5:09:15,  1.26s/it] 70%|██████▉   | 34141/48845 [12:05:29<5:09:52,  1.26s/it] 70%|██████▉   | 34142/48845 [12:05:31<5:09:38,  1.26s/it] 70%|██████▉   | 34143/48845 [12:05:32<5:09:25,  1.26s/it] 70%|██████▉   | 34144/48845 [12:05:33<5:09:01,  1.26s/it] 70%|██████▉   | 34145/48845 [12:05:34<5:08:56,  1.26s/it]                                                          {'loss': 1.8784, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34145/48845 [12:05:34<5:08:56,  1.26s/it] 70%|██████▉   | 34146/48845 [12:05:36<5:08:56,  1.26s/it] 70%|██████▉   | 34147/48845 [12:05:37<5:10:26,  1.27s/it] 70%|██████▉   | 34148/48845 [12:05:38<5:10:02,  1.27s/it] 70%|██████▉   | 34149/48845 [12:05:40<5:10:13,  1.27s/it] 70%|██████▉   | 34150/48845 [12:05:41<5:09:43,  1.26s/it]                                                          {'loss': 1.8855, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34150/48845 [12:05:41<5:09:43,  1.26s/it] 70%|██████▉   | 34151/48845 [12:05:42<5:09:25,  1.26s/it] 70%|██████▉   | 34152/48845 [12:05:43<5:09:02,  1.26s/it] 70%|██████▉   | 34153/48845 [12:05:45<5:09:22,  1.26s/it] 70%|██████▉   | 34154/48845 [12:05:46<5:09:04,  1.26s/it] 70%|██████▉   | 34155/48845 [12:05:47<5:08:48,  1.26s/it]                                                          {'loss': 2.1476, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34155/48845 [12:05:47<5:08:48,  1.26s/it] 70%|██████▉   | 34156/48845 [12:05:48<5:08:44,  1.26s/it] 70%|██████▉   | 34157/48845 [12:05:50<5:08:54,  1.26s/it] 70%|██████▉   | 34158/48845 [12:05:51<5:09:04,  1.26s/it] 70%|██████▉   | 34159/48845 [12:05:52<5:08:59,  1.26s/it] 70%|██████▉   | 34160/48845 [12:05:53<5:08:46,  1.26s/it]                                                          {'loss': 2.0685, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34160/48845 [12:05:53<5:08:46,  1.26s/it] 70%|██████▉   | 34161/48845 [12:05:55<5:09:06,  1.26s/it] 70%|██████▉   | 34162/48845 [12:05:56<5:08:39,  1.26s/it] 70%|██████▉   | 34163/48845 [12:05:57<5:08:35,  1.26s/it] 70%|██████▉   | 34164/48845 [12:05:58<5:08:23,  1.26s/it] 70%|██████▉   | 34165/48845 [12:06:00<5:08:33,  1.26s/it]                                                          {'loss': 2.0409, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34165/48845 [12:06:00<5:08:33,  1.26s/it] 70%|██████▉   | 34166/48845 [12:06:01<5:08:32,  1.26s/it] 70%|██████▉   | 34167/48845 [12:06:02<5:08:25,  1.26s/it] 70%|██████▉   | 34168/48845 [12:06:03<5:08:22,  1.26s/it] 70%|██████▉   | 34169/48845 [12:06:05<5:08:31,  1.26s/it] 70%|██████▉   | 34170/48845 [12:06:06<5:08:27,  1.26s/it]                                                          {'loss': 1.9448, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34170/48845 [12:06:06<5:08:27,  1.26s/it] 70%|██████▉   | 34171/48845 [12:06:07<5:08:44,  1.26s/it] 70%|██████▉   | 34172/48845 [12:06:09<5:08:30,  1.26s/it] 70%|██████▉   | 34173/48845 [12:06:10<5:08:50,  1.26s/it] 70%|██████▉   | 34174/48845 [12:06:11<5:08:49,  1.26s/it] 70%|██████▉   | 34175/48845 [12:06:12<5:08:20,  1.26s/it]                                                          {'loss': 2.0431, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34175/48845 [12:06:12<5:08:20,  1.26s/it] 70%|██████▉   | 34176/48845 [12:06:14<5:08:46,  1.26s/it] 70%|██████▉   | 34177/48845 [12:06:15<5:08:54,  1.26s/it] 70%|██████▉   | 34178/48845 [12:06:16<5:08:38,  1.26s/it] 70%|██████▉   | 34179/48845 [12:06:17<5:08:38,  1.26s/it] 70%|██████▉   | 34180/48845 [12:06:19<5:08:45,  1.26s/it]                                                          {'loss': 2.0478, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34180/48845 [12:06:19<5:08:45,  1.26s/it] 70%|██████▉   | 34181/48845 [12:06:20<5:08:59,  1.26s/it] 70%|██████▉   | 34182/48845 [12:06:21<5:08:45,  1.26s/it] 70%|██████▉   | 34183/48845 [12:06:22<5:08:45,  1.26s/it] 70%|██████▉   | 34184/48845 [12:06:24<5:08:21,  1.26s/it] 70%|██████▉   | 34185/48845 [12:06:25<5:08:21,  1.26s/it]                                                          {'loss': 2.187, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34185/48845 [12:06:25<5:08:21,  1.26s/it] 70%|██████▉   | 34186/48845 [12:06:26<5:08:28,  1.26s/it] 70%|██████▉   | 34187/48845 [12:06:27<5:08:10,  1.26s/it] 70%|██████▉   | 34188/48845 [12:06:29<5:08:06,  1.26s/it] 70%|██████▉   | 34189/48845 [12:06:30<5:18:32,  1.30s/it] 70%|██████▉   | 34190/48845 [12:06:31<5:15:05,  1.29s/it]                                                          {'loss': 2.2917, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|██████▉   | 34190/48845 [12:06:31<5:15:05,  1.29s/it] 70%|██████▉   | 34191/48845 [12:06:33<5:12:50,  1.28s/it] 70%|███████   | 34192/48845 [12:06:34<5:11:06,  1.27s/it] 70%|███████   | 34193/48845 [12:06:35<5:10:09,  1.27s/it] 70%|███████   | 34194/48845 [12:06:36<5:09:24,  1.27s/it] 70%|███████   | 34195/48845 [12:06:38<5:08:50,  1.26s/it]                                                          {'loss': 2.0199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34195/48845 [12:06:38<5:08:50,  1.26s/it] 70%|███████   | 34196/48845 [12:06:39<5:08:34,  1.26s/it] 70%|███████   | 34197/48845 [12:06:40<5:08:13,  1.26s/it] 70%|███████   | 34198/48845 [12:06:41<5:08:19,  1.26s/it] 70%|███████   | 34199/48845 [12:06:43<5:08:15,  1.26s/it] 70%|███████   | 34200/48845 [12:06:44<5:07:59,  1.26s/it]                                                          {'loss': 2.1093, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34200/48845 [12:06:44<5:07:59,  1.26s/it] 70%|███████   | 34201/48845 [12:06:48<8:13:15,  2.02s/it] 70%|███████   | 34202/48845 [12:06:49<7:17:48,  1.79s/it] 70%|███████   | 34203/48845 [12:06:50<6:50:38,  1.68s/it] 70%|███████   | 34204/48845 [12:06:52<6:22:18,  1.57s/it] 70%|███████   | 34205/48845 [12:06:53<6:00:01,  1.48s/it]                                                          {'loss': 2.2018, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34205/48845 [12:06:53<6:00:01,  1.48s/it] 70%|███████   | 34206/48845 [12:06:54<5:44:40,  1.41s/it] 70%|███████   | 34207/48845 [12:06:56<5:33:10,  1.37s/it] 70%|███████   | 34208/48845 [12:06:57<5:25:12,  1.33s/it] 70%|███████   | 34209/48845 [12:06:58<5:19:43,  1.31s/it] 70%|███████   | 34210/48845 [12:06:59<5:16:01,  1.30s/it]                                                          {'loss': 2.0966, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34210/48845 [12:06:59<5:16:01,  1.30s/it] 70%|███████   | 34211/48845 [12:07:01<5:14:04,  1.29s/it] 70%|███████   | 34212/48845 [12:07:02<5:11:52,  1.28s/it] 70%|███████   | 34213/48845 [12:07:03<5:10:31,  1.27s/it] 70%|███████   | 34214/48845 [12:07:04<5:09:34,  1.27s/it] 70%|███████   | 34215/48845 [12:07:06<5:09:20,  1.27s/it]                                                          {'loss': 2.0614, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34215/48845 [12:07:06<5:09:20,  1.27s/it] 70%|███████   | 34216/48845 [12:07:07<5:08:50,  1.27s/it] 70%|███████   | 34217/48845 [12:07:08<5:08:09,  1.26s/it] 70%|███████   | 34218/48845 [12:07:09<5:08:01,  1.26s/it] 70%|███████   | 34219/48845 [12:07:11<5:08:25,  1.27s/it] 70%|███████   | 34220/48845 [12:07:12<5:07:55,  1.26s/it]                                                          {'loss': 1.962, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34220/48845 [12:07:12<5:07:55,  1.26s/it] 70%|███████   | 34221/48845 [12:07:13<5:07:51,  1.26s/it] 70%|███████   | 34222/48845 [12:07:14<5:07:31,  1.26s/it] 70%|███████   | 34223/48845 [12:07:16<5:16:42,  1.30s/it] 70%|███████   | 34224/48845 [12:07:17<5:13:53,  1.29s/it] 70%|███████   | 34225/48845 [12:07:18<5:12:06,  1.28s/it]                                                          {'loss': 2.0552, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34225/48845 [12:07:18<5:12:06,  1.28s/it] 70%|███████   | 34226/48845 [12:07:20<5:10:45,  1.28s/it] 70%|███████   | 34227/48845 [12:07:21<5:23:23,  1.33s/it] 70%|███████   | 34228/48845 [12:07:22<5:18:41,  1.31s/it] 70%|███████   | 34229/48845 [12:07:24<5:15:07,  1.29s/it] 70%|███████   | 34230/48845 [12:07:25<5:12:43,  1.28s/it]                                                          {'loss': 2.0062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34230/48845 [12:07:25<5:12:43,  1.28s/it] 70%|███████   | 34231/48845 [12:07:26<5:11:20,  1.28s/it] 70%|███████   | 34232/48845 [12:07:27<5:09:52,  1.27s/it] 70%|███████   | 34233/48845 [12:07:29<5:08:51,  1.27s/it] 70%|███████   | 34234/48845 [12:07:30<5:08:26,  1.27s/it] 70%|███████   | 34235/48845 [12:07:31<5:08:32,  1.27s/it]                                                          {'loss': 1.973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34235/48845 [12:07:31<5:08:32,  1.27s/it] 70%|███████   | 34236/48845 [12:07:32<5:08:10,  1.27s/it] 70%|███████   | 34237/48845 [12:07:34<5:07:41,  1.26s/it] 70%|███████   | 34238/48845 [12:07:35<5:07:33,  1.26s/it] 70%|███████   | 34239/48845 [12:07:36<5:07:34,  1.26s/it] 70%|███████   | 34240/48845 [12:07:38<5:07:32,  1.26s/it]                                                          {'loss': 2.0387, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.5}
+ 70%|███████   | 34240/48845 [12:07:38<5:07:32,  1.26s/it] 70%|███████   | 34241/48845 [12:07:39<5:07:37,  1.26s/it] 70%|███████   | 34242/48845 [12:07:40<5:07:22,  1.26s/it] 70%|███████   | 34243/48845 [12:07:41<5:08:02,  1.27s/it] 70%|███████   | 34244/48845 [12:07:43<5:07:37,  1.26s/it] 70%|███████   | 34245/48845 [12:07:44<5:07:24,  1.26s/it]                                                          {'loss': 1.8292, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34245/48845 [12:07:44<5:07:24,  1.26s/it] 70%|███████   | 34246/48845 [12:07:45<5:07:34,  1.26s/it] 70%|███████   | 34247/48845 [12:07:46<5:07:18,  1.26s/it] 70%|███████   | 34248/48845 [12:07:48<5:07:12,  1.26s/it] 70%|███████   | 34249/48845 [12:07:49<5:07:17,  1.26s/it] 70%|███████   | 34250/48845 [12:07:50<5:07:01,  1.26s/it]                                                          {'loss': 2.058, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34250/48845 [12:07:50<5:07:01,  1.26s/it] 70%|███████   | 34251/48845 [12:07:51<5:09:01,  1.27s/it] 70%|███████   | 34252/48845 [12:07:53<5:08:12,  1.27s/it] 70%|███████   | 34253/48845 [12:07:54<5:07:42,  1.27s/it] 70%|███████   | 34254/48845 [12:07:55<5:07:41,  1.27s/it] 70%|███████   | 34255/48845 [12:07:56<5:07:37,  1.27s/it]                                                          {'loss': 2.1361, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34255/48845 [12:07:56<5:07:37,  1.27s/it] 70%|███████   | 34256/48845 [12:07:58<5:07:56,  1.27s/it] 70%|███████   | 34257/48845 [12:07:59<5:07:30,  1.26s/it] 70%|███████   | 34258/48845 [12:08:00<5:07:07,  1.26s/it] 70%|███████   | 34259/48845 [12:08:02<5:06:49,  1.26s/it] 70%|███████   | 34260/48845 [12:08:03<5:06:35,  1.26s/it]                                                          {'loss': 1.9803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34260/48845 [12:08:03<5:06:35,  1.26s/it] 70%|███████   | 34261/48845 [12:08:04<5:06:42,  1.26s/it] 70%|███████   | 34262/48845 [12:08:05<5:06:35,  1.26s/it] 70%|███████   | 34263/48845 [12:08:07<5:06:24,  1.26s/it] 70%|███████   | 34264/48845 [12:08:08<5:06:31,  1.26s/it] 70%|███████   | 34265/48845 [12:08:09<5:06:22,  1.26s/it]                                                          {'loss': 1.8632, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34265/48845 [12:08:09<5:06:22,  1.26s/it] 70%|███████   | 34266/48845 [12:08:10<5:06:41,  1.26s/it] 70%|███████   | 34267/48845 [12:08:12<5:06:34,  1.26s/it] 70%|███████   | 34268/48845 [12:08:13<5:06:47,  1.26s/it] 70%|███████   | 34269/48845 [12:08:14<5:06:41,  1.26s/it] 70%|███████   | 34270/48845 [12:08:15<5:06:49,  1.26s/it]                                                          {'loss': 1.9378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34270/48845 [12:08:15<5:06:49,  1.26s/it] 70%|███████   | 34271/48845 [12:08:17<5:07:11,  1.26s/it] 70%|███████   | 34272/48845 [12:08:18<5:07:02,  1.26s/it] 70%|███████   | 34273/48845 [12:08:19<5:06:40,  1.26s/it] 70%|███████   | 34274/48845 [12:08:20<5:06:58,  1.26s/it] 70%|███████   | 34275/48845 [12:08:22<5:07:10,  1.26s/it]                                                          {'loss': 2.0563, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34275/48845 [12:08:22<5:07:10,  1.26s/it] 70%|███████   | 34276/48845 [12:08:23<5:07:11,  1.27s/it] 70%|███████   | 34277/48845 [12:08:24<5:06:44,  1.26s/it] 70%|███████   | 34278/48845 [12:08:26<5:06:28,  1.26s/it] 70%|███████   | 34279/48845 [12:08:27<5:06:47,  1.26s/it] 70%|███████   | 34280/48845 [12:08:28<5:06:37,  1.26s/it]                                                          {'loss': 2.0515, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34280/48845 [12:08:28<5:06:37,  1.26s/it] 70%|███████   | 34281/48845 [12:08:29<5:06:17,  1.26s/it] 70%|███████   | 34282/48845 [12:08:31<5:06:12,  1.26s/it] 70%|███████   | 34283/48845 [12:08:32<5:05:53,  1.26s/it] 70%|███████   | 34284/48845 [12:08:33<5:06:17,  1.26s/it] 70%|███████   | 34285/48845 [12:08:34<5:06:22,  1.26s/it]                                                          {'loss': 2.1118, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34285/48845 [12:08:34<5:06:22,  1.26s/it] 70%|███████   | 34286/48845 [12:08:36<5:07:31,  1.27s/it] 70%|███████   | 34287/48845 [12:08:37<5:07:09,  1.27s/it] 70%|███████   | 34288/48845 [12:08:38<5:15:20,  1.30s/it] 70%|███████   | 34289/48845 [12:08:40<5:12:37,  1.29s/it] 70%|███████   | 34290/48845 [12:08:41<5:10:36,  1.28s/it]                                                          {'loss': 2.0467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34290/48845 [12:08:41<5:10:36,  1.28s/it] 70%|███████   | 34291/48845 [12:08:42<5:09:25,  1.28s/it] 70%|███████   | 34292/48845 [12:08:43<5:08:44,  1.27s/it] 70%|███████   | 34293/48845 [12:08:45<5:07:47,  1.27s/it] 70%|███████   | 34294/48845 [12:08:46<5:07:23,  1.27s/it] 70%|███████   | 34295/48845 [12:08:47<5:06:48,  1.27s/it]                                                          {'loss': 2.0508, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34295/48845 [12:08:47<5:06:48,  1.27s/it] 70%|███████   | 34296/48845 [12:08:48<5:06:49,  1.27s/it] 70%|███████   | 34297/48845 [12:08:50<5:06:45,  1.27s/it] 70%|███████   | 34298/48845 [12:08:51<5:06:39,  1.26s/it] 70%|███████   | 34299/48845 [12:08:52<5:06:24,  1.26s/it] 70%|███████   | 34300/48845 [12:08:53<5:06:01,  1.26s/it]                                                          {'loss': 2.0818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34300/48845 [12:08:54<5:06:01,  1.26s/it] 70%|███████   | 34301/48845 [12:08:55<5:17:20,  1.31s/it] 70%|███████   | 34302/48845 [12:08:56<5:13:48,  1.29s/it] 70%|███████   | 34303/48845 [12:08:57<5:11:15,  1.28s/it] 70%|███████   | 34304/48845 [12:08:59<5:09:23,  1.28s/it] 70%|███████   | 34305/48845 [12:09:00<5:08:26,  1.27s/it]                                                          {'loss': 1.9636, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34305/48845 [12:09:00<5:08:26,  1.27s/it] 70%|███████   | 34306/48845 [12:09:01<5:07:34,  1.27s/it] 70%|███████   | 34307/48845 [12:09:02<5:06:45,  1.27s/it] 70%|███████   | 34308/48845 [12:09:04<5:06:10,  1.26s/it] 70%|███████   | 34309/48845 [12:09:05<5:05:54,  1.26s/it] 70%|███████   | 34310/48845 [12:09:06<5:05:33,  1.26s/it]                                                          {'loss': 1.8809, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34310/48845 [12:09:06<5:05:33,  1.26s/it] 70%|███████   | 34311/48845 [12:09:07<5:05:44,  1.26s/it] 70%|███████   | 34312/48845 [12:09:09<5:05:37,  1.26s/it] 70%|███████   | 34313/48845 [12:09:10<5:06:09,  1.26s/it] 70%|███████   | 34314/48845 [12:09:11<5:05:58,  1.26s/it] 70%|███████   | 34315/48845 [12:09:12<5:05:41,  1.26s/it]                                                          {'loss': 1.9931, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34315/48845 [12:09:12<5:05:41,  1.26s/it] 70%|███████   | 34316/48845 [12:09:14<5:05:24,  1.26s/it] 70%|███████   | 34317/48845 [12:09:15<5:11:06,  1.28s/it] 70%|███████   | 34318/48845 [12:09:16<5:09:17,  1.28s/it] 70%|███████   | 34319/48845 [12:09:18<5:08:05,  1.27s/it] 70%|███████   | 34320/48845 [12:09:19<5:07:25,  1.27s/it]                                                          {'loss': 1.8798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34320/48845 [12:09:19<5:07:25,  1.27s/it] 70%|███████   | 34321/48845 [12:09:20<5:06:44,  1.27s/it] 70%|███████   | 34322/48845 [12:09:21<5:05:59,  1.26s/it] 70%|███████   | 34323/48845 [12:09:23<5:05:39,  1.26s/it] 70%|███████   | 34324/48845 [12:09:24<5:05:31,  1.26s/it] 70%|███████   | 34325/48845 [12:09:25<5:05:48,  1.26s/it]                                                          {'loss': 2.1645, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34325/48845 [12:09:25<5:05:48,  1.26s/it] 70%|███████   | 34326/48845 [12:09:26<5:05:35,  1.26s/it] 70%|███████   | 34327/48845 [12:09:28<5:05:40,  1.26s/it] 70%|███████   | 34328/48845 [12:09:29<5:05:18,  1.26s/it] 70%|███████   | 34329/48845 [12:09:30<5:09:35,  1.28s/it] 70%|███████   | 34330/48845 [12:09:32<5:08:29,  1.28s/it]                                                          {'loss': 2.1923, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34330/48845 [12:09:32<5:08:29,  1.28s/it] 70%|███████   | 34331/48845 [12:09:33<5:07:15,  1.27s/it] 70%|███████   | 34332/48845 [12:09:34<5:06:44,  1.27s/it] 70%|███████   | 34333/48845 [12:09:35<5:06:18,  1.27s/it] 70%|███████   | 34334/48845 [12:09:37<5:05:49,  1.26s/it] 70%|███████   | 34335/48845 [12:09:38<5:05:23,  1.26s/it]                                                          {'loss': 1.986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.51}
+ 70%|███████   | 34335/48845 [12:09:38<5:05:23,  1.26s/it] 70%|███████   | 34336/48845 [12:09:39<5:05:39,  1.26s/it] 70%|███████   | 34337/48845 [12:09:40<5:05:24,  1.26s/it] 70%|███████   | 34338/48845 [12:09:42<5:05:14,  1.26s/it] 70%|███████   | 34339/48845 [12:09:43<5:05:28,  1.26s/it] 70%|███████   | 34340/48845 [12:09:44<5:05:16,  1.26s/it]                                                          {'loss': 2.0985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34340/48845 [12:09:44<5:05:16,  1.26s/it] 70%|███████   | 34341/48845 [12:09:45<5:05:16,  1.26s/it] 70%|███████   | 34342/48845 [12:09:47<5:05:07,  1.26s/it] 70%|███████   | 34343/48845 [12:09:48<5:04:59,  1.26s/it] 70%|███████   | 34344/48845 [12:09:49<5:05:06,  1.26s/it] 70%|███████   | 34345/48845 [12:09:51<5:14:10,  1.30s/it]                                                          {'loss': 2.0811, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34345/48845 [12:09:51<5:14:10,  1.30s/it] 70%|███████   | 34346/48845 [12:09:52<5:11:26,  1.29s/it] 70%|███████   | 34347/48845 [12:09:53<5:09:18,  1.28s/it] 70%|███████   | 34348/48845 [12:09:54<5:07:48,  1.27s/it] 70%|███████   | 34349/48845 [12:09:56<5:07:12,  1.27s/it] 70%|███████   | 34350/48845 [12:09:57<5:06:29,  1.27s/it]                                                          {'loss': 1.8992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34350/48845 [12:09:57<5:06:29,  1.27s/it] 70%|███████   | 34351/48845 [12:09:58<5:06:00,  1.27s/it] 70%|███████   | 34352/48845 [12:09:59<5:05:32,  1.26s/it] 70%|███████   | 34353/48845 [12:10:01<5:06:15,  1.27s/it] 70%|███████   | 34354/48845 [12:10:02<5:05:39,  1.27s/it] 70%|███████   | 34355/48845 [12:10:03<5:05:23,  1.26s/it]                                                          {'loss': 2.1629, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34355/48845 [12:10:03<5:05:23,  1.26s/it] 70%|███████   | 34356/48845 [12:10:05<5:05:02,  1.26s/it] 70%|███████   | 34357/48845 [12:10:06<5:05:07,  1.26s/it] 70%|███████   | 34358/48845 [12:10:07<5:04:56,  1.26s/it] 70%|███████   | 34359/48845 [12:10:08<5:04:36,  1.26s/it] 70%|███████   | 34360/48845 [12:10:10<5:04:48,  1.26s/it]                                                          {'loss': 2.1586, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34360/48845 [12:10:10<5:04:48,  1.26s/it] 70%|███████   | 34361/48845 [12:10:11<5:04:40,  1.26s/it] 70%|███████   | 34362/48845 [12:10:12<5:04:50,  1.26s/it] 70%|███████   | 34363/48845 [12:10:13<5:04:35,  1.26s/it] 70%|███████   | 34364/48845 [12:10:15<5:04:21,  1.26s/it] 70%|███████   | 34365/48845 [12:10:16<5:07:09,  1.27s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34365/48845 [12:10:16<5:07:09,  1.27s/it] 70%|███████   | 34366/48845 [12:10:17<5:06:10,  1.27s/it] 70%|███████   | 34367/48845 [12:10:18<5:05:40,  1.27s/it] 70%|███████   | 34368/48845 [12:10:20<5:05:04,  1.26s/it] 70%|███████   | 34369/48845 [12:10:21<5:05:05,  1.26s/it] 70%|███████   | 34370/48845 [12:10:22<5:04:49,  1.26s/it]                                                          {'loss': 1.9309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34370/48845 [12:10:22<5:04:49,  1.26s/it] 70%|███████   | 34371/48845 [12:10:23<5:04:36,  1.26s/it] 70%|███████   | 34372/48845 [12:10:25<5:04:26,  1.26s/it] 70%|███████   | 34373/48845 [12:10:26<5:04:53,  1.26s/it] 70%|███████   | 34374/48845 [12:10:27<5:04:40,  1.26s/it] 70%|███████   | 34375/48845 [12:10:29<5:04:41,  1.26s/it]                                                          {'loss': 1.9459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34375/48845 [12:10:29<5:04:41,  1.26s/it] 70%|███████   | 34376/48845 [12:10:30<5:04:26,  1.26s/it] 70%|███████   | 34377/48845 [12:10:31<5:13:07,  1.30s/it] 70%|███████   | 34378/48845 [12:10:32<5:10:25,  1.29s/it] 70%|███████   | 34379/48845 [12:10:34<5:08:28,  1.28s/it] 70%|███████   | 34380/48845 [12:10:35<5:07:10,  1.27s/it]                                                          {'loss': 2.0775, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34380/48845 [12:10:35<5:07:10,  1.27s/it] 70%|███████   | 34381/48845 [12:10:36<5:06:40,  1.27s/it] 70%|███████   | 34382/48845 [12:10:37<5:06:04,  1.27s/it] 70%|███████   | 34383/48845 [12:10:39<5:05:32,  1.27s/it] 70%|███████   | 34384/48845 [12:10:40<5:04:52,  1.26s/it] 70%|███████   | 34385/48845 [12:10:41<5:04:45,  1.26s/it]                                                          {'loss': 1.9104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34385/48845 [12:10:41<5:04:45,  1.26s/it] 70%|███████   | 34386/48845 [12:10:43<5:04:43,  1.26s/it] 70%|███████   | 34387/48845 [12:10:44<5:05:16,  1.27s/it] 70%|███████   | 34388/48845 [12:10:45<5:04:38,  1.26s/it] 70%|███████   | 34389/48845 [12:10:46<5:04:42,  1.26s/it] 70%|███████   | 34390/48845 [12:10:48<5:04:28,  1.26s/it]                                                          {'loss': 2.0841, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34390/48845 [12:10:48<5:04:28,  1.26s/it] 70%|███████   | 34391/48845 [12:10:49<5:04:15,  1.26s/it] 70%|███████   | 34392/48845 [12:10:50<5:04:09,  1.26s/it] 70%|███████   | 34393/48845 [12:10:51<5:04:10,  1.26s/it] 70%|███████   | 34394/48845 [12:10:53<5:04:05,  1.26s/it] 70%|███████   | 34395/48845 [12:10:54<5:03:45,  1.26s/it]                                                          {'loss': 1.9717, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34395/48845 [12:10:54<5:03:45,  1.26s/it] 70%|███████   | 34396/48845 [12:10:55<5:03:46,  1.26s/it] 70%|███████   | 34397/48845 [12:10:56<5:04:14,  1.26s/it] 70%|███████   | 34398/48845 [12:10:58<5:04:07,  1.26s/it] 70%|███████   | 34399/48845 [12:10:59<5:03:56,  1.26s/it] 70%|███████   | 34400/48845 [12:11:00<5:03:46,  1.26s/it]                                                          {'loss': 2.0512, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34400/48845 [12:11:00<5:03:46,  1.26s/it] 70%|███████   | 34401/48845 [12:11:04<8:06:29,  2.02s/it] 70%|███████   | 34402/48845 [12:11:05<7:12:19,  1.80s/it] 70%|███████   | 34403/48845 [12:11:07<6:33:45,  1.64s/it] 70%|███████   | 34404/48845 [12:11:08<6:06:50,  1.52s/it] 70%|███████   | 34405/48845 [12:11:09<5:48:05,  1.45s/it]                                                          {'loss': 1.8718, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34405/48845 [12:11:09<5:48:05,  1.45s/it] 70%|███████   | 34406/48845 [12:11:10<5:35:27,  1.39s/it] 70%|███████   | 34407/48845 [12:11:12<5:29:14,  1.37s/it] 70%|███████   | 34408/48845 [12:11:13<5:21:51,  1.34s/it] 70%|███████   | 34409/48845 [12:11:14<5:16:02,  1.31s/it] 70%|███████   | 34410/48845 [12:11:15<5:12:33,  1.30s/it]                                                          {'loss': 1.905, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34410/48845 [12:11:15<5:12:33,  1.30s/it] 70%|███████   | 34411/48845 [12:11:17<5:10:47,  1.29s/it] 70%|███████   | 34412/48845 [12:11:18<5:08:20,  1.28s/it] 70%|███████   | 34413/48845 [12:11:19<5:07:12,  1.28s/it] 70%|███████   | 34414/48845 [12:11:20<5:06:02,  1.27s/it] 70%|███████   | 34415/48845 [12:11:22<5:05:34,  1.27s/it]                                                          {'loss': 2.0466, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34415/48845 [12:11:22<5:05:34,  1.27s/it] 70%|███████   | 34416/48845 [12:11:23<5:05:20,  1.27s/it] 70%|███████   | 34417/48845 [12:11:24<5:04:39,  1.27s/it] 70%|███████   | 34418/48845 [12:11:26<5:04:03,  1.26s/it] 70%|███████   | 34419/48845 [12:11:27<5:04:02,  1.26s/it] 70%|███████   | 34420/48845 [12:11:28<5:03:34,  1.26s/it]                                                          {'loss': 1.9668, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34420/48845 [12:11:28<5:03:34,  1.26s/it] 70%|███████   | 34421/48845 [12:11:29<5:03:31,  1.26s/it] 70%|███████   | 34422/48845 [12:11:31<5:03:52,  1.26s/it] 70%|███████   | 34423/48845 [12:11:32<5:04:14,  1.27s/it] 70%|███████   | 34424/48845 [12:11:33<5:03:50,  1.26s/it] 70%|███████   | 34425/48845 [12:11:34<5:03:51,  1.26s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34425/48845 [12:11:34<5:03:51,  1.26s/it] 70%|███████   | 34426/48845 [12:11:36<5:03:42,  1.26s/it] 70%|███████   | 34427/48845 [12:11:37<5:03:19,  1.26s/it] 70%|███████   | 34428/48845 [12:11:38<5:03:12,  1.26s/it] 70%|███████   | 34429/48845 [12:11:39<5:03:29,  1.26s/it] 70%|███████   | 34430/48845 [12:11:41<5:03:20,  1.26s/it]                                                          {'loss': 1.8805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34430/48845 [12:11:41<5:03:20,  1.26s/it] 70%|███████   | 34431/48845 [12:11:42<5:03:35,  1.26s/it] 70%|███████   | 34432/48845 [12:11:43<5:03:31,  1.26s/it] 70%|███████   | 34433/48845 [12:11:44<5:03:22,  1.26s/it] 70%|███████   | 34434/48845 [12:11:46<5:03:01,  1.26s/it] 70%|███████   | 34435/48845 [12:11:47<5:03:15,  1.26s/it]                                                          {'loss': 2.0242, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.52}
+ 70%|███████   | 34435/48845 [12:11:47<5:03:15,  1.26s/it] 71%|███████   | 34436/48845 [12:11:48<5:03:01,  1.26s/it] 71%|███████   | 34437/48845 [12:11:50<5:02:53,  1.26s/it] 71%|███████   | 34438/48845 [12:11:51<5:02:49,  1.26s/it] 71%|███████   | 34439/48845 [12:11:52<5:03:02,  1.26s/it] 71%|███████   | 34440/48845 [12:11:53<5:02:57,  1.26s/it]                                                          {'loss': 1.9035, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34440/48845 [12:11:53<5:02:57,  1.26s/it] 71%|███████   | 34441/48845 [12:11:55<5:02:55,  1.26s/it] 71%|███████   | 34442/48845 [12:11:56<5:02:54,  1.26s/it] 71%|███████   | 34443/48845 [12:11:57<5:02:51,  1.26s/it] 71%|███████   | 34444/48845 [12:11:58<5:02:42,  1.26s/it] 71%|███████   | 34445/48845 [12:12:00<5:02:49,  1.26s/it]                                                          {'loss': 2.037, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34445/48845 [12:12:00<5:02:49,  1.26s/it] 71%|███████   | 34446/48845 [12:12:01<5:02:57,  1.26s/it] 71%|███████   | 34447/48845 [12:12:02<5:02:47,  1.26s/it] 71%|███████   | 34448/48845 [12:12:03<5:02:30,  1.26s/it] 71%|███████   | 34449/48845 [12:12:05<5:02:43,  1.26s/it] 71%|███████   | 34450/48845 [12:12:06<5:02:35,  1.26s/it]                                                          {'loss': 2.1228, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34450/48845 [12:12:06<5:02:35,  1.26s/it] 71%|███████   | 34451/48845 [12:12:07<5:03:00,  1.26s/it] 71%|███████   | 34452/48845 [12:12:08<5:02:48,  1.26s/it] 71%|███████   | 34453/48845 [12:12:10<5:02:22,  1.26s/it] 71%|███████   | 34454/48845 [12:12:11<5:02:21,  1.26s/it] 71%|███████   | 34455/48845 [12:12:12<5:02:39,  1.26s/it]                                                          {'loss': 1.9701, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34455/48845 [12:12:12<5:02:39,  1.26s/it] 71%|███████   | 34456/48845 [12:12:14<5:02:57,  1.26s/it] 71%|███████   | 34457/48845 [12:12:15<5:03:13,  1.26s/it] 71%|███████   | 34458/48845 [12:12:16<5:02:56,  1.26s/it] 71%|███████   | 34459/48845 [12:12:17<5:02:47,  1.26s/it] 71%|███████   | 34460/48845 [12:12:19<5:02:49,  1.26s/it]                                                          {'loss': 2.1256, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34460/48845 [12:12:19<5:02:49,  1.26s/it] 71%|███████   | 34461/48845 [12:12:20<5:02:43,  1.26s/it] 71%|███████   | 34462/48845 [12:12:21<5:02:31,  1.26s/it] 71%|███████   | 34463/48845 [12:12:22<5:02:44,  1.26s/it] 71%|███████   | 34464/48845 [12:12:24<5:02:43,  1.26s/it] 71%|███████   | 34465/48845 [12:12:25<5:02:37,  1.26s/it]                                                          {'loss': 1.7928, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34465/48845 [12:12:25<5:02:37,  1.26s/it] 71%|███████   | 34466/48845 [12:12:26<5:02:19,  1.26s/it] 71%|███████   | 34467/48845 [12:12:27<5:02:43,  1.26s/it] 71%|███████   | 34468/48845 [12:12:29<5:02:39,  1.26s/it] 71%|███████   | 34469/48845 [12:12:30<5:02:32,  1.26s/it] 71%|███████   | 34470/48845 [12:12:31<5:02:26,  1.26s/it]                                                          {'loss': 1.8693, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34470/48845 [12:12:31<5:02:26,  1.26s/it] 71%|███████   | 34471/48845 [12:12:32<5:02:27,  1.26s/it] 71%|███████   | 34472/48845 [12:12:34<5:02:17,  1.26s/it] 71%|███████   | 34473/48845 [12:12:35<5:02:07,  1.26s/it] 71%|███████   | 34474/48845 [12:12:36<5:02:09,  1.26s/it] 71%|███████   | 34475/48845 [12:12:38<5:02:26,  1.26s/it]                                                          {'loss': 2.1209, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34475/48845 [12:12:38<5:02:26,  1.26s/it] 71%|███████   | 34476/48845 [12:12:39<5:02:22,  1.26s/it] 71%|███████   | 34477/48845 [12:12:40<5:02:16,  1.26s/it] 71%|███████   | 34478/48845 [12:12:41<5:02:02,  1.26s/it] 71%|███████   | 34479/48845 [12:12:43<5:02:14,  1.26s/it] 71%|███████   | 34480/48845 [12:12:44<5:02:07,  1.26s/it]                                                          {'loss': 2.2118, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34480/48845 [12:12:44<5:02:07,  1.26s/it] 71%|███████   | 34481/48845 [12:12:45<5:02:28,  1.26s/it] 71%|███████   | 34482/48845 [12:12:46<5:02:17,  1.26s/it] 71%|███████   | 34483/48845 [12:12:48<5:02:39,  1.26s/it] 71%|███████   | 34484/48845 [12:12:49<5:02:35,  1.26s/it] 71%|███████   | 34485/48845 [12:12:50<5:02:18,  1.26s/it]                                                          {'loss': 1.9972, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34485/48845 [12:12:50<5:02:18,  1.26s/it] 71%|███████   | 34486/48845 [12:12:51<5:02:16,  1.26s/it] 71%|███████   | 34487/48845 [12:12:53<5:02:28,  1.26s/it] 71%|███████   | 34488/48845 [12:12:54<5:02:19,  1.26s/it] 71%|███████   | 34489/48845 [12:12:55<5:02:19,  1.26s/it] 71%|███████   | 34490/48845 [12:12:56<5:02:05,  1.26s/it]                                                          {'loss': 1.9297, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34490/48845 [12:12:56<5:02:05,  1.26s/it] 71%|███████   | 34491/48845 [12:12:58<5:02:29,  1.26s/it] 71%|███████   | 34492/48845 [12:12:59<5:02:18,  1.26s/it] 71%|███████   | 34493/48845 [12:13:00<5:01:58,  1.26s/it] 71%|███████   | 34494/48845 [12:13:01<5:01:51,  1.26s/it] 71%|███████   | 34495/48845 [12:13:03<5:02:13,  1.26s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34495/48845 [12:13:03<5:02:13,  1.26s/it] 71%|███████   | 34496/48845 [12:13:04<5:01:56,  1.26s/it] 71%|███████   | 34497/48845 [12:13:05<5:01:48,  1.26s/it] 71%|███████   | 34498/48845 [12:13:07<5:01:38,  1.26s/it] 71%|███████   | 34499/48845 [12:13:08<5:01:44,  1.26s/it] 71%|███████   | 34500/48845 [12:13:09<5:01:35,  1.26s/it]                                                          {'loss': 1.9674, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34500/48845 [12:13:09<5:01:35,  1.26s/it] 71%|███████   | 34501/48845 [12:13:10<5:01:53,  1.26s/it] 71%|███████   | 34502/48845 [12:13:12<5:01:49,  1.26s/it] 71%|███████   | 34503/48845 [12:13:13<5:02:01,  1.26s/it] 71%|███████   | 34504/48845 [12:13:14<5:02:12,  1.26s/it] 71%|███████   | 34505/48845 [12:13:15<5:01:50,  1.26s/it]                                                          {'loss': 2.0824, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34505/48845 [12:13:15<5:01:50,  1.26s/it] 71%|███████   | 34506/48845 [12:13:17<5:02:00,  1.26s/it] 71%|███████   | 34507/48845 [12:13:18<5:02:47,  1.27s/it] 71%|███████   | 34508/48845 [12:13:19<5:02:03,  1.26s/it] 71%|███████   | 34509/48845 [12:13:20<5:01:34,  1.26s/it] 71%|███████   | 34510/48845 [12:13:22<5:01:27,  1.26s/it]                                                          {'loss': 2.0822, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34510/48845 [12:13:22<5:01:27,  1.26s/it] 71%|███████   | 34511/48845 [12:13:23<5:01:34,  1.26s/it] 71%|███████   | 34512/48845 [12:13:24<5:01:38,  1.26s/it] 71%|███████   | 34513/48845 [12:13:25<5:01:47,  1.26s/it] 71%|███████   | 34514/48845 [12:13:27<5:01:44,  1.26s/it] 71%|███████   | 34515/48845 [12:13:28<5:01:54,  1.26s/it]                                                          {'loss': 2.1377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34515/48845 [12:13:28<5:01:54,  1.26s/it] 71%|███████   | 34516/48845 [12:13:29<5:01:38,  1.26s/it] 71%|███████   | 34517/48845 [12:13:31<5:01:29,  1.26s/it] 71%|███████   | 34518/48845 [12:13:32<5:01:22,  1.26s/it] 71%|███████   | 34519/48845 [12:13:33<5:01:36,  1.26s/it] 71%|███████   | 34520/48845 [12:13:34<5:01:20,  1.26s/it]                                                          {'loss': 2.085, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34520/48845 [12:13:34<5:01:20,  1.26s/it] 71%|███████   | 34521/48845 [12:13:36<5:01:13,  1.26s/it] 71%|███████   | 34522/48845 [12:13:37<5:00:57,  1.26s/it] 71%|███████   | 34523/48845 [12:13:38<5:10:15,  1.30s/it] 71%|███████   | 34524/48845 [12:13:40<5:07:44,  1.29s/it] 71%|███████   | 34525/48845 [12:13:41<5:05:51,  1.28s/it]                                                          {'loss': 2.0647, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34525/48845 [12:13:41<5:05:51,  1.28s/it] 71%|███████   | 34526/48845 [12:13:42<5:04:40,  1.28s/it] 71%|███████   | 34527/48845 [12:13:43<5:03:43,  1.27s/it] 71%|███████   | 34528/48845 [12:13:45<5:02:48,  1.27s/it] 71%|███████   | 34529/48845 [12:13:46<5:14:57,  1.32s/it] 71%|███████   | 34530/48845 [12:13:47<5:11:06,  1.30s/it]                                                          {'loss': 2.0317, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.53}
+ 71%|███████   | 34530/48845 [12:13:47<5:11:06,  1.30s/it] 71%|███████   | 34531/48845 [12:13:49<5:08:09,  1.29s/it] 71%|███████   | 34532/48845 [12:13:50<5:13:36,  1.31s/it] 71%|███████   | 34533/48845 [12:13:51<5:10:20,  1.30s/it] 71%|███████   | 34534/48845 [12:13:52<5:07:25,  1.29s/it] 71%|███████   | 34535/48845 [12:13:54<5:05:24,  1.28s/it]                                                          {'loss': 1.8817, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34535/48845 [12:13:54<5:05:24,  1.28s/it] 71%|███████   | 34536/48845 [12:13:55<5:04:17,  1.28s/it] 71%|███████   | 34537/48845 [12:13:56<5:03:11,  1.27s/it] 71%|███████   | 34538/48845 [12:13:57<5:02:22,  1.27s/it] 71%|███████   | 34539/48845 [12:13:59<5:02:16,  1.27s/it] 71%|███████   | 34540/48845 [12:14:00<5:01:52,  1.27s/it]                                                          {'loss': 2.2226, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34540/48845 [12:14:00<5:01:52,  1.27s/it] 71%|███████   | 34541/48845 [12:14:01<5:01:50,  1.27s/it] 71%|███████   | 34542/48845 [12:14:03<5:01:30,  1.26s/it] 71%|███████   | 34543/48845 [12:14:04<5:01:10,  1.26s/it] 71%|███████   | 34544/48845 [12:14:05<5:00:58,  1.26s/it] 71%|███████   | 34545/48845 [12:14:06<5:01:24,  1.26s/it]                                                          {'loss': 2.2134, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34545/48845 [12:14:06<5:01:24,  1.26s/it] 71%|███████   | 34546/48845 [12:14:08<5:01:17,  1.26s/it] 71%|███████   | 34547/48845 [12:14:09<5:01:05,  1.26s/it] 71%|███████   | 34548/48845 [12:14:10<5:00:57,  1.26s/it] 71%|███████   | 34549/48845 [12:14:11<5:00:54,  1.26s/it] 71%|███████   | 34550/48845 [12:14:13<5:01:13,  1.26s/it]                                                          {'loss': 2.0711, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34550/48845 [12:14:13<5:01:13,  1.26s/it] 71%|███████   | 34551/48845 [12:14:14<5:01:04,  1.26s/it] 71%|███████   | 34552/48845 [12:14:15<5:00:54,  1.26s/it] 71%|███████   | 34553/48845 [12:14:16<5:00:53,  1.26s/it] 71%|███████   | 34554/48845 [12:14:18<5:00:51,  1.26s/it] 71%|███████   | 34555/48845 [12:14:19<5:00:36,  1.26s/it]                                                          {'loss': 2.0288, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34555/48845 [12:14:19<5:00:36,  1.26s/it] 71%|███████   | 34556/48845 [12:14:20<5:00:28,  1.26s/it] 71%|███████   | 34557/48845 [12:14:21<5:00:30,  1.26s/it] 71%|███████   | 34558/48845 [12:14:23<5:00:32,  1.26s/it] 71%|███████   | 34559/48845 [12:14:24<5:00:22,  1.26s/it] 71%|███████   | 34560/48845 [12:14:25<5:00:19,  1.26s/it]                                                          {'loss': 2.0134, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34560/48845 [12:14:25<5:00:19,  1.26s/it] 71%|███████   | 34561/48845 [12:14:27<5:00:47,  1.26s/it] 71%|███████   | 34562/48845 [12:14:28<5:00:38,  1.26s/it] 71%|███████   | 34563/48845 [12:14:29<5:00:40,  1.26s/it] 71%|███████   | 34564/48845 [12:14:30<5:00:31,  1.26s/it] 71%|███████   | 34565/48845 [12:14:32<5:00:36,  1.26s/it]                                                          {'loss': 2.1441, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34565/48845 [12:14:32<5:00:36,  1.26s/it] 71%|███████   | 34566/48845 [12:14:33<5:00:53,  1.26s/it] 71%|███████   | 34567/48845 [12:14:34<5:00:33,  1.26s/it] 71%|███████   | 34568/48845 [12:14:35<5:00:25,  1.26s/it] 71%|███████   | 34569/48845 [12:14:37<5:07:35,  1.29s/it] 71%|███████   | 34570/48845 [12:14:38<5:05:21,  1.28s/it]                                                          {'loss': 2.0469, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34570/48845 [12:14:38<5:05:21,  1.28s/it] 71%|███████   | 34571/48845 [12:14:39<5:03:55,  1.28s/it] 71%|███████   | 34572/48845 [12:14:41<5:02:23,  1.27s/it] 71%|███████   | 34573/48845 [12:14:42<5:01:35,  1.27s/it] 71%|███████   | 34574/48845 [12:14:43<5:00:59,  1.27s/it] 71%|███████   | 34575/48845 [12:14:44<5:00:42,  1.26s/it]                                                          {'loss': 2.1541, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34575/48845 [12:14:44<5:00:42,  1.26s/it] 71%|███████   | 34576/48845 [12:14:46<5:00:38,  1.26s/it] 71%|███████   | 34577/48845 [12:14:47<5:01:21,  1.27s/it] 71%|███████   | 34578/48845 [12:14:48<5:00:45,  1.26s/it] 71%|███████   | 34579/48845 [12:14:49<5:00:27,  1.26s/it] 71%|███████   | 34580/48845 [12:14:51<5:00:27,  1.26s/it]                                                          {'loss': 2.1335, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34580/48845 [12:14:51<5:00:27,  1.26s/it] 71%|███████   | 34581/48845 [12:14:52<5:00:39,  1.26s/it] 71%|███████   | 34582/48845 [12:14:53<5:00:28,  1.26s/it] 71%|███████   | 34583/48845 [12:14:54<5:00:22,  1.26s/it] 71%|███████   | 34584/48845 [12:14:56<5:00:10,  1.26s/it] 71%|███████   | 34585/48845 [12:14:57<5:00:11,  1.26s/it]                                                          {'loss': 1.8914, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34585/48845 [12:14:57<5:00:11,  1.26s/it] 71%|███████   | 34586/48845 [12:14:58<4:59:51,  1.26s/it] 71%|███████   | 34587/48845 [12:14:59<4:59:49,  1.26s/it] 71%|███████   | 34588/48845 [12:15:01<4:59:44,  1.26s/it] 71%|███████   | 34589/48845 [12:15:02<5:00:01,  1.26s/it] 71%|████��██   | 34590/48845 [12:15:03<5:00:05,  1.26s/it]                                                          {'loss': 1.8891, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34590/48845 [12:15:03<5:00:05,  1.26s/it] 71%|███████   | 34591/48845 [12:15:05<5:00:00,  1.26s/it] 71%|███████   | 34592/48845 [12:15:06<4:59:47,  1.26s/it] 71%|███████   | 34593/48845 [12:15:07<5:10:12,  1.31s/it] 71%|███████   | 34594/48845 [12:15:08<5:07:39,  1.30s/it] 71%|███████   | 34595/48845 [12:15:10<5:05:05,  1.28s/it]                                                          {'loss': 2.1131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34595/48845 [12:15:10<5:05:05,  1.28s/it] 71%|███████   | 34596/48845 [12:15:11<5:03:18,  1.28s/it] 71%|███████   | 34597/48845 [12:15:12<5:02:11,  1.27s/it] 71%|███████   | 34598/48845 [12:15:13<5:01:06,  1.27s/it] 71%|███████   | 34599/48845 [12:15:15<5:00:26,  1.27s/it] 71%|███████   | 34600/48845 [12:15:16<5:00:14,  1.26s/it]                                                          {'loss': 2.1451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34600/48845 [12:15:16<5:00:14,  1.26s/it] 71%|███████   | 34601/48845 [12:15:20<7:57:41,  2.01s/it] 71%|███████   | 34602/48845 [12:15:21<7:04:11,  1.79s/it] 71%|███████   | 34603/48845 [12:15:22<6:26:45,  1.63s/it] 71%|███████   | 34604/48845 [12:15:24<6:00:29,  1.52s/it] 71%|███████   | 34605/48845 [12:15:25<5:42:03,  1.44s/it]                                                          {'loss': 1.9737, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34605/48845 [12:15:25<5:42:03,  1.44s/it] 71%|███████   | 34606/48845 [12:15:26<5:29:04,  1.39s/it] 71%|███████   | 34607/48845 [12:15:27<5:20:14,  1.35s/it] 71%|███████   | 34608/48845 [12:15:29<5:13:53,  1.32s/it] 71%|███████   | 34609/48845 [12:15:30<5:09:29,  1.30s/it] 71%|███████   | 34610/48845 [12:15:31<5:06:50,  1.29s/it]                                                          {'loss': 2.0165, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34610/48845 [12:15:31<5:06:50,  1.29s/it] 71%|███████   | 34611/48845 [12:15:32<5:04:37,  1.28s/it] 71%|███████   | 34612/48845 [12:15:34<5:03:16,  1.28s/it] 71%|███████   | 34613/48845 [12:15:35<5:01:52,  1.27s/it] 71%|███████   | 34614/48845 [12:15:36<5:00:42,  1.27s/it] 71%|███████   | 34615/48845 [12:15:37<5:00:29,  1.27s/it]                                                          {'loss': 2.0483, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34615/48845 [12:15:37<5:00:29,  1.27s/it] 71%|███████   | 34616/48845 [12:15:39<4:59:43,  1.26s/it] 71%|███████   | 34617/48845 [12:15:40<4:59:52,  1.26s/it] 71%|███████   | 34618/48845 [12:15:41<4:59:40,  1.26s/it] 71%|███████   | 34619/48845 [12:15:42<4:59:50,  1.26s/it] 71%|███████   | 34620/48845 [12:15:44<4:59:29,  1.26s/it]                                                          {'loss': 2.1541, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34620/48845 [12:15:44<4:59:29,  1.26s/it] 71%|███████   | 34621/48845 [12:15:45<4:59:08,  1.26s/it] 71%|███████   | 34622/48845 [12:15:46<4:58:57,  1.26s/it] 71%|███████   | 34623/48845 [12:15:48<4:59:02,  1.26s/it] 71%|███████   | 34624/48845 [12:15:49<4:58:46,  1.26s/it] 71%|███████   | 34625/48845 [12:15:50<4:59:01,  1.26s/it]                                                          {'loss': 2.0996, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34625/48845 [12:15:50<4:59:01,  1.26s/it] 71%|███████   | 34626/48845 [12:15:51<4:58:55,  1.26s/it] 71%|███████   | 34627/48845 [12:15:53<4:59:14,  1.26s/it] 71%|███████   | 34628/48845 [12:15:54<4:59:11,  1.26s/it] 71%|███████   | 34629/48845 [12:15:55<4:59:01,  1.26s/it] 71%|███████   | 34630/48845 [12:15:56<4:58:43,  1.26s/it]                                                          {'loss': 1.9714, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.54}
+ 71%|███████   | 34630/48845 [12:15:56<4:58:43,  1.26s/it] 71%|███████   | 34631/48845 [12:15:58<5:09:01,  1.30s/it] 71%|███████   | 34632/48845 [12:15:59<5:05:58,  1.29s/it] 71%|███████   | 34633/48845 [12:16:00<5:03:52,  1.28s/it] 71%|███████   | 34634/48845 [12:16:02<5:02:28,  1.28s/it] 71%|███████   | 34635/48845 [12:16:03<5:01:16,  1.27s/it]                                                          {'loss': 1.9958, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34635/48845 [12:16:03<5:01:16,  1.27s/it] 71%|███████   | 34636/48845 [12:16:04<5:00:28,  1.27s/it] 71%|███████   | 34637/48845 [12:16:05<4:59:51,  1.27s/it] 71%|███████   | 34638/48845 [12:16:07<4:59:28,  1.26s/it] 71%|███████   | 34639/48845 [12:16:08<4:59:30,  1.26s/it] 71%|███████   | 34640/48845 [12:16:09<4:59:16,  1.26s/it]                                                          {'loss': 1.9496, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34640/48845 [12:16:09<4:59:16,  1.26s/it] 71%|███████   | 34641/48845 [12:16:10<4:58:55,  1.26s/it] 71%|███████   | 34642/48845 [12:16:12<4:58:48,  1.26s/it] 71%|███████   | 34643/48845 [12:16:13<4:58:45,  1.26s/it] 71%|███████   | 34644/48845 [12:16:14<4:58:59,  1.26s/it] 71%|███████   | 34645/48845 [12:16:15<4:58:53,  1.26s/it]                                                          {'loss': 2.1846, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34645/48845 [12:16:15<4:58:53,  1.26s/it] 71%|███████   | 34646/48845 [12:16:17<4:58:36,  1.26s/it] 71%|███████   | 34647/48845 [12:16:18<4:58:23,  1.26s/it] 71%|███████   | 34648/48845 [12:16:19<4:58:28,  1.26s/it] 71%|███████   | 34649/48845 [12:16:20<4:58:30,  1.26s/it] 71%|███████   | 34650/48845 [12:16:22<4:58:28,  1.26s/it]                                                          {'loss': 1.9872, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34650/48845 [12:16:22<4:58:28,  1.26s/it] 71%|███████   | 34651/48845 [12:16:23<4:58:49,  1.26s/it] 71%|███████   | 34652/48845 [12:16:24<4:58:56,  1.26s/it] 71%|███████   | 34653/48845 [12:16:26<4:58:30,  1.26s/it] 71%|███████   | 34654/48845 [12:16:27<4:58:24,  1.26s/it] 71%|███████   | 34655/48845 [12:16:28<4:58:26,  1.26s/it]                                                          {'loss': 1.974, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34655/48845 [12:16:28<4:58:26,  1.26s/it] 71%|███████   | 34656/48845 [12:16:29<4:58:17,  1.26s/it] 71%|███████   | 34657/48845 [12:16:31<4:58:14,  1.26s/it] 71%|███████   | 34658/48845 [12:16:32<4:58:19,  1.26s/it] 71%|███████   | 34659/48845 [12:16:33<4:58:39,  1.26s/it] 71%|███████   | 34660/48845 [12:16:34<4:58:12,  1.26s/it]                                                          {'loss': 2.1632, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34660/48845 [12:16:34<4:58:12,  1.26s/it] 71%|███████   | 34661/48845 [12:16:36<4:58:12,  1.26s/it] 71%|███████   | 34662/48845 [12:16:37<4:58:22,  1.26s/it] 71%|███████   | 34663/48845 [12:16:38<4:58:23,  1.26s/it] 71%|███████   | 34664/48845 [12:16:39<4:58:14,  1.26s/it] 71%|███████   | 34665/48845 [12:16:41<4:57:55,  1.26s/it]                                                          {'loss': 2.1587, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34665/48845 [12:16:41<4:57:55,  1.26s/it] 71%|███████   | 34666/48845 [12:16:42<4:57:46,  1.26s/it] 71%|███████   | 34667/48845 [12:16:43<4:58:08,  1.26s/it] 71%|███████   | 34668/48845 [12:16:44<4:57:55,  1.26s/it] 71%|███████   | 34669/48845 [12:16:46<4:58:08,  1.26s/it] 71%|███████   | 34670/48845 [12:16:47<4:58:00,  1.26s/it]                                                          {'loss': 2.1421, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34670/48845 [12:16:47<4:58:00,  1.26s/it] 71%|███████   | 34671/48845 [12:16:48<4:58:25,  1.26s/it] 71%|███████   | 34672/48845 [12:16:49<4:58:19,  1.26s/it] 71%|███████   | 34673/48845 [12:16:51<4:57:57,  1.26s/it] 71%|███████   | 34674/48845 [12:16:52<4:57:51,  1.26s/it] 71%|███████   | 34675/48845 [12:16:53<4:58:11,  1.26s/it]                                                          {'loss': 2.0141, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34675/48845 [12:16:53<4:58:11,  1.26s/it] 71%|███████   | 34676/48845 [12:16:55<4:58:20,  1.26s/it] 71%|███████   | 34677/48845 [12:16:56<4:58:07,  1.26s/it] 71%|███████   | 34678/48845 [12:16:57<4:58:09,  1.26s/it] 71%|███████   | 34679/48845 [12:16:58<4:58:06,  1.26s/it] 71%|███████   | 34680/48845 [12:17:00<4:58:03,  1.26s/it]                                                          {'loss': 2.1454, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34680/48845 [12:17:00<4:58:03,  1.26s/it] 71%|███████   | 34681/48845 [12:17:01<4:57:58,  1.26s/it] 71%|███████   | 34682/48845 [12:17:02<4:57:54,  1.26s/it] 71%|███████   | 34683/48845 [12:17:03<5:02:47,  1.28s/it] 71%|███████   | 34684/48845 [12:17:05<5:01:10,  1.28s/it] 71%|███████   | 34685/48845 [12:17:06<5:00:14,  1.27s/it]                                                          {'loss': 2.0253, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34685/48845 [12:17:06<5:00:14,  1.27s/it] 71%|███████   | 34686/48845 [12:17:07<4:59:13,  1.27s/it] 71%|███████   | 34687/48845 [12:17:08<4:58:53,  1.27s/it] 71%|███████   | 34688/48845 [12:17:10<4:58:15,  1.26s/it] 71%|███████   | 34689/48845 [12:17:11<4:57:53,  1.26s/it] 71%|███████   | 34690/48845 [12:17:12<4:57:32,  1.26s/it]                                                          {'loss': 2.2609, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34690/48845 [12:17:12<4:57:32,  1.26s/it] 71%|███████   | 34691/48845 [12:17:14<5:00:27,  1.27s/it] 71%|███████   | 34692/48845 [12:17:15<4:59:18,  1.27s/it] 71%|███████   | 34693/48845 [12:17:16<4:58:40,  1.27s/it] 71%|███████   | 34694/48845 [12:17:17<4:58:15,  1.26s/it] 71%|███████   | 34695/48845 [12:17:19<4:58:52,  1.27s/it]                                                          {'loss': 1.9183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34695/48845 [12:17:19<4:58:52,  1.27s/it] 71%|███████   | 34696/48845 [12:17:20<4:58:34,  1.27s/it] 71%|███████   | 34697/48845 [12:17:21<4:58:19,  1.27s/it] 71%|███████   | 34698/48845 [12:17:22<4:57:48,  1.26s/it] 71%|███████   | 34699/48845 [12:17:24<4:58:09,  1.26s/it] 71%|███████   | 34700/48845 [12:17:25<4:57:45,  1.26s/it]                                                          {'loss': 1.9693, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34700/48845 [12:17:25<4:57:45,  1.26s/it] 71%|███████   | 34701/48845 [12:17:26<4:58:01,  1.26s/it] 71%|███████   | 34702/48845 [12:17:27<4:57:38,  1.26s/it] 71%|███████   | 34703/48845 [12:17:29<4:57:39,  1.26s/it] 71%|███████   | 34704/48845 [12:17:30<4:57:40,  1.26s/it] 71%|███████   | 34705/48845 [12:17:31<4:57:20,  1.26s/it]                                                          {'loss': 2.1233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34705/48845 [12:17:31<4:57:20,  1.26s/it] 71%|███████   | 34706/48845 [12:17:33<4:57:15,  1.26s/it] 71%|███████   | 34707/48845 [12:17:34<4:57:26,  1.26s/it] 71%|███████   | 34708/48845 [12:17:35<4:57:06,  1.26s/it] 71%|███████   | 34709/48845 [12:17:36<4:57:04,  1.26s/it] 71%|███████   | 34710/48845 [12:17:38<4:57:09,  1.26s/it]                                                          {'loss': 2.1345, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34710/48845 [12:17:38<4:57:09,  1.26s/it] 71%|███████   | 34711/48845 [12:17:39<4:57:28,  1.26s/it] 71%|███████   | 34712/48845 [12:17:40<4:57:27,  1.26s/it] 71%|███████   | 34713/48845 [12:17:41<4:56:59,  1.26s/it] 71%|███████   | 34714/48845 [12:17:43<4:56:48,  1.26s/it] 71%|███████   | 34715/48845 [12:17:44<4:56:43,  1.26s/it]                                                          {'loss': 1.9967, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34715/48845 [12:17:44<4:56:43,  1.26s/it] 71%|███████   | 34716/48845 [12:17:45<4:56:52,  1.26s/it] 71%|███████   | 34717/48845 [12:17:46<4:56:48,  1.26s/it] 71%|███████   | 34718/48845 [12:17:48<4:56:46,  1.26s/it] 71%|███████   | 34719/48845 [12:17:49<5:01:49,  1.28s/it] 71%|███████   | 34720/48845 [12:17:50<5:00:25,  1.28s/it]                                                          {'loss': 2.0747, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34720/48845 [12:17:50<5:00:25,  1.28s/it] 71%|███████   | 34721/48845 [12:17:51<4:59:23,  1.27s/it] 71%|███████   | 34722/48845 [12:17:53<4:58:29,  1.27s/it] 71%|███████   | 34723/48845 [12:17:54<5:06:42,  1.30s/it] 71%|█���█████   | 34724/48845 [12:17:55<5:03:45,  1.29s/it] 71%|███████   | 34725/48845 [12:17:57<5:01:41,  1.28s/it]                                                          {'loss': 2.0513, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.55}
+ 71%|███████   | 34725/48845 [12:17:57<5:01:41,  1.28s/it] 71%|███████   | 34726/48845 [12:17:58<5:00:19,  1.28s/it] 71%|███████   | 34727/48845 [12:17:59<5:06:20,  1.30s/it] 71%|███████   | 34728/48845 [12:18:01<5:03:37,  1.29s/it] 71%|███████   | 34729/48845 [12:18:02<5:02:05,  1.28s/it] 71%|███████   | 34730/48845 [12:18:03<5:00:28,  1.28s/it]                                                          {'loss': 2.2144, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34730/48845 [12:18:03<5:00:28,  1.28s/it] 71%|███████   | 34731/48845 [12:18:04<4:59:43,  1.27s/it] 71%|███████   | 34732/48845 [12:18:06<4:58:49,  1.27s/it] 71%|███████   | 34733/48845 [12:18:07<4:58:00,  1.27s/it] 71%|███████   | 34734/48845 [12:18:08<4:57:32,  1.27s/it] 71%|███████   | 34735/48845 [12:18:09<4:59:45,  1.27s/it]                                                          {'loss': 1.9524, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34735/48845 [12:18:09<4:59:45,  1.27s/it] 71%|███████   | 34736/48845 [12:18:11<4:59:12,  1.27s/it] 71%|███████   | 34737/48845 [12:18:12<4:58:16,  1.27s/it] 71%|███████   | 34738/48845 [12:18:13<4:57:46,  1.27s/it] 71%|███████   | 34739/48845 [12:18:14<4:57:34,  1.27s/it] 71%|███████   | 34740/48845 [12:18:16<4:57:15,  1.26s/it]                                                          {'loss': 1.9274, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34740/48845 [12:18:16<4:57:15,  1.26s/it] 71%|███████   | 34741/48845 [12:18:17<4:57:16,  1.26s/it] 71%|███████   | 34742/48845 [12:18:18<4:56:57,  1.26s/it] 71%|███████   | 34743/48845 [12:18:20<4:57:04,  1.26s/it] 71%|███████   | 34744/48845 [12:18:21<4:57:37,  1.27s/it] 71%|███████   | 34745/48845 [12:18:22<4:57:35,  1.27s/it]                                                          {'loss': 2.1688, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34745/48845 [12:18:22<4:57:35,  1.27s/it] 71%|███████   | 34746/48845 [12:18:23<4:57:22,  1.27s/it] 71%|███████   | 34747/48845 [12:18:25<4:57:22,  1.27s/it] 71%|███████   | 34748/48845 [12:18:26<4:57:09,  1.26s/it] 71%|███████   | 34749/48845 [12:18:27<4:56:55,  1.26s/it] 71%|███████   | 34750/48845 [12:18:28<4:56:32,  1.26s/it]                                                          {'loss': 2.0005, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34750/48845 [12:18:28<4:56:32,  1.26s/it] 71%|███████   | 34751/48845 [12:18:30<4:57:07,  1.26s/it] 71%|███████   | 34752/48845 [12:18:31<4:56:40,  1.26s/it] 71%|███████   | 34753/48845 [12:18:32<4:56:48,  1.26s/it] 71%|███████   | 34754/48845 [12:18:33<4:56:32,  1.26s/it] 71%|███████   | 34755/48845 [12:18:35<4:56:29,  1.26s/it]                                                          {'loss': 2.036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34755/48845 [12:18:35<4:56:29,  1.26s/it] 71%|███████   | 34756/48845 [12:18:36<4:56:39,  1.26s/it] 71%|███████   | 34757/48845 [12:18:37<4:56:14,  1.26s/it] 71%|███████   | 34758/48845 [12:18:38<4:56:19,  1.26s/it] 71%|███████   | 34759/48845 [12:18:40<4:56:48,  1.26s/it] 71%|███████   | 34760/48845 [12:18:41<4:56:32,  1.26s/it]                                                          {'loss': 2.2085, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34760/48845 [12:18:41<4:56:32,  1.26s/it] 71%|███████   | 34761/48845 [12:18:42<4:56:23,  1.26s/it] 71%|███████   | 34762/48845 [12:18:44<4:56:09,  1.26s/it] 71%|███████   | 34763/48845 [12:18:45<4:55:53,  1.26s/it] 71%|███████   | 34764/48845 [12:18:46<4:56:06,  1.26s/it] 71%|███████   | 34765/48845 [12:18:47<4:56:01,  1.26s/it]                                                          {'loss': 2.1174, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34765/48845 [12:18:47<4:56:01,  1.26s/it] 71%|███████   | 34766/48845 [12:18:49<4:56:03,  1.26s/it] 71%|███████   | 34767/48845 [12:18:50<4:56:12,  1.26s/it] 71%|███████   | 34768/48845 [12:18:51<4:55:48,  1.26s/it] 71%|███████   | 34769/48845 [12:18:52<4:55:53,  1.26s/it] 71%|███████   | 34770/48845 [12:18:54<5:04:38,  1.30s/it]                                                          {'loss': 2.2358, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34770/48845 [12:18:54<5:04:38,  1.30s/it] 71%|███████   | 34771/48845 [12:18:55<5:01:59,  1.29s/it] 71%|███████   | 34772/48845 [12:18:56<5:00:01,  1.28s/it] 71%|███████   | 34773/48845 [12:18:58<4:58:38,  1.27s/it] 71%|███████   | 34774/48845 [12:18:59<4:57:45,  1.27s/it] 71%|███████   | 34775/48845 [12:19:00<4:57:08,  1.27s/it]                                                          {'loss': 2.0152, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34775/48845 [12:19:00<4:57:08,  1.27s/it] 71%|███████   | 34776/48845 [12:19:01<4:56:50,  1.27s/it] 71%|███████   | 34777/48845 [12:19:03<4:56:42,  1.27s/it] 71%|███████   | 34778/48845 [12:19:04<4:58:19,  1.27s/it] 71%|███████   | 34779/48845 [12:19:05<4:57:23,  1.27s/it] 71%|███████   | 34780/48845 [12:19:06<4:56:43,  1.27s/it]                                                          {'loss': 1.9487, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34780/48845 [12:19:06<4:56:43,  1.27s/it] 71%|███████   | 34781/48845 [12:19:08<4:56:35,  1.27s/it] 71%|███████   | 34782/48845 [12:19:09<4:56:24,  1.26s/it] 71%|███████   | 34783/48845 [12:19:10<4:56:07,  1.26s/it] 71%|███████   | 34784/48845 [12:19:11<4:55:54,  1.26s/it] 71%|███████   | 34785/48845 [12:19:13<4:55:47,  1.26s/it]                                                          {'loss': 1.9474, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34785/48845 [12:19:13<4:55:47,  1.26s/it] 71%|███████   | 34786/48845 [12:19:14<4:56:06,  1.26s/it] 71%|███████   | 34787/48845 [12:19:15<4:55:52,  1.26s/it] 71%|███████   | 34788/48845 [12:19:16<4:55:35,  1.26s/it] 71%|███████   | 34789/48845 [12:19:18<4:55:33,  1.26s/it] 71%|███████   | 34790/48845 [12:19:19<4:55:54,  1.26s/it]                                                          {'loss': 2.0657, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34790/48845 [12:19:19<4:55:54,  1.26s/it] 71%|███████   | 34791/48845 [12:19:20<4:55:53,  1.26s/it] 71%|███████   | 34792/48845 [12:19:22<4:56:03,  1.26s/it] 71%|███████   | 34793/48845 [12:19:23<4:55:42,  1.26s/it] 71%|███████   | 34794/48845 [12:19:24<5:01:10,  1.29s/it] 71%|███████   | 34795/48845 [12:19:25<4:59:30,  1.28s/it]                                                          {'loss': 2.1225, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34795/48845 [12:19:25<4:59:30,  1.28s/it] 71%|███████   | 34796/48845 [12:19:27<4:58:14,  1.27s/it] 71%|███████   | 34797/48845 [12:19:28<4:57:13,  1.27s/it] 71%|███████   | 34798/48845 [12:19:29<5:05:42,  1.31s/it] 71%|███████   | 34799/48845 [12:19:31<5:02:37,  1.29s/it] 71%|███████   | 34800/48845 [12:19:32<5:00:23,  1.28s/it]                                                          {'loss': 2.1629, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████   | 34800/48845 [12:19:32<5:00:23,  1.28s/it] 71%|███████   | 34801/48845 [12:19:36<7:56:15,  2.03s/it] 71%|███████   | 34802/48845 [12:19:37<7:02:07,  1.80s/it] 71%|███████▏  | 34803/48845 [12:19:38<6:25:10,  1.65s/it] 71%|███████▏  | 34804/48845 [12:19:39<5:58:37,  1.53s/it] 71%|███████▏  | 34805/48845 [12:19:41<5:39:27,  1.45s/it]                                                          {'loss': 2.3333, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████▏  | 34805/48845 [12:19:41<5:39:27,  1.45s/it] 71%|███████▏  | 34806/48845 [12:19:42<5:26:38,  1.40s/it] 71%|███████▏  | 34807/48845 [12:19:43<5:17:00,  1.35s/it] 71%|███████▏  | 34808/48845 [12:19:44<5:10:49,  1.33s/it] 71%|███████▏  | 34809/48845 [12:19:46<5:06:02,  1.31s/it] 71%|███████▏  | 34810/48845 [12:19:47<5:02:35,  1.29s/it]                                                          {'loss': 1.9853, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████▏  | 34810/48845 [12:19:47<5:02:35,  1.29s/it] 71%|███████▏  | 34811/48845 [12:19:48<5:00:23,  1.28s/it] 71%|███████▏  | 34812/48845 [12:19:50<4:59:14,  1.28s/it] 71%|███████▏  | 34813/48845 [12:19:51<4:57:42,  1.27s/it] 71%|███████▏  | 34814/48845 [12:19:52<4:57:22,  1.27s/it] 71%|███████▏  | 34815/48845 [12:19:53<4:56:42,  1.27s/it]                                                          {'loss': 1.9469, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████▏  | 34815/48845 [12:19:53<4:56:42,  1.27s/it] 71%|███████▏  | 34816/48845 [12:19:55<4:59:10,  1.28s/it] 71%|███████▏  | 34817/48845 [12:19:56<4:57:56,  1.27s/it] 71%|███████▏  | 34818/48845 [12:19:57<4:56:56,  1.27s/it] 71%|███████▏  | 34819/48845 [12:19:58<4:56:14,  1.27s/it] 71%|███████▏  | 34820/48845 [12:20:00<4:55:45,  1.27s/it]                                                          {'loss': 1.7984, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████▏  | 34820/48845 [12:20:00<4:55:45,  1.27s/it] 71%|███████▏  | 34821/48845 [12:20:01<4:55:39,  1.26s/it] 71%|███████▏  | 34822/48845 [12:20:02<4:55:09,  1.26s/it] 71%|███████▏  | 34823/48845 [12:20:03<4:55:08,  1.26s/it] 71%|███████▏  | 34824/48845 [12:20:05<4:55:05,  1.26s/it] 71%|███████▏  | 34825/48845 [12:20:06<4:55:35,  1.27s/it]                                                          {'loss': 1.9292, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.56}
+ 71%|███████▏  | 34825/48845 [12:20:06<4:55:35,  1.27s/it] 71%|███████▏  | 34826/48845 [12:20:07<4:55:16,  1.26s/it] 71%|███████▏  | 34827/48845 [12:20:09<4:54:54,  1.26s/it] 71%|███████▏  | 34828/48845 [12:20:10<4:55:08,  1.26s/it] 71%|███████▏  | 34829/48845 [12:20:11<4:55:04,  1.26s/it] 71%|███████▏  | 34830/48845 [12:20:12<4:54:54,  1.26s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34830/48845 [12:20:12<4:54:54,  1.26s/it] 71%|███████▏  | 34831/48845 [12:20:14<4:54:40,  1.26s/it] 71%|███████▏  | 34832/48845 [12:20:15<4:55:12,  1.26s/it] 71%|███████▏  | 34833/48845 [12:20:16<4:55:35,  1.27s/it] 71%|███████▏  | 34834/48845 [12:20:17<4:55:02,  1.26s/it] 71%|███████▏  | 34835/48845 [12:20:19<4:54:47,  1.26s/it]                                                          {'loss': 2.1397, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34835/48845 [12:20:19<4:54:47,  1.26s/it] 71%|███████▏  | 34836/48845 [12:20:20<4:55:05,  1.26s/it] 71%|███████▏  | 34837/48845 [12:20:21<4:54:42,  1.26s/it] 71%|███████▏  | 34838/48845 [12:20:22<4:54:29,  1.26s/it] 71%|███████▏  | 34839/48845 [12:20:24<4:54:20,  1.26s/it] 71%|███████▏  | 34840/48845 [12:20:25<4:55:05,  1.26s/it]                                                          {'loss': 1.9737, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34840/48845 [12:20:25<4:55:05,  1.26s/it] 71%|███████▏  | 34841/48845 [12:20:26<4:54:46,  1.26s/it] 71%|███████▏  | 34842/48845 [12:20:27<4:54:35,  1.26s/it] 71%|███████▏  | 34843/48845 [12:20:29<4:54:15,  1.26s/it] 71%|███████▏  | 34844/48845 [12:20:30<4:54:13,  1.26s/it] 71%|███████▏  | 34845/48845 [12:20:31<4:54:12,  1.26s/it]                                                          {'loss': 2.0783, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34845/48845 [12:20:31<4:54:12,  1.26s/it] 71%|███████▏  | 34846/48845 [12:20:33<4:54:13,  1.26s/it] 71%|███████▏  | 34847/48845 [12:20:34<4:53:58,  1.26s/it] 71%|███████▏  | 34848/48845 [12:20:35<4:54:24,  1.26s/it] 71%|███████▏  | 34849/48845 [12:20:36<4:54:23,  1.26s/it] 71%|███████▏  | 34850/48845 [12:20:38<4:54:20,  1.26s/it]                                                          {'loss': 1.9771, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34850/48845 [12:20:38<4:54:20,  1.26s/it] 71%|███████▏  | 34851/48845 [12:20:39<4:54:16,  1.26s/it] 71%|███████▏  | 34852/48845 [12:20:40<4:54:25,  1.26s/it] 71%|███████▏  | 34853/48845 [12:20:41<4:54:18,  1.26s/it] 71%|███████▏  | 34854/48845 [12:20:43<4:53:57,  1.26s/it] 71%|███████▏  | 34855/48845 [12:20:44<4:53:49,  1.26s/it]                                                          {'loss': 1.9111, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34855/48845 [12:20:44<4:53:49,  1.26s/it] 71%|███████▏  | 34856/48845 [12:20:45<5:00:57,  1.29s/it] 71%|███████▏  | 34857/48845 [12:20:46<4:58:45,  1.28s/it] 71%|███████▏  | 34858/48845 [12:20:48<4:57:10,  1.27s/it] 71%|███████▏  | 34859/48845 [12:20:49<4:56:06,  1.27s/it] 71%|███████▏  | 34860/48845 [12:20:50<4:55:15,  1.27s/it]                                                          {'loss': 1.938, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34860/48845 [12:20:50<4:55:15,  1.27s/it] 71%|███████▏  | 34861/48845 [12:20:52<4:54:51,  1.27s/it] 71%|███████▏  | 34862/48845 [12:20:53<4:54:31,  1.26s/it] 71%|███████▏  | 34863/48845 [12:20:54<4:54:07,  1.26s/it] 71%|███████▏  | 34864/48845 [12:20:55<4:54:06,  1.26s/it] 71%|███████▏  | 34865/48845 [12:20:57<4:54:06,  1.26s/it]                                                          {'loss': 2.0988, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34865/48845 [12:20:57<4:54:06,  1.26s/it] 71%|███████▏  | 34866/48845 [12:20:58<4:54:11,  1.26s/it] 71%|███████▏  | 34867/48845 [12:20:59<4:54:08,  1.26s/it] 71%|███████▏  | 34868/48845 [12:21:00<4:54:49,  1.27s/it] 71%|███████▏  | 34869/48845 [12:21:02<4:54:13,  1.26s/it] 71%|███████▏  | 34870/48845 [12:21:03<4:54:05,  1.26s/it]                                                          {'loss': 2.1491, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34870/48845 [12:21:03<4:54:05,  1.26s/it] 71%|███████▏  | 34871/48845 [12:21:04<4:53:48,  1.26s/it] 71%|███████▏  | 34872/48845 [12:21:05<4:53:27,  1.26s/it] 71%|███████▏  | 34873/48845 [12:21:07<4:53:22,  1.26s/it] 71%|███████▏  | 34874/48845 [12:21:08<4:53:31,  1.26s/it] 71%|███████▏  | 34875/48845 [12:21:09<4:53:22,  1.26s/it]                                                          {'loss': 2.1812, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34875/48845 [12:21:09<4:53:22,  1.26s/it] 71%|███████▏  | 34876/48845 [12:21:10<4:53:41,  1.26s/it] 71%|███████▏  | 34877/48845 [12:21:12<4:53:36,  1.26s/it] 71%|███████▏  | 34878/48845 [12:21:13<4:53:25,  1.26s/it] 71%|███████▏  | 34879/48845 [12:21:14<4:53:23,  1.26s/it] 71%|███████▏  | 34880/48845 [12:21:15<4:53:58,  1.26s/it]                                                          {'loss': 1.9294, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34880/48845 [12:21:15<4:53:58,  1.26s/it] 71%|███████▏  | 34881/48845 [12:21:17<4:53:56,  1.26s/it] 71%|███████▏  | 34882/48845 [12:21:18<4:53:41,  1.26s/it] 71%|███████▏  | 34883/48845 [12:21:19<4:53:53,  1.26s/it] 71%|███████▏  | 34884/48845 [12:21:21<5:02:31,  1.30s/it] 71%|███████▏  | 34885/48845 [12:21:22<4:59:54,  1.29s/it]                                                          {'loss': 1.8798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34885/48845 [12:21:22<4:59:54,  1.29s/it] 71%|███████▏  | 34886/48845 [12:21:23<4:58:14,  1.28s/it] 71%|███████▏  | 34887/48845 [12:21:24<4:57:03,  1.28s/it] 71%|███████▏  | 34888/48845 [12:21:26<4:56:12,  1.27s/it] 71%|███████▏  | 34889/48845 [12:21:27<4:55:32,  1.27s/it] 71%|███████▏  | 34890/48845 [12:21:28<4:54:45,  1.27s/it]                                                          {'loss': 2.0854, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34890/48845 [12:21:28<4:54:45,  1.27s/it] 71%|███████▏  | 34891/48845 [12:21:30<4:54:19,  1.27s/it] 71%|███████▏  | 34892/48845 [12:21:31<4:53:46,  1.26s/it] 71%|███████▏  | 34893/48845 [12:21:32<4:53:42,  1.26s/it] 71%|███████▏  | 34894/48845 [12:21:33<4:53:51,  1.26s/it] 71%|███████▏  | 34895/48845 [12:21:35<4:53:39,  1.26s/it]                                                          {'loss': 2.005, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34895/48845 [12:21:35<4:53:39,  1.26s/it] 71%|███████▏  | 34896/48845 [12:21:36<4:53:54,  1.26s/it] 71%|███████▏  | 34897/48845 [12:21:37<4:53:41,  1.26s/it] 71%|███████▏  | 34898/48845 [12:21:38<4:53:38,  1.26s/it] 71%|███████▏  | 34899/48845 [12:21:40<4:53:52,  1.26s/it] 71%|███████▏  | 34900/48845 [12:21:41<4:53:56,  1.26s/it]                                                          {'loss': 2.0156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34900/48845 [12:21:41<4:53:56,  1.26s/it] 71%|███████▏  | 34901/48845 [12:21:42<4:53:44,  1.26s/it] 71%|███████▏  | 34902/48845 [12:21:43<4:53:31,  1.26s/it] 71%|███████▏  | 34903/48845 [12:21:45<4:53:09,  1.26s/it] 71%|███████▏  | 34904/48845 [12:21:46<4:53:37,  1.26s/it] 71%|███████▏  | 34905/48845 [12:21:47<4:53:17,  1.26s/it]                                                          {'loss': 2.0194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34905/48845 [12:21:47<4:53:17,  1.26s/it] 71%|███████▏  | 34906/48845 [12:21:48<4:53:50,  1.26s/it] 71%|███████▏  | 34907/48845 [12:21:50<4:53:31,  1.26s/it] 71%|███████▏  | 34908/48845 [12:21:51<4:53:22,  1.26s/it] 71%|███████▏  | 34909/48845 [12:21:52<4:53:07,  1.26s/it] 71%|███████▏  | 34910/48845 [12:21:54<4:53:13,  1.26s/it]                                                          {'loss': 1.9606, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34910/48845 [12:21:54<4:53:13,  1.26s/it] 71%|███████▏  | 34911/48845 [12:21:55<4:53:17,  1.26s/it] 71%|███████▏  | 34912/48845 [12:21:56<5:00:23,  1.29s/it] 71%|███████▏  | 34913/48845 [12:21:57<4:58:16,  1.28s/it] 71%|███████▏  | 34914/48845 [12:21:59<4:56:31,  1.28s/it] 71%|███████▏  | 34915/48845 [12:22:00<4:55:34,  1.27s/it]                                                          {'loss': 1.839, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34915/48845 [12:22:00<4:55:34,  1.27s/it] 71%|███████▏  | 34916/48845 [12:22:01<5:04:00,  1.31s/it] 71%|███████▏  | 34917/48845 [12:22:03<5:00:35,  1.29s/it] 71%|███████▏  | 34918/48845 [12:22:04<4:58:07,  1.28s/it] 71%|███████▏  | 34919/48845 [12:22:05<4:56:26,  1.28s/it] 71%|███████▏  | 34920/48845 [12:22:06<4:55:26,  1.27s/it]                                                          {'loss': 2.0004, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.57}
+ 71%|███████▏  | 34920/48845 [12:22:06<4:55:26,  1.27s/it] 71%|███████▏  | 34921/48845 [12:22:08<4:55:37,  1.27s/it] 71%|███████▏  | 34922/48845 [12:22:09<4:54:42,  1.27s/it] 71%|███████▏  | 34923/48845 [12:22:10<4:54:11,  1.27s/it] 71%|███████▏  | 34924/48845 [12:22:11<4:54:15,  1.27s/it] 72%|███████▏  | 34925/48845 [12:22:13<4:53:47,  1.27s/it]                                                          {'loss': 2.0775, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34925/48845 [12:22:13<4:53:47,  1.27s/it] 72%|███████▏  | 34926/48845 [12:22:14<4:53:21,  1.26s/it] 72%|███████▏  | 34927/48845 [12:22:15<4:52:57,  1.26s/it] 72%|███████▏  | 34928/48845 [12:22:16<4:53:15,  1.26s/it] 72%|███████▏  | 34929/48845 [12:22:18<4:52:51,  1.26s/it] 72%|███████▏  | 34930/48845 [12:22:19<4:53:03,  1.26s/it]                                                          {'loss': 2.2064, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34930/48845 [12:22:19<4:53:03,  1.26s/it] 72%|███████▏  | 34931/48845 [12:22:20<4:53:07,  1.26s/it] 72%|███████▏  | 34932/48845 [12:22:22<4:53:04,  1.26s/it] 72%|███████▏  | 34933/48845 [12:22:23<4:52:49,  1.26s/it] 72%|███████▏  | 34934/48845 [12:22:24<4:52:37,  1.26s/it] 72%|███████▏  | 34935/48845 [12:22:25<4:52:16,  1.26s/it]                                                          {'loss': 2.1055, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34935/48845 [12:22:25<4:52:16,  1.26s/it] 72%|███████▏  | 34936/48845 [12:22:27<4:58:03,  1.29s/it] 72%|███████▏  | 34937/48845 [12:22:28<4:56:26,  1.28s/it] 72%|███████▏  | 34938/48845 [12:22:29<4:55:21,  1.27s/it] 72%|███████▏  | 34939/48845 [12:22:30<4:54:42,  1.27s/it] 72%|███████▏  | 34940/48845 [12:22:32<4:54:05,  1.27s/it]                                                          {'loss': 2.1177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34940/48845 [12:22:32<4:54:05,  1.27s/it] 72%|███████▏  | 34941/48845 [12:22:33<4:53:20,  1.27s/it] 72%|███████▏  | 34942/48845 [12:22:34<4:52:56,  1.26s/it] 72%|███████▏  | 34943/48845 [12:22:35<4:52:31,  1.26s/it] 72%|███████▏  | 34944/48845 [12:22:37<4:52:36,  1.26s/it] 72%|███████▏  | 34945/48845 [12:22:38<4:52:34,  1.26s/it]                                                          {'loss': 1.9762, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34945/48845 [12:22:38<4:52:34,  1.26s/it] 72%|███████▏  | 34946/48845 [12:22:39<4:52:21,  1.26s/it] 72%|███████▏  | 34947/48845 [12:22:41<4:51:53,  1.26s/it] 72%|███████▏  | 34948/48845 [12:22:42<4:52:33,  1.26s/it] 72%|███████▏  | 34949/48845 [12:22:43<4:52:09,  1.26s/it] 72%|███████▏  | 34950/48845 [12:22:44<4:52:06,  1.26s/it]                                                          {'loss': 2.1546, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34950/48845 [12:22:44<4:52:06,  1.26s/it] 72%|███████▏  | 34951/48845 [12:22:46<4:52:14,  1.26s/it] 72%|███████▏  | 34952/48845 [12:22:47<4:52:14,  1.26s/it] 72%|███████▏  | 34953/48845 [12:22:48<4:52:10,  1.26s/it] 72%|███████▏  | 34954/48845 [12:22:49<4:51:54,  1.26s/it] 72%|███████▏  | 34955/48845 [12:22:51<4:51:38,  1.26s/it]                                                          {'loss': 1.9873, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34955/48845 [12:22:51<4:51:38,  1.26s/it] 72%|███████▏  | 34956/48845 [12:22:52<4:51:49,  1.26s/it] 72%|███████▏  | 34957/48845 [12:22:53<4:51:45,  1.26s/it] 72%|███████▏  | 34958/48845 [12:22:54<4:51:26,  1.26s/it] 72%|███████▏  | 34959/48845 [12:22:56<4:51:29,  1.26s/it] 72%|███████▏  | 34960/48845 [12:22:57<4:51:29,  1.26s/it]                                                          {'loss': 1.9507, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34960/48845 [12:22:57<4:51:29,  1.26s/it] 72%|███████▏  | 34961/48845 [12:22:58<4:51:56,  1.26s/it] 72%|███████▏  | 34962/48845 [12:22:59<4:51:37,  1.26s/it] 72%|███████▏  | 34963/48845 [12:23:01<4:51:43,  1.26s/it] 72%|███████▏  | 34964/48845 [12:23:02<4:51:42,  1.26s/it] 72%|███████▏  | 34965/48845 [12:23:03<4:52:02,  1.26s/it]                                                          {'loss': 2.0773, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34965/48845 [12:23:03<4:52:02,  1.26s/it] 72%|███████▏  | 34966/48845 [12:23:04<4:51:59,  1.26s/it] 72%|███████▏  | 34967/48845 [12:23:06<4:51:52,  1.26s/it] 72%|███████▏  | 34968/48845 [12:23:07<4:51:59,  1.26s/it] 72%|███████▏  | 34969/48845 [12:23:08<4:51:57,  1.26s/it] 72%|███████▏  | 34970/48845 [12:23:10<4:51:31,  1.26s/it]                                                          {'loss': 2.0896, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34970/48845 [12:23:10<4:51:31,  1.26s/it] 72%|███████▏  | 34971/48845 [12:23:11<4:52:21,  1.26s/it] 72%|███████▏  | 34972/48845 [12:23:12<4:52:17,  1.26s/it] 72%|███████▏  | 34973/48845 [12:23:13<4:51:52,  1.26s/it] 72%|███████▏  | 34974/48845 [12:23:15<4:51:41,  1.26s/it] 72%|███████▏  | 34975/48845 [12:23:16<4:51:48,  1.26s/it]                                                          {'loss': 1.8686, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34975/48845 [12:23:16<4:51:48,  1.26s/it] 72%|███████▏  | 34976/48845 [12:23:17<4:52:33,  1.27s/it] 72%|███████▏  | 34977/48845 [12:23:18<4:52:12,  1.26s/it] 72%|███████▏  | 34978/48845 [12:23:20<4:52:02,  1.26s/it] 72%|███████▏  | 34979/48845 [12:23:21<4:51:59,  1.26s/it] 72%|███████▏  | 34980/48845 [12:23:22<4:52:39,  1.27s/it]                                                          {'loss': 2.0276, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34980/48845 [12:23:22<4:52:39,  1.27s/it] 72%|███████▏  | 34981/48845 [12:23:23<4:52:45,  1.27s/it] 72%|███████▏  | 34982/48845 [12:23:25<4:52:21,  1.27s/it] 72%|███████▏  | 34983/48845 [12:23:26<4:52:10,  1.26s/it] 72%|███████▏  | 34984/48845 [12:23:27<4:52:11,  1.26s/it] 72%|███████▏  | 34985/48845 [12:23:29<4:51:46,  1.26s/it]                                                          {'loss': 1.9733, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34985/48845 [12:23:29<4:51:46,  1.26s/it] 72%|███████▏  | 34986/48845 [12:23:30<4:51:49,  1.26s/it] 72%|███████▏  | 34987/48845 [12:23:31<4:51:30,  1.26s/it] 72%|███████▏  | 34988/48845 [12:23:32<4:51:35,  1.26s/it] 72%|███████▏  | 34989/48845 [12:23:34<4:51:20,  1.26s/it] 72%|███████▏  | 34990/48845 [12:23:35<4:51:26,  1.26s/it]                                                          {'loss': 2.1021, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34990/48845 [12:23:35<4:51:26,  1.26s/it] 72%|███████▏  | 34991/48845 [12:23:36<4:51:23,  1.26s/it] 72%|███████▏  | 34992/48845 [12:23:37<4:51:39,  1.26s/it] 72%|███████▏  | 34993/48845 [12:23:39<4:51:31,  1.26s/it] 72%|███████▏  | 34994/48845 [12:23:40<4:51:24,  1.26s/it] 72%|███████▏  | 34995/48845 [12:23:41<4:51:19,  1.26s/it]                                                          {'loss': 1.9831, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 34995/48845 [12:23:41<4:51:19,  1.26s/it] 72%|███████▏  | 34996/48845 [12:23:42<4:51:27,  1.26s/it] 72%|███████▏  | 34997/48845 [12:23:44<4:51:18,  1.26s/it] 72%|███████▏  | 34998/48845 [12:23:45<4:51:15,  1.26s/it] 72%|███████▏  | 34999/48845 [12:23:46<4:51:25,  1.26s/it] 72%|███████▏  | 35000/48845 [12:23:47<4:51:27,  1.26s/it]                                                          {'loss': 2.0673, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 35000/48845 [12:23:47<4:51:27,  1.26s/it] 72%|███████▏  | 35001/48845 [12:23:51<7:46:52,  2.02s/it] 72%|███████▏  | 35002/48845 [12:23:53<6:54:07,  1.79s/it] 72%|███████▏  | 35003/48845 [12:23:54<6:17:03,  1.63s/it] 72%|███████▏  | 35004/48845 [12:23:55<5:51:09,  1.52s/it] 72%|███████▏  | 35005/48845 [12:23:56<5:33:03,  1.44s/it]                                                          {'loss': 2.1029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 35005/48845 [12:23:56<5:33:03,  1.44s/it] 72%|███████▏  | 35006/48845 [12:23:58<5:20:21,  1.39s/it] 72%|███████▏  | 35007/48845 [12:23:59<5:11:32,  1.35s/it] 72%|███████▏  | 35008/48845 [12:24:00<5:05:23,  1.32s/it] 72%|███████▏  | 35009/48845 [12:24:01<5:00:45,  1.30s/it] 72%|███████▏  | 35010/48845 [12:24:03<4:57:43,  1.29s/it]                                                          {'loss': 1.9919, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 35010/48845 [12:24:03<4:57:43,  1.29s/it] 72%|███████▏  | 35011/48845 [12:24:04<4:56:19,  1.29s/it] 72%|███████▏  | 35012/48845 [12:24:05<4:54:53,  1.28s/it] 72%|███████▏  | 35013/48845 [12:24:06<4:53:41,  1.27s/it] 72%|███████▏  | 35014/48845 [12:24:08<4:52:46,  1.27s/it] 72%|███████▏  | 35015/48845 [12:24:09<4:52:33,  1.27s/it]                                                          {'loss': 2.0996, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 35015/48845 [12:24:09<4:52:33,  1.27s/it] 72%|███████▏  | 35016/48845 [12:24:10<4:52:09,  1.27s/it] 72%|███████▏  | 35017/48845 [12:24:11<4:51:38,  1.27s/it] 72%|███████▏  | 35018/48845 [12:24:13<4:51:16,  1.26s/it] 72%|███████▏  | 35019/48845 [12:24:14<4:51:03,  1.26s/it] 72%|███████▏  | 35020/48845 [12:24:15<4:50:57,  1.26s/it]                                                          {'loss': 1.9063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.58}
+ 72%|███████▏  | 35020/48845 [12:24:15<4:50:57,  1.26s/it] 72%|███████▏  | 35021/48845 [12:24:16<4:50:52,  1.26s/it] 72%|███████▏  | 35022/48845 [12:24:18<4:50:46,  1.26s/it] 72%|███████▏  | 35023/48845 [12:24:19<4:51:13,  1.26s/it] 72%|███████▏  | 35024/48845 [12:24:20<4:50:58,  1.26s/it] 72%|███████▏  | 35025/48845 [12:24:22<4:50:44,  1.26s/it]                                                          {'loss': 2.0662, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35025/48845 [12:24:22<4:50:44,  1.26s/it] 72%|███████▏  | 35026/48845 [12:24:23<4:50:43,  1.26s/it] 72%|███████▏  | 35027/48845 [12:24:24<4:50:53,  1.26s/it] 72%|███████▏  | 35028/48845 [12:24:25<4:50:40,  1.26s/it] 72%|███████▏  | 35029/48845 [12:24:27<4:50:50,  1.26s/it] 72%|███████▏  | 35030/48845 [12:24:28<4:50:45,  1.26s/it]                                                          {'loss': 2.0853, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35030/48845 [12:24:28<4:50:45,  1.26s/it] 72%|███████▏  | 35031/48845 [12:24:29<4:51:00,  1.26s/it] 72%|███████▏  | 35032/48845 [12:24:30<4:50:54,  1.26s/it] 72%|███████▏  | 35033/48845 [12:24:32<4:50:28,  1.26s/it] 72%|███████▏  | 35034/48845 [12:24:33<4:50:25,  1.26s/it] 72%|███████▏  | 35035/48845 [12:24:34<4:52:44,  1.27s/it]                                                          {'loss': 1.992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35035/48845 [12:24:34<4:52:44,  1.27s/it] 72%|███████▏  | 35036/48845 [12:24:35<4:52:07,  1.27s/it] 72%|███████▏  | 35037/48845 [12:24:37<4:51:34,  1.27s/it] 72%|███████▏  | 35038/48845 [12:24:38<4:51:23,  1.27s/it] 72%|███████▏  | 35039/48845 [12:24:39<4:51:20,  1.27s/it] 72%|███████▏  | 35040/48845 [12:24:41<4:50:44,  1.26s/it]                                                          {'loss': 1.9682, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35040/48845 [12:24:41<4:50:44,  1.26s/it] 72%|███████▏  | 35041/48845 [12:24:42<4:50:35,  1.26s/it] 72%|███████▏  | 35042/48845 [12:24:43<4:50:37,  1.26s/it] 72%|███████▏  | 35043/48845 [12:24:44<4:50:27,  1.26s/it] 72%|███████▏  | 35044/48845 [12:24:46<4:50:11,  1.26s/it] 72%|███████▏  | 35045/48845 [12:24:47<4:50:05,  1.26s/it]                                                          {'loss': 1.9615, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35045/48845 [12:24:47<4:50:05,  1.26s/it] 72%|███████▏  | 35046/48845 [12:24:48<4:50:05,  1.26s/it] 72%|███████▏  | 35047/48845 [12:24:49<4:50:28,  1.26s/it] 72%|███████▏  | 35048/48845 [12:24:51<4:50:08,  1.26s/it] 72%|███████▏  | 35049/48845 [12:24:52<4:50:09,  1.26s/it] 72%|███████▏  | 35050/48845 [12:24:53<4:49:57,  1.26s/it]                                                          {'loss': 2.1275, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35050/48845 [12:24:53<4:49:57,  1.26s/it] 72%|███████▏  | 35051/48845 [12:24:54<4:50:05,  1.26s/it] 72%|███████▏  | 35052/48845 [12:24:56<4:50:14,  1.26s/it] 72%|███████▏  | 35053/48845 [12:24:57<4:50:04,  1.26s/it] 72%|███████▏  | 35054/48845 [12:24:58<4:49:59,  1.26s/it] 72%|███████▏  | 35055/48845 [12:24:59<4:54:17,  1.28s/it]                                                          {'loss': 1.9097, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35055/48845 [12:24:59<4:54:17,  1.28s/it] 72%|███████▏  | 35056/48845 [12:25:01<4:53:04,  1.28s/it] 72%|███████▏  | 35057/48845 [12:25:02<4:51:55,  1.27s/it] 72%|███████▏  | 35058/48845 [12:25:03<4:51:14,  1.27s/it] 72%|███████▏  | 35059/48845 [12:25:05<4:56:03,  1.29s/it] 72%|███████▏  | 35060/48845 [12:25:06<4:54:17,  1.28s/it]                                                          {'loss': 2.0293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35060/48845 [12:25:06<4:54:17,  1.28s/it] 72%|███████▏  | 35061/48845 [12:25:07<4:52:51,  1.27s/it] 72%|███████▏  | 35062/48845 [12:25:08<4:52:00,  1.27s/it] 72%|███████▏  | 35063/48845 [12:25:10<4:51:38,  1.27s/it] 72%|███████▏  | 35064/48845 [12:25:11<4:51:23,  1.27s/it] 72%|███████▏  | 35065/48845 [12:25:12<4:50:50,  1.27s/it]                                                          {'loss': 1.9753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35065/48845 [12:25:12<4:50:50,  1.27s/it] 72%|███████▏  | 35066/48845 [12:25:13<4:50:36,  1.27s/it] 72%|███████▏  | 35067/48845 [12:25:15<4:50:16,  1.26s/it] 72%|███████▏  | 35068/48845 [12:25:16<4:49:45,  1.26s/it] 72%|███████▏  | 35069/48845 [12:25:17<4:49:36,  1.26s/it] 72%|███████▏  | 35070/48845 [12:25:18<4:49:25,  1.26s/it]                                                          {'loss': 2.0725, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35070/48845 [12:25:19<4:49:25,  1.26s/it] 72%|███████▏  | 35071/48845 [12:25:20<4:49:55,  1.26s/it] 72%|███████▏  | 35072/48845 [12:25:21<4:49:47,  1.26s/it] 72%|███████▏  | 35073/48845 [12:25:22<4:49:37,  1.26s/it] 72%|███████▏  | 35074/48845 [12:25:24<5:01:31,  1.31s/it] 72%|███████▏  | 35075/48845 [12:25:25<4:58:14,  1.30s/it]                                                          {'loss': 2.0495, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35075/48845 [12:25:25<4:58:14,  1.30s/it] 72%|███████▏  | 35076/48845 [12:25:26<4:55:48,  1.29s/it] 72%|███████▏  | 35077/48845 [12:25:28<4:53:58,  1.28s/it] 72%|███████▏  | 35078/48845 [12:25:29<4:52:41,  1.28s/it] 72%|███████▏  | 35079/48845 [12:25:30<4:52:06,  1.27s/it] 72%|███████▏  | 35080/48845 [12:25:31<4:51:25,  1.27s/it]                                                          {'loss': 1.9709, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35080/48845 [12:25:31<4:51:25,  1.27s/it] 72%|███████▏  | 35081/48845 [12:25:33<4:51:20,  1.27s/it] 72%|███████▏  | 35082/48845 [12:25:34<4:50:39,  1.27s/it] 72%|███████▏  | 35083/48845 [12:25:35<4:50:40,  1.27s/it] 72%|███████▏  | 35084/48845 [12:25:36<4:50:12,  1.27s/it] 72%|███████▏  | 35085/48845 [12:25:38<4:49:51,  1.26s/it]                                                          {'loss': 2.0726, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35085/48845 [12:25:38<4:49:51,  1.26s/it] 72%|███████▏  | 35086/48845 [12:25:39<4:49:44,  1.26s/it] 72%|███████▏  | 35087/48845 [12:25:40<4:49:28,  1.26s/it] 72%|███████▏  | 35088/48845 [12:25:41<4:49:32,  1.26s/it] 72%|███████▏  | 35089/48845 [12:25:43<4:50:05,  1.27s/it] 72%|███████▏  | 35090/48845 [12:25:44<4:49:46,  1.26s/it]                                                          {'loss': 1.957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35090/48845 [12:25:44<4:49:46,  1.26s/it] 72%|███████▏  | 35091/48845 [12:25:45<4:49:40,  1.26s/it] 72%|███████▏  | 35092/48845 [12:25:46<4:49:18,  1.26s/it] 72%|███████▏  | 35093/48845 [12:25:48<4:49:13,  1.26s/it] 72%|███████▏  | 35094/48845 [12:25:49<4:49:06,  1.26s/it] 72%|███████▏  | 35095/48845 [12:25:50<4:49:17,  1.26s/it]                                                          {'loss': 2.1743, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35095/48845 [12:25:50<4:49:17,  1.26s/it] 72%|███████▏  | 35096/48845 [12:25:52<4:49:11,  1.26s/it] 72%|███████▏  | 35097/48845 [12:25:53<4:49:20,  1.26s/it] 72%|███████▏  | 35098/48845 [12:25:54<4:49:21,  1.26s/it] 72%|███████▏  | 35099/48845 [12:25:55<4:49:39,  1.26s/it] 72%|███████▏  | 35100/48845 [12:25:57<4:49:30,  1.26s/it]                                                          {'loss': 1.8798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35100/48845 [12:25:57<4:49:30,  1.26s/it] 72%|███████▏  | 35101/48845 [12:25:58<4:49:51,  1.27s/it] 72%|███████▏  | 35102/48845 [12:25:59<4:49:40,  1.26s/it] 72%|███████▏  | 35103/48845 [12:26:00<4:58:11,  1.30s/it] 72%|███████▏  | 35104/48845 [12:26:02<4:55:19,  1.29s/it] 72%|███████▏  | 35105/48845 [12:26:03<4:53:17,  1.28s/it]                                                          {'loss': 1.9823, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35105/48845 [12:26:03<4:53:17,  1.28s/it] 72%|███████▏  | 35106/48845 [12:26:04<4:51:38,  1.27s/it] 72%|███████▏  | 35107/48845 [12:26:06<4:51:35,  1.27s/it] 72%|███████▏  | 35108/48845 [12:26:07<4:50:41,  1.27s/it] 72%|███████▏  | 35109/48845 [12:26:08<4:50:10,  1.27s/it] 72%|███████▏  | 35110/48845 [12:26:09<4:49:41,  1.27s/it]                                                          {'loss': 2.0737, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35110/48845 [12:26:09<4:49:41,  1.27s/it] 72%|███████▏  | 35111/48845 [12:26:11<4:50:16,  1.27s/it] 72%|███████▏  | 35112/48845 [12:26:12<4:49:56,  1.27s/it] 72%|███████▏  | 35113/48845 [12:26:13<4:49:31,  1.27s/it] 72%|███████▏  | 35114/48845 [12:26:14<4:49:13,  1.26s/it] 72%|███████▏  | 35115/48845 [12:26:16<4:49:15,  1.26s/it]                                                          {'loss': 2.1059, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.59}
+ 72%|███████▏  | 35115/48845 [12:26:16<4:49:15,  1.26s/it] 72%|███████▏  | 35116/48845 [12:26:17<4:49:29,  1.27s/it] 72%|███████▏  | 35117/48845 [12:26:18<4:49:15,  1.26s/it] 72%|███████▏  | 35118/48845 [12:26:19<4:49:34,  1.27s/it] 72%|███████▏  | 35119/48845 [12:26:21<4:49:46,  1.27s/it] 72%|███████▏  | 35120/48845 [12:26:22<4:49:28,  1.27s/it]                                                          {'loss': 2.0316, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35120/48845 [12:26:22<4:49:28,  1.27s/it] 72%|███████▏  | 35121/48845 [12:26:23<4:49:37,  1.27s/it] 72%|███████▏  | 35122/48845 [12:26:25<4:49:21,  1.27s/it] 72%|███████▏  | 35123/48845 [12:26:26<4:51:41,  1.28s/it] 72%|███████▏  | 35124/48845 [12:26:27<4:50:41,  1.27s/it] 72%|███████▏  | 35125/48845 [12:26:28<4:49:54,  1.27s/it]                                                          {'loss': 2.1035, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35125/48845 [12:26:28<4:49:54,  1.27s/it] 72%|███████▏  | 35126/48845 [12:26:30<4:49:09,  1.26s/it] 72%|███████▏  | 35127/48845 [12:26:31<4:49:24,  1.27s/it] 72%|███████▏  | 35128/48845 [12:26:32<4:49:13,  1.27s/it] 72%|███████▏  | 35129/48845 [12:26:33<4:48:59,  1.26s/it] 72%|███████▏  | 35130/48845 [12:26:35<4:48:47,  1.26s/it]                                                          {'loss': 2.0023, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35130/48845 [12:26:35<4:48:47,  1.26s/it] 72%|███████▏  | 35131/48845 [12:26:36<4:49:04,  1.26s/it] 72%|███████▏  | 35132/48845 [12:26:37<4:48:35,  1.26s/it] 72%|███████▏  | 35133/48845 [12:26:38<4:48:33,  1.26s/it] 72%|███████▏  | 35134/48845 [12:26:40<4:48:05,  1.26s/it] 72%|███████▏  | 35135/48845 [12:26:41<4:47:54,  1.26s/it]                                                          {'loss': 1.9617, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35135/48845 [12:26:41<4:47:54,  1.26s/it] 72%|███████▏  | 35136/48845 [12:26:42<4:48:25,  1.26s/it] 72%|███████▏  | 35137/48845 [12:26:43<4:48:31,  1.26s/it] 72%|███████▏  | 35138/48845 [12:26:45<4:48:31,  1.26s/it] 72%|███████▏  | 35139/48845 [12:26:46<4:48:42,  1.26s/it] 72%|███████▏  | 35140/48845 [12:26:47<4:48:32,  1.26s/it]                                                          {'loss': 2.0697, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35140/48845 [12:26:47<4:48:32,  1.26s/it] 72%|███████▏  | 35141/48845 [12:26:49<4:48:30,  1.26s/it] 72%|███████▏  | 35142/48845 [12:26:50<4:48:30,  1.26s/it] 72%|███████▏  | 35143/48845 [12:26:51<4:48:24,  1.26s/it] 72%|███████▏  | 35144/48845 [12:26:52<4:48:13,  1.26s/it] 72%|███████▏  | 35145/48845 [12:26:54<4:48:06,  1.26s/it]                                                          {'loss': 2.0389, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35145/48845 [12:26:54<4:48:06,  1.26s/it] 72%|███████▏  | 35146/48845 [12:26:55<4:48:11,  1.26s/it] 72%|███████▏  | 35147/48845 [12:26:56<4:48:05,  1.26s/it] 72%|███████▏  | 35148/48845 [12:26:57<4:47:45,  1.26s/it] 72%|███████▏  | 35149/48845 [12:26:59<4:47:54,  1.26s/it] 72%|███████▏  | 35150/48845 [12:27:00<4:47:43,  1.26s/it]                                                          {'loss': 1.9864, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35150/48845 [12:27:00<4:47:43,  1.26s/it] 72%|███████▏  | 35151/48845 [12:27:01<4:47:48,  1.26s/it] 72%|███████▏  | 35152/48845 [12:27:02<4:47:53,  1.26s/it] 72%|███████▏  | 35153/48845 [12:27:04<4:47:40,  1.26s/it] 72%|███████▏  | 35154/48845 [12:27:05<4:47:48,  1.26s/it] 72%|███████▏  | 35155/48845 [12:27:06<4:48:12,  1.26s/it]                                                          {'loss': 2.0625, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35155/48845 [12:27:06<4:48:12,  1.26s/it] 72%|███████▏  | 35156/48845 [12:27:07<4:48:21,  1.26s/it] 72%|███████▏  | 35157/48845 [12:27:09<4:47:55,  1.26s/it] 72%|███████▏  | 35158/48845 [12:27:10<4:47:49,  1.26s/it] 72%|███████▏  | 35159/48845 [12:27:11<4:47:26,  1.26s/it] 72%|███████▏  | 35160/48845 [12:27:13<4:47:26,  1.26s/it]                                                          {'loss': 1.9482, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35160/48845 [12:27:13<4:47:26,  1.26s/it] 72%|███████▏  | 35161/48845 [12:27:14<4:47:52,  1.26s/it] 72%|███████▏  | 35162/48845 [12:27:15<4:47:44,  1.26s/it] 72%|███████▏  | 35163/48845 [12:27:16<4:47:46,  1.26s/it] 72%|█████��█▏  | 35164/48845 [12:27:18<4:47:55,  1.26s/it] 72%|███████▏  | 35165/48845 [12:27:19<4:47:43,  1.26s/it]                                                          {'loss': 2.0536, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35165/48845 [12:27:19<4:47:43,  1.26s/it] 72%|███████▏  | 35166/48845 [12:27:20<4:47:38,  1.26s/it] 72%|███████▏  | 35167/48845 [12:27:21<4:47:29,  1.26s/it] 72%|███████▏  | 35168/48845 [12:27:23<4:47:23,  1.26s/it] 72%|███████▏  | 35169/48845 [12:27:24<4:47:20,  1.26s/it] 72%|███████▏  | 35170/48845 [12:27:25<4:47:19,  1.26s/it]                                                          {'loss': 2.2185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35170/48845 [12:27:25<4:47:19,  1.26s/it] 72%|███████▏  | 35171/48845 [12:27:26<4:47:35,  1.26s/it] 72%|███████▏  | 35172/48845 [12:27:28<4:48:02,  1.26s/it] 72%|███████▏  | 35173/48845 [12:27:29<4:47:48,  1.26s/it] 72%|███████▏  | 35174/48845 [12:27:30<4:47:48,  1.26s/it] 72%|███████▏  | 35175/48845 [12:27:31<4:47:39,  1.26s/it]                                                          {'loss': 2.1801, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35175/48845 [12:27:31<4:47:39,  1.26s/it] 72%|███████▏  | 35176/48845 [12:27:33<4:47:51,  1.26s/it] 72%|███████▏  | 35177/48845 [12:27:34<4:47:41,  1.26s/it] 72%|███████▏  | 35178/48845 [12:27:35<4:47:43,  1.26s/it] 72%|███████▏  | 35179/48845 [12:27:36<4:47:41,  1.26s/it] 72%|███████▏  | 35180/48845 [12:27:38<4:47:50,  1.26s/it]                                                          {'loss': 2.0326, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35180/48845 [12:27:38<4:47:50,  1.26s/it] 72%|███████▏  | 35181/48845 [12:27:39<4:48:11,  1.27s/it] 72%|███████▏  | 35182/48845 [12:27:40<4:48:00,  1.26s/it] 72%|███████▏  | 35183/48845 [12:27:42<4:47:34,  1.26s/it] 72%|███████▏  | 35184/48845 [12:27:43<4:47:36,  1.26s/it] 72%|███████▏  | 35185/48845 [12:27:44<4:47:22,  1.26s/it]                                                          {'loss': 1.94, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35185/48845 [12:27:44<4:47:22,  1.26s/it] 72%|███████▏  | 35186/48845 [12:27:45<4:47:26,  1.26s/it] 72%|███████▏  | 35187/48845 [12:27:47<4:47:23,  1.26s/it] 72%|███████▏  | 35188/48845 [12:27:48<4:47:26,  1.26s/it] 72%|███████▏  | 35189/48845 [12:27:49<4:47:30,  1.26s/it] 72%|███████▏  | 35190/48845 [12:27:50<4:47:34,  1.26s/it]                                                          {'loss': 2.1013, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35190/48845 [12:27:50<4:47:34,  1.26s/it] 72%|███████▏  | 35191/48845 [12:27:52<4:47:24,  1.26s/it] 72%|███████▏  | 35192/48845 [12:27:53<4:47:27,  1.26s/it] 72%|███████▏  | 35193/48845 [12:27:54<4:47:42,  1.26s/it] 72%|███████▏  | 35194/48845 [12:27:55<4:47:26,  1.26s/it] 72%|███████▏  | 35195/48845 [12:27:57<4:47:13,  1.26s/it]                                                          {'loss': 1.9531, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35195/48845 [12:27:57<4:47:13,  1.26s/it] 72%|███████▏  | 35196/48845 [12:27:58<4:47:23,  1.26s/it] 72%|███████▏  | 35197/48845 [12:27:59<4:47:11,  1.26s/it] 72%|███████▏  | 35198/48845 [12:28:00<4:47:03,  1.26s/it] 72%|███████▏  | 35199/48845 [12:28:02<4:46:53,  1.26s/it] 72%|███████▏  | 35200/48845 [12:28:03<4:47:11,  1.26s/it]                                                          {'loss': 1.961, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35200/48845 [12:28:03<4:47:11,  1.26s/it] 72%|███████▏  | 35201/48845 [12:28:07<7:40:43,  2.03s/it] 72%|███████▏  | 35202/48845 [12:28:08<6:48:41,  1.80s/it] 72%|███████▏  | 35203/48845 [12:28:09<6:12:25,  1.64s/it] 72%|███████▏  | 35204/48845 [12:28:11<5:46:50,  1.53s/it] 72%|███████▏  | 35205/48845 [12:28:12<5:28:50,  1.45s/it]                                                          {'loss': 2.1169, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35205/48845 [12:28:12<5:28:50,  1.45s/it] 72%|███████▏  | 35206/48845 [12:28:13<5:16:46,  1.39s/it] 72%|███████▏  | 35207/48845 [12:28:14<5:07:42,  1.35s/it] 72%|███████▏  | 35208/48845 [12:28:16<5:01:29,  1.33s/it] 72%|███████▏  | 35209/48845 [12:28:17<4:57:00,  1.31s/it] 72%|███████▏  | 35210/48845 [12:28:18<4:56:08,  1.30s/it]                                                          {'loss': 1.9976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35210/48845 [12:28:18<4:56:08,  1.30s/it] 72%|███████▏  | 35211/48845 [12:28:19<4:53:31,  1.29s/it] 72%|███████▏  | 35212/48845 [12:28:21<4:51:21,  1.28s/it] 72%|███████▏  | 35213/48845 [12:28:22<4:49:44,  1.28s/it] 72%|███████▏  | 35214/48845 [12:28:23<4:49:10,  1.27s/it] 72%|███████▏  | 35215/48845 [12:28:25<4:48:30,  1.27s/it]                                                          {'loss': 1.9782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.6}
+ 72%|███████▏  | 35215/48845 [12:28:25<4:48:30,  1.27s/it] 72%|███████▏  | 35216/48845 [12:28:26<4:47:58,  1.27s/it] 72%|███████▏  | 35217/48845 [12:28:27<4:47:54,  1.27s/it] 72%|███████▏  | 35218/48845 [12:28:28<4:47:31,  1.27s/it] 72%|███████▏  | 35219/48845 [12:28:30<4:47:26,  1.27s/it] 72%|███████▏  | 35220/48845 [12:28:31<4:47:22,  1.27s/it]                                                          {'loss': 2.0287, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35220/48845 [12:28:31<4:47:22,  1.27s/it] 72%|███████▏  | 35221/48845 [12:28:32<4:47:16,  1.27s/it] 72%|███████▏  | 35222/48845 [12:28:33<4:53:24,  1.29s/it] 72%|███████▏  | 35223/48845 [12:28:35<4:51:12,  1.28s/it] 72%|███████▏  | 35224/48845 [12:28:36<4:49:53,  1.28s/it] 72%|███████▏  | 35225/48845 [12:28:37<4:48:49,  1.27s/it]                                                          {'loss': 2.1752, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35225/48845 [12:28:37<4:48:49,  1.27s/it] 72%|███████▏  | 35226/48845 [12:28:39<4:48:47,  1.27s/it] 72%|███████▏  | 35227/48845 [12:28:40<4:47:52,  1.27s/it] 72%|███████▏  | 35228/48845 [12:28:41<4:47:34,  1.27s/it] 72%|███████▏  | 35229/48845 [12:28:42<4:47:00,  1.26s/it] 72%|███████▏  | 35230/48845 [12:28:44<4:54:51,  1.30s/it]                                                          {'loss': 2.063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35230/48845 [12:28:44<4:54:51,  1.30s/it] 72%|███████▏  | 35231/48845 [12:28:45<4:52:27,  1.29s/it] 72%|███████▏  | 35232/48845 [12:28:46<4:50:50,  1.28s/it] 72%|███████▏  | 35233/48845 [12:28:47<4:49:19,  1.28s/it] 72%|███████▏  | 35234/48845 [12:28:49<4:48:36,  1.27s/it] 72%|███████▏  | 35235/48845 [12:28:50<4:47:43,  1.27s/it]                                                          {'loss': 2.0175, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35235/48845 [12:28:50<4:47:43,  1.27s/it] 72%|███████▏  | 35236/48845 [12:28:51<4:47:19,  1.27s/it] 72%|███████▏  | 35237/48845 [12:28:53<4:47:00,  1.27s/it] 72%|███████▏  | 35238/48845 [12:28:54<4:46:42,  1.26s/it] 72%|███████▏  | 35239/48845 [12:28:55<4:46:30,  1.26s/it] 72%|███████▏  | 35240/48845 [12:28:56<4:46:04,  1.26s/it]                                                          {'loss': 2.0645, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35240/48845 [12:28:56<4:46:04,  1.26s/it] 72%|███████▏  | 35241/48845 [12:28:58<4:46:15,  1.26s/it] 72%|███████▏  | 35242/48845 [12:28:59<4:46:21,  1.26s/it] 72%|███████▏  | 35243/48845 [12:29:00<4:46:09,  1.26s/it] 72%|███████▏  | 35244/48845 [12:29:01<4:45:47,  1.26s/it] 72%|███████▏  | 35245/48845 [12:29:03<4:45:39,  1.26s/it]                                                          {'loss': 2.1966, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35245/48845 [12:29:03<4:45:39,  1.26s/it] 72%|███████▏  | 35246/48845 [12:29:04<4:45:55,  1.26s/it] 72%|███████▏  | 35247/48845 [12:29:05<4:46:10,  1.26s/it] 72%|███████▏  | 35248/48845 [12:29:06<4:45:53,  1.26s/it] 72%|███████▏  | 35249/48845 [12:29:08<4:45:58,  1.26s/it] 72%|███████▏  | 35250/48845 [12:29:09<4:46:09,  1.26s/it]                                                          {'loss': 1.9957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35250/48845 [12:29:09<4:46:09,  1.26s/it] 72%|███████▏  | 35251/48845 [12:29:10<4:46:04,  1.26s/it] 72%|███████▏  | 35252/48845 [12:29:11<4:45:49,  1.26s/it] 72%|███████▏  | 35253/48845 [12:29:13<4:45:36,  1.26s/it] 72%|███████▏  | 35254/48845 [12:29:14<4:45:40,  1.26s/it] 72%|███████▏  | 35255/48845 [12:29:15<4:45:59,  1.26s/it]                                                          {'loss': 2.2229, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35255/48845 [12:29:15<4:45:59,  1.26s/it] 72%|███████▏  | 35256/48845 [12:29:17<4:45:50,  1.26s/it] 72%|███████▏  | 35257/48845 [12:29:18<4:45:41,  1.26s/it] 72%|███████▏  | 35258/48845 [12:29:19<4:46:10,  1.26s/it] 72%|███████▏  | 35259/48845 [12:29:20<4:45:54,  1.26s/it] 72%|███████▏  | 35260/48845 [12:29:22<4:45:51,  1.26s/it]                                                          {'loss': 1.977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35260/48845 [12:29:22<4:45:51,  1.26s/it] 72%|███████▏  | 35261/48845 [12:29:23<4:45:45,  1.26s/it] 72%|███████▏  | 35262/48845 [12:29:24<4:45:42,  1.26s/it] 72%|███████▏  | 35263/48845 [12:29:25<4:45:50,  1.26s/it] 72%|███████▏  | 35264/48845 [12:29:27<4:45:44,  1.26s/it] 72%|███████▏  | 35265/48845 [12:29:28<4:45:47,  1.26s/it]                                                          {'loss': 2.0774, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35265/48845 [12:29:28<4:45:47,  1.26s/it] 72%|███████▏  | 35266/48845 [12:29:29<4:52:23,  1.29s/it] 72%|███████▏  | 35267/48845 [12:29:31<4:50:28,  1.28s/it] 72%|███████▏  | 35268/48845 [12:29:32<4:48:49,  1.28s/it] 72%|███████▏  | 35269/48845 [12:29:33<4:47:41,  1.27s/it] 72%|███████▏  | 35270/48845 [12:29:34<4:47:16,  1.27s/it]                                                          {'loss': 2.1321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35270/48845 [12:29:34<4:47:16,  1.27s/it] 72%|███████▏  | 35271/48845 [12:29:36<4:46:56,  1.27s/it] 72%|███████▏  | 35272/48845 [12:29:37<4:46:32,  1.27s/it] 72%|███████▏  | 35273/48845 [12:29:38<4:46:12,  1.27s/it] 72%|███████▏  | 35274/48845 [12:29:39<4:46:11,  1.27s/it] 72%|███████▏  | 35275/48845 [12:29:41<4:46:01,  1.26s/it]                                                          {'loss': 1.9544, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35275/48845 [12:29:41<4:46:01,  1.26s/it] 72%|███████▏  | 35276/48845 [12:29:42<4:46:11,  1.27s/it] 72%|███████▏  | 35277/48845 [12:29:43<4:45:59,  1.26s/it] 72%|███████▏  | 35278/48845 [12:29:44<4:45:42,  1.26s/it] 72%|███████▏  | 35279/48845 [12:29:46<4:45:22,  1.26s/it] 72%|███████▏  | 35280/48845 [12:29:47<4:45:11,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35280/48845 [12:29:47<4:45:11,  1.26s/it] 72%|███████▏  | 35281/48845 [12:29:48<4:45:17,  1.26s/it] 72%|███████▏  | 35282/48845 [12:29:49<4:45:35,  1.26s/it] 72%|███████▏  | 35283/48845 [12:29:51<4:45:15,  1.26s/it] 72%|███████▏  | 35284/48845 [12:29:52<4:45:07,  1.26s/it] 72%|███████▏  | 35285/48845 [12:29:53<4:44:52,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35285/48845 [12:29:53<4:44:52,  1.26s/it] 72%|███████▏  | 35286/48845 [12:29:54<4:45:11,  1.26s/it] 72%|███████▏  | 35287/48845 [12:29:56<4:44:55,  1.26s/it] 72%|███████▏  | 35288/48845 [12:29:57<4:44:35,  1.26s/it] 72%|███████▏  | 35289/48845 [12:29:58<4:44:33,  1.26s/it] 72%|███████▏  | 35290/48845 [12:30:00<4:44:42,  1.26s/it]                                                          {'loss': 1.9933, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35290/48845 [12:30:00<4:44:42,  1.26s/it] 72%|███████▏  | 35291/48845 [12:30:01<4:44:59,  1.26s/it] 72%|███████▏  | 35292/48845 [12:30:02<4:44:55,  1.26s/it] 72%|███████▏  | 35293/48845 [12:30:03<4:45:29,  1.26s/it] 72%|███████▏  | 35294/48845 [12:30:05<4:45:34,  1.26s/it] 72%|███████▏  | 35295/48845 [12:30:06<4:45:12,  1.26s/it]                                                          {'loss': 1.9974, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35295/48845 [12:30:06<4:45:12,  1.26s/it] 72%|███████▏  | 35296/48845 [12:30:07<4:45:05,  1.26s/it] 72%|███████▏  | 35297/48845 [12:30:08<4:45:04,  1.26s/it] 72%|███████▏  | 35298/48845 [12:30:10<4:45:25,  1.26s/it] 72%|███████▏  | 35299/48845 [12:30:11<4:45:09,  1.26s/it] 72%|███████▏  | 35300/48845 [12:30:12<4:44:59,  1.26s/it]                                                          {'loss': 2.1947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35300/48845 [12:30:12<4:44:59,  1.26s/it] 72%|███████▏  | 35301/48845 [12:30:13<4:45:13,  1.26s/it] 72%|███████▏  | 35302/48845 [12:30:15<4:45:36,  1.27s/it] 72%|███████▏  | 35303/48845 [12:30:16<4:45:22,  1.26s/it] 72%|███████▏  | 35304/48845 [12:30:17<4:45:07,  1.26s/it] 72%|███████▏  | 35305/48845 [12:30:18<4:45:01,  1.26s/it]                                                          {'loss': 2.016, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35305/48845 [12:30:18<4:45:01,  1.26s/it] 72%|███████▏  | 35306/48845 [12:30:20<4:45:14,  1.26s/it] 72%|███████▏  | 35307/48845 [12:30:21<4:44:52,  1.26s/it] 72%|███████▏  | 35308/48845 [12:30:22<4:44:34,  1.26s/it] 72%|███████▏  | 35309/48845 [12:30:24<4:44:19,  1.26s/it] 72%|███████▏  | 35310/48845 [12:30:25<4:53:39,  1.30s/it]                                                          {'loss': 2.1639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.61}
+ 72%|███████▏  | 35310/48845 [12:30:25<4:53:39,  1.30s/it] 72%|███████▏  | 35311/48845 [12:30:26<4:51:41,  1.29s/it] 72%|███████▏  | 35312/48845 [12:30:27<4:49:24,  1.28s/it] 72%|███████▏  | 35313/48845 [12:30:29<4:47:42,  1.28s/it] 72%|███████▏  | 35314/48845 [12:30:30<4:46:39,  1.27s/it] 72%|███████▏  | 35315/48845 [12:30:31<4:45:54,  1.27s/it]                                                          {'loss': 1.961, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35315/48845 [12:30:31<4:45:54,  1.27s/it] 72%|███████▏  | 35316/48845 [12:30:32<4:45:15,  1.27s/it] 72%|███████▏  | 35317/48845 [12:30:34<4:44:55,  1.26s/it] 72%|███████▏  | 35318/48845 [12:30:35<4:44:57,  1.26s/it] 72%|███████▏  | 35319/48845 [12:30:36<4:44:21,  1.26s/it] 72%|███████▏  | 35320/48845 [12:30:38<4:44:08,  1.26s/it]                                                          {'loss': 2.1028, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35320/48845 [12:30:38<4:44:08,  1.26s/it] 72%|███████▏  | 35321/48845 [12:30:39<4:44:05,  1.26s/it] 72%|███████▏  | 35322/48845 [12:30:40<4:44:22,  1.26s/it] 72%|███████▏  | 35323/48845 [12:30:41<4:44:31,  1.26s/it] 72%|███████▏  | 35324/48845 [12:30:43<4:44:13,  1.26s/it] 72%|███████▏  | 35325/48845 [12:30:44<4:44:18,  1.26s/it]                                                          {'loss': 2.0878, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35325/48845 [12:30:44<4:44:18,  1.26s/it] 72%|███████▏  | 35326/48845 [12:30:45<4:44:40,  1.26s/it] 72%|███████▏  | 35327/48845 [12:30:46<4:44:23,  1.26s/it] 72%|███████▏  | 35328/48845 [12:30:48<4:44:06,  1.26s/it] 72%|███████▏  | 35329/48845 [12:30:49<4:44:03,  1.26s/it] 72%|███████▏  | 35330/48845 [12:30:50<4:52:21,  1.30s/it]                                                          {'loss': 2.0287, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35330/48845 [12:30:50<4:52:21,  1.30s/it] 72%|███████▏  | 35331/48845 [12:30:52<4:50:03,  1.29s/it] 72%|███████▏  | 35332/48845 [12:30:53<4:48:08,  1.28s/it] 72%|███████▏  | 35333/48845 [12:30:54<4:46:54,  1.27s/it] 72%|███████▏  | 35334/48845 [12:30:55<4:46:34,  1.27s/it] 72%|███████▏  | 35335/48845 [12:30:57<4:46:05,  1.27s/it]                                                          {'loss': 2.0057, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35335/48845 [12:30:57<4:46:05,  1.27s/it] 72%|███████▏  | 35336/48845 [12:30:58<4:45:28,  1.27s/it] 72%|███████▏  | 35337/48845 [12:30:59<4:44:47,  1.27s/it] 72%|███████▏  | 35338/48845 [12:31:00<4:45:32,  1.27s/it] 72%|███████▏  | 35339/48845 [12:31:02<4:45:10,  1.27s/it] 72%|███████▏  | 35340/48845 [12:31:03<4:44:47,  1.27s/it]                                                          {'loss': 2.049, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35340/48845 [12:31:03<4:44:47,  1.27s/it] 72%|███████▏  | 35341/48845 [12:31:04<4:44:16,  1.26s/it] 72%|███████▏  | 35342/48845 [12:31:05<4:44:29,  1.26s/it] 72%|███████▏  | 35343/48845 [12:31:07<4:44:25,  1.26s/it] 72%|███████▏  | 35344/48845 [12:31:08<4:44:18,  1.26s/it] 72%|███████▏  | 35345/48845 [12:31:09<4:44:12,  1.26s/it]                                                          {'loss': 2.0861, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35345/48845 [12:31:09<4:44:12,  1.26s/it] 72%|███████▏  | 35346/48845 [12:31:10<4:44:18,  1.26s/it] 72%|███████▏  | 35347/48845 [12:31:12<4:44:06,  1.26s/it] 72%|███████▏  | 35348/48845 [12:31:13<4:43:57,  1.26s/it] 72%|███████▏  | 35349/48845 [12:31:14<4:43:45,  1.26s/it] 72%|███████▏  | 35350/48845 [12:31:16<4:44:02,  1.26s/it]                                                          {'loss': 1.9293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35350/48845 [12:31:16<4:44:02,  1.26s/it] 72%|███████▏  | 35351/48845 [12:31:17<4:43:41,  1.26s/it] 72%|███████▏  | 35352/48845 [12:31:18<4:43:37,  1.26s/it] 72%|███████▏  | 35353/48845 [12:31:19<4:43:33,  1.26s/it] 72%|███████▏  | 35354/48845 [12:31:21<4:43:30,  1.26s/it] 72%|███████▏  | 35355/48845 [12:31:22<4:43:20,  1.26s/it]                                                          {'loss': 1.9436, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35355/48845 [12:31:22<4:43:20,  1.26s/it] 72%|███████▏  | 35356/48845 [12:31:23<4:44:02,  1.26s/it] 72%|███████▏  | 35357/48845 [12:31:24<4:43:43,  1.26s/it] 72%|███████▏  | 35358/48845 [12:31:26<4:44:00,  1.26s/it] 72%|███████▏  | 35359/48845 [12:31:27<4:43:44,  1.26s/it] 72%|███████▏  | 35360/48845 [12:31:28<4:43:31,  1.26s/it]                                                          {'loss': 2.1676, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35360/48845 [12:31:28<4:43:31,  1.26s/it] 72%|███████▏  | 35361/48845 [12:31:29<4:43:44,  1.26s/it] 72%|███████▏  | 35362/48845 [12:31:31<4:44:01,  1.26s/it] 72%|███████▏  | 35363/48845 [12:31:32<4:43:47,  1.26s/it] 72%|███████▏  | 35364/48845 [12:31:33<4:43:48,  1.26s/it] 72%|███████▏  | 35365/48845 [12:31:34<4:43:38,  1.26s/it]                                                          {'loss': 1.9767, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35365/48845 [12:31:34<4:43:38,  1.26s/it] 72%|███████▏  | 35366/48845 [12:31:36<4:43:52,  1.26s/it] 72%|███████▏  | 35367/48845 [12:31:37<4:43:47,  1.26s/it] 72%|███████▏  | 35368/48845 [12:31:38<4:43:38,  1.26s/it] 72%|███████▏  | 35369/48845 [12:31:40<4:43:20,  1.26s/it] 72%|███████▏  | 35370/48845 [12:31:41<4:43:53,  1.26s/it]                                                          {'loss': 2.0178, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35370/48845 [12:31:41<4:43:53,  1.26s/it] 72%|███████▏  | 35371/48845 [12:31:42<4:43:44,  1.26s/it] 72%|███████▏  | 35372/48845 [12:31:43<4:43:35,  1.26s/it] 72%|███████▏  | 35373/48845 [12:31:45<4:43:23,  1.26s/it] 72%|███████▏  | 35374/48845 [12:31:46<4:43:43,  1.26s/it] 72%|███████▏  | 35375/48845 [12:31:47<4:43:33,  1.26s/it]                                                          {'loss': 2.1091, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35375/48845 [12:31:47<4:43:33,  1.26s/it] 72%|███████▏  | 35376/48845 [12:31:48<4:43:35,  1.26s/it] 72%|███████▏  | 35377/48845 [12:31:50<4:43:24,  1.26s/it] 72%|███████▏  | 35378/48845 [12:31:51<4:43:37,  1.26s/it] 72%|███████▏  | 35379/48845 [12:31:52<4:43:27,  1.26s/it] 72%|███████▏  | 35380/48845 [12:31:53<4:43:20,  1.26s/it]                                                          {'loss': 2.081, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35380/48845 [12:31:53<4:43:20,  1.26s/it] 72%|███████▏  | 35381/48845 [12:31:55<4:43:15,  1.26s/it] 72%|███████▏  | 35382/48845 [12:31:56<4:43:26,  1.26s/it] 72%|█████���█▏  | 35383/48845 [12:31:57<4:43:32,  1.26s/it] 72%|███████▏  | 35384/48845 [12:31:58<4:43:15,  1.26s/it] 72%|███████▏  | 35385/48845 [12:32:00<4:42:52,  1.26s/it]                                                          {'loss': 1.9691, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35385/48845 [12:32:00<4:42:52,  1.26s/it] 72%|███████▏  | 35386/48845 [12:32:01<4:43:10,  1.26s/it] 72%|███████▏  | 35387/48845 [12:32:02<4:42:59,  1.26s/it] 72%|███████▏  | 35388/48845 [12:32:04<4:43:07,  1.26s/it] 72%|███████▏  | 35389/48845 [12:32:05<4:42:39,  1.26s/it] 72%|███████▏  | 35390/48845 [12:32:06<4:42:49,  1.26s/it]                                                          {'loss': 1.8631, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35390/48845 [12:32:06<4:42:49,  1.26s/it] 72%|███████▏  | 35391/48845 [12:32:07<4:43:01,  1.26s/it] 72%|███████▏  | 35392/48845 [12:32:09<4:43:00,  1.26s/it] 72%|███████▏  | 35393/48845 [12:32:10<4:42:53,  1.26s/it] 72%|███████▏  | 35394/48845 [12:32:11<4:42:42,  1.26s/it] 72%|███████▏  | 35395/48845 [12:32:12<4:42:39,  1.26s/it]                                                          {'loss': 2.0132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35395/48845 [12:32:12<4:42:39,  1.26s/it] 72%|███████▏  | 35396/48845 [12:32:14<4:42:48,  1.26s/it] 72%|███████▏  | 35397/48845 [12:32:15<4:42:37,  1.26s/it] 72%|███████▏  | 35398/48845 [12:32:16<4:42:35,  1.26s/it] 72%|███████▏  | 35399/48845 [12:32:17<4:42:34,  1.26s/it] 72%|███████▏  | 35400/48845 [12:32:19<4:42:41,  1.26s/it]                                                          {'loss': 2.026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35400/48845 [12:32:19<4:42:41,  1.26s/it] 72%|███████▏  | 35401/48845 [12:32:22<7:29:39,  2.01s/it] 72%|███████▏  | 35402/48845 [12:32:24<6:39:32,  1.78s/it] 72%|███████▏  | 35403/48845 [12:32:25<6:04:20,  1.63s/it] 72%|███████▏  | 35404/48845 [12:32:26<5:39:30,  1.52s/it] 72%|███████▏  | 35405/48845 [12:32:27<5:22:30,  1.44s/it]                                                          {'loss': 2.061, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35405/48845 [12:32:27<5:22:30,  1.44s/it] 72%|███████▏  | 35406/48845 [12:32:29<5:10:39,  1.39s/it] 72%|███████▏  | 35407/48845 [12:32:30<5:02:07,  1.35s/it] 72%|███████▏  | 35408/48845 [12:32:31<4:56:19,  1.32s/it] 72%|███████▏  | 35409/48845 [12:32:32<4:51:53,  1.30s/it] 72%|███████▏  | 35410/48845 [12:32:34<4:49:20,  1.29s/it]                                                          {'loss': 1.9889, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.62}
+ 72%|███████▏  | 35410/48845 [12:32:34<4:49:20,  1.29s/it] 72%|███████▏  | 35411/48845 [12:32:35<4:47:18,  1.28s/it] 72%|███████▏  | 35412/48845 [12:32:36<4:45:30,  1.28s/it] 73%|███████▎  | 35413/48845 [12:32:38<4:44:23,  1.27s/it] 73%|███████▎  | 35414/48845 [12:32:39<4:51:34,  1.30s/it] 73%|███████▎  | 35415/48845 [12:32:40<4:48:35,  1.29s/it]                                                          {'loss': 2.0293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35415/48845 [12:32:40<4:48:35,  1.29s/it] 73%|███████▎  | 35416/48845 [12:32:41<4:46:49,  1.28s/it] 73%|███████▎  | 35417/48845 [12:32:43<4:45:43,  1.28s/it] 73%|███████▎  | 35418/48845 [12:32:44<4:45:11,  1.27s/it] 73%|███████▎  | 35419/48845 [12:32:45<4:44:11,  1.27s/it] 73%|███████▎  | 35420/48845 [12:32:46<4:43:32,  1.27s/it]                                                          {'loss': 2.1533, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35420/48845 [12:32:46<4:43:32,  1.27s/it] 73%|███████▎  | 35421/48845 [12:32:48<4:43:03,  1.27s/it] 73%|███████▎  | 35422/48845 [12:32:49<4:43:11,  1.27s/it] 73%|███████▎  | 35423/48845 [12:32:50<4:42:54,  1.26s/it] 73%|███████▎  | 35424/48845 [12:32:52<4:42:32,  1.26s/it] 73%|███████▎  | 35425/48845 [12:32:53<4:42:15,  1.26s/it]                                                          {'loss': 2.0486, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35425/48845 [12:32:53<4:42:15,  1.26s/it] 73%|███████▎  | 35426/48845 [12:32:54<4:42:03,  1.26s/it] 73%|███████▎  | 35427/48845 [12:32:55<4:41:58,  1.26s/it] 73%|███████▎  | 35428/48845 [12:32:57<4:41:49,  1.26s/it] 73%|███████▎  | 35429/48845 [12:32:58<4:41:45,  1.26s/it] 73%|███████▎  | 35430/48845 [12:32:59<4:42:00,  1.26s/it]                                                          {'loss': 2.0981, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35430/48845 [12:32:59<4:42:00,  1.26s/it] 73%|███████▎  | 35431/48845 [12:33:00<4:42:08,  1.26s/it] 73%|███████▎  | 35432/48845 [12:33:02<4:41:55,  1.26s/it] 73%|███████▎  | 35433/48845 [12:33:03<4:41:47,  1.26s/it] 73%|███████▎  | 35434/48845 [12:33:04<4:41:45,  1.26s/it] 73%|███████▎  | 35435/48845 [12:33:05<4:41:46,  1.26s/it]                                                          {'loss': 1.952, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35435/48845 [12:33:05<4:41:46,  1.26s/it] 73%|███████▎  | 35436/48845 [12:33:07<4:41:47,  1.26s/it] 73%|███████▎  | 35437/48845 [12:33:08<4:41:46,  1.26s/it] 73%|███████▎  | 35438/48845 [12:33:09<4:42:09,  1.26s/it] 73%|███████▎  | 35439/48845 [12:33:10<4:42:02,  1.26s/it] 73%|███████▎  | 35440/48845 [12:33:12<4:41:44,  1.26s/it]                                                          {'loss': 2.0406, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35440/48845 [12:33:12<4:41:44,  1.26s/it] 73%|███████▎  | 35441/48845 [12:33:13<4:41:43,  1.26s/it] 73%|███████▎  | 35442/48845 [12:33:14<4:42:49,  1.27s/it] 73%|███████▎  | 35443/48845 [12:33:16<4:42:38,  1.27s/it] 73%|███████▎  | 35444/48845 [12:33:17<4:42:09,  1.26s/it] 73%|███████▎  | 35445/48845 [12:33:18<4:42:27,  1.26s/it]                                                          {'loss': 2.1247, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35445/48845 [12:33:18<4:42:27,  1.26s/it] 73%|███████▎  | 35446/48845 [12:33:19<4:42:43,  1.27s/it] 73%|███████▎  | 35447/48845 [12:33:21<4:42:16,  1.26s/it] 73%|███████▎  | 35448/48845 [12:33:22<4:41:52,  1.26s/it] 73%|███████▎  | 35449/48845 [12:33:23<4:41:39,  1.26s/it] 73%|███████▎  | 35450/48845 [12:33:24<4:41:51,  1.26s/it]                                                          {'loss': 2.1668, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35450/48845 [12:33:24<4:41:51,  1.26s/it] 73%|███████▎  | 35451/48845 [12:33:26<4:41:54,  1.26s/it] 73%|███████▎  | 35452/48845 [12:33:27<4:41:52,  1.26s/it] 73%|███████▎  | 35453/48845 [12:33:28<4:41:41,  1.26s/it] 73%|███████▎  | 35454/48845 [12:33:29<4:41:33,  1.26s/it] 73%|███████▎  | 35455/48845 [12:33:31<4:41:33,  1.26s/it]                                                          {'loss': 2.0001, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35455/48845 [12:33:31<4:41:33,  1.26s/it] 73%|███████▎  | 35456/48845 [12:33:32<4:41:25,  1.26s/it] 73%|███████▎  | 35457/48845 [12:33:33<4:41:37,  1.26s/it] 73%|███████▎  | 35458/48845 [12:33:34<4:41:30,  1.26s/it] 73%|███████▎  | 35459/48845 [12:33:36<4:41:21,  1.26s/it] 73%|███████▎  | 35460/48845 [12:33:37<4:41:16,  1.26s/it]                                                          {'loss': 1.912, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35460/48845 [12:33:37<4:41:16,  1.26s/it] 73%|███████▎  | 35461/48845 [12:33:38<4:41:28,  1.26s/it] 73%|███████▎  | 35462/48845 [12:33:39<4:41:42,  1.26s/it] 73%|███████▎  | 35463/48845 [12:33:41<4:41:34,  1.26s/it] 73%|███████▎  | 35464/48845 [12:33:42<4:41:34,  1.26s/it] 73%|███████▎  | 35465/48845 [12:33:43<4:41:34,  1.26s/it]                                                          {'loss': 1.9802, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35465/48845 [12:33:43<4:41:34,  1.26s/it] 73%|███████▎  | 35466/48845 [12:33:45<4:53:18,  1.32s/it] 73%|███████▎  | 35467/48845 [12:33:46<4:49:38,  1.30s/it] 73%|███████▎  | 35468/48845 [12:33:47<4:47:01,  1.29s/it] 73%|███████▎  | 35469/48845 [12:33:48<4:45:09,  1.28s/it] 73%|███████▎  | 35470/48845 [12:33:50<4:44:25,  1.28s/it]                                                          {'loss': 2.0864, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35470/48845 [12:33:50<4:44:25,  1.28s/it] 73%|███████▎  | 35471/48845 [12:33:51<4:43:30,  1.27s/it] 73%|███████▎  | 35472/48845 [12:33:52<4:42:54,  1.27s/it] 73%|███████▎  | 35473/48845 [12:33:54<4:42:03,  1.27s/it] 73%|███████▎  | 35474/48845 [12:33:55<4:43:44,  1.27s/it] 73%|███████▎  | 35475/48845 [12:33:56<4:42:29,  1.27s/it]                                                          {'loss': 2.0095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35475/48845 [12:33:56<4:42:29,  1.27s/it] 73%|███████▎  | 35476/48845 [12:33:57<4:42:03,  1.27s/it] 73%|███████▎  | 35477/48845 [12:33:59<4:41:45,  1.26s/it] 73%|███████▎  | 35478/48845 [12:34:00<4:41:32,  1.26s/it] 73%|███████▎  | 35479/48845 [12:34:01<4:41:21,  1.26s/it] 73%|███████▎  | 35480/48845 [12:34:02<4:41:08,  1.26s/it]                                                          {'loss': 2.0186, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35480/48845 [12:34:02<4:41:08,  1.26s/it] 73%|███████▎  | 35481/48845 [12:34:04<4:41:02,  1.26s/it] 73%|███████▎  | 35482/48845 [12:34:05<4:41:06,  1.26s/it] 73%|███████▎  | 35483/48845 [12:34:06<4:41:40,  1.26s/it] 73%|███████▎  | 35484/48845 [12:34:07<4:41:36,  1.26s/it] 73%|███████▎  | 35485/48845 [12:34:09<4:41:10,  1.26s/it]                                                          {'loss': 1.842, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35485/48845 [12:34:09<4:41:10,  1.26s/it] 73%|███████▎  | 35486/48845 [12:34:10<4:41:30,  1.26s/it] 73%|███████▎  | 35487/48845 [12:34:11<4:41:17,  1.26s/it] 73%|███████▎  | 35488/48845 [12:34:13<4:41:24,  1.26s/it] 73%|███████▎  | 35489/48845 [12:34:14<4:41:22,  1.26s/it] 73%|███████▎  | 35490/48845 [12:34:15<4:40:51,  1.26s/it]                                                          {'loss': 2.1089, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35490/48845 [12:34:15<4:40:51,  1.26s/it] 73%|███████▎  | 35491/48845 [12:34:16<4:40:51,  1.26s/it] 73%|███████▎  | 35492/48845 [12:34:18<4:40:40,  1.26s/it] 73%|███████▎  | 35493/48845 [12:34:19<4:40:37,  1.26s/it] 73%|███████▎  | 35494/48845 [12:34:20<4:41:08,  1.26s/it] 73%|███████▎  | 35495/48845 [12:34:21<4:41:04,  1.26s/it]                                                          {'loss': 2.0003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35495/48845 [12:34:21<4:41:04,  1.26s/it] 73%|███████▎  | 35496/48845 [12:34:23<4:40:55,  1.26s/it] 73%|███████▎  | 35497/48845 [12:34:24<4:40:36,  1.26s/it] 73%|███████▎  | 35498/48845 [12:34:25<4:48:41,  1.30s/it] 73%|███████▎  | 35499/48845 [12:34:27<4:46:09,  1.29s/it] 73%|███████▎  | 35500/48845 [12:34:28<4:45:00,  1.28s/it]                                                          {'loss': 2.2639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35500/48845 [12:34:28<4:45:00,  1.28s/it] 73%|███████▎  | 35501/48845 [12:34:29<4:44:06,  1.28s/it] 73%|███████▎  | 35502/48845 [12:34:30<4:42:57,  1.27s/it] 73%|███████▎  | 35503/48845 [12:34:32<4:42:17,  1.27s/it] 73%|███████▎  | 35504/48845 [12:34:33<4:41:26,  1.27s/it] 73%|███████▎  | 35505/48845 [12:34:34<4:41:02,  1.26s/it]                                                          {'loss': 2.0583, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35505/48845 [12:34:34<4:41:02,  1.26s/it] 73%|███████▎  | 35506/48845 [12:34:35<4:41:17,  1.27s/it] 73%|███████▎  | 35507/48845 [12:34:37<5:13:46,  1.41s/it] 73%|███████▎  | 35508/48845 [12:34:38<5:03:44,  1.37s/it] 73%|███████▎  | 35509/48845 [12:34:40<4:56:31,  1.33s/it] 73%|███████▎  | 35510/48845 [12:34:41<4:51:35,  1.31s/it]                                                          {'loss': 1.9529, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.63}
+ 73%|███████▎  | 35510/48845 [12:34:41<4:51:35,  1.31s/it] 73%|███████▎  | 35511/48845 [12:34:42<4:48:39,  1.30s/it] 73%|███████▎  | 35512/48845 [12:34:43<4:45:56,  1.29s/it] 73%|███████▎  | 35513/48845 [12:34:45<4:44:13,  1.28s/it] 73%|███████▎  | 35514/48845 [12:34:46<4:46:14,  1.29s/it] 73%|███████▎  | 35515/48845 [12:34:47<4:45:14,  1.28s/it]                                                          {'loss': 2.0415, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35515/48845 [12:34:47<4:45:14,  1.28s/it] 73%|███████▎  | 35516/48845 [12:34:49<4:43:35,  1.28s/it] 73%|███████▎  | 35517/48845 [12:34:50<4:42:45,  1.27s/it] 73%|███████▎  | 35518/48845 [12:34:51<4:42:08,  1.27s/it] 73%|███████▎  | 35519/48845 [12:34:52<4:41:49,  1.27s/it] 73%|███████▎  | 35520/48845 [12:34:54<4:41:11,  1.27s/it]                                                          {'loss': 2.0287, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35520/48845 [12:34:54<4:41:11,  1.27s/it] 73%|███████▎  | 35521/48845 [12:34:55<4:41:28,  1.27s/it] 73%|███████▎  | 35522/48845 [12:34:56<4:41:35,  1.27s/it] 73%|███████▎  | 35523/48845 [12:34:57<4:41:05,  1.27s/it] 73%|███████▎  | 35524/48845 [12:34:59<4:40:33,  1.26s/it] 73%|███████▎  | 35525/48845 [12:35:00<4:40:45,  1.26s/it]                                                          {'loss': 2.0118, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35525/48845 [12:35:00<4:40:45,  1.26s/it] 73%|███████▎  | 35526/48845 [12:35:01<4:41:08,  1.27s/it] 73%|███████▎  | 35527/48845 [12:35:02<4:40:34,  1.26s/it] 73%|███████▎  | 35528/48845 [12:35:04<4:40:17,  1.26s/it] 73%|███████▎  | 35529/48845 [12:35:05<4:40:12,  1.26s/it] 73%|███████▎  | 35530/48845 [12:35:06<4:40:32,  1.26s/it]                                                          {'loss': 2.0342, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35530/48845 [12:35:06<4:40:32,  1.26s/it] 73%|███████▎  | 35531/48845 [12:35:07<4:40:22,  1.26s/it] 73%|███████▎  | 35532/48845 [12:35:09<4:40:24,  1.26s/it] 73%|███████▎  | 35533/48845 [12:35:10<4:40:28,  1.26s/it] 73%|███████▎  | 35534/48845 [12:35:11<4:40:17,  1.26s/it] 73%|███████▎  | 35535/48845 [12:35:13<4:40:13,  1.26s/it]                                                          {'loss': 1.8685, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35535/48845 [12:35:13<4:40:13,  1.26s/it] 73%|███████▎  | 35536/48845 [12:35:14<4:40:09,  1.26s/it] 73%|███████▎  | 35537/48845 [12:35:15<4:40:37,  1.27s/it] 73%|███████▎  | 35538/48845 [12:35:16<4:41:11,  1.27s/it] 73%|███████▎  | 35539/48845 [12:35:18<4:40:45,  1.27s/it] 73%|███████▎  | 35540/48845 [12:35:19<4:40:28,  1.26s/it]                                                          {'loss': 1.9476, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35540/48845 [12:35:19<4:40:28,  1.26s/it] 73%|███████▎  | 35541/48845 [12:35:20<4:40:35,  1.27s/it] 73%|███████▎  | 35542/48845 [12:35:22<4:47:38,  1.30s/it] 73%|███████▎  | 35543/48845 [12:35:23<4:45:13,  1.29s/it] 73%|███████▎  | 35544/48845 [12:35:24<4:43:15,  1.28s/it] 73%|███████▎  | 35545/48845 [12:35:25<4:42:04,  1.27s/it]                                                          {'loss': 2.0798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35545/48845 [12:35:25<4:42:04,  1.27s/it] 73%|███████▎  | 35546/48845 [12:35:27<4:42:15,  1.27s/it] 73%|███████▎  | 35547/48845 [12:35:28<4:41:36,  1.27s/it] 73%|███████▎  | 35548/48845 [12:35:29<4:40:53,  1.27s/it] 73%|███████▎  | 35549/48845 [12:35:30<4:41:35,  1.27s/it] 73%|███████▎  | 35550/48845 [12:35:32<4:41:38,  1.27s/it]                                                          {'loss': 2.0106, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35550/48845 [12:35:32<4:41:38,  1.27s/it] 73%|███████▎  | 35551/48845 [12:35:33<4:41:17,  1.27s/it] 73%|███████▎  | 35552/48845 [12:35:34<4:40:46,  1.27s/it] 73%|███████▎  | 35553/48845 [12:35:35<4:40:10,  1.26s/it] 73%|███████▎  | 35554/48845 [12:35:37<4:41:06,  1.27s/it] 73%|███████▎  | 35555/48845 [12:35:38<4:40:35,  1.27s/it]                                                          {'loss': 2.1197, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35555/48845 [12:35:38<4:40:35,  1.27s/it] 73%|███████▎  | 35556/48845 [12:35:39<4:40:25,  1.27s/it] 73%|███████▎  | 35557/48845 [12:35:40<4:40:12,  1.27s/it] 73%|███████▎  | 35558/48845 [12:35:42<4:40:35,  1.27s/it] 73%|███████▎  | 35559/48845 [12:35:43<4:40:00,  1.26s/it] 73%|███████▎  | 35560/48845 [12:35:44<4:39:38,  1.26s/it]                                                          {'loss': 2.0182, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35560/48845 [12:35:44<4:39:38,  1.26s/it] 73%|███████▎  | 35561/48845 [12:35:46<4:39:52,  1.26s/it] 73%|███████▎  | 35562/48845 [12:35:47<4:40:27,  1.27s/it] 73%|███████▎  | 35563/48845 [12:35:48<4:40:03,  1.27s/it] 73%|███████▎  | 35564/48845 [12:35:49<4:39:36,  1.26s/it] 73%|███████▎  | 35565/48845 [12:35:51<4:39:19,  1.26s/it]                                                          {'loss': 2.0819, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35565/48845 [12:35:51<4:39:19,  1.26s/it] 73%|███████▎  | 35566/48845 [12:35:52<4:39:23,  1.26s/it] 73%|███████▎  | 35567/48845 [12:35:53<4:39:05,  1.26s/it] 73%|███████▎  | 35568/48845 [12:35:54<4:38:57,  1.26s/it] 73%|███████▎  | 35569/48845 [12:35:56<4:39:01,  1.26s/it] 73%|███████▎  | 35570/48845 [12:35:57<4:39:18,  1.26s/it]                                                          {'loss': 1.9947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35570/48845 [12:35:57<4:39:18,  1.26s/it] 73%|███████▎  | 35571/48845 [12:35:58<4:39:10,  1.26s/it] 73%|███████▎  | 35572/48845 [12:35:59<4:39:09,  1.26s/it] 73%|███████▎  | 35573/48845 [12:36:01<4:39:06,  1.26s/it] 73%|███████▎  | 35574/48845 [12:36:02<4:39:34,  1.26s/it] 73%|███████▎  | 35575/48845 [12:36:03<4:39:14,  1.26s/it]                                                          {'loss': 2.0177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35575/48845 [12:36:03<4:39:14,  1.26s/it] 73%|███████▎  | 35576/48845 [12:36:04<4:39:20,  1.26s/it] 73%|███████▎  | 35577/48845 [12:36:06<4:39:00,  1.26s/it] 73%|███████▎  | 35578/48845 [12:36:07<4:40:25,  1.27s/it] 73%|███████▎  | 35579/48845 [12:36:08<4:40:05,  1.27s/it] 73%|███████▎  | 35580/48845 [12:36:10<4:40:06,  1.27s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35580/48845 [12:36:10<4:40:06,  1.27s/it] 73%|███████▎  | 35581/48845 [12:36:11<4:39:58,  1.27s/it] 73%|███████▎  | 35582/48845 [12:36:12<4:40:08,  1.27s/it] 73%|███████▎  | 35583/48845 [12:36:13<4:39:33,  1.26s/it] 73%|███████▎  | 35584/48845 [12:36:15<4:39:06,  1.26s/it] 73%|███████▎  | 35585/48845 [12:36:16<4:38:55,  1.26s/it]                                                          {'loss': 2.0687, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35585/48845 [12:36:16<4:38:55,  1.26s/it] 73%|███████▎  | 35586/48845 [12:36:17<4:40:52,  1.27s/it] 73%|███████▎  | 35587/48845 [12:36:18<4:40:10,  1.27s/it] 73%|███████▎  | 35588/48845 [12:36:20<4:39:58,  1.27s/it] 73%|███████▎  | 35589/48845 [12:36:21<4:39:33,  1.27s/it] 73%|███████▎  | 35590/48845 [12:36:22<4:39:50,  1.27s/it]                                                          {'loss': 2.2581, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35590/48845 [12:36:22<4:39:50,  1.27s/it] 73%|███████▎  | 35591/48845 [12:36:23<4:39:48,  1.27s/it] 73%|███████▎  | 35592/48845 [12:36:25<4:39:57,  1.27s/it] 73%|███████▎  | 35593/48845 [12:36:26<4:39:38,  1.27s/it] 73%|███████▎  | 35594/48845 [12:36:27<4:39:36,  1.27s/it] 73%|███████▎  | 35595/48845 [12:36:29<4:39:23,  1.27s/it]                                                          {'loss': 2.002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35595/48845 [12:36:29<4:39:23,  1.27s/it] 73%|███████▎  | 35596/48845 [12:36:30<4:40:13,  1.27s/it] 73%|███████▎  | 35597/48845 [12:36:31<4:39:41,  1.27s/it] 73%|███████▎  | 35598/48845 [12:36:32<4:40:10,  1.27s/it] 73%|███████▎  | 35599/48845 [12:36:34<4:39:47,  1.27s/it] 73%|███████▎  | 35600/48845 [12:36:35<4:39:44,  1.27s/it]                                                          {'loss': 2.1675, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35600/48845 [12:36:35<4:39:44,  1.27s/it] 73%|███████▎  | 35601/48845 [12:36:39<7:26:58,  2.02s/it] 73%|���██████▎  | 35602/48845 [12:36:40<6:36:39,  1.80s/it] 73%|███████▎  | 35603/48845 [12:36:41<6:01:16,  1.64s/it] 73%|███████▎  | 35604/48845 [12:36:42<5:36:59,  1.53s/it] 73%|███████▎  | 35605/48845 [12:36:44<5:19:48,  1.45s/it]                                                          {'loss': 2.1364, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.64}
+ 73%|███████▎  | 35605/48845 [12:36:44<5:19:48,  1.45s/it] 73%|███████▎  | 35606/48845 [12:36:45<5:07:12,  1.39s/it] 73%|███████▎  | 35607/48845 [12:36:46<4:58:49,  1.35s/it] 73%|███████▎  | 35608/48845 [12:36:48<4:52:50,  1.33s/it] 73%|███████▎  | 35609/48845 [12:36:49<4:48:14,  1.31s/it] 73%|███████▎  | 35610/48845 [12:36:50<4:45:05,  1.29s/it]                                                          {'loss': 2.0182, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35610/48845 [12:36:50<4:45:05,  1.29s/it] 73%|███████▎  | 35611/48845 [12:36:51<4:43:04,  1.28s/it] 73%|███████▎  | 35612/48845 [12:36:53<4:41:50,  1.28s/it] 73%|███████▎  | 35613/48845 [12:36:54<4:40:51,  1.27s/it] 73%|███████▎  | 35614/48845 [12:36:55<4:40:05,  1.27s/it] 73%|███████▎  | 35615/48845 [12:36:56<4:39:35,  1.27s/it]                                                          {'loss': 1.9818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35615/48845 [12:36:56<4:39:35,  1.27s/it] 73%|███████▎  | 35616/48845 [12:36:58<4:39:58,  1.27s/it] 73%|███████▎  | 35617/48845 [12:36:59<4:39:45,  1.27s/it] 73%|███████▎  | 35618/48845 [12:37:00<4:39:14,  1.27s/it] 73%|███████▎  | 35619/48845 [12:37:01<4:38:56,  1.27s/it] 73%|███████▎  | 35620/48845 [12:37:03<4:39:18,  1.27s/it]                                                          {'loss': 2.0538, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35620/48845 [12:37:03<4:39:18,  1.27s/it] 73%|███████▎  | 35621/48845 [12:37:04<4:39:14,  1.27s/it] 73%|███████▎  | 35622/48845 [12:37:05<4:39:00,  1.27s/it] 73%|███████▎  | 35623/48845 [12:37:06<4:38:23,  1.26s/it] 73%|███████▎  | 35624/48845 [12:37:08<4:38:22,  1.26s/it] 73%|███████▎  | 35625/48845 [12:37:09<4:38:05,  1.26s/it]                                                          {'loss': 2.0974, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35625/48845 [12:37:09<4:38:05,  1.26s/it] 73%|███████▎  | 35626/48845 [12:37:10<4:38:41,  1.26s/it] 73%|███████▎  | 35627/48845 [12:37:12<4:38:22,  1.26s/it] 73%|███████▎  | 35628/48845 [12:37:13<4:38:07,  1.26s/it] 73%|███████▎  | 35629/48845 [12:37:14<4:38:01,  1.26s/it] 73%|███████▎  | 35630/48845 [12:37:15<4:37:54,  1.26s/it]                                                          {'loss': 1.9713, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35630/48845 [12:37:15<4:37:54,  1.26s/it] 73%|███████▎  | 35631/48845 [12:37:17<4:38:40,  1.27s/it] 73%|███████▎  | 35632/48845 [12:37:18<4:38:26,  1.26s/it] 73%|███████▎  | 35633/48845 [12:37:19<4:38:08,  1.26s/it] 73%|███████▎  | 35634/48845 [12:37:20<4:37:51,  1.26s/it] 73%|███████▎  | 35635/48845 [12:37:22<4:38:13,  1.26s/it]                                                          {'loss': 1.9857, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35635/48845 [12:37:22<4:38:13,  1.26s/it] 73%|███████▎  | 35636/48845 [12:37:23<4:38:23,  1.26s/it] 73%|███████▎  | 35637/48845 [12:37:24<4:38:33,  1.27s/it] 73%|███████▎  | 35638/48845 [12:37:25<4:38:16,  1.26s/it] 73%|███████▎  | 35639/48845 [12:37:27<4:38:21,  1.26s/it] 73%|███████▎  | 35640/48845 [12:37:28<4:37:56,  1.26s/it]                                                          {'loss': 1.9139, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35640/48845 [12:37:28<4:37:56,  1.26s/it] 73%|███████▎  | 35641/48845 [12:37:29<4:38:21,  1.26s/it] 73%|███████▎  | 35642/48845 [12:37:31<4:38:07,  1.26s/it] 73%|███████▎  | 35643/48845 [12:37:32<4:38:09,  1.26s/it] 73%|███████▎  | 35644/48845 [12:37:33<4:38:08,  1.26s/it] 73%|███████▎  | 35645/48845 [12:37:34<4:38:21,  1.27s/it]                                                          {'loss': 2.0847, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35645/48845 [12:37:34<4:38:21,  1.27s/it] 73%|███████▎  | 35646/48845 [12:37:36<4:38:30,  1.27s/it] 73%|███████▎  | 35647/48845 [12:37:37<4:38:18,  1.27s/it] 73%|███████▎  | 35648/48845 [12:37:38<4:38:21,  1.27s/it] 73%|███████▎  | 35649/48845 [12:37:39<4:38:04,  1.26s/it] 73%|███████▎  | 35650/48845 [12:37:41<4:37:39,  1.26s/it]                                                          {'loss': 1.9852, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35650/48845 [12:37:41<4:37:39,  1.26s/it] 73%|███████▎  | 35651/48845 [12:37:42<4:38:42,  1.27s/it] 73%|███████▎  | 35652/48845 [12:37:43<4:38:16,  1.27s/it] 73%|███████▎  | 35653/48845 [12:37:44<4:37:52,  1.26s/it] 73%|███████▎  | 35654/48845 [12:37:46<4:37:36,  1.26s/it] 73%|███████▎  | 35655/48845 [12:37:47<4:37:29,  1.26s/it]                                                          {'loss': 1.8805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35655/48845 [12:37:47<4:37:29,  1.26s/it] 73%|███████▎  | 35656/48845 [12:37:48<4:37:49,  1.26s/it] 73%|███████▎  | 35657/48845 [12:37:49<4:37:44,  1.26s/it] 73%|███████▎  | 35658/48845 [12:37:51<4:38:00,  1.26s/it] 73%|███████▎  | 35659/48845 [12:37:52<4:38:01,  1.27s/it] 73%|███████▎  | 35660/48845 [12:37:53<4:37:50,  1.26s/it]                                                          {'loss': 2.1255, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35660/48845 [12:37:53<4:37:50,  1.26s/it] 73%|███████▎  | 35661/48845 [12:37:55<4:38:03,  1.27s/it] 73%|███████▎  | 35662/48845 [12:37:56<4:37:39,  1.26s/it] 73%|███████▎  | 35663/48845 [12:37:57<4:37:30,  1.26s/it] 73%|███████▎  | 35664/48845 [12:37:58<4:37:10,  1.26s/it] 73%|███████▎  | 35665/48845 [12:38:00<4:36:57,  1.26s/it]                                                          {'loss': 2.0522, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35665/48845 [12:38:00<4:36:57,  1.26s/it] 73%|███████▎  | 35666/48845 [12:38:01<4:37:42,  1.26s/it] 73%|███████▎  | 35667/48845 [12:38:02<4:39:21,  1.27s/it] 73%|███████▎  | 35668/48845 [12:38:03<4:38:50,  1.27s/it] 73%|███████▎  | 35669/48845 [12:38:05<4:38:03,  1.27s/it] 73%|███████▎  | 35670/48845 [12:38:06<4:37:38,  1.26s/it]                                                          {'loss': 2.1769, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35670/48845 [12:38:06<4:37:38,  1.26s/it] 73%|███████▎  | 35671/48845 [12:38:07<4:38:26,  1.27s/it] 73%|███████▎  | 35672/48845 [12:38:08<4:38:21,  1.27s/it] 73%|███████▎  | 35673/48845 [12:38:10<4:37:42,  1.26s/it] 73%|███████▎  | 35674/48845 [12:38:11<4:37:45,  1.27s/it] 73%|███████▎  | 35675/48845 [12:38:12<4:37:58,  1.27s/it]                                                          {'loss': 2.0621, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35675/48845 [12:38:12<4:37:58,  1.27s/it] 73%|███████▎  | 35676/48845 [12:38:14<4:38:12,  1.27s/it] 73%|███████▎  | 35677/48845 [12:38:15<4:37:50,  1.27s/it] 73%|███████▎  | 35678/48845 [12:38:16<4:37:27,  1.26s/it] 73%|███████▎  | 35679/48845 [12:38:17<4:37:24,  1.26s/it] 73%|███████▎  | 35680/48845 [12:38:19<4:37:09,  1.26s/it]                                                          {'loss': 1.9467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35680/48845 [12:38:19<4:37:09,  1.26s/it] 73%|███████▎  | 35681/48845 [12:38:20<4:37:00,  1.26s/it] 73%|███████▎  | 35682/48845 [12:38:21<4:36:52,  1.26s/it] 73%|███████▎  | 35683/48845 [12:38:22<4:37:33,  1.27s/it] 73%|███████▎  | 35684/48845 [12:38:24<4:37:06,  1.26s/it] 73%|███████▎  | 35685/48845 [12:38:25<4:36:49,  1.26s/it]                                                          {'loss': 2.0442, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35685/48845 [12:38:25<4:36:49,  1.26s/it] 73%|███████▎  | 35686/48845 [12:38:26<4:36:45,  1.26s/it] 73%|███████▎  | 35687/48845 [12:38:27<4:37:11,  1.26s/it] 73%|███████▎  | 35688/48845 [12:38:29<4:37:26,  1.27s/it] 73%|███████▎  | 35689/48845 [12:38:30<4:37:07,  1.26s/it] 73%|███████▎  | 35690/48845 [12:38:31<4:36:45,  1.26s/it]                                                          {'loss': 2.0864, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35690/48845 [12:38:31<4:36:45,  1.26s/it] 73%|███████▎  | 35691/48845 [12:38:32<4:37:14,  1.26s/it] 73%|███████▎  | 35692/48845 [12:38:34<4:36:43,  1.26s/it] 73%|███████▎  | 35693/48845 [12:38:35<4:36:42,  1.26s/it] 73%|███████▎  | 35694/48845 [12:38:36<4:36:30,  1.26s/it] 73%|███████▎  | 35695/48845 [12:38:38<4:36:35,  1.26s/it]                                                          {'loss': 2.0158, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35695/48845 [12:38:38<4:36:35,  1.26s/it] 73%|███████▎  | 35696/48845 [12:38:39<4:36:49,  1.26s/it] 73%|███████▎  | 35697/48845 [12:38:40<4:36:42,  1.26s/it] 73%|███████▎  | 35698/48845 [12:38:41<4:36:37,  1.26s/it] 73%|███████▎  | 35699/48845 [12:38:43<4:37:06,  1.26s/it] 73%|███████▎  | 35700/48845 [12:38:44<4:37:02,  1.26s/it]                                                          {'loss': 2.0932, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35700/48845 [12:38:44<4:37:02,  1.26s/it] 73%|███████▎  | 35701/48845 [12:38:45<4:37:25,  1.27s/it] 73%|███████▎  | 35702/48845 [12:38:46<4:37:13,  1.27s/it] 73%|███████▎  | 35703/48845 [12:38:48<4:37:32,  1.27s/it] 73%|███████▎  | 35704/48845 [12:38:49<4:37:36,  1.27s/it] 73%|███████▎  | 35705/48845 [12:38:50<4:37:31,  1.27s/it]                                                          {'loss': 1.9994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.65}
+ 73%|███████▎  | 35705/48845 [12:38:50<4:37:31,  1.27s/it] 73%|███████▎  | 35706/48845 [12:38:51<4:37:31,  1.27s/it] 73%|███████▎  | 35707/48845 [12:38:53<4:38:16,  1.27s/it] 73%|███████▎  | 35708/48845 [12:38:54<4:37:42,  1.27s/it] 73%|███████▎  | 35709/48845 [12:38:55<4:37:05,  1.27s/it] 73%|███████▎  | 35710/48845 [12:38:57<4:37:06,  1.27s/it]                                                          {'loss': 2.111, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35710/48845 [12:38:57<4:37:06,  1.27s/it] 73%|███████▎  | 35711/48845 [12:38:58<4:37:15,  1.27s/it] 73%|███████▎  | 35712/48845 [12:38:59<4:37:03,  1.27s/it] 73%|███████▎  | 35713/48845 [12:39:00<4:36:50,  1.26s/it] 73%|███████▎  | 35714/48845 [12:39:02<4:37:09,  1.27s/it] 73%|███████▎  | 35715/48845 [12:39:03<4:37:04,  1.27s/it]                                                          {'loss': 1.9097, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35715/48845 [12:39:03<4:37:04,  1.27s/it] 73%|███████▎  | 35716/48845 [12:39:04<4:37:06,  1.27s/it] 73%|███████▎  | 35717/48845 [12:39:05<4:36:50,  1.27s/it] 73%|███████▎  | 35718/48845 [12:39:07<4:36:28,  1.26s/it] 73%|███████▎  | 35719/48845 [12:39:08<4:38:27,  1.27s/it] 73%|███████▎  | 35720/48845 [12:39:09<4:37:48,  1.27s/it]                                                          {'loss': 2.1084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35720/48845 [12:39:09<4:37:48,  1.27s/it] 73%|███████▎  | 35721/48845 [12:39:10<4:37:09,  1.27s/it] 73%|███████▎  | 35722/48845 [12:39:12<4:36:43,  1.27s/it] 73%|███████▎  | 35723/48845 [12:39:13<4:36:35,  1.26s/it] 73%|███████▎  | 35724/48845 [12:39:14<4:36:35,  1.26s/it] 73%|███████▎  | 35725/48845 [12:39:16<4:36:16,  1.26s/it]                                                          {'loss': 1.9586, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35725/48845 [12:39:16<4:36:16,  1.26s/it] 73%|███████▎  | 35726/48845 [12:39:17<4:36:24,  1.26s/it] 73%|███████▎  | 35727/48845 [12:39:18<4:36:22,  1.26s/it] 73%|███████▎  | 35728/48845 [12:39:19<4:36:10,  1.26s/it] 73%|███████▎  | 35729/48845 [12:39:21<4:36:08,  1.26s/it] 73%|███████▎  | 35730/48845 [12:39:22<4:36:04,  1.26s/it]                                                          {'loss': 2.0391, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35730/48845 [12:39:22<4:36:04,  1.26s/it] 73%|███████▎  | 35731/48845 [12:39:23<4:36:18,  1.26s/it] 73%|███████▎  | 35732/48845 [12:39:24<4:36:07,  1.26s/it] 73%|███████▎  | 35733/48845 [12:39:26<4:35:51,  1.26s/it] 73%|███████▎  | 35734/48845 [12:39:27<4:35:54,  1.26s/it] 73%|███████▎  | 35735/48845 [12:39:28<4:35:44,  1.26s/it]                                                          {'loss': 2.0465, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35735/48845 [12:39:28<4:35:44,  1.26s/it] 73%|███████▎  | 35736/48845 [12:39:29<4:35:45,  1.26s/it] 73%|███████▎  | 35737/48845 [12:39:31<4:35:24,  1.26s/it] 73%|███████▎  | 35738/48845 [12:39:32<4:35:26,  1.26s/it] 73%|███████▎  | 35739/48845 [12:39:33<4:36:24,  1.27s/it] 73%|███████▎  | 35740/48845 [12:39:34<4:36:13,  1.26s/it]                                                          {'loss': 2.0949, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35740/48845 [12:39:34<4:36:13,  1.26s/it] 73%|███████▎  | 35741/48845 [12:39:36<4:36:24,  1.27s/it] 73%|███████▎  | 35742/48845 [12:39:37<4:36:11,  1.26s/it] 73%|███████▎  | 35743/48845 [12:39:38<4:38:16,  1.27s/it] 73%|███████▎  | 35744/48845 [12:39:40<4:37:31,  1.27s/it] 73%|███████▎  | 35745/48845 [12:39:41<4:37:07,  1.27s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35745/48845 [12:39:41<4:37:07,  1.27s/it] 73%|███████▎  | 35746/48845 [12:39:42<4:37:14,  1.27s/it] 73%|███████▎  | 35747/48845 [12:39:43<4:36:45,  1.27s/it] 73%|███████▎  | 35748/48845 [12:39:45<4:36:22,  1.27s/it] 73%|███████▎  | 35749/48845 [12:39:46<4:36:19,  1.27s/it] 73%|███████▎  | 35750/48845 [12:39:47<4:36:11,  1.27s/it]                                                          {'loss': 2.307, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35750/48845 [12:39:47<4:36:11,  1.27s/it] 73%|███████▎  | 35751/48845 [12:39:48<4:36:53,  1.27s/it] 73%|███████▎  | 35752/48845 [12:39:50<4:36:23,  1.27s/it] 73%|███████▎  | 35753/48845 [12:39:51<4:36:15,  1.27s/it] 73%|███████▎  | 35754/48845 [12:39:52<4:36:03,  1.27s/it] 73%|███████▎  | 35755/48845 [12:39:53<4:36:15,  1.27s/it]                                                          {'loss': 1.9648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35755/48845 [12:39:53<4:36:15,  1.27s/it] 73%|███████▎  | 35756/48845 [12:39:55<4:36:07,  1.27s/it] 73%|███████▎  | 35757/48845 [12:39:56<4:35:57,  1.27s/it] 73%|███████▎  | 35758/48845 [12:39:57<4:36:10,  1.27s/it] 73%|███████▎  | 35759/48845 [12:39:59<4:35:51,  1.26s/it] 73%|███████▎  | 35760/48845 [12:40:00<4:35:38,  1.26s/it]                                                          {'loss': 1.9165, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35760/48845 [12:40:00<4:35:38,  1.26s/it] 73%|███████▎  | 35761/48845 [12:40:01<4:35:54,  1.27s/it] 73%|███████▎  | 35762/48845 [12:40:02<4:35:59,  1.27s/it] 73%|███████▎  | 35763/48845 [12:40:04<4:36:00,  1.27s/it] 73%|███████▎  | 35764/48845 [12:40:05<4:35:55,  1.27s/it] 73%|███████▎  | 35765/48845 [12:40:06<4:35:47,  1.27s/it]                                                          {'loss': 1.992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35765/48845 [12:40:06<4:35:47,  1.27s/it] 73%|███████▎  | 35766/48845 [12:40:07<4:36:12,  1.27s/it] 73%|███████▎  | 35767/48845 [12:40:09<4:36:05,  1.27s/it] 73%|███████▎  | 35768/48845 [12:40:10<4:37:22,  1.27s/it] 73%|███████▎  | 35769/48845 [12:40:11<4:36:30,  1.27s/it] 73%|███████▎  | 35770/48845 [12:40:12<4:36:13,  1.27s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35770/48845 [12:40:12<4:36:13,  1.27s/it] 73%|███████▎  | 35771/48845 [12:40:14<4:37:09,  1.27s/it] 73%|███████▎  | 35772/48845 [12:40:15<4:36:33,  1.27s/it] 73%|███████▎  | 35773/48845 [12:40:16<4:36:12,  1.27s/it] 73%|███████▎  | 35774/48845 [12:40:18<4:35:55,  1.27s/it] 73%|███████▎  | 35775/48845 [12:40:19<4:38:17,  1.28s/it]                                                          {'loss': 2.0935, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35775/48845 [12:40:19<4:38:17,  1.28s/it] 73%|███████▎  | 35776/48845 [12:40:20<4:37:31,  1.27s/it] 73%|███████▎  | 35777/48845 [12:40:21<4:37:06,  1.27s/it] 73%|███████▎  | 35778/48845 [12:40:23<4:36:17,  1.27s/it] 73%|███████▎  | 35779/48845 [12:40:24<4:37:08,  1.27s/it] 73%|███████▎  | 35780/48845 [12:40:25<4:36:32,  1.27s/it]                                                          {'loss': 2.0732, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35780/48845 [12:40:25<4:36:32,  1.27s/it] 73%|███████▎  | 35781/48845 [12:40:26<4:36:06,  1.27s/it] 73%|███████▎  | 35782/48845 [12:40:28<4:35:49,  1.27s/it] 73%|███████▎  | 35783/48845 [12:40:29<4:36:25,  1.27s/it] 73%|███████▎  | 35784/48845 [12:40:30<4:36:06,  1.27s/it] 73%|███████▎  | 35785/48845 [12:40:32<4:35:31,  1.27s/it]                                                          {'loss': 2.194, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35785/48845 [12:40:32<4:35:31,  1.27s/it] 73%|███████▎  | 35786/48845 [12:40:33<4:35:49,  1.27s/it] 73%|███████▎  | 35787/48845 [12:40:34<4:35:25,  1.27s/it] 73%|███████▎  | 35788/48845 [12:40:35<4:35:06,  1.26s/it] 73%|███████▎  | 35789/48845 [12:40:37<4:34:54,  1.26s/it] 73%|███████▎  | 35790/48845 [12:40:38<4:34:33,  1.26s/it]                                                          {'loss': 2.0386, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35790/48845 [12:40:38<4:34:33,  1.26s/it] 73%|███████▎  | 35791/48845 [12:40:39<4:34:50,  1.26s/it] 73%|███████▎  | 35792/48845 [12:40:40<4:34:56,  1.26s/it] 73%|███████▎  | 35793/48845 [12:40:42<4:34:59,  1.26s/it] 73%|███████▎  | 35794/48845 [12:40:43<4:34:44,  1.26s/it] 73%|███████▎  | 35795/48845 [12:40:44<4:43:50,  1.30s/it]                                                          {'loss': 2.109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35795/48845 [12:40:44<4:43:50,  1.30s/it] 73%|███████▎  | 35796/48845 [12:40:46<4:41:04,  1.29s/it] 73%|███████▎  | 35797/48845 [12:40:47<4:39:00,  1.28s/it] 73%|███████▎  | 35798/48845 [12:40:48<4:37:32,  1.28s/it] 73%|███████▎  | 35799/48845 [12:40:49<4:37:14,  1.28s/it] 73%|███████▎  | 35800/48845 [12:40:51<4:36:31,  1.27s/it]                                                          {'loss': 2.0376, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.66}
+ 73%|███████▎  | 35800/48845 [12:40:51<4:36:31,  1.27s/it] 73%|███████▎  | 35801/48845 [12:40:54<7:22:39,  2.04s/it] 73%|███████▎  | 35802/48845 [12:40:56<6:32:03,  1.80s/it] 73%|███████▎  | 35803/48845 [12:40:57<5:56:32,  1.64s/it] 73%|███████▎  | 35804/48845 [12:40:58<5:31:53,  1.53s/it] 73%|███████▎  | 35805/48845 [12:40:59<5:14:45,  1.45s/it]                                                          {'loss': 2.2509, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35805/48845 [12:40:59<5:14:45,  1.45s/it] 73%|███████▎  | 35806/48845 [12:41:01<5:03:08,  1.39s/it] 73%|███████▎  | 35807/48845 [12:41:02<4:54:27,  1.36s/it] 73%|███████▎  | 35808/48845 [12:41:03<4:48:32,  1.33s/it] 73%|███████▎  | 35809/48845 [12:41:05<4:44:23,  1.31s/it] 73%|███████▎  | 35810/48845 [12:41:06<4:41:05,  1.29s/it]                                                          {'loss': 1.9315, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35810/48845 [12:41:06<4:41:05,  1.29s/it] 73%|███████▎  | 35811/48845 [12:41:07<4:39:02,  1.28s/it] 73%|███████▎  | 35812/48845 [12:41:08<4:37:17,  1.28s/it] 73%|███████▎  | 35813/48845 [12:41:10<4:36:34,  1.27s/it] 73%|███████▎  | 35814/48845 [12:41:11<4:35:37,  1.27s/it] 73%|███████▎  | 35815/48845 [12:41:12<4:35:39,  1.27s/it]                                                          {'loss': 2.1133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35815/48845 [12:41:12<4:35:39,  1.27s/it] 73%|███████▎  | 35816/48845 [12:41:13<4:35:10,  1.27s/it] 73%|███████▎  | 35817/48845 [12:41:15<4:34:51,  1.27s/it] 73%|███████▎  | 35818/48845 [12:41:16<4:34:36,  1.26s/it] 73%|███████▎  | 35819/48845 [12:41:17<4:34:01,  1.26s/it] 73%|███████▎  | 35820/48845 [12:41:18<4:33:57,  1.26s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35820/48845 [12:41:18<4:33:57,  1.26s/it] 73%|███████▎  | 35821/48845 [12:41:20<4:34:50,  1.27s/it] 73%|███████▎  | 35822/48845 [12:41:21<4:34:19,  1.26s/it] 73%|███████▎  | 35823/48845 [12:41:22<4:33:57,  1.26s/it] 73%|███████▎  | 35824/48845 [12:41:23<4:33:48,  1.26s/it] 73%|███████▎  | 35825/48845 [12:41:25<4:49:52,  1.34s/it]                                                          {'loss': 2.1579, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35825/48845 [12:41:25<4:49:52,  1.34s/it] 73%|███████▎  | 35826/48845 [12:41:26<4:45:08,  1.31s/it] 73%|███████▎  | 35827/48845 [12:41:28<4:41:27,  1.30s/it] 73%|███████▎  | 35828/48845 [12:41:29<4:38:56,  1.29s/it] 73%|███████▎  | 35829/48845 [12:41:30<4:37:26,  1.28s/it] 73%|███████▎  | 35830/48845 [12:41:31<4:36:24,  1.27s/it]                                                          {'loss': 1.9548, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35830/48845 [12:41:31<4:36:24,  1.27s/it] 73%|███████▎  | 35831/48845 [12:41:33<4:35:35,  1.27s/it] 73%|███████▎  | 35832/48845 [12:41:34<4:34:49,  1.27s/it] 73%|███████▎  | 35833/48845 [12:41:35<4:34:36,  1.27s/it] 73%|███████▎  | 35834/48845 [12:41:36<4:34:27,  1.27s/it] 73%|███████▎  | 35835/48845 [12:41:38<4:33:47,  1.26s/it]                                                          {'loss': 2.0868, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35835/48845 [12:41:38<4:33:47,  1.26s/it] 73%|███████▎  | 35836/48845 [12:41:39<4:33:54,  1.26s/it] 73%|███████▎  | 35837/48845 [12:41:40<4:33:47,  1.26s/it] 73%|███████▎  | 35838/48845 [12:41:41<4:33:48,  1.26s/it] 73%|███████▎  | 35839/48845 [12:41:43<4:33:42,  1.26s/it] 73%|███████▎  | 35840/48845 [12:41:44<4:33:43,  1.26s/it]                                                          {'loss': 2.0367, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35840/48845 [12:41:44<4:33:43,  1.26s/it] 73%|███████▎  | 35841/48845 [12:41:45<4:34:38,  1.27s/it] 73%|███████▎  | 35842/48845 [12:41:46<4:34:08,  1.26s/it] 73%|███████▎  | 35843/48845 [12:41:48<4:33:47,  1.26s/it] 73%|███████▎  | 35844/48845 [12:41:49<4:33:53,  1.26s/it] 73%|███████▎  | 35845/48845 [12:41:50<4:33:43,  1.26s/it]                                                          {'loss': 1.8887, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35845/48845 [12:41:50<4:33:43,  1.26s/it] 73%|███████▎  | 35846/48845 [12:41:51<4:33:41,  1.26s/it] 73%|███████▎  | 35847/48845 [12:41:53<4:33:31,  1.26s/it] 73%|███████▎  | 35848/48845 [12:41:54<4:33:23,  1.26s/it] 73%|███████▎  | 35849/48845 [12:41:55<4:33:33,  1.26s/it] 73%|███████▎  | 35850/48845 [12:41:57<4:33:22,  1.26s/it]                                                          {'loss': 2.109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35850/48845 [12:41:57<4:33:22,  1.26s/it] 73%|███████▎  | 35851/48845 [12:41:58<4:33:20,  1.26s/it] 73%|███████▎  | 35852/48845 [12:41:59<4:33:21,  1.26s/it] 73%|███████▎  | 35853/48845 [12:42:01<4:44:51,  1.32s/it] 73%|███████▎  | 35854/48845 [12:42:02<4:41:15,  1.30s/it] 73%|███████▎  | 35855/48845 [12:42:03<4:38:43,  1.29s/it]                                                          {'loss': 1.9382, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35855/48845 [12:42:03<4:38:43,  1.29s/it] 73%|███████▎  | 35856/48845 [12:42:04<4:38:39,  1.29s/it] 73%|███████▎  | 35857/48845 [12:42:06<4:37:43,  1.28s/it] 73%|███████▎  | 35858/48845 [12:42:07<4:36:18,  1.28s/it] 73%|███████▎  | 35859/48845 [12:42:08<4:35:11,  1.27s/it] 73%|███████▎  | 35860/48845 [12:42:09<4:34:54,  1.27s/it]                                                          {'loss': 2.0641, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35860/48845 [12:42:09<4:34:54,  1.27s/it] 73%|███████▎  | 35861/48845 [12:42:11<4:34:47,  1.27s/it] 73%|███████▎  | 35862/48845 [12:42:12<4:34:05,  1.27s/it] 73%|███████▎  | 35863/48845 [12:42:13<4:33:42,  1.27s/it] 73%|███████▎  | 35864/48845 [12:42:14<4:33:28,  1.26s/it] 73%|███████▎  | 35865/48845 [12:42:16<4:33:29,  1.26s/it]                                                          {'loss': 2.1377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35865/48845 [12:42:16<4:33:29,  1.26s/it] 73%|███████▎  | 35866/48845 [12:42:17<4:33:18,  1.26s/it] 73%|███████▎  | 35867/48845 [12:42:18<4:33:02,  1.26s/it] 73%|███████▎  | 35868/48845 [12:42:19<4:32:51,  1.26s/it] 73%|███████▎  | 35869/48845 [12:42:21<4:32:54,  1.26s/it] 73%|███████▎  | 35870/48845 [12:42:22<4:32:50,  1.26s/it]                                                          {'loss': 2.025, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35870/48845 [12:42:22<4:32:50,  1.26s/it] 73%|███████▎  | 35871/48845 [12:42:23<4:32:52,  1.26s/it] 73%|███████▎  | 35872/48845 [12:42:25<4:32:58,  1.26s/it] 73%|███████▎  | 35873/48845 [12:42:26<4:33:04,  1.26s/it] 73%|███████▎  | 35874/48845 [12:42:27<4:33:00,  1.26s/it] 73%|███████▎  | 35875/48845 [12:42:28<4:32:51,  1.26s/it]                                                          {'loss': 2.0736, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35875/48845 [12:42:28<4:32:51,  1.26s/it] 73%|███████▎  | 35876/48845 [12:42:30<4:32:36,  1.26s/it] 73%|███████▎  | 35877/48845 [12:42:31<4:32:35,  1.26s/it] 73%|███████▎  | 35878/48845 [12:42:32<4:32:42,  1.26s/it] 73%|███████▎  | 35879/48845 [12:42:33<4:32:32,  1.26s/it] 73%|███████▎  | 35880/48845 [12:42:35<4:32:45,  1.26s/it]                                                          {'loss': 1.9896, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35880/48845 [12:42:35<4:32:45,  1.26s/it] 73%|███████▎  | 35881/48845 [12:42:36<4:33:00,  1.26s/it] 73%|███████▎  | 35882/48845 [12:42:37<4:32:46,  1.26s/it] 73%|███████▎  | 35883/48845 [12:42:38<4:32:40,  1.26s/it] 73%|███████▎  | 35884/48845 [12:42:40<4:32:28,  1.26s/it] 73%|███████▎  | 35885/48845 [12:42:41<4:32:32,  1.26s/it]                                                          {'loss': 2.0919, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35885/48845 [12:42:41<4:32:32,  1.26s/it] 73%|███████▎  | 35886/48845 [12:42:42<4:32:48,  1.26s/it] 73%|███████▎  | 35887/48845 [12:42:43<4:32:39,  1.26s/it] 73%|███████▎  | 35888/48845 [12:42:45<4:32:10,  1.26s/it] 73%|███████▎  | 35889/48845 [12:42:46<4:32:07,  1.26s/it] 73%|███████▎  | 35890/48845 [12:42:47<4:32:18,  1.26s/it]                                                          {'loss': 2.0459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35890/48845 [12:42:47<4:32:18,  1.26s/it] 73%|███████▎  | 35891/48845 [12:42:48<4:32:21,  1.26s/it] 73%|███████▎  | 35892/48845 [12:42:50<4:32:51,  1.26s/it] 73%|███████▎  | 35893/48845 [12:42:51<4:32:47,  1.26s/it] 73%|███████▎  | 35894/48845 [12:42:52<4:32:41,  1.26s/it] 73%|███████▎  | 35895/48845 [12:42:54<4:32:22,  1.26s/it]                                                          {'loss': 1.9692, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35895/48845 [12:42:54<4:32:22,  1.26s/it] 73%|███████▎  | 35896/48845 [12:42:55<4:32:46,  1.26s/it] 73%|███████▎  | 35897/48845 [12:42:56<4:32:33,  1.26s/it] 73%|███████▎  | 35898/48845 [12:42:57<4:32:27,  1.26s/it] 73%|███████▎  | 35899/48845 [12:42:59<4:32:20,  1.26s/it] 73%|███████▎  | 35900/48845 [12:43:00<4:32:08,  1.26s/it]                                                          {'loss': 2.0047, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.67}
+ 73%|███████▎  | 35900/48845 [12:43:00<4:32:08,  1.26s/it] 73%|███████▎  | 35901/48845 [12:43:01<4:32:08,  1.26s/it] 74%|███████▎  | 35902/48845 [12:43:02<4:32:22,  1.26s/it] 74%|███████▎  | 35903/48845 [12:43:04<4:32:45,  1.26s/it] 74%|███████▎  | 35904/48845 [12:43:05<4:32:47,  1.26s/it] 74%|███████▎  | 35905/48845 [12:43:06<4:32:38,  1.26s/it]                                                          {'loss': 1.9497, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35905/48845 [12:43:06<4:32:38,  1.26s/it] 74%|███████▎  | 35906/48845 [12:43:07<4:33:09,  1.27s/it] 74%|███████▎  | 35907/48845 [12:43:09<4:32:37,  1.26s/it] 74%|███████▎  | 35908/48845 [12:43:10<4:32:15,  1.26s/it] 74%|███████▎  | 35909/48845 [12:43:11<4:32:01,  1.26s/it] 74%|███████▎  | 35910/48845 [12:43:13<4:32:13,  1.26s/it]                                                          {'loss': 1.9946, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35910/48845 [12:43:13<4:32:13,  1.26s/it] 74%|███████▎  | 35911/48845 [12:43:14<4:32:01,  1.26s/it] 74%|███████▎  | 35912/48845 [12:43:15<4:31:48,  1.26s/it] 74%|███████▎  | 35913/48845 [12:43:16<4:31:44,  1.26s/it] 74%|███████▎  | 35914/48845 [12:43:18<4:31:38,  1.26s/it] 74%|███████▎  | 35915/48845 [12:43:19<4:32:01,  1.26s/it]                                                          {'loss': 1.9849, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35915/48845 [12:43:19<4:32:01,  1.26s/it] 74%|███████▎  | 35916/48845 [12:43:20<4:32:02,  1.26s/it] 74%|███████▎  | 35917/48845 [12:43:21<4:31:49,  1.26s/it] 74%|███████▎  | 35918/48845 [12:43:23<4:31:58,  1.26s/it] 74%|███████▎  | 35919/48845 [12:43:24<4:31:39,  1.26s/it] 74%|███████▎  | 35920/48845 [12:43:25<4:31:45,  1.26s/it]                                                          {'loss': 1.9123, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35920/48845 [12:43:25<4:31:45,  1.26s/it] 74%|███████▎  | 35921/48845 [12:43:26<4:31:47,  1.26s/it] 74%|███████▎  | 35922/48845 [12:43:28<4:31:44,  1.26s/it] 74%|███████▎  | 35923/48845 [12:43:29<4:32:00,  1.26s/it] 74%|███████▎  | 35924/48845 [12:43:30<4:31:42,  1.26s/it] 74%|███████▎  | 35925/48845 [12:43:31<4:31:43,  1.26s/it]                                                          {'loss': 2.1066, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35925/48845 [12:43:31<4:31:43,  1.26s/it] 74%|███████▎  | 35926/48845 [12:43:33<4:31:59,  1.26s/it] 74%|███████▎  | 35927/48845 [12:43:34<4:31:38,  1.26s/it] 74%|███████▎  | 35928/48845 [12:43:35<4:31:30,  1.26s/it] 74%|███████▎  | 35929/48845 [12:43:36<4:31:28,  1.26s/it] 74%|███████▎  | 35930/48845 [12:43:38<4:42:54,  1.31s/it]                                                          {'loss': 2.0126, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35930/48845 [12:43:38<4:42:54,  1.31s/it] 74%|███████▎  | 35931/48845 [12:43:39<4:39:16,  1.30s/it] 74%|███████▎  | 35932/48845 [12:43:40<4:36:48,  1.29s/it] 74%|███████▎  | 35933/48845 [12:43:42<4:35:08,  1.28s/it] 74%|███████▎  | 35934/48845 [12:43:43<4:34:14,  1.27s/it] 74%|███████▎  | 35935/48845 [12:43:44<4:33:25,  1.27s/it]                                                          {'loss': 1.9739, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35935/48845 [12:43:44<4:33:25,  1.27s/it] 74%|███████▎  | 35936/48845 [12:43:45<4:32:51,  1.27s/it] 74%|███████▎  | 35937/48845 [12:43:47<4:32:46,  1.27s/it] 74%|███████▎  | 35938/48845 [12:43:48<4:32:22,  1.27s/it] 74%|███████▎  | 35939/48845 [12:43:49<4:32:07,  1.27s/it] 74%|███████▎  | 35940/48845 [12:43:51<4:31:45,  1.26s/it]                                                          {'loss': 2.1146, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35940/48845 [12:43:51<4:31:45,  1.26s/it] 74%|███████▎  | 35941/48845 [12:43:52<4:31:40,  1.26s/it] 74%|███████▎  | 35942/48845 [12:43:53<4:31:44,  1.26s/it] 74%|███████▎  | 35943/48845 [12:43:54<4:31:28,  1.26s/it] 74%|███████▎  | 35944/48845 [12:43:56<4:31:25,  1.26s/it] 74%|███████▎  | 35945/48845 [12:43:57<4:31:22,  1.26s/it]                                                          {'loss': 1.7852, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35945/48845 [12:43:57<4:31:22,  1.26s/it] 74%|███████▎  | 35946/48845 [12:43:58<4:31:26,  1.26s/it] 74%|███████▎  | 35947/48845 [12:43:59<4:31:29,  1.26s/it] 74%|███████▎  | 35948/48845 [12:44:01<4:31:16,  1.26s/it] 74%|███████▎  | 35949/48845 [12:44:02<4:31:12,  1.26s/it] 74%|███████▎  | 35950/48845 [12:44:03<4:31:24,  1.26s/it]                                                          {'loss': 2.0393, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35950/48845 [12:44:03<4:31:24,  1.26s/it] 74%|███████▎  | 35951/48845 [12:44:04<4:31:27,  1.26s/it] 74%|███████▎  | 35952/48845 [12:44:06<4:31:26,  1.26s/it] 74%|████���██▎  | 35953/48845 [12:44:07<4:31:05,  1.26s/it] 74%|███████▎  | 35954/48845 [12:44:08<4:37:20,  1.29s/it] 74%|███████▎  | 35955/48845 [12:44:10<4:35:16,  1.28s/it]                                                          {'loss': 2.0296, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35955/48845 [12:44:10<4:35:16,  1.28s/it] 74%|███████▎  | 35956/48845 [12:44:11<4:33:56,  1.28s/it] 74%|███████▎  | 35957/48845 [12:44:12<4:32:55,  1.27s/it] 74%|███████▎  | 35958/48845 [12:44:13<4:32:15,  1.27s/it] 74%|███████▎  | 35959/48845 [12:44:15<4:31:38,  1.26s/it] 74%|███████▎  | 35960/48845 [12:44:16<4:31:23,  1.26s/it]                                                          {'loss': 2.0156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35960/48845 [12:44:16<4:31:23,  1.26s/it] 74%|███████▎  | 35961/48845 [12:44:17<4:31:03,  1.26s/it] 74%|███████▎  | 35962/48845 [12:44:18<4:31:16,  1.26s/it] 74%|███████▎  | 35963/48845 [12:44:20<4:31:13,  1.26s/it] 74%|███████▎  | 35964/48845 [12:44:21<4:31:21,  1.26s/it] 74%|███████▎  | 35965/48845 [12:44:22<4:31:06,  1.26s/it]                                                          {'loss': 2.0924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35965/48845 [12:44:22<4:31:06,  1.26s/it] 74%|███████▎  | 35966/48845 [12:44:23<4:31:32,  1.27s/it] 74%|███████▎  | 35967/48845 [12:44:25<4:31:17,  1.26s/it] 74%|███████▎  | 35968/48845 [12:44:26<4:31:03,  1.26s/it] 74%|███████▎  | 35969/48845 [12:44:27<4:30:39,  1.26s/it] 74%|███████▎  | 35970/48845 [12:44:28<4:30:58,  1.26s/it]                                                          {'loss': 2.1787, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35970/48845 [12:44:28<4:30:58,  1.26s/it] 74%|███████▎  | 35971/48845 [12:44:30<4:30:58,  1.26s/it] 74%|███████▎  | 35972/48845 [12:44:31<4:30:51,  1.26s/it] 74%|███████▎  | 35973/48845 [12:44:32<4:30:36,  1.26s/it] 74%|███████▎  | 35974/48845 [12:44:34<4:30:32,  1.26s/it] 74%|███████▎  | 35975/48845 [12:44:35<4:30:22,  1.26s/it]                                                          {'loss': 2.0595, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35975/48845 [12:44:35<4:30:22,  1.26s/it] 74%|███████▎  | 35976/48845 [12:44:36<4:30:21,  1.26s/it] 74%|███████▎  | 35977/48845 [12:44:37<4:30:13,  1.26s/it] 74%|███████▎  | 35978/48845 [12:44:39<4:30:10,  1.26s/it] 74%|███████▎  | 35979/48845 [12:44:40<4:30:06,  1.26s/it] 74%|███████▎  | 35980/48845 [12:44:41<4:30:10,  1.26s/it]                                                          {'loss': 1.9702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35980/48845 [12:44:41<4:30:10,  1.26s/it] 74%|███████▎  | 35981/48845 [12:44:42<4:30:43,  1.26s/it] 74%|███████▎  | 35982/48845 [12:44:44<4:31:12,  1.27s/it] 74%|███████▎  | 35983/48845 [12:44:45<4:30:47,  1.26s/it] 74%|███████▎  | 35984/48845 [12:44:46<4:30:48,  1.26s/it] 74%|███████▎  | 35985/48845 [12:44:47<4:30:45,  1.26s/it]                                                          {'loss': 2.0331, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35985/48845 [12:44:47<4:30:45,  1.26s/it] 74%|███████▎  | 35986/48845 [12:44:49<4:30:58,  1.26s/it] 74%|███████▎  | 35987/48845 [12:44:50<4:30:55,  1.26s/it] 74%|███████▎  | 35988/48845 [12:44:51<4:30:30,  1.26s/it] 74%|███████▎  | 35989/48845 [12:44:52<4:30:24,  1.26s/it] 74%|███████▎  | 35990/48845 [12:44:54<4:30:22,  1.26s/it]                                                          {'loss': 1.8981, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35990/48845 [12:44:54<4:30:22,  1.26s/it] 74%|███████▎  | 35991/48845 [12:44:55<4:30:28,  1.26s/it] 74%|███████▎  | 35992/48845 [12:44:56<4:30:12,  1.26s/it] 74%|███████▎  | 35993/48845 [12:44:58<4:30:09,  1.26s/it] 74%|███████▎  | 35994/48845 [12:44:59<4:30:27,  1.26s/it] 74%|███████▎  | 35995/48845 [12:45:00<4:30:13,  1.26s/it]                                                          {'loss': 1.9344, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.68}
+ 74%|███████▎  | 35995/48845 [12:45:00<4:30:13,  1.26s/it] 74%|███████▎  | 35996/48845 [12:45:01<4:30:18,  1.26s/it] 74%|███████▎  | 35997/48845 [12:45:03<4:30:28,  1.26s/it] 74%|███████▎  | 35998/48845 [12:45:04<4:30:37,  1.26s/it] 74%|███████▎  | 35999/48845 [12:45:05<4:30:29,  1.26s/it] 74%|███████▎  | 36000/48845 [12:45:06<4:30:12,  1.26s/it]                                                          {'loss': 1.9565, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▎  | 36000/48845 [12:45:06<4:30:12,  1.26s/it] 74%|███████▎  | 36001/48845 [12:45:10<7:12:14,  2.02s/it] 74%|███████▎  | 36002/48845 [12:45:11<6:23:31,  1.79s/it] 74%|███████▎  | 36003/48845 [12:45:13<5:49:22,  1.63s/it] 74%|███████▎  | 36004/48845 [12:45:14<5:25:36,  1.52s/it] 74%|███████▎  | 36005/48845 [12:45:15<5:08:48,  1.44s/it]                                                          {'loss': 1.8379, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▎  | 36005/48845 [12:45:15<5:08:48,  1.44s/it] 74%|███████▎  | 36006/48845 [12:45:16<4:57:05,  1.39s/it] 74%|███████▎  | 36007/48845 [12:45:18<4:48:38,  1.35s/it] 74%|███████▎  | 36008/48845 [12:45:19<4:42:49,  1.32s/it] 74%|███████▎  | 36009/48845 [12:45:20<4:38:38,  1.30s/it] 74%|███████▎  | 36010/48845 [12:45:21<4:35:56,  1.29s/it]                                                          {'loss': 2.0683, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▎  | 36010/48845 [12:45:21<4:35:56,  1.29s/it] 74%|███████▎  | 36011/48845 [12:45:23<4:34:03,  1.28s/it] 74%|███████▎  | 36012/48845 [12:45:24<4:32:31,  1.27s/it] 74%|███████▎  | 36013/48845 [12:45:25<4:31:32,  1.27s/it] 74%|███████▎  | 36014/48845 [12:45:27<4:30:53,  1.27s/it] 74%|███████▎  | 36015/48845 [12:45:28<4:30:22,  1.26s/it]                                                          {'loss': 2.1704, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▎  | 36015/48845 [12:45:28<4:30:22,  1.26s/it] 74%|███████▎  | 36016/48845 [12:45:29<4:42:04,  1.32s/it] 74%|███████▎  | 36017/48845 [12:45:30<4:38:23,  1.30s/it] 74%|███████▎  | 36018/48845 [12:45:32<4:35:34,  1.29s/it] 74%|███████▎  | 36019/48845 [12:45:33<4:33:36,  1.28s/it] 74%|███████▎  | 36020/48845 [12:45:34<4:35:00,  1.29s/it]                                                          {'loss': 2.0173, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▎  | 36020/48845 [12:45:34<4:35:00,  1.29s/it] 74%|███████▎  | 36021/48845 [12:45:36<4:33:20,  1.28s/it] 74%|███████▎  | 36022/48845 [12:45:37<4:32:13,  1.27s/it] 74%|███████▎  | 36023/48845 [12:45:38<4:31:31,  1.27s/it] 74%|███████▍  | 36024/48845 [12:45:39<4:31:15,  1.27s/it] 74%|███████▍  | 36025/48845 [12:45:41<4:30:42,  1.27s/it]                                                          {'loss': 2.1775, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36025/48845 [12:45:41<4:30:42,  1.27s/it] 74%|███████▍  | 36026/48845 [12:45:42<4:30:24,  1.27s/it] 74%|███████▍  | 36027/48845 [12:45:43<4:29:51,  1.26s/it] 74%|███████▍  | 36028/48845 [12:45:44<4:30:00,  1.26s/it] 74%|███████▍  | 36029/48845 [12:45:46<4:30:10,  1.26s/it] 74%|███████▍  | 36030/48845 [12:45:47<4:29:47,  1.26s/it]                                                          {'loss': 2.2517, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36030/48845 [12:45:47<4:29:47,  1.26s/it] 74%|███████▍  | 36031/48845 [12:45:48<4:29:34,  1.26s/it] 74%|███████▍  | 36032/48845 [12:45:49<4:29:51,  1.26s/it] 74%|███████▍  | 36033/48845 [12:45:51<4:29:38,  1.26s/it] 74%|███████▍  | 36034/48845 [12:45:52<4:29:26,  1.26s/it] 74%|███████▍  | 36035/48845 [12:45:53<4:29:13,  1.26s/it]                                                          {'loss': 2.1202, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36035/48845 [12:45:53<4:29:13,  1.26s/it] 74%|███████▍  | 36036/48845 [12:45:55<4:29:44,  1.26s/it] 74%|███████▍  | 36037/48845 [12:45:56<4:29:34,  1.26s/it] 74%|███████▍  | 36038/48845 [12:45:57<4:29:19,  1.26s/it] 74%|███████▍  | 36039/48845 [12:45:58<4:29:09,  1.26s/it] 74%|███████▍  | 36040/48845 [12:46:00<4:29:40,  1.26s/it]                                                          {'loss': 2.1085, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36040/48845 [12:46:00<4:29:40,  1.26s/it] 74%|███████▍  | 36041/48845 [12:46:01<4:29:11,  1.26s/it] 74%|███████▍  | 36042/48845 [12:46:02<4:28:57,  1.26s/it] 74%|███████▍  | 36043/48845 [12:46:03<4:29:02,  1.26s/it] 74%|███████▍  | 36044/48845 [12:46:05<4:29:15,  1.26s/it] 74%|███████▍  | 36045/48845 [12:46:06<4:29:15,  1.26s/it]                                                          {'loss': 2.0715, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36045/48845 [12:46:06<4:29:15,  1.26s/it] 74%|███████▍  | 36046/48845 [12:46:07<4:29:03,  1.26s/it] 74%|███████▍  | 36047/48845 [12:46:08<4:28:51,  1.26s/it] 74%|███████▍  | 36048/48845 [12:46:10<4:29:10,  1.26s/it] 74%|███████▍  | 36049/48845 [12:46:11<4:28:54,  1.26s/it] 74%|███████▍  | 36050/48845 [12:46:12<4:28:52,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36050/48845 [12:46:12<4:28:52,  1.26s/it] 74%|███████▍  | 36051/48845 [12:46:13<4:29:07,  1.26s/it] 74%|███████▍  | 36052/48845 [12:46:15<4:29:15,  1.26s/it] 74%|███████▍  | 36053/48845 [12:46:16<4:29:03,  1.26s/it] 74%|███████▍  | 36054/48845 [12:46:17<4:29:11,  1.26s/it] 74%|███████▍  | 36055/48845 [12:46:18<4:29:07,  1.26s/it]                                                          {'loss': 1.9676, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36055/48845 [12:46:18<4:29:07,  1.26s/it] 74%|███████▍  | 36056/48845 [12:46:20<4:29:34,  1.26s/it] 74%|███████▍  | 36057/48845 [12:46:21<4:29:13,  1.26s/it] 74%|███████▍  | 36058/48845 [12:46:22<4:28:56,  1.26s/it] 74%|███████▍  | 36059/48845 [12:46:24<4:28:48,  1.26s/it] 74%|███████▍  | 36060/48845 [12:46:25<4:28:41,  1.26s/it]                                                          {'loss': 1.9622, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36060/48845 [12:46:25<4:28:41,  1.26s/it] 74%|███████▍  | 36061/48845 [12:46:26<4:28:46,  1.26s/it] 74%|███████▍  | 36062/48845 [12:46:27<4:28:35,  1.26s/it] 74%|███████▍  | 36063/48845 [12:46:29<4:28:32,  1.26s/it] 74%|███████▍  | 36064/48845 [12:46:30<4:28:59,  1.26s/it] 74%|███████▍  | 36065/48845 [12:46:31<4:29:01,  1.26s/it]                                                          {'loss': 2.0783, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36065/48845 [12:46:31<4:29:01,  1.26s/it] 74%|███████▍  | 36066/48845 [12:46:32<4:28:51,  1.26s/it] 74%|███████▍  | 36067/48845 [12:46:34<4:28:37,  1.26s/it] 74%|███████▍  | 36068/48845 [12:46:35<4:28:51,  1.26s/it] 74%|███████▍  | 36069/48845 [12:46:36<4:29:04,  1.26s/it] 74%|███████▍  | 36070/48845 [12:46:37<4:28:57,  1.26s/it]                                                          {'loss': 2.0822, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36070/48845 [12:46:37<4:28:57,  1.26s/it] 74%|███████▍  | 36071/48845 [12:46:39<4:28:46,  1.26s/it] 74%|███████▍  | 36072/48845 [12:46:40<4:28:39,  1.26s/it] 74%|███████▍  | 36073/48845 [12:46:41<4:28:26,  1.26s/it] 74%|███████▍  | 36074/48845 [12:46:42<4:28:21,  1.26s/it] 74%|███████▍  | 36075/48845 [12:46:44<4:28:18,  1.26s/it]                                                          {'loss': 2.0748, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36075/48845 [12:46:44<4:28:18,  1.26s/it] 74%|███████▍  | 36076/48845 [12:46:45<4:28:24,  1.26s/it] 74%|███████▍  | 36077/48845 [12:46:46<4:28:34,  1.26s/it] 74%|███████▍  | 36078/48845 [12:46:48<4:29:04,  1.26s/it] 74%|███████▍  | 36079/48845 [12:46:49<4:28:45,  1.26s/it] 74%|███████▍  | 36080/48845 [12:46:50<4:28:46,  1.26s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36080/48845 [12:46:50<4:28:46,  1.26s/it] 74%|███████▍  | 36081/48845 [12:46:51<4:28:35,  1.26s/it] 74%|███████▍  | 36082/48845 [12:46:53<4:28:44,  1.26s/it] 74%|███████▍  | 36083/48845 [12:46:54<4:28:46,  1.26s/it] 74%|███████▍  | 36084/48845 [12:46:55<4:28:37,  1.26s/it] 74%|███████▍  | 36085/48845 [12:46:56<4:28:27,  1.26s/it]                                                          {'loss': 2.0255, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36085/48845 [12:46:56<4:28:27,  1.26s/it] 74%|███████▍  | 36086/48845 [12:46:58<4:28:49,  1.26s/it] 74%|███████▍  | 36087/48845 [12:46:59<4:28:59,  1.27s/it] 74%|███████▍  | 36088/48845 [12:47:00<4:28:46,  1.26s/it] 74%|███████▍  | 36089/48845 [12:47:01<4:28:32,  1.26s/it] 74%|███████▍  | 36090/48845 [12:47:03<4:28:38,  1.26s/it]                                                          {'loss': 2.0714, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36090/48845 [12:47:03<4:28:38,  1.26s/it] 74%|███████▍  | 36091/48845 [12:47:04<4:28:30,  1.26s/it] 74%|███████▍  | 36092/48845 [12:47:05<4:28:18,  1.26s/it] 74%|███████▍  | 36093/48845 [12:47:06<4:28:12,  1.26s/it] 74%|███████▍  | 36094/48845 [12:47:08<4:28:14,  1.26s/it] 74%|███████▍  | 36095/48845 [12:47:09<4:28:05,  1.26s/it]                                                          {'loss': 1.9562, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.69}
+ 74%|███████▍  | 36095/48845 [12:47:09<4:28:05,  1.26s/it] 74%|███████▍  | 36096/48845 [12:47:10<4:28:12,  1.26s/it] 74%|███████▍  | 36097/48845 [12:47:12<4:28:11,  1.26s/it] 74%|███████▍  | 36098/48845 [12:47:13<4:28:02,  1.26s/it] 74%|███████▍  | 36099/48845 [12:47:14<4:27:57,  1.26s/it] 74%|███████▍  | 36100/48845 [12:47:15<4:27:52,  1.26s/it]                                                          {'loss': 2.1117, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36100/48845 [12:47:15<4:27:52,  1.26s/it] 74%|███████▍  | 36101/48845 [12:47:17<4:28:02,  1.26s/it] 74%|███████▍  | 36102/48845 [12:47:18<4:28:13,  1.26s/it] 74%|███████▍  | 36103/48845 [12:47:19<4:27:58,  1.26s/it] 74%|███████▍  | 36104/48845 [12:47:20<4:28:28,  1.26s/it] 74%|███████▍  | 36105/48845 [12:47:22<4:29:11,  1.27s/it]                                                          {'loss': 1.9975, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36105/48845 [12:47:22<4:29:11,  1.27s/it] 74%|███████▍  | 36106/48845 [12:47:23<4:29:19,  1.27s/it] 74%|███████▍  | 36107/48845 [12:47:24<4:29:05,  1.27s/it] 74%|███████▍  | 36108/48845 [12:47:25<4:28:43,  1.27s/it] 74%|███████▍  | 36109/48845 [12:47:27<4:28:43,  1.27s/it] 74%|███████▍  | 36110/48845 [12:47:28<4:28:32,  1.27s/it]                                                          {'loss': 1.9515, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36110/48845 [12:47:28<4:28:32,  1.27s/it] 74%|███████▍  | 36111/48845 [12:47:29<4:28:20,  1.26s/it] 74%|███████▍  | 36112/48845 [12:47:30<4:28:03,  1.26s/it] 74%|███████▍  | 36113/48845 [12:47:32<4:28:11,  1.26s/it] 74%|███████▍  | 36114/48845 [12:47:33<4:28:05,  1.26s/it] 74%|███████▍  | 36115/48845 [12:47:34<4:28:10,  1.26s/it]                                                          {'loss': 2.0593, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36115/48845 [12:47:34<4:28:10,  1.26s/it] 74%|███████▍  | 36116/48845 [12:47:36<4:27:56,  1.26s/it] 74%|███████▍  | 36117/48845 [12:47:37<4:27:42,  1.26s/it] 74%|███████▍  | 36118/48845 [12:47:38<4:27:43,  1.26s/it] 74%|███████▍  | 36119/48845 [12:47:39<4:27:31,  1.26s/it] 74%|███████▍  | 36120/48845 [12:47:41<4:27:17,  1.26s/it]                                                          {'loss': 2.0801, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36120/48845 [12:47:41<4:27:17,  1.26s/it] 74%|███████▍  | 36121/48845 [12:47:42<4:27:24,  1.26s/it] 74%|███████▍  | 36122/48845 [12:47:43<4:27:48,  1.26s/it] 74%|███████▍  | 36123/48845 [12:47:44<4:28:39,  1.27s/it] 74%|███████▍  | 36124/48845 [12:47:46<4:28:21,  1.27s/it] 74%|███████▍  | 36125/48845 [12:47:47<4:27:56,  1.26s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36125/48845 [12:47:47<4:27:56,  1.26s/it] 74%|███████▍  | 36126/48845 [12:47:48<4:28:22,  1.27s/it] 74%|███████▍  | 36127/48845 [12:47:49<4:28:53,  1.27s/it] 74%|███████▍  | 36128/48845 [12:47:51<4:28:28,  1.27s/it] 74%|███████▍  | 36129/48845 [12:47:52<4:28:13,  1.27s/it] 74%|███████▍  | 36130/48845 [12:47:53<4:28:51,  1.27s/it]                                                          {'loss': 1.9946, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36130/48845 [12:47:53<4:28:51,  1.27s/it] 74%|███████▍  | 36131/48845 [12:47:55<4:28:47,  1.27s/it] 74%|███████▍  | 36132/48845 [12:47:56<4:28:22,  1.27s/it] 74%|███████▍  | 36133/48845 [12:47:57<4:28:03,  1.27s/it] 74%|███████▍  | 36134/48845 [12:47:58<4:27:57,  1.26s/it] 74%|███████▍  | 36135/48845 [12:48:00<4:27:28,  1.26s/it]                                                          {'loss': 2.0516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36135/48845 [12:48:00<4:27:28,  1.26s/it] 74%|███████▍  | 36136/48845 [12:48:01<4:27:25,  1.26s/it] 74%|███████▍  | 36137/48845 [12:48:02<4:27:21,  1.26s/it] 74%|███████▍  | 36138/48845 [12:48:03<4:27:29,  1.26s/it] 74%|███████▍  | 36139/48845 [12:48:05<4:27:41,  1.26s/it] 74%|███████▍  | 36140/48845 [12:48:06<4:27:30,  1.26s/it]                                                          {'loss': 1.9885, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36140/48845 [12:48:06<4:27:30,  1.26s/it] 74%|███████▍  | 36141/48845 [12:48:07<4:27:21,  1.26s/it] 74%|███████▍  | 36142/48845 [12:48:08<4:27:24,  1.26s/it] 74%|███████▍  | 36143/48845 [12:48:10<4:27:24,  1.26s/it] 74%|███████▍  | 36144/48845 [12:48:11<4:27:38,  1.26s/it] 74%|███████▍  | 36145/48845 [12:48:12<4:27:22,  1.26s/it]                                                          {'loss': 2.0279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36145/48845 [12:48:12<4:27:22,  1.26s/it] 74%|███████▍  | 36146/48845 [12:48:13<4:27:09,  1.26s/it] 74%|███████▍  | 36147/48845 [12:48:15<4:27:13,  1.26s/it] 74%|███████▍  | 36148/48845 [12:48:16<4:27:14,  1.26s/it] 74%|███████▍  | 36149/48845 [12:48:17<4:27:13,  1.26s/it] 74%|███████▍  | 36150/48845 [12:48:19<4:27:31,  1.26s/it]                                                          {'loss': 1.9993, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36150/48845 [12:48:19<4:27:31,  1.26s/it] 74%|███████▍  | 36151/48845 [12:48:20<4:27:18,  1.26s/it] 74%|███████▍  | 36152/48845 [12:48:21<4:27:07,  1.26s/it] 74%|███████▍  | 36153/48845 [12:48:22<4:27:05,  1.26s/it] 74%|███████▍  | 36154/48845 [12:48:24<4:27:08,  1.26s/it] 74%|███████▍  | 36155/48845 [12:48:25<4:27:09,  1.26s/it]                                                          {'loss': 1.9992, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36155/48845 [12:48:25<4:27:09,  1.26s/it] 74%|███████▍  | 36156/48845 [12:48:26<4:27:06,  1.26s/it] 74%|███████▍  | 36157/48845 [12:48:27<4:26:54,  1.26s/it] 74%|███████▍  | 36158/48845 [12:48:29<4:38:04,  1.32s/it] 74%|███████▍  | 36159/48845 [12:48:30<4:34:47,  1.30s/it] 74%|███████▍  | 36160/48845 [12:48:31<4:32:18,  1.29s/it]                                                          {'loss': 1.9527, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36160/48845 [12:48:31<4:32:18,  1.29s/it] 74%|███████▍  | 36161/48845 [12:48:33<4:30:35,  1.28s/it] 74%|███████▍  | 36162/48845 [12:48:34<4:40:50,  1.33s/it] 74%|███████▍  | 36163/48845 [12:48:35<4:36:26,  1.31s/it] 74%|███████▍  | 36164/48845 [12:48:37<4:33:30,  1.29s/it] 74%|███████▍  | 36165/48845 [12:48:38<4:31:27,  1.28s/it]                                                          {'loss': 1.9104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36165/48845 [12:48:38<4:31:27,  1.28s/it] 74%|███████▍  | 36166/48845 [12:48:39<4:29:55,  1.28s/it] 74%|███████▍  | 36167/48845 [12:48:40<4:29:05,  1.27s/it] 74%|███████▍  | 36168/48845 [12:48:42<4:28:22,  1.27s/it] 74%|███████▍  | 36169/48845 [12:48:43<4:27:47,  1.27s/it] 74%|███████▍  | 36170/48845 [12:48:44<4:27:47,  1.27s/it]                                                          {'loss': 2.0987, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36170/48845 [12:48:44<4:27:47,  1.27s/it] 74%|███████▍  | 36171/48845 [12:48:45<4:27:26,  1.27s/it] 74%|██���████▍  | 36172/48845 [12:48:47<4:27:18,  1.27s/it] 74%|███████▍  | 36173/48845 [12:48:48<4:27:25,  1.27s/it] 74%|███████▍  | 36174/48845 [12:48:49<4:38:32,  1.32s/it] 74%|███████▍  | 36175/48845 [12:48:51<4:35:02,  1.30s/it]                                                          {'loss': 2.2003, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36175/48845 [12:48:51<4:35:02,  1.30s/it] 74%|███████▍  | 36176/48845 [12:48:52<4:32:25,  1.29s/it] 74%|███████▍  | 36177/48845 [12:48:53<4:32:23,  1.29s/it] 74%|███████▍  | 36178/48845 [12:48:54<4:35:42,  1.31s/it] 74%|███████▍  | 36179/48845 [12:48:56<4:32:51,  1.29s/it] 74%|███████▍  | 36180/48845 [12:48:57<4:31:44,  1.29s/it]                                                          {'loss': 2.0414, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36180/48845 [12:48:57<4:31:44,  1.29s/it] 74%|███████▍  | 36181/48845 [12:48:58<4:30:16,  1.28s/it] 74%|███████▍  | 36182/48845 [12:49:00<4:29:29,  1.28s/it] 74%|███████▍  | 36183/48845 [12:49:01<4:28:47,  1.27s/it] 74%|███████▍  | 36184/48845 [12:49:02<4:28:08,  1.27s/it] 74%|███████▍  | 36185/48845 [12:49:03<4:27:49,  1.27s/it]                                                          {'loss': 1.8906, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36185/48845 [12:49:03<4:27:49,  1.27s/it] 74%|███████▍  | 36186/48845 [12:49:05<4:27:54,  1.27s/it] 74%|███████▍  | 36187/48845 [12:49:06<4:27:24,  1.27s/it] 74%|███████▍  | 36188/48845 [12:49:07<4:27:02,  1.27s/it] 74%|███████▍  | 36189/48845 [12:49:08<4:26:44,  1.26s/it] 74%|███████▍  | 36190/48845 [12:49:10<4:26:46,  1.26s/it]                                                          {'loss': 2.0246, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.7}
+ 74%|███████▍  | 36190/48845 [12:49:10<4:26:46,  1.26s/it] 74%|███████▍  | 36191/48845 [12:49:11<4:27:08,  1.27s/it] 74%|███████▍  | 36192/48845 [12:49:12<4:26:48,  1.27s/it] 74%|███████▍  | 36193/48845 [12:49:13<4:26:38,  1.26s/it] 74%|███████▍  | 36194/48845 [12:49:15<4:37:47,  1.32s/it] 74%|███████▍  | 36195/48845 [12:49:16<4:34:10,  1.30s/it]                                                          {'loss': 1.9275, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36195/48845 [12:49:16<4:34:10,  1.30s/it] 74%|███████▍  | 36196/48845 [12:49:17<4:31:52,  1.29s/it] 74%|███████▍  | 36197/48845 [12:49:19<4:30:00,  1.28s/it] 74%|███████▍  | 36198/48845 [12:49:20<4:28:57,  1.28s/it] 74%|███████▍  | 36199/48845 [12:49:21<4:27:57,  1.27s/it] 74%|███████▍  | 36200/48845 [12:49:22<4:27:32,  1.27s/it]                                                          {'loss': 2.0865, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36200/48845 [12:49:22<4:27:32,  1.27s/it] 74%|███████▍  | 36201/48845 [12:49:26<7:04:32,  2.01s/it] 74%|███████▍  | 36202/48845 [12:49:28<6:16:38,  1.79s/it] 74%|███████▍  | 36203/48845 [12:49:29<5:43:28,  1.63s/it] 74%|███████▍  | 36204/48845 [12:49:30<5:20:22,  1.52s/it] 74%|███████▍  | 36205/48845 [12:49:31<5:03:59,  1.44s/it]                                                          {'loss': 1.7883, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36205/48845 [12:49:31<5:03:59,  1.44s/it] 74%|███████▍  | 36206/48845 [12:49:33<4:52:14,  1.39s/it] 74%|███████▍  | 36207/48845 [12:49:34<4:44:20,  1.35s/it] 74%|███████▍  | 36208/48845 [12:49:35<4:39:13,  1.33s/it] 74%|███████▍  | 36209/48845 [12:49:36<4:34:54,  1.31s/it] 74%|███████▍  | 36210/48845 [12:49:38<4:32:10,  1.29s/it]                                                          {'loss': 2.2448, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36210/48845 [12:49:38<4:32:10,  1.29s/it] 74%|███████▍  | 36211/48845 [12:49:39<4:30:46,  1.29s/it] 74%|███████▍  | 36212/48845 [12:49:40<4:29:09,  1.28s/it] 74%|███████▍  | 36213/48845 [12:49:41<4:28:02,  1.27s/it] 74%|███████▍  | 36214/48845 [12:49:43<4:27:27,  1.27s/it] 74%|███████▍  | 36215/48845 [12:49:44<4:26:52,  1.27s/it]                                                          {'loss': 2.0022, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36215/48845 [12:49:44<4:26:52,  1.27s/it] 74%|███████▍  | 36216/48845 [12:49:45<4:26:58,  1.27s/it] 74%|███████▍  | 36217/48845 [12:49:46<4:26:25,  1.27s/it] 74%|███████▍  | 36218/48845 [12:49:48<4:26:02,  1.26s/it] 74%|███████▍  | 36219/48845 [12:49:49<4:25:43,  1.26s/it] 74%|███████▍  | 36220/48845 [12:49:50<4:25:50,  1.26s/it]                                                          {'loss': 2.0036, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36220/48845 [12:49:50<4:25:50,  1.26s/it] 74%|███████▍  | 36221/48845 [12:49:52<4:26:10,  1.27s/it] 74%|███████▍  | 36222/48845 [12:49:53<4:25:57,  1.26s/it] 74%|███████▍  | 36223/48845 [12:49:54<4:25:37,  1.26s/it] 74%|███████▍  | 36224/48845 [12:49:55<4:35:03,  1.31s/it] 74%|███████▍  | 36225/48845 [12:49:57<4:32:08,  1.29s/it]                                                          {'loss': 1.9082, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36225/48845 [12:49:57<4:32:08,  1.29s/it] 74%|███████▍  | 36226/48845 [12:49:58<4:30:38,  1.29s/it] 74%|███████▍  | 36227/48845 [12:49:59<4:29:16,  1.28s/it] 74%|███████▍  | 36228/48845 [12:50:01<4:30:13,  1.29s/it] 74%|███████▍  | 36229/48845 [12:50:02<4:28:55,  1.28s/it] 74%|███████▍  | 36230/48845 [12:50:03<4:28:04,  1.28s/it]                                                          {'loss': 2.102, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36230/48845 [12:50:03<4:28:04,  1.28s/it] 74%|███████▍  | 36231/48845 [12:50:04<4:27:38,  1.27s/it] 74%|███████▍  | 36232/48845 [12:50:06<4:27:38,  1.27s/it] 74%|███████▍  | 36233/48845 [12:50:07<4:27:03,  1.27s/it] 74%|███████▍  | 36234/48845 [12:50:08<4:26:32,  1.27s/it] 74%|███████▍  | 36235/48845 [12:50:09<4:25:44,  1.26s/it]                                                          {'loss': 2.0561, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36235/48845 [12:50:09<4:25:44,  1.26s/it] 74%|███████▍  | 36236/48845 [12:50:11<4:26:05,  1.27s/it] 74%|███████▍  | 36237/48845 [12:50:12<4:25:49,  1.27s/it] 74%|███████▍  | 36238/48845 [12:50:13<4:25:27,  1.26s/it] 74%|███████▍  | 36239/48845 [12:50:14<4:25:07,  1.26s/it] 74%|███████▍  | 36240/48845 [12:50:16<4:25:13,  1.26s/it]                                                          {'loss': 1.907, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36240/48845 [12:50:16<4:25:13,  1.26s/it] 74%|███████▍  | 36241/48845 [12:50:17<4:25:23,  1.26s/it] 74%|███████▍  | 36242/48845 [12:50:18<4:25:16,  1.26s/it] 74%|███████▍  | 36243/48845 [12:50:19<4:25:04,  1.26s/it] 74%|███████▍  | 36244/48845 [12:50:21<4:25:19,  1.26s/it] 74%|███████▍  | 36245/48845 [12:50:22<4:25:07,  1.26s/it]                                                          {'loss': 1.9552, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36245/48845 [12:50:22<4:25:07,  1.26s/it] 74%|███████▍  | 36246/48845 [12:50:23<4:24:57,  1.26s/it] 74%|███████▍  | 36247/48845 [12:50:25<4:25:03,  1.26s/it] 74%|███████▍  | 36248/48845 [12:50:26<4:24:56,  1.26s/it] 74%|███████▍  | 36249/48845 [12:50:27<4:25:00,  1.26s/it] 74%|███████▍  | 36250/48845 [12:50:28<4:24:48,  1.26s/it]                                                          {'loss': 2.1615, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36250/48845 [12:50:28<4:24:48,  1.26s/it] 74%|███████▍  | 36251/48845 [12:50:30<4:25:08,  1.26s/it] 74%|███████▍  | 36252/48845 [12:50:31<4:25:07,  1.26s/it] 74%|███████▍  | 36253/48845 [12:50:32<4:25:08,  1.26s/it] 74%|███████▍  | 36254/48845 [12:50:33<4:25:13,  1.26s/it] 74%|███████▍  | 36255/48845 [12:50:35<4:25:06,  1.26s/it]                                                          {'loss': 1.9973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36255/48845 [12:50:35<4:25:06,  1.26s/it] 74%|███████▍  | 36256/48845 [12:50:36<4:35:45,  1.31s/it] 74%|███████▍  | 36257/48845 [12:50:37<4:32:16,  1.30s/it] 74%|███████▍  | 36258/48845 [12:50:39<4:29:59,  1.29s/it] 74%|███████▍  | 36259/48845 [12:50:40<4:28:16,  1.28s/it] 74%|███████▍  | 36260/48845 [12:50:41<4:27:18,  1.27s/it]                                                          {'loss': 1.9964, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36260/48845 [12:50:41<4:27:18,  1.27s/it] 74%|███████▍  | 36261/48845 [12:50:42<4:26:32,  1.27s/it] 74%|███████▍  | 36262/48845 [12:50:44<4:26:05,  1.27s/it] 74%|███████▍  | 36263/48845 [12:50:45<4:25:41,  1.27s/it] 74%|███████▍  | 36264/48845 [12:50:46<4:34:44,  1.31s/it] 74%|███████▍  | 36265/48845 [12:50:48<4:31:47,  1.30s/it]                                                          {'loss': 2.0673, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36265/48845 [12:50:48<4:31:47,  1.30s/it] 74%|███████▍  | 36266/48845 [12:50:49<4:29:37,  1.29s/it] 74%|███████▍  | 36267/48845 [12:50:50<4:28:27,  1.28s/it] 74%|███████▍  | 36268/48845 [12:50:51<4:29:08,  1.28s/it] 74%|███████▍  | 36269/48845 [12:50:53<4:27:35,  1.28s/it] 74%|███████▍  | 36270/48845 [12:50:54<4:26:35,  1.27s/it]                                                          {'loss': 2.1902, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36270/48845 [12:50:54<4:26:35,  1.27s/it] 74%|███████▍  | 36271/48845 [12:50:55<4:25:46,  1.27s/it] 74%|███████▍  | 36272/48845 [12:50:56<4:26:13,  1.27s/it] 74%|███████▍  | 36273/48845 [12:50:58<4:25:37,  1.27s/it] 74%|███████▍  | 36274/48845 [12:50:59<4:25:12,  1.27s/it] 74%|███████▍  | 36275/48845 [12:51:00<4:25:03,  1.27s/it]                                                          {'loss': 1.9803, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36275/48845 [12:51:00<4:25:03,  1.27s/it] 74%|███████▍  | 36276/48845 [12:51:02<4:24:58,  1.26s/it] 74%|███████▍  | 36277/48845 [12:51:03<4:24:52,  1.26s/it] 74%|███████▍  | 36278/48845 [12:51:04<4:24:45,  1.26s/it] 74%|███████▍  | 36279/48845 [12:51:05<4:24:45,  1.26s/it] 74%|███████▍  | 36280/48845 [12:51:07<4:24:45,  1.26s/it]                                                          {'loss': 1.9021, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36280/48845 [12:51:07<4:24:45,  1.26s/it] 74%|███████▍  | 36281/48845 [12:51:08<4:25:32,  1.27s/it] 74%|███████▍  | 36282/48845 [12:51:09<4:25:05,  1.27s/it] 74%|███████▍  | 36283/48845 [12:51:10<4:25:15,  1.27s/it] 74%|███████▍  | 36284/48845 [12:51:12<4:25:06,  1.27s/it] 74%|███████▍  | 36285/48845 [12:51:13<4:24:43,  1.26s/it]                                                          {'loss': 2.0207, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36285/48845 [12:51:13<4:24:43,  1.26s/it] 74%|███████▍  | 36286/48845 [12:51:14<4:24:33,  1.26s/it] 74%|███████▍  | 36287/48845 [12:51:15<4:24:20,  1.26s/it] 74%|███████▍  | 36288/48845 [12:51:17<4:24:20,  1.26s/it] 74%|███████▍  | 36289/48845 [12:51:18<4:24:08,  1.26s/it] 74%|███████▍  | 36290/48845 [12:51:19<4:24:03,  1.26s/it]                                                          {'loss': 2.0395, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.71}
+ 74%|███████▍  | 36290/48845 [12:51:19<4:24:03,  1.26s/it] 74%|███████▍  | 36291/48845 [12:51:20<4:23:58,  1.26s/it] 74%|███████▍  | 36292/48845 [12:51:22<4:24:16,  1.26s/it] 74%|███████▍  | 36293/48845 [12:51:23<4:24:18,  1.26s/it] 74%|███████▍  | 36294/48845 [12:51:24<4:24:13,  1.26s/it] 74%|███████▍  | 36295/48845 [12:51:26<4:24:45,  1.27s/it]                                                          {'loss': 2.0916, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36295/48845 [12:51:26<4:24:45,  1.27s/it] 74%|███████▍  | 36296/48845 [12:51:27<4:24:16,  1.26s/it] 74%|███████▍  | 36297/48845 [12:51:28<4:24:01,  1.26s/it] 74%|███████▍  | 36298/48845 [12:51:29<4:24:09,  1.26s/it] 74%|███████▍  | 36299/48845 [12:51:31<4:24:14,  1.26s/it] 74%|███████▍  | 36300/48845 [12:51:32<4:24:31,  1.27s/it]                                                          {'loss': 2.1497, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36300/48845 [12:51:32<4:24:31,  1.27s/it] 74%|███████▍  | 36301/48845 [12:51:33<4:24:25,  1.26s/it] 74%|███████▍  | 36302/48845 [12:51:34<4:24:10,  1.26s/it] 74%|███████▍  | 36303/48845 [12:51:36<4:25:20,  1.27s/it] 74%|███████▍  | 36304/48845 [12:51:37<4:24:55,  1.27s/it] 74%|███████▍  | 36305/48845 [12:51:38<4:24:21,  1.26s/it]                                                          {'loss': 1.9703, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36305/48845 [12:51:38<4:24:21,  1.26s/it] 74%|███████▍  | 36306/48845 [12:51:39<4:23:56,  1.26s/it] 74%|███████▍  | 36307/48845 [12:51:41<4:23:42,  1.26s/it] 74%|███████▍  | 36308/48845 [12:51:42<4:23:39,  1.26s/it] 74%|███████▍  | 36309/48845 [12:51:43<4:23:51,  1.26s/it] 74%|███████▍  | 36310/48845 [12:51:44<4:23:40,  1.26s/it]                                                          {'loss': 2.2017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36310/48845 [12:51:44<4:23:40,  1.26s/it] 74%|███████▍  | 36311/48845 [12:51:46<4:23:51,  1.26s/it] 74%|███████▍  | 36312/48845 [12:51:47<4:23:39,  1.26s/it] 74%|███████▍  | 36313/48845 [12:51:48<4:23:50,  1.26s/it] 74%|███████▍  | 36314/48845 [12:51:50<4:23:33,  1.26s/it] 74%|███████▍  | 36315/48845 [12:51:51<4:23:32,  1.26s/it]                                                          {'loss': 1.9858, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36315/48845 [12:51:51<4:23:32,  1.26s/it] 74%|███████▍  | 36316/48845 [12:51:52<4:23:41,  1.26s/it] 74%|███████▍  | 36317/48845 [12:51:53<4:23:37,  1.26s/it] 74%|███████▍  | 36318/48845 [12:51:55<4:23:35,  1.26s/it] 74%|███████▍  | 36319/48845 [12:51:56<4:23:26,  1.26s/it] 74%|███████▍  | 36320/48845 [12:51:57<4:23:31,  1.26s/it]                                                          {'loss': 2.1375, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36320/48845 [12:51:57<4:23:31,  1.26s/it] 74%|███████▍  | 36321/48845 [12:51:58<4:23:44,  1.26s/it] 74%|███████▍  | 36322/48845 [12:52:00<4:23:42,  1.26s/it] 74%|███████▍  | 36323/48845 [12:52:01<4:23:34,  1.26s/it] 74%|███████▍  | 36324/48845 [12:52:02<4:23:43,  1.26s/it] 74%|███████▍  | 36325/48845 [12:52:03<4:24:15,  1.27s/it]                                                          {'loss': 2.1162, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36325/48845 [12:52:03<4:24:15,  1.27s/it] 74%|███████▍  | 36326/48845 [12:52:05<4:24:11,  1.27s/it] 74%|███████▍  | 36327/48845 [12:52:06<4:23:49,  1.26s/it] 74%|███████▍  | 36328/48845 [12:52:07<4:23:38,  1.26s/it] 74%|███████▍  | 36329/48845 [12:52:09<4:23:50,  1.26s/it] 74%|███████▍  | 36330/48845 [12:52:10<4:23:36,  1.26s/it]                                                          {'loss': 2.0772, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36330/48845 [12:52:10<4:23:36,  1.26s/it] 74%|███████▍  | 36331/48845 [12:52:11<4:23:26,  1.26s/it] 74%|███████▍  | 36332/48845 [12:52:12<4:23:17,  1.26s/it] 74%|███████▍  | 36333/48845 [12:52:14<4:23:14,  1.26s/it] 74%|███████▍  | 36334/48845 [12:52:15<4:23:18,  1.26s/it] 74%|███████▍  | 36335/48845 [12:52:16<4:23:10,  1.26s/it]                                                          {'loss': 2.1103, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36335/48845 [12:52:16<4:23:10,  1.26s/it] 74%|███████▍  | 36336/48845 [12:52:17<4:23:25,  1.26s/it] 74%|███████▍  | 36337/48845 [12:52:19<4:23:30,  1.26s/it] 74%|███████▍  | 36338/48845 [12:52:20<4:23:29,  1.26s/it] 74%|███████▍  | 36339/48845 [12:52:21<4:23:13,  1.26s/it] 74%|███████▍  | 36340/48845 [12:52:22<4:23:05,  1.26s/it]                                                          {'loss': 2.0504, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36340/48845 [12:52:22<4:23:05,  1.26s/it] 74%|███████▍  | 36341/48845 [12:52:24<4:23:29,  1.26s/it] 74%|███████▍  | 36342/48845 [12:52:25<4:23:42,  1.27s/it] 74%|███████▍  | 36343/48845 [12:52:26<4:23:35,  1.27s/it] 74%|███████▍  | 36344/48845 [12:52:27<4:23:09,  1.26s/it] 74%|███████▍  | 36345/48845 [12:52:29<4:23:25,  1.26s/it]                                                          {'loss': 1.962, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36345/48845 [12:52:29<4:23:25,  1.26s/it] 74%|███████▍  | 36346/48845 [12:52:30<4:23:18,  1.26s/it] 74%|███████▍  | 36347/48845 [12:52:31<4:22:55,  1.26s/it] 74%|███████▍  | 36348/48845 [12:52:33<4:22:46,  1.26s/it] 74%|███████▍  | 36349/48845 [12:52:34<4:23:06,  1.26s/it] 74%|███████▍  | 36350/48845 [12:52:35<4:23:01,  1.26s/it]                                                          {'loss': 1.922, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36350/48845 [12:52:35<4:23:01,  1.26s/it] 74%|███████▍  | 36351/48845 [12:52:36<4:22:40,  1.26s/it] 74%|███████▍  | 36352/48845 [12:52:38<4:22:52,  1.26s/it] 74%|███████▍  | 36353/48845 [12:52:39<4:23:04,  1.26s/it] 74%|███████▍  | 36354/48845 [12:52:40<4:22:58,  1.26s/it] 74%|███████▍  | 36355/48845 [12:52:41<4:22:37,  1.26s/it]                                                          {'loss': 2.0654, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36355/48845 [12:52:41<4:22:37,  1.26s/it] 74%|███████▍  | 36356/48845 [12:52:43<4:22:50,  1.26s/it] 74%|███████▍  | 36357/48845 [12:52:44<4:22:56,  1.26s/it] 74%|███████▍  | 36358/48845 [12:52:45<4:22:52,  1.26s/it] 74%|███████▍  | 36359/48845 [12:52:46<4:22:43,  1.26s/it] 74%|███████▍  | 36360/48845 [12:52:48<4:22:29,  1.26s/it]                                                          {'loss': 2.0771, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36360/48845 [12:52:48<4:22:29,  1.26s/it] 74%|███████▍  | 36361/48845 [12:52:49<4:22:34,  1.26s/it] 74%|███████▍  | 36362/48845 [12:52:50<4:22:27,  1.26s/it] 74%|███████▍  | 36363/48845 [12:52:51<4:22:15,  1.26s/it] 74%|███████▍  | 36364/48845 [12:52:53<4:22:11,  1.26s/it] 74%|███████▍  | 36365/48845 [12:52:54<4:28:14,  1.29s/it]                                                          {'loss': 1.9403, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36365/48845 [12:52:54<4:28:14,  1.29s/it] 74%|███████▍  | 36366/48845 [12:52:55<4:26:21,  1.28s/it] 74%|███████▍  | 36367/48845 [12:52:57<4:25:09,  1.28s/it] 74%|███████▍  | 36368/48845 [12:52:58<4:24:17,  1.27s/it] 74%|███████▍  | 36369/48845 [12:52:59<4:27:56,  1.29s/it] 74%|███████▍  | 36370/48845 [12:53:00<4:26:10,  1.28s/it]                                                          {'loss': 2.2084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36370/48845 [12:53:00<4:26:10,  1.28s/it] 74%|███████▍  | 36371/48845 [12:53:02<4:25:07,  1.28s/it] 74%|███████▍  | 36372/48845 [12:53:03<4:24:23,  1.27s/it] 74%|███████▍  | 36373/48845 [12:53:04<4:31:37,  1.31s/it] 74%|███████▍  | 36374/48845 [12:53:06<4:29:14,  1.30s/it] 74%|███████▍  | 36375/48845 [12:53:07<4:26:59,  1.28s/it]                                                          {'loss': 2.0957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36375/48845 [12:53:07<4:26:59,  1.28s/it] 74%|███████▍  | 36376/48845 [12:53:08<4:25:20,  1.28s/it] 74%|███████▍  | 36377/48845 [12:53:09<4:24:27,  1.27s/it] 74%|███████▍  | 36378/48845 [12:53:11<4:23:42,  1.27s/it] 74%|███████▍  | 36379/48845 [12:53:12<4:23:05,  1.27s/it] 74%|███████▍  | 36380/48845 [12:53:13<4:22:44,  1.26s/it]                                                          {'loss': 2.073, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36380/48845 [12:53:13<4:22:44,  1.26s/it] 74%|███████▍  | 36381/48845 [12:53:14<4:23:06,  1.27s/it] 74%|███████▍  | 36382/48845 [12:53:16<4:22:53,  1.27s/it] 74%|███████▍  | 36383/48845 [12:53:17<4:22:34,  1.26s/it] 74%|███████▍  | 36384/48845 [12:53:18<4:22:39,  1.26s/it] 74%|███████▍  | 36385/48845 [12:53:20<4:22:51,  1.27s/it]                                                          {'loss': 2.1292, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.72}
+ 74%|███████▍  | 36385/48845 [12:53:20<4:22:51,  1.27s/it] 74%|███████▍  | 36386/48845 [12:53:21<4:22:41,  1.27s/it] 74%|███████▍  | 36387/48845 [12:53:22<4:22:21,  1.26s/it] 74%|███████▍  | 36388/48845 [12:53:23<4:22:06,  1.26s/it] 74%|███████▍  | 36389/48845 [12:53:25<4:22:14,  1.26s/it] 75%|███████▍  | 36390/48845 [12:53:26<4:22:45,  1.27s/it]                                                          {'loss': 2.016, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36390/48845 [12:53:26<4:22:45,  1.27s/it] 75%|███████▍  | 36391/48845 [12:53:27<4:22:40,  1.27s/it] 75%|███████▍  | 36392/48845 [12:53:28<4:22:38,  1.27s/it] 75%|███████▍  | 36393/48845 [12:53:30<4:22:47,  1.27s/it] 75%|███████▍  | 36394/48845 [12:53:31<4:22:24,  1.26s/it] 75%|███████▍  | 36395/48845 [12:53:32<4:22:24,  1.26s/it]                                                          {'loss': 2.0625, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36395/48845 [12:53:32<4:22:24,  1.26s/it] 75%|███████▍  | 36396/48845 [12:53:33<4:22:04,  1.26s/it] 75%|███████▍  | 36397/48845 [12:53:35<4:23:05,  1.27s/it] 75%|███████▍  | 36398/48845 [12:53:36<4:22:23,  1.26s/it] 75%|███████▍  | 36399/48845 [12:53:37<4:22:14,  1.26s/it] 75%|███████▍  | 36400/48845 [12:53:38<4:22:07,  1.26s/it]                                                          {'loss': 2.0684, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36400/48845 [12:53:38<4:22:07,  1.26s/it] 75%|███████▍  | 36401/48845 [12:53:42<6:57:12,  2.01s/it] 75%|███████▍  | 36402/48845 [12:53:43<6:10:06,  1.78s/it] 75%|███████▍  | 36403/48845 [12:53:45<5:37:24,  1.63s/it] 75%|███████▍  | 36404/48845 [12:53:46<5:14:47,  1.52s/it] 75%|███████▍  | 36405/48845 [12:53:47<4:58:55,  1.44s/it]                                                          {'loss': 2.0836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36405/48845 [12:53:47<4:58:55,  1.44s/it] 75%|███████▍  | 36406/48845 [12:53:49<4:47:50,  1.39s/it] 75%|███████▍  | 36407/48845 [12:53:50<4:40:22,  1.35s/it] 75%|███████▍  | 36408/48845 [12:53:51<4:34:35,  1.32s/it] 75%|███████▍  | 36409/48845 [12:53:52<4:30:34,  1.31s/it] 75%|███████▍  | 36410/48845 [12:53:54<4:27:37,  1.29s/it]                                                          {'loss': 2.041, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36410/48845 [12:53:54<4:27:37,  1.29s/it] 75%|███████▍  | 36411/48845 [12:53:55<4:25:39,  1.28s/it] 75%|███████▍  | 36412/48845 [12:53:56<4:24:57,  1.28s/it] 75%|███████▍  | 36413/48845 [12:53:57<4:23:31,  1.27s/it] 75%|███████▍  | 36414/48845 [12:53:59<4:22:46,  1.27s/it] 75%|███████▍  | 36415/48845 [12:54:00<4:22:53,  1.27s/it]                                                          {'loss': 2.1723, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36415/48845 [12:54:00<4:22:53,  1.27s/it] 75%|███████▍  | 36416/48845 [12:54:01<4:22:21,  1.27s/it] 75%|███████▍  | 36417/48845 [12:54:02<4:22:07,  1.27s/it] 75%|███████▍  | 36418/48845 [12:54:04<4:21:53,  1.26s/it] 75%|███████▍  | 36419/48845 [12:54:05<4:21:58,  1.26s/it] 75%|███████▍  | 36420/48845 [12:54:06<4:21:48,  1.26s/it]                                                          {'loss': 2.0234, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36420/48845 [12:54:06<4:21:48,  1.26s/it] 75%|███████▍  | 36421/48845 [12:54:07<4:21:27,  1.26s/it] 75%|███████▍  | 36422/48845 [12:54:09<4:21:14,  1.26s/it] 75%|███████▍  | 36423/48845 [12:54:10<4:21:15,  1.26s/it] 75%|███████▍  | 36424/48845 [12:54:11<4:21:13,  1.26s/it] 75%|███████▍  | 36425/48845 [12:54:13<4:21:02,  1.26s/it]                                                          {'loss': 1.968, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36425/48845 [12:54:13<4:21:02,  1.26s/it] 75%|███████▍  | 36426/48845 [12:54:14<4:20:55,  1.26s/it] 75%|███████▍  | 36427/48845 [12:54:15<4:20:54,  1.26s/it] 75%|███████▍  | 36428/48845 [12:54:16<4:20:46,  1.26s/it] 75%|███████▍  | 36429/48845 [12:54:18<4:20:57,  1.26s/it] 75%|███████▍  | 36430/48845 [12:54:19<4:20:57,  1.26s/it]                                                          {'loss': 2.16, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36430/48845 [12:54:19<4:20:57,  1.26s/it] 75%|███████▍  | 36431/48845 [12:54:20<4:24:20,  1.28s/it] 75%|███████▍  | 36432/48845 [12:54:21<4:23:31,  1.27s/it] 75%|███████▍  | 36433/48845 [12:54:23<4:22:49,  1.27s/it] 75%|███████▍  | 36434/48845 [12:54:24<4:22:24,  1.27s/it] 75%|███████▍  | 36435/48845 [12:54:25<4:21:56,  1.27s/it]                                                          {'loss': 1.9577, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36435/48845 [12:54:25<4:21:56,  1.27s/it] 75%|███████▍  | 36436/48845 [12:54:26<4:21:49,  1.27s/it] 75%|███████▍  | 36437/48845 [12:54:28<4:21:37,  1.27s/it] 75%|███████▍  | 36438/48845 [12:54:29<4:21:19,  1.26s/it] 75%|███████▍  | 36439/48845 [12:54:30<4:21:08,  1.26s/it] 75%|███████▍  | 36440/48845 [12:54:31<4:20:49,  1.26s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36440/48845 [12:54:31<4:20:49,  1.26s/it] 75%|███████▍  | 36441/48845 [12:54:33<4:21:04,  1.26s/it] 75%|███████▍  | 36442/48845 [12:54:34<4:21:14,  1.26s/it] 75%|███████▍  | 36443/48845 [12:54:35<4:21:42,  1.27s/it] 75%|███████▍  | 36444/48845 [12:54:37<4:21:50,  1.27s/it] 75%|███████▍  | 36445/48845 [12:54:38<4:21:29,  1.27s/it]                                                          {'loss': 1.9392, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36445/48845 [12:54:38<4:21:29,  1.27s/it] 75%|███████▍  | 36446/48845 [12:54:39<4:21:10,  1.26s/it] 75%|███████▍  | 36447/48845 [12:54:41<4:31:34,  1.31s/it] 75%|███████▍  | 36448/48845 [12:54:42<4:28:20,  1.30s/it] 75%|███████▍  | 36449/48845 [12:54:43<4:25:46,  1.29s/it] 75%|███████▍  | 36450/48845 [12:54:44<4:24:06,  1.28s/it]                                                          {'loss': 2.0391, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36450/48845 [12:54:44<4:24:06,  1.28s/it] 75%|███████▍  | 36451/48845 [12:54:46<4:23:23,  1.28s/it] 75%|███████▍  | 36452/48845 [12:54:47<4:22:33,  1.27s/it] 75%|███████▍  | 36453/48845 [12:54:48<4:22:21,  1.27s/it] 75%|███████▍  | 36454/48845 [12:54:49<4:21:47,  1.27s/it] 75%|███████▍  | 36455/48845 [12:54:51<4:21:27,  1.27s/it]                                                          {'loss': 1.8934, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36455/48845 [12:54:51<4:21:27,  1.27s/it] 75%|███████▍  | 36456/48845 [12:54:52<4:21:11,  1.26s/it] 75%|███████▍  | 36457/48845 [12:54:53<4:20:44,  1.26s/it] 75%|███████▍  | 36458/48845 [12:54:54<4:20:45,  1.26s/it] 75%|███████▍  | 36459/48845 [12:54:56<4:21:03,  1.26s/it] 75%|███████▍  | 36460/48845 [12:54:57<4:20:42,  1.26s/it]                                                          {'loss': 2.1309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36460/48845 [12:54:57<4:20:42,  1.26s/it] 75%|███████▍  | 36461/48845 [12:54:58<4:20:44,  1.26s/it] 75%|███████▍  | 36462/48845 [12:54:59<4:20:32,  1.26s/it] 75%|███████▍  | 36463/48845 [12:55:01<4:20:39,  1.26s/it] 75%|███████▍  | 36464/48845 [12:55:02<4:20:28,  1.26s/it] 75%|███████▍  | 36465/48845 [12:55:03<4:20:13,  1.26s/it]                                                          {'loss': 2.0469, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36465/48845 [12:55:03<4:20:13,  1.26s/it] 75%|███████▍  | 36466/48845 [12:55:05<4:20:15,  1.26s/it] 75%|███████▍  | 36467/48845 [12:55:06<4:20:35,  1.26s/it] 75%|███████▍  | 36468/48845 [12:55:07<4:20:48,  1.26s/it] 75%|███████▍  | 36469/48845 [12:55:08<4:20:30,  1.26s/it] 75%|███████▍  | 36470/48845 [12:55:10<4:20:22,  1.26s/it]                                                          {'loss': 2.052, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36470/48845 [12:55:10<4:20:22,  1.26s/it] 75%|███████▍  | 36471/48845 [12:55:11<4:20:39,  1.26s/it] 75%|███████▍  | 36472/48845 [12:55:12<4:20:33,  1.26s/it] 75%|███████▍  | 36473/48845 [12:55:13<4:20:16,  1.26s/it] 75%|███████▍  | 36474/48845 [12:55:15<4:20:13,  1.26s/it] 75%|███████▍  | 36475/48845 [12:55:16<4:20:27,  1.26s/it]                                                          {'loss': 2.2011, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36475/48845 [12:55:16<4:20:27,  1.26s/it] 75%|███████▍  | 36476/48845 [12:55:17<4:20:13,  1.26s/it] 75%|███████▍  | 36477/48845 [12:55:18<4:19:57,  1.26s/it] 75%|███████▍  | 36478/48845 [12:55:20<4:23:43,  1.28s/it] 75%|███████▍  | 36479/48845 [12:55:21<4:22:24,  1.27s/it] 75%|████���██▍  | 36480/48845 [12:55:22<4:21:43,  1.27s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36480/48845 [12:55:22<4:21:43,  1.27s/it] 75%|███████▍  | 36481/48845 [12:55:23<4:21:03,  1.27s/it] 75%|███████▍  | 36482/48845 [12:55:25<4:20:44,  1.27s/it] 75%|███████▍  | 36483/48845 [12:55:26<4:20:51,  1.27s/it] 75%|███████▍  | 36484/48845 [12:55:27<4:20:32,  1.26s/it] 75%|███████▍  | 36485/48845 [12:55:29<4:20:01,  1.26s/it]                                                          {'loss': 2.0407, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.73}
+ 75%|███████▍  | 36485/48845 [12:55:29<4:20:01,  1.26s/it] 75%|███████▍  | 36486/48845 [12:55:30<4:19:58,  1.26s/it] 75%|███████▍  | 36487/48845 [12:55:31<4:19:50,  1.26s/it] 75%|███████▍  | 36488/48845 [12:55:32<4:19:41,  1.26s/it] 75%|███████▍  | 36489/48845 [12:55:34<4:19:42,  1.26s/it] 75%|███████▍  | 36490/48845 [12:55:35<4:19:49,  1.26s/it]                                                          {'loss': 1.9922, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36490/48845 [12:55:35<4:19:49,  1.26s/it] 75%|███████▍  | 36491/48845 [12:55:36<4:19:48,  1.26s/it] 75%|███████▍  | 36492/48845 [12:55:37<4:19:42,  1.26s/it] 75%|███████▍  | 36493/48845 [12:55:39<4:19:44,  1.26s/it] 75%|███████▍  | 36494/48845 [12:55:40<4:19:51,  1.26s/it] 75%|███████▍  | 36495/48845 [12:55:41<4:22:53,  1.28s/it]                                                          {'loss': 1.9055, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36495/48845 [12:55:41<4:22:53,  1.28s/it] 75%|███████▍  | 36496/48845 [12:55:42<4:22:20,  1.27s/it] 75%|███████▍  | 36497/48845 [12:55:44<4:21:30,  1.27s/it] 75%|███████▍  | 36498/48845 [12:55:45<4:21:02,  1.27s/it] 75%|███████▍  | 36499/48845 [12:55:46<4:20:42,  1.27s/it] 75%|███████▍  | 36500/48845 [12:55:48<4:20:13,  1.26s/it]                                                          {'loss': 2.1206, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36500/48845 [12:55:48<4:20:13,  1.26s/it] 75%|███████▍  | 36501/48845 [12:55:49<4:20:15,  1.27s/it] 75%|███████▍  | 36502/48845 [12:55:50<4:20:09,  1.26s/it] 75%|███████▍  | 36503/48845 [12:55:51<4:20:01,  1.26s/it] 75%|███████▍  | 36504/48845 [12:55:53<4:19:37,  1.26s/it] 75%|███████▍  | 36505/48845 [12:55:54<4:19:23,  1.26s/it]                                                          {'loss': 2.0441, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36505/48845 [12:55:54<4:19:23,  1.26s/it] 75%|███████▍  | 36506/48845 [12:55:55<4:19:14,  1.26s/it] 75%|███████▍  | 36507/48845 [12:55:56<4:19:32,  1.26s/it] 75%|███████▍  | 36508/48845 [12:55:58<4:19:34,  1.26s/it] 75%|███████▍  | 36509/48845 [12:55:59<4:19:39,  1.26s/it] 75%|███████▍  | 36510/48845 [12:56:00<4:19:32,  1.26s/it]                                                          {'loss': 1.9955, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36510/48845 [12:56:00<4:19:32,  1.26s/it] 75%|███████▍  | 36511/48845 [12:56:01<4:19:22,  1.26s/it] 75%|███████▍  | 36512/48845 [12:56:03<4:19:29,  1.26s/it] 75%|███████▍  | 36513/48845 [12:56:04<4:19:32,  1.26s/it] 75%|███████▍  | 36514/48845 [12:56:05<4:19:24,  1.26s/it] 75%|███████▍  | 36515/48845 [12:56:06<4:19:21,  1.26s/it]                                                          {'loss': 2.0969, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36515/48845 [12:56:06<4:19:21,  1.26s/it] 75%|███████▍  | 36516/48845 [12:56:08<4:19:28,  1.26s/it] 75%|███████▍  | 36517/48845 [12:56:09<4:19:46,  1.26s/it] 75%|███████▍  | 36518/48845 [12:56:10<4:19:44,  1.26s/it] 75%|███████▍  | 36519/48845 [12:56:12<4:19:39,  1.26s/it] 75%|███████▍  | 36520/48845 [12:56:13<4:19:26,  1.26s/it]                                                          {'loss': 2.0234, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36520/48845 [12:56:13<4:19:26,  1.26s/it] 75%|███████▍  | 36521/48845 [12:56:14<4:19:48,  1.26s/it] 75%|███████▍  | 36522/48845 [12:56:15<4:19:33,  1.26s/it] 75%|███████▍  | 36523/48845 [12:56:17<4:19:04,  1.26s/it] 75%|███████▍  | 36524/48845 [12:56:18<4:19:04,  1.26s/it] 75%|███████▍  | 36525/48845 [12:56:19<4:19:13,  1.26s/it]                                                          {'loss': 2.0953, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36525/48845 [12:56:19<4:19:13,  1.26s/it] 75%|███████▍  | 36526/48845 [12:56:20<4:19:25,  1.26s/it] 75%|███████▍  | 36527/48845 [12:56:22<4:18:56,  1.26s/it] 75%|███████▍  | 36528/48845 [12:56:23<4:18:45,  1.26s/it] 75%|███████▍  | 36529/48845 [12:56:24<4:18:33,  1.26s/it] 75%|███████▍  | 36530/48845 [12:56:25<4:18:31,  1.26s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36530/48845 [12:56:25<4:18:31,  1.26s/it] 75%|███████▍  | 36531/48845 [12:56:27<4:18:41,  1.26s/it] 75%|███████▍  | 36532/48845 [12:56:28<4:18:49,  1.26s/it] 75%|███████▍  | 36533/48845 [12:56:29<4:29:08,  1.31s/it] 75%|███████▍  | 36534/48845 [12:56:31<4:26:03,  1.30s/it] 75%|███████▍  | 36535/48845 [12:56:32<4:23:32,  1.28s/it]                                                          {'loss': 2.0782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36535/48845 [12:56:32<4:23:32,  1.28s/it] 75%|███████▍  | 36536/48845 [12:56:33<4:22:00,  1.28s/it] 75%|███████▍  | 36537/48845 [12:56:34<4:23:19,  1.28s/it] 75%|███████▍  | 36538/48845 [12:56:36<4:21:54,  1.28s/it] 75%|███████▍  | 36539/48845 [12:56:37<4:20:52,  1.27s/it] 75%|███████▍  | 36540/48845 [12:56:38<4:20:17,  1.27s/it]                                                          {'loss': 1.9159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36540/48845 [12:56:38<4:20:17,  1.27s/it] 75%|███████▍  | 36541/48845 [12:56:39<4:20:26,  1.27s/it] 75%|███████▍  | 36542/48845 [12:56:41<4:20:02,  1.27s/it] 75%|███████▍  | 36543/48845 [12:56:42<4:19:22,  1.27s/it] 75%|███████▍  | 36544/48845 [12:56:43<4:19:01,  1.26s/it] 75%|███████▍  | 36545/48845 [12:56:45<4:18:48,  1.26s/it]                                                          {'loss': 2.0523, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36545/48845 [12:56:45<4:18:48,  1.26s/it] 75%|███████▍  | 36546/48845 [12:56:46<4:19:04,  1.26s/it] 75%|███████▍  | 36547/48845 [12:56:47<4:18:50,  1.26s/it] 75%|███████▍  | 36548/48845 [12:56:48<4:18:34,  1.26s/it] 75%|███████▍  | 36549/48845 [12:56:50<4:18:25,  1.26s/it] 75%|███████▍  | 36550/48845 [12:56:51<4:18:22,  1.26s/it]                                                          {'loss': 2.2079, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36550/48845 [12:56:51<4:18:22,  1.26s/it] 75%|███████▍  | 36551/48845 [12:56:52<4:18:19,  1.26s/it] 75%|███████▍  | 36552/48845 [12:56:53<4:18:16,  1.26s/it] 75%|███████▍  | 36553/48845 [12:56:55<4:18:11,  1.26s/it] 75%|███████▍  | 36554/48845 [12:56:56<4:18:02,  1.26s/it] 75%|███████▍  | 36555/48845 [12:56:57<4:18:28,  1.26s/it]                                                          {'loss': 1.9807, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36555/48845 [12:56:57<4:18:28,  1.26s/it] 75%|███████▍  | 36556/48845 [12:56:58<4:18:36,  1.26s/it] 75%|███████▍  | 36557/48845 [12:57:00<4:18:23,  1.26s/it] 75%|███████▍  | 36558/48845 [12:57:01<4:18:16,  1.26s/it] 75%|███████▍  | 36559/48845 [12:57:02<4:18:16,  1.26s/it] 75%|███████▍  | 36560/48845 [12:57:03<4:18:01,  1.26s/it]                                                          {'loss': 2.0185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36560/48845 [12:57:03<4:18:01,  1.26s/it] 75%|███████▍  | 36561/48845 [12:57:05<4:18:07,  1.26s/it] 75%|███████▍  | 36562/48845 [12:57:06<4:18:09,  1.26s/it] 75%|███████▍  | 36563/48845 [12:57:07<4:18:24,  1.26s/it] 75%|███████▍  | 36564/48845 [12:57:08<4:18:07,  1.26s/it] 75%|███████▍  | 36565/48845 [12:57:10<4:18:26,  1.26s/it]                                                          {'loss': 1.9445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36565/48845 [12:57:10<4:18:26,  1.26s/it] 75%|███████▍  | 36566/48845 [12:57:11<4:18:23,  1.26s/it] 75%|███████▍  | 36567/48845 [12:57:12<4:18:22,  1.26s/it] 75%|███████▍  | 36568/48845 [12:57:14<4:18:21,  1.26s/it] 75%|███████▍  | 36569/48845 [12:57:15<4:18:14,  1.26s/it] 75%|███████▍  | 36570/48845 [12:57:16<4:18:03,  1.26s/it]                                                          {'loss': 1.9652, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36570/48845 [12:57:16<4:18:03,  1.26s/it] 75%|███████▍  | 36571/48845 [12:57:17<4:18:36,  1.26s/it] 75%|███████▍  | 36572/48845 [12:57:19<4:18:31,  1.26s/it] 75%|███████▍  | 36573/48845 [12:57:20<4:18:27,  1.26s/it] 75%|███████▍  | 36574/48845 [12:57:21<4:18:15,  1.26s/it] 75%|███████▍  | 36575/48845 [12:57:22<4:18:06,  1.26s/it]                                                          {'loss': 2.0202, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36575/48845 [12:57:22<4:18:06,  1.26s/it] 75%|███████▍  | 36576/48845 [12:57:24<4:18:00,  1.26s/it] 75%|███████▍  | 36577/48845 [12:57:25<4:18:07,  1.26s/it] 75%|███████▍  | 36578/48845 [12:57:26<4:17:54,  1.26s/it] 75%|███████▍  | 36579/48845 [12:57:27<4:18:09,  1.26s/it] 75%|███████▍  | 36580/48845 [12:57:29<4:17:59,  1.26s/it]                                                          {'loss': 1.9749, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.74}
+ 75%|███████▍  | 36580/48845 [12:57:29<4:17:59,  1.26s/it] 75%|███████▍  | 36581/48845 [12:57:30<4:18:15,  1.26s/it] 75%|███████▍  | 36582/48845 [12:57:31<4:18:13,  1.26s/it] 75%|███████▍  | 36583/48845 [12:57:32<4:18:20,  1.26s/it] 75%|███████▍  | 36584/48845 [12:57:34<4:18:22,  1.26s/it] 75%|███████▍  | 36585/48845 [12:57:35<4:18:02,  1.26s/it]                                                          {'loss': 2.0576, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36585/48845 [12:57:35<4:18:02,  1.26s/it] 75%|███████▍  | 36586/48845 [12:57:36<4:18:09,  1.26s/it] 75%|███████▍  | 36587/48845 [12:57:38<4:18:26,  1.27s/it] 75%|███████▍  | 36588/48845 [12:57:39<4:18:14,  1.26s/it] 75%|███████▍  | 36589/48845 [12:57:40<4:17:56,  1.26s/it] 75%|███████▍  | 36590/48845 [12:57:41<4:17:53,  1.26s/it]                                                          {'loss': 1.8419, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36590/48845 [12:57:41<4:17:53,  1.26s/it] 75%|███████▍  | 36591/48845 [12:57:43<4:18:05,  1.26s/it] 75%|███████▍  | 36592/48845 [12:57:44<4:17:46,  1.26s/it] 75%|███████▍  | 36593/48845 [12:57:45<4:17:34,  1.26s/it] 75%|███████▍  | 36594/48845 [12:57:46<4:17:45,  1.26s/it] 75%|███████▍  | 36595/48845 [12:57:48<4:17:54,  1.26s/it]                                                          {'loss': 2.2154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36595/48845 [12:57:48<4:17:54,  1.26s/it] 75%|███████▍  | 36596/48845 [12:57:49<4:17:52,  1.26s/it] 75%|███████▍  | 36597/48845 [12:57:50<4:18:09,  1.26s/it] 75%|███████▍  | 36598/48845 [12:57:51<4:17:49,  1.26s/it] 75%|███████▍  | 36599/48845 [12:57:53<4:18:07,  1.26s/it] 75%|███████▍  | 36600/48845 [12:57:54<4:17:53,  1.26s/it]                                                          {'loss': 2.0254, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36600/48845 [12:57:54<4:17:53,  1.26s/it] 75%|███████▍  | 36601/48845 [12:57:58<6:52:09,  2.02s/it] 75%|███████▍  | 36602/48845 [12:57:59<6:05:41,  1.79s/it] 75%|███████▍  | 36603/48845 [12:58:00<5:33:12,  1.63s/it] 75%|███████▍  | 36604/48845 [12:58:02<5:10:27,  1.52s/it] 75%|███████▍  | 36605/48845 [12:58:03<4:54:39,  1.44s/it]                                                          {'loss': 1.9633, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36605/48845 [12:58:03<4:54:39,  1.44s/it] 75%|███████▍  | 36606/48845 [12:58:04<4:43:32,  1.39s/it] 75%|███████▍  | 36607/48845 [12:58:05<4:35:30,  1.35s/it] 75%|███████▍  | 36608/48845 [12:58:07<4:29:57,  1.32s/it] 75%|███████▍  | 36609/48845 [12:58:08<4:26:05,  1.30s/it] 75%|███████▍  | 36610/48845 [12:58:09<4:23:21,  1.29s/it]                                                          {'loss': 1.8833, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36610/48845 [12:58:09<4:23:21,  1.29s/it] 75%|███████▍  | 36611/48845 [12:58:10<4:21:39,  1.28s/it] 75%|███████▍  | 36612/48845 [12:58:12<4:20:08,  1.28s/it] 75%|███████▍  | 36613/48845 [12:58:13<4:19:32,  1.27s/it] 75%|███████▍  | 36614/48845 [12:58:14<4:18:48,  1.27s/it] 75%|███████▍  | 36615/48845 [12:58:15<4:18:14,  1.27s/it]                                                          {'loss': 1.9541, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36615/48845 [12:58:15<4:18:14,  1.27s/it] 75%|███████▍  | 36616/48845 [12:58:17<4:18:18,  1.27s/it] 75%|███████▍  | 36617/48845 [12:58:18<4:17:56,  1.27s/it] 75%|███████▍  | 36618/48845 [12:58:19<4:17:43,  1.26s/it] 75%|███████▍  | 36619/48845 [12:58:20<4:17:30,  1.26s/it] 75%|███████▍  | 36620/48845 [12:58:22<4:17:13,  1.26s/it]                                                          {'loss': 1.8928, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36620/48845 [12:58:22<4:17:13,  1.26s/it] 75%|███████▍  | 36621/48845 [12:58:23<4:17:24,  1.26s/it] 75%|███████▍  | 36622/48845 [12:58:24<4:17:22,  1.26s/it] 75%|███████▍  | 36623/48845 [12:58:26<4:17:19,  1.26s/it] 75%|███████▍  | 36624/48845 [12:58:27<4:16:57,  1.26s/it] 75%|███████▍  | 36625/48845 [12:58:28<4:16:58,  1.26s/it]                                                          {'loss': 2.0193, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36625/48845 [12:58:28<4:16:58,  1.26s/it] 75%|███████▍  | 36626/48845 [12:58:29<4:17:03,  1.26s/it] 75%|███████▍  | 36627/48845 [12:58:31<4:16:58,  1.26s/it] 75%|███████▍  | 36628/48845 [12:58:32<4:16:50,  1.26s/it] 75%|███████▍  | 36629/48845 [12:58:33<4:17:01,  1.26s/it] 75%|███████▍  | 36630/48845 [12:58:34<4:17:05,  1.26s/it]                                                          {'loss': 1.9092, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▍  | 36630/48845 [12:58:34<4:17:05,  1.26s/it] 75%|███████▍  | 36631/48845 [12:58:36<4:17:11,  1.26s/it] 75%|███████▍  | 36632/48845 [12:58:37<4:17:07,  1.26s/it] 75%|███████▍  | 36633/48845 [12:58:38<4:27:39,  1.32s/it] 75%|███████▌  | 36634/48845 [12:58:40<4:24:31,  1.30s/it] 75%|███████▌  | 36635/48845 [12:58:41<4:22:07,  1.29s/it]                                                          {'loss': 2.0059, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36635/48845 [12:58:41<4:22:07,  1.29s/it] 75%|███████▌  | 36636/48845 [12:58:42<4:20:39,  1.28s/it] 75%|███████▌  | 36637/48845 [12:58:43<4:19:26,  1.28s/it] 75%|███████▌  | 36638/48845 [12:58:45<4:18:41,  1.27s/it] 75%|███████▌  | 36639/48845 [12:58:46<4:17:51,  1.27s/it] 75%|███████▌  | 36640/48845 [12:58:47<4:17:21,  1.27s/it]                                                          {'loss': 2.1627, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36640/48845 [12:58:47<4:17:21,  1.27s/it] 75%|███████▌  | 36641/48845 [12:58:48<4:17:27,  1.27s/it] 75%|███████▌  | 36642/48845 [12:58:50<4:17:10,  1.26s/it] 75%|███████▌  | 36643/48845 [12:58:51<4:16:46,  1.26s/it] 75%|███████▌  | 36644/48845 [12:58:52<4:16:41,  1.26s/it] 75%|███████▌  | 36645/48845 [12:58:53<4:16:48,  1.26s/it]                                                          {'loss': 2.051, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36645/48845 [12:58:53<4:16:48,  1.26s/it] 75%|███████▌  | 36646/48845 [12:58:55<4:16:52,  1.26s/it] 75%|███████▌  | 36647/48845 [12:58:56<4:17:01,  1.26s/it] 75%|███████▌  | 36648/48845 [12:58:57<4:16:53,  1.26s/it] 75%|███████▌  | 36649/48845 [12:58:59<4:22:47,  1.29s/it] 75%|███████▌  | 36650/48845 [12:59:00<4:20:43,  1.28s/it]                                                          {'loss': 1.9371, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36650/48845 [12:59:00<4:20:43,  1.28s/it] 75%|███████▌  | 36651/48845 [12:59:01<4:19:27,  1.28s/it] 75%|███████▌  | 36652/48845 [12:59:02<4:18:27,  1.27s/it] 75%|███████▌  | 36653/48845 [12:59:04<4:17:57,  1.27s/it] 75%|███████▌  | 36654/48845 [12:59:05<4:17:23,  1.27s/it] 75%|███████▌  | 36655/48845 [12:59:06<4:17:02,  1.27s/it]                                                          {'loss': 2.029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36655/48845 [12:59:06<4:17:02,  1.27s/it] 75%|███████▌  | 36656/48845 [12:59:07<4:17:13,  1.27s/it] 75%|███████▌  | 36657/48845 [12:59:09<4:16:50,  1.26s/it] 75%|███████▌  | 36658/48845 [12:59:10<4:16:31,  1.26s/it] 75%|███████▌  | 36659/48845 [12:59:11<4:16:22,  1.26s/it] 75%|███████▌  | 36660/48845 [12:59:12<4:16:32,  1.26s/it]                                                          {'loss': 2.0842, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36660/48845 [12:59:12<4:16:32,  1.26s/it] 75%|███████▌  | 36661/48845 [12:59:14<4:16:41,  1.26s/it] 75%|███████▌  | 36662/48845 [12:59:15<4:16:21,  1.26s/it] 75%|███████▌  | 36663/48845 [12:59:16<4:16:19,  1.26s/it] 75%|███████▌  | 36664/48845 [12:59:18<4:16:08,  1.26s/it] 75%|███████▌  | 36665/48845 [12:59:19<4:16:20,  1.26s/it]                                                          {'loss': 2.0192, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36665/48845 [12:59:19<4:16:20,  1.26s/it] 75%|███████▌  | 36666/48845 [12:59:20<4:16:12,  1.26s/it] 75%|███████▌  | 36667/48845 [12:59:21<4:16:08,  1.26s/it] 75%|███████▌  | 36668/48845 [12:59:23<4:16:16,  1.26s/it] 75%|███████▌  | 36669/48845 [12:59:24<4:20:59,  1.29s/it] 75%|███████▌  | 36670/48845 [12:59:25<4:19:25,  1.28s/it]                                                          {'loss': 1.9853, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36670/48845 [12:59:25<4:19:25,  1.28s/it] 75%|███████▌  | 36671/48845 [12:59:26<4:18:26,  1.27s/it] 75%|███████▌  | 36672/48845 [12:59:28<4:17:46,  1.27s/it] 75%|███████▌  | 36673/48845 [12:59:29<4:17:12,  1.27s/it] 75%|███████▌  | 36674/48845 [12:59:30<4:16:37,  1.27s/it] 75%|███████▌  | 36675/48845 [12:59:32<4:21:29,  1.29s/it]                                                          {'loss': 2.1349, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36675/48845 [12:59:32<4:21:29,  1.29s/it] 75%|███████▌  | 36676/48845 [12:59:33<4:19:59,  1.28s/it] 75%|███████▌  | 36677/48845 [12:59:34<4:18:41,  1.28s/it] 75%|███████▌  | 36678/48845 [12:59:35<4:17:36,  1.27s/it] 75%|███████▌  | 36679/48845 [12:59:37<4:16:51,  1.27s/it] 75%|███████▌  | 36680/48845 [12:59:38<4:16:30,  1.27s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.75}
+ 75%|███████▌  | 36680/48845 [12:59:38<4:16:30,  1.27s/it] 75%|███████▌  | 36681/48845 [12:59:39<4:16:36,  1.27s/it] 75%|███████▌  | 36682/48845 [12:59:40<4:16:16,  1.26s/it] 75%|███████▌  | 36683/48845 [12:59:42<4:16:06,  1.26s/it] 75%|███████▌  | 36684/48845 [12:59:43<4:16:20,  1.26s/it] 75%|███████▌  | 36685/48845 [12:59:44<4:26:52,  1.32s/it]                                                          {'loss': 2.0794, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36685/48845 [12:59:44<4:26:52,  1.32s/it] 75%|███████▌  | 36686/48845 [12:59:46<4:23:24,  1.30s/it] 75%|███████▌  | 36687/48845 [12:59:47<4:20:57,  1.29s/it] 75%|███████▌  | 36688/48845 [12:59:48<4:19:13,  1.28s/it] 75%|███████▌  | 36689/48845 [12:59:49<4:18:17,  1.27s/it] 75%|███████▌  | 36690/48845 [12:59:51<4:17:35,  1.27s/it]                                                          {'loss': 1.9866, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36690/48845 [12:59:51<4:17:35,  1.27s/it] 75%|███████▌  | 36691/48845 [12:59:52<4:16:57,  1.27s/it] 75%|███████▌  | 36692/48845 [12:59:53<4:16:35,  1.27s/it] 75%|███████▌  | 36693/48845 [12:59:55<4:18:13,  1.27s/it] 75%|███████▌  | 36694/48845 [12:59:56<4:17:23,  1.27s/it] 75%|███████▌  | 36695/48845 [12:59:57<4:17:09,  1.27s/it]                                                          {'loss': 1.9588, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36695/48845 [12:59:57<4:17:09,  1.27s/it] 75%|███████▌  | 36696/48845 [12:59:58<4:16:39,  1.27s/it] 75%|███████▌  | 36697/48845 [13:00:00<4:16:32,  1.27s/it] 75%|███████▌  | 36698/48845 [13:00:01<4:16:03,  1.26s/it] 75%|███████▌  | 36699/48845 [13:00:02<4:15:45,  1.26s/it] 75%|███████▌  | 36700/48845 [13:00:03<4:15:33,  1.26s/it]                                                          {'loss': 2.0601, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36700/48845 [13:00:03<4:15:33,  1.26s/it] 75%|███████▌  | 36701/48845 [13:00:05<4:15:41,  1.26s/it] 75%|███████▌  | 36702/48845 [13:00:06<4:15:41,  1.26s/it] 75%|███████▌  | 36703/48845 [13:00:07<4:15:26,  1.26s/it] 75%|███████▌  | 36704/48845 [13:00:08<4:15:17,  1.26s/it] 75%|███████▌  | 36705/48845 [13:00:10<4:15:37,  1.26s/it]                                                          {'loss': 2.169, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36705/48845 [13:00:10<4:15:37,  1.26s/it] 75%|███████▌  | 36706/48845 [13:00:11<4:16:03,  1.27s/it] 75%|███████▌  | 36707/48845 [13:00:12<4:15:49,  1.26s/it] 75%|███████▌  | 36708/48845 [13:00:13<4:15:36,  1.26s/it] 75%|███████▌  | 36709/48845 [13:00:15<4:15:39,  1.26s/it] 75%|███████▌  | 36710/48845 [13:00:16<4:15:42,  1.26s/it]                                                          {'loss': 2.1387, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36710/48845 [13:00:16<4:15:42,  1.26s/it] 75%|███████▌  | 36711/48845 [13:00:17<4:15:32,  1.26s/it] 75%|███████▌  | 36712/48845 [13:00:19<4:15:19,  1.26s/it] 75%|███████▌  | 36713/48845 [13:00:20<4:15:31,  1.26s/it] 75%|███████▌  | 36714/48845 [13:00:21<4:15:36,  1.26s/it] 75%|███████▌  | 36715/48845 [13:00:22<4:15:31,  1.26s/it]                                                          {'loss': 1.9283, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36715/48845 [13:00:22<4:15:31,  1.26s/it] 75%|███████▌  | 36716/48845 [13:00:24<4:16:01,  1.27s/it] 75%|███████▌  | 36717/48845 [13:00:25<4:15:36,  1.26s/it] 75%|███████▌  | 36718/48845 [13:00:26<4:15:30,  1.26s/it] 75%|███████▌  | 36719/48845 [13:00:27<4:15:08,  1.26s/it] 75%|███████▌  | 36720/48845 [13:00:29<4:14:57,  1.26s/it]                                                          {'loss': 2.1252, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36720/48845 [13:00:29<4:14:57,  1.26s/it] 75%|███████▌  | 36721/48845 [13:00:30<4:15:34,  1.26s/it] 75%|███████▌  | 36722/48845 [13:00:31<4:15:35,  1.27s/it] 75%|███████▌  | 36723/48845 [13:00:32<4:15:19,  1.26s/it] 75%|███████▌  | 36724/48845 [13:00:34<4:15:20,  1.26s/it] 75%|███████▌  | 36725/48845 [13:00:35<4:15:19,  1.26s/it]                                                          {'loss': 2.0406, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36725/48845 [13:00:35<4:15:19,  1.26s/it] 75%|███████▌  | 36726/48845 [13:00:36<4:15:19,  1.26s/it] 75%|███████▌  | 36727/48845 [13:00:37<4:15:23,  1.26s/it] 75%|███████▌  | 36728/48845 [13:00:39<4:15:10,  1.26s/it] 75%|███████▌  | 36729/48845 [13:00:40<4:15:24,  1.26s/it] 75%|███████▌  | 36730/48845 [13:00:41<4:15:23,  1.26s/it]                                                          {'loss': 2.0138, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36730/48845 [13:00:41<4:15:23,  1.26s/it] 75%|███████▌  | 36731/48845 [13:00:43<4:15:21,  1.26s/it] 75%|███████▌  | 36732/48845 [13:00:44<4:15:03,  1.26s/it] 75%|███████▌  | 36733/48845 [13:00:45<4:15:06,  1.26s/it] 75%|███████▌  | 36734/48845 [13:00:46<4:14:59,  1.26s/it] 75%|███████▌  | 36735/48845 [13:00:48<4:15:05,  1.26s/it]                                                          {'loss': 2.0554, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36735/48845 [13:00:48<4:15:05,  1.26s/it] 75%|███████▌  | 36736/48845 [13:00:49<4:14:43,  1.26s/it] 75%|███████▌  | 36737/48845 [13:00:50<4:21:33,  1.30s/it] 75%|███████▌  | 36738/48845 [13:00:51<4:19:25,  1.29s/it] 75%|███████▌  | 36739/48845 [13:00:53<4:18:02,  1.28s/it] 75%|███████▌  | 36740/48845 [13:00:54<4:16:54,  1.27s/it]                                                          {'loss': 2.076, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36740/48845 [13:00:54<4:16:54,  1.27s/it] 75%|███████▌  | 36741/48845 [13:00:55<4:16:30,  1.27s/it] 75%|███���███▌  | 36742/48845 [13:00:57<4:16:00,  1.27s/it] 75%|███████▌  | 36743/48845 [13:00:58<4:15:45,  1.27s/it] 75%|███████▌  | 36744/48845 [13:00:59<4:15:21,  1.27s/it] 75%|███████▌  | 36745/48845 [13:01:00<4:15:09,  1.27s/it]                                                          {'loss': 2.0914, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36745/48845 [13:01:00<4:15:09,  1.27s/it] 75%|███████▌  | 36746/48845 [13:01:02<4:14:57,  1.26s/it] 75%|███████▌  | 36747/48845 [13:01:03<4:14:43,  1.26s/it] 75%|███████▌  | 36748/48845 [13:01:04<4:14:35,  1.26s/it] 75%|███████▌  | 36749/48845 [13:01:05<4:14:56,  1.26s/it] 75%|███████▌  | 36750/48845 [13:01:07<4:14:57,  1.26s/it]                                                          {'loss': 1.8702, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36750/48845 [13:01:07<4:14:57,  1.26s/it] 75%|███████▌  | 36751/48845 [13:01:08<4:14:44,  1.26s/it] 75%|███████▌  | 36752/48845 [13:01:09<4:14:32,  1.26s/it] 75%|███████▌  | 36753/48845 [13:01:11<4:22:26,  1.30s/it] 75%|███████▌  | 36754/48845 [13:01:12<4:20:15,  1.29s/it] 75%|███████▌  | 36755/48845 [13:01:13<4:18:16,  1.28s/it]                                                          {'loss': 2.1503, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36755/48845 [13:01:13<4:18:16,  1.28s/it] 75%|███████▌  | 36756/48845 [13:01:14<4:17:11,  1.28s/it] 75%|███████▌  | 36757/48845 [13:01:16<4:16:31,  1.27s/it] 75%|███████▌  | 36758/48845 [13:01:17<4:15:40,  1.27s/it] 75%|███████▌  | 36759/48845 [13:01:18<4:15:11,  1.27s/it] 75%|███████▌  | 36760/48845 [13:01:19<4:14:39,  1.26s/it]                                                          {'loss': 2.1257, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36760/48845 [13:01:19<4:14:39,  1.26s/it] 75%|███████▌  | 36761/48845 [13:01:21<4:14:43,  1.26s/it] 75%|███████▌  | 36762/48845 [13:01:22<4:14:20,  1.26s/it] 75%|███████▌  | 36763/48845 [13:01:23<4:14:17,  1.26s/it] 75%|███████▌  | 36764/48845 [13:01:24<4:14:14,  1.26s/it] 75%|███████▌  | 36765/48845 [13:01:26<4:18:12,  1.28s/it]                                                          {'loss': 1.9087, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36765/48845 [13:01:26<4:18:12,  1.28s/it] 75%|███████▌  | 36766/48845 [13:01:27<4:17:04,  1.28s/it] 75%|███████▌  | 36767/48845 [13:01:28<4:16:31,  1.27s/it] 75%|███████▌  | 36768/48845 [13:01:30<4:15:54,  1.27s/it] 75%|███████▌  | 36769/48845 [13:01:31<4:15:47,  1.27s/it] 75%|███████▌  | 36770/48845 [13:01:32<4:15:47,  1.27s/it]                                                          {'loss': 1.9949, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36770/48845 [13:01:32<4:15:47,  1.27s/it] 75%|███████▌  | 36771/48845 [13:01:33<4:15:23,  1.27s/it] 75%|███████▌  | 36772/48845 [13:01:35<4:14:59,  1.27s/it] 75%|███████▌  | 36773/48845 [13:01:36<4:14:32,  1.27s/it] 75%|███████▌  | 36774/48845 [13:01:37<4:14:24,  1.26s/it] 75%|███████▌  | 36775/48845 [13:01:38<4:14:12,  1.26s/it]                                                          {'loss': 1.8985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36775/48845 [13:01:38<4:14:12,  1.26s/it] 75%|███████▌  | 36776/48845 [13:01:40<4:14:11,  1.26s/it] 75%|███████▌  | 36777/48845 [13:01:41<4:14:05,  1.26s/it] 75%|███████▌  | 36778/48845 [13:01:42<4:14:13,  1.26s/it] 75%|███████▌  | 36779/48845 [13:01:43<4:13:59,  1.26s/it] 75%|███████▌  | 36780/48845 [13:01:45<4:14:02,  1.26s/it]                                                          {'loss': 2.0726, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.76}
+ 75%|███████▌  | 36780/48845 [13:01:45<4:14:02,  1.26s/it] 75%|███████▌  | 36781/48845 [13:01:46<4:14:09,  1.26s/it] 75%|███████▌  | 36782/48845 [13:01:47<4:14:12,  1.26s/it] 75%|███████▌  | 36783/48845 [13:01:49<4:14:05,  1.26s/it] 75%|███████▌  | 36784/48845 [13:01:50<4:14:04,  1.26s/it] 75%|███████▌  | 36785/48845 [13:01:51<4:14:17,  1.27s/it]                                                          {'loss': 2.1517, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36785/48845 [13:01:51<4:14:17,  1.27s/it] 75%|███████▌  | 36786/48845 [13:01:52<4:14:18,  1.27s/it] 75%|███████▌  | 36787/48845 [13:01:54<4:13:59,  1.26s/it] 75%|███████▌  | 36788/48845 [13:01:55<4:13:53,  1.26s/it] 75%|███████▌  | 36789/48845 [13:01:56<4:14:10,  1.26s/it] 75%|███████▌  | 36790/48845 [13:01:57<4:14:02,  1.26s/it]                                                          {'loss': 2.1054, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36790/48845 [13:01:57<4:14:02,  1.26s/it] 75%|███████▌  | 36791/48845 [13:01:59<4:13:51,  1.26s/it] 75%|███████▌  | 36792/48845 [13:02:00<4:13:40,  1.26s/it] 75%|███████▌  | 36793/48845 [13:02:01<4:13:28,  1.26s/it] 75%|███████▌  | 36794/48845 [13:02:02<4:13:23,  1.26s/it] 75%|███████▌  | 36795/48845 [13:02:04<4:13:14,  1.26s/it]                                                          {'loss': 2.0965, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36795/48845 [13:02:04<4:13:14,  1.26s/it] 75%|███████▌  | 36796/48845 [13:02:05<4:13:49,  1.26s/it] 75%|███████▌  | 36797/48845 [13:02:06<4:13:49,  1.26s/it] 75%|███████▌  | 36798/48845 [13:02:07<4:13:37,  1.26s/it] 75%|███████▌  | 36799/48845 [13:02:09<4:13:24,  1.26s/it] 75%|███████▌  | 36800/48845 [13:02:10<4:13:32,  1.26s/it]                                                          {'loss': 2.1049, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36800/48845 [13:02:10<4:13:32,  1.26s/it] 75%|███████▌  | 36801/48845 [13:02:14<6:52:46,  2.06s/it] 75%|███████▌  | 36802/48845 [13:02:15<6:04:44,  1.82s/it] 75%|███████▌  | 36803/48845 [13:02:16<5:31:28,  1.65s/it] 75%|███████▌  | 36804/48845 [13:02:18<5:08:00,  1.53s/it] 75%|███████▌  | 36805/48845 [13:02:19<4:51:18,  1.45s/it]                                                          {'loss': 1.9496, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36805/48845 [13:02:19<4:51:18,  1.45s/it] 75%|███████▌  | 36806/48845 [13:02:20<4:39:42,  1.39s/it] 75%|███████▌  | 36807/48845 [13:02:22<5:09:56,  1.54s/it] 75%|███████▌  | 36808/48845 [13:02:23<4:52:51,  1.46s/it] 75%|███████▌  | 36809/48845 [13:02:25<4:41:03,  1.40s/it] 75%|███████▌  | 36810/48845 [13:02:26<4:32:31,  1.36s/it]                                                          {'loss': 2.1584, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36810/48845 [13:02:26<4:32:31,  1.36s/it] 75%|███████▌  | 36811/48845 [13:02:27<4:26:39,  1.33s/it] 75%|███████▌  | 36812/48845 [13:02:28<4:22:49,  1.31s/it] 75%|███████▌  | 36813/48845 [13:02:30<4:19:49,  1.30s/it] 75%|███████▌  | 36814/48845 [13:02:31<4:17:34,  1.28s/it] 75%|███████▌  | 36815/48845 [13:02:32<4:16:20,  1.28s/it]                                                          {'loss': 2.0639, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36815/48845 [13:02:32<4:16:20,  1.28s/it] 75%|███████▌  | 36816/48845 [13:02:33<4:15:16,  1.27s/it] 75%|███████▌  | 36817/48845 [13:02:35<4:14:38,  1.27s/it] 75%|███████▌  | 36818/48845 [13:02:36<4:13:53,  1.27s/it] 75%|███████▌  | 36819/48845 [13:02:37<4:14:02,  1.27s/it] 75%|███████▌  | 36820/48845 [13:02:39<4:13:42,  1.27s/it]                                                          {'loss': 1.8419, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36820/48845 [13:02:39<4:13:42,  1.27s/it] 75%|███████▌  | 36821/48845 [13:02:40<4:13:53,  1.27s/it] 75%|███████▌  | 36822/48845 [13:02:41<4:13:16,  1.26s/it] 75%|███████▌  | 36823/48845 [13:02:42<4:13:28,  1.27s/it] 75%|███████▌  | 36824/48845 [13:02:44<4:13:28,  1.27s/it] 75%|███████▌  | 36825/48845 [13:02:45<4:13:12,  1.26s/it]                                                          {'loss': 2.1121, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36825/48845 [13:02:45<4:13:12,  1.26s/it] 75%|███████▌  | 36826/48845 [13:02:46<4:13:14,  1.26s/it] 75%|███████▌  | 36827/48845 [13:02:47<4:13:09,  1.26s/it] 75%|███████▌  | 36828/48845 [13:02:49<4:13:22,  1.27s/it] 75%|███████▌  | 36829/48845 [13:02:50<4:13:03,  1.26s/it] 75%|███████▌  | 36830/48845 [13:02:51<4:12:48,  1.26s/it]                                                          {'loss': 1.9764, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36830/48845 [13:02:51<4:12:48,  1.26s/it] 75%|███████▌  | 36831/48845 [13:02:52<4:13:09,  1.26s/it] 75%|███████▌  | 36832/48845 [13:02:54<4:13:12,  1.26s/it] 75%|███████▌  | 36833/48845 [13:02:55<4:12:59,  1.26s/it] 75%|███████▌  | 36834/48845 [13:02:56<4:12:57,  1.26s/it] 75%|███████▌  | 36835/48845 [13:02:57<4:13:02,  1.26s/it]                                                          {'loss': 1.9836, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36835/48845 [13:02:57<4:13:02,  1.26s/it] 75%|███████▌  | 36836/48845 [13:02:59<4:13:15,  1.27s/it] 75%|███████▌  | 36837/48845 [13:03:00<4:13:08,  1.26s/it] 75%|███████▌  | 36838/48845 [13:03:01<4:12:54,  1.26s/it] 75%|███████▌  | 36839/48845 [13:03:03<4:13:02,  1.26s/it] 75%|███████▌  | 36840/48845 [13:03:04<4:13:10,  1.27s/it]                                                          {'loss': 2.1263, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36840/48845 [13:03:04<4:13:10,  1.27s/it] 75%|███████▌  | 36841/48845 [13:03:05<4:12:55,  1.26s/it] 75%|███████▌  | 36842/48845 [13:03:06<4:12:51,  1.26s/it] 75%|███████▌  | 36843/48845 [13:03:08<4:12:49,  1.26s/it] 75%|███████▌  | 36844/48845 [13:03:09<4:12:44,  1.26s/it] 75%|███████▌  | 36845/48845 [13:03:10<4:12:48,  1.26s/it]                                                          {'loss': 1.8884, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36845/48845 [13:03:10<4:12:48,  1.26s/it] 75%|███████▌  | 36846/48845 [13:03:11<4:12:41,  1.26s/it] 75%|███████▌  | 36847/48845 [13:03:13<4:22:36,  1.31s/it] 75%|███████▌  | 36848/48845 [13:03:14<4:19:24,  1.30s/it] 75%|███████▌  | 36849/48845 [13:03:15<4:17:14,  1.29s/it] 75%|███████▌  | 36850/48845 [13:03:17<4:15:45,  1.28s/it]                                                          {'loss': 1.9988, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36850/48845 [13:03:17<4:15:45,  1.28s/it] 75%|███████▌  | 36851/48845 [13:03:18<4:15:03,  1.28s/it] 75%|███████▌  | 36852/48845 [13:03:19<4:14:24,  1.27s/it] 75%|███████▌  | 36853/48845 [13:03:20<4:13:43,  1.27s/it] 75%|███████▌  | 36854/48845 [13:03:22<4:13:11,  1.27s/it] 75%|███████▌  | 36855/48845 [13:03:23<4:13:21,  1.27s/it]                                                          {'loss': 2.3024, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36855/48845 [13:03:23<4:13:21,  1.27s/it] 75%|███████▌  | 36856/48845 [13:03:24<4:13:00,  1.27s/it] 75%|███████▌  | 36857/48845 [13:03:25<4:12:48,  1.27s/it] 75%|███████▌  | 36858/48845 [13:03:27<4:12:39,  1.26s/it] 75%|███████▌  | 36859/48845 [13:03:28<4:14:06,  1.27s/it] 75%|███████▌  | 36860/48845 [13:03:29<4:13:33,  1.27s/it]                                                          {'loss': 2.006, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36860/48845 [13:03:29<4:13:33,  1.27s/it] 75%|███████▌  | 36861/48845 [13:03:31<4:12:58,  1.27s/it] 75%|███████▌  | 36862/48845 [13:03:32<4:12:43,  1.27s/it] 75%|███████▌  | 36863/48845 [13:03:33<4:21:37,  1.31s/it] 75%|███████▌  | 36864/48845 [13:03:34<4:18:57,  1.30s/it] 75%|███████▌  | 36865/48845 [13:03:36<4:16:49,  1.29s/it]                                                          {'loss': 2.0708, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36865/48845 [13:03:36<4:16:49,  1.29s/it] 75%|███████▌  | 36866/48845 [13:03:37<4:15:31,  1.28s/it] 75%|███████▌  | 36867/48845 [13:03:38<4:25:18,  1.33s/it] 75%|███████▌  | 36868/48845 [13:03:40<4:21:10,  1.31s/it] 75%|███████▌  | 36869/48845 [13:03:41<4:18:09,  1.29s/it] 75%|███████▌  | 36870/48845 [13:03:42<4:16:35,  1.29s/it]                                                          {'loss': 2.1016, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36870/48845 [13:03:42<4:16:35,  1.29s/it] 75%|███████▌  | 36871/48845 [13:03:44<4:16:13,  1.28s/it] 75%|███████▌  | 36872/48845 [13:03:45<4:14:51,  1.28s/it] 75%|███████▌  | 36873/48845 [13:03:46<4:13:54,  1.27s/it] 75%|███████▌  | 36874/48845 [13:03:47<4:13:30,  1.27s/it] 75%|███████▌  | 36875/48845 [13:03:49<4:13:06,  1.27s/it]                                                          {'loss': 1.9402, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.77}
+ 75%|███████▌  | 36875/48845 [13:03:49<4:13:06,  1.27s/it] 75%|███████▌  | 36876/48845 [13:03:50<4:12:37,  1.27s/it] 75%|███████▌  | 36877/48845 [13:03:51<4:12:20,  1.27s/it] 76%|███████▌  | 36878/48845 [13:03:52<4:12:05,  1.26s/it] 76%|███████▌  | 36879/48845 [13:03:54<4:12:17,  1.27s/it] 76%|███████▌  | 36880/48845 [13:03:55<4:12:14,  1.26s/it]                                                          {'loss': 2.0089, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36880/48845 [13:03:55<4:12:14,  1.26s/it] 76%|███████▌  | 36881/48845 [13:03:56<4:12:15,  1.27s/it] 76%|███████▌  | 36882/48845 [13:03:57<4:11:50,  1.26s/it] 76%|███████▌  | 36883/48845 [13:03:59<4:11:48,  1.26s/it] 76%|███████▌  | 36884/48845 [13:04:00<4:11:36,  1.26s/it] 76%|███████▌  | 36885/48845 [13:04:01<4:11:35,  1.26s/it]                                                          {'loss': 1.9284, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36885/48845 [13:04:01<4:11:35,  1.26s/it] 76%|███████▌  | 36886/48845 [13:04:02<4:11:53,  1.26s/it] 76%|███████▌  | 36887/48845 [13:04:04<4:11:39,  1.26s/it] 76%|███████▌  | 36888/48845 [13:04:05<4:11:25,  1.26s/it] 76%|███████▌  | 36889/48845 [13:04:06<4:11:21,  1.26s/it] 76%|███████▌  | 36890/48845 [13:04:08<4:11:09,  1.26s/it]                                                          {'loss': 2.13, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36890/48845 [13:04:08<4:11:09,  1.26s/it] 76%|███████▌  | 36891/48845 [13:04:09<4:11:27,  1.26s/it] 76%|███████▌  | 36892/48845 [13:04:10<4:11:19,  1.26s/it] 76%|███████▌  | 36893/48845 [13:04:11<4:11:15,  1.26s/it] 76%|███████▌  | 36894/48845 [13:04:13<4:11:16,  1.26s/it] 76%|███████▌  | 36895/48845 [13:04:14<4:11:35,  1.26s/it]                                                          {'loss': 1.9315, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36895/48845 [13:04:14<4:11:35,  1.26s/it] 76%|███████▌  | 36896/48845 [13:04:15<4:11:24,  1.26s/it] 76%|███████▌  | 36897/48845 [13:04:16<4:11:20,  1.26s/it] 76%|███████▌  | 36898/48845 [13:04:18<4:11:28,  1.26s/it] 76%|███████▌  | 36899/48845 [13:04:19<4:11:24,  1.26s/it] 76%|███████▌  | 36900/48845 [13:04:20<4:11:15,  1.26s/it]                                                          {'loss': 2.117, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36900/48845 [13:04:20<4:11:15,  1.26s/it] 76%|███████▌  | 36901/48845 [13:04:21<4:11:19,  1.26s/it] 76%|███████▌  | 36902/48845 [13:04:23<4:11:20,  1.26s/it] 76%|███████▌  | 36903/48845 [13:04:24<4:11:33,  1.26s/it] 76%|███████▌  | 36904/48845 [13:04:25<4:11:23,  1.26s/it] 76%|███████▌  | 36905/48845 [13:04:26<4:11:45,  1.27s/it]                                                          {'loss': 2.1581, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36905/48845 [13:04:26<4:11:45,  1.27s/it] 76%|███████▌  | 36906/48845 [13:04:28<4:11:38,  1.26s/it] 76%|███████▌  | 36907/48845 [13:04:29<4:12:35,  1.27s/it] 76%|███████▌  | 36908/48845 [13:04:30<4:11:56,  1.27s/it] 76%|███████▌  | 36909/48845 [13:04:32<4:11:43,  1.27s/it] 76%|███████▌  | 36910/48845 [13:04:33<4:11:26,  1.26s/it]                                                          {'loss': 2.0377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36910/48845 [13:04:33<4:11:26,  1.26s/it] 76%|███████▌  | 36911/48845 [13:04:34<4:11:46,  1.27s/it] 76%|███████▌  | 36912/48845 [13:04:35<4:11:34,  1.26s/it] 76%|███████▌  | 36913/48845 [13:04:37<4:11:16,  1.26s/it] 76%|███████▌  | 36914/48845 [13:04:38<4:10:59,  1.26s/it] 76%|███████▌  | 36915/48845 [13:04:39<4:10:56,  1.26s/it]                                                          {'loss': 2.2166, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36915/48845 [13:04:39<4:10:56,  1.26s/it] 76%|███████▌  | 36916/48845 [13:04:40<4:10:46,  1.26s/it] 76%|███████▌  | 36917/48845 [13:04:42<4:10:33,  1.26s/it] 76%|███████▌  | 36918/48845 [13:04:43<4:10:29,  1.26s/it] 76%|███████▌  | 36919/48845 [13:04:44<4:10:23,  1.26s/it] 76%|███████▌  | 36920/48845 [13:04:45<4:10:22,  1.26s/it]                                                          {'loss': 2.1214, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36920/48845 [13:04:45<4:10:22,  1.26s/it] 76%|███████▌  | 36921/48845 [13:04:47<4:10:26,  1.26s/it] 76%|███████▌  | 36922/48845 [13:04:48<4:10:27,  1.26s/it] 76%|███████▌  | 36923/48845 [13:04:49<4:10:39,  1.26s/it] 76%|███████▌  | 36924/48845 [13:04:50<4:10:32,  1.26s/it] 76%|███████▌  | 36925/48845 [13:04:52<4:10:27,  1.26s/it]                                                          {'loss': 2.0797, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36925/48845 [13:04:52<4:10:27,  1.26s/it] 76%|███████▌  | 36926/48845 [13:04:53<4:10:38,  1.26s/it] 76%|███████▌  | 36927/48845 [13:04:54<4:10:26,  1.26s/it] 76%|███████▌  | 36928/48845 [13:04:55<4:10:20,  1.26s/it] 76%|███████▌  | 36929/48845 [13:04:57<4:10:17,  1.26s/it] 76%|███████▌  | 36930/48845 [13:04:58<4:10:25,  1.26s/it]                                                          {'loss': 2.0716, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36930/48845 [13:04:58<4:10:25,  1.26s/it] 76%|███████▌  | 36931/48845 [13:04:59<4:17:07,  1.29s/it] 76%|███████▌  | 36932/48845 [13:05:01<4:15:03,  1.28s/it] 76%|███████▌  | 36933/48845 [13:05:02<4:13:25,  1.28s/it] 76%|███████▌  | 36934/48845 [13:05:03<4:12:20,  1.27s/it] 76%|███████▌  | 36935/48845 [13:05:04<4:11:46,  1.27s/it]                                                          {'loss': 1.9815, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36935/48845 [13:05:04<4:11:46,  1.27s/it] 76%|███████▌  | 36936/48845 [13:05:06<4:11:26,  1.27s/it] 76%|███████▌  | 36937/48845 [13:05:07<4:10:55,  1.26s/it] 76%|███████▌  | 36938/48845 [13:05:08<4:10:41,  1.26s/it] 76%|███████▌  | 36939/48845 [13:05:10<4:14:57,  1.28s/it] 76%|███████▌  | 36940/48845 [13:05:11<4:13:28,  1.28s/it]                                                          {'loss': 2.0032, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36940/48845 [13:05:11<4:13:28,  1.28s/it] 76%|███████▌  | 36941/48845 [13:05:12<4:12:19,  1.27s/it] 76%|███████▌  | 36942/48845 [13:05:13<4:11:30,  1.27s/it] 76%|███████▌  | 36943/48845 [13:05:15<4:12:43,  1.27s/it] 76%|███████▌  | 36944/48845 [13:05:16<4:12:05,  1.27s/it] 76%|███████▌  | 36945/48845 [13:05:17<4:11:29,  1.27s/it]                                                          {'loss': 2.1102, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36945/48845 [13:05:17<4:11:29,  1.27s/it] 76%|███████▌  | 36946/48845 [13:05:18<4:11:16,  1.27s/it] 76%|███████▌  | 36947/48845 [13:05:20<4:11:06,  1.27s/it] 76%|███████▌  | 36948/48845 [13:05:21<4:10:46,  1.26s/it] 76%|███████▌  | 36949/48845 [13:05:22<4:10:47,  1.26s/it] 76%|███████▌  | 36950/48845 [13:05:23<4:10:47,  1.27s/it]                                                          {'loss': 2.0107, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36950/48845 [13:05:23<4:10:47,  1.27s/it] 76%|███████▌  | 36951/48845 [13:05:25<4:10:47,  1.27s/it] 76%|███████▌  | 36952/48845 [13:05:26<4:10:40,  1.26s/it] 76%|███████▌  | 36953/48845 [13:05:27<4:10:35,  1.26s/it] 76%|███████▌  | 36954/48845 [13:05:28<4:10:17,  1.26s/it] 76%|███████▌  | 36955/48845 [13:05:30<4:10:13,  1.26s/it]                                                          {'loss': 2.0905, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36955/48845 [13:05:30<4:10:13,  1.26s/it] 76%|███████▌  | 36956/48845 [13:05:31<4:10:15,  1.26s/it] 76%|███████▌  | 36957/48845 [13:05:32<4:10:17,  1.26s/it] 76%|███████▌  | 36958/48845 [13:05:34<4:10:02,  1.26s/it] 76%|███████▌  | 36959/48845 [13:05:35<4:09:59,  1.26s/it] 76%|███████▌  | 36960/48845 [13:05:36<4:09:56,  1.26s/it]                                                          {'loss': 2.0255, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36960/48845 [13:05:36<4:09:56,  1.26s/it] 76%|███████▌  | 36961/48845 [13:05:37<4:10:02,  1.26s/it] 76%|███████▌  | 36962/48845 [13:05:39<4:10:04,  1.26s/it] 76%|███████▌  | 36963/48845 [13:05:40<4:09:56,  1.26s/it] 76%|███████▌  | 36964/48845 [13:05:41<4:09:46,  1.26s/it] 76%|███████▌  | 36965/48845 [13:05:42<4:10:01,  1.26s/it]                                                          {'loss': 1.8254, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36965/48845 [13:05:42<4:10:01,  1.26s/it] 76%|███████▌  | 36966/48845 [13:05:44<4:09:56,  1.26s/it] 76%|███████▌  | 36967/48845 [13:05:45<4:09:53,  1.26s/it] 76%|███████▌  | 36968/48845 [13:05:46<4:10:04,  1.26s/it] 76%|███████▌  | 36969/48845 [13:05:47<4:09:48,  1.26s/it] 76%|███████▌  | 36970/48845 [13:05:49<4:09:44,  1.26s/it]                                                          {'loss': 2.1776, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36970/48845 [13:05:49<4:09:44,  1.26s/it] 76%|███████▌  | 36971/48845 [13:05:50<4:09:34,  1.26s/it] 76%|███████▌  | 36972/48845 [13:05:51<4:09:48,  1.26s/it] 76%|███████▌  | 36973/48845 [13:05:52<4:09:45,  1.26s/it] 76%|███████▌  | 36974/48845 [13:05:54<4:09:34,  1.26s/it] 76%|███████▌  | 36975/48845 [13:05:55<4:15:45,  1.29s/it]                                                          {'loss': 2.1142, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.78}
+ 76%|███████▌  | 36975/48845 [13:05:55<4:15:45,  1.29s/it] 76%|███████▌  | 36976/48845 [13:05:56<4:13:54,  1.28s/it] 76%|███████▌  | 36977/48845 [13:05:58<4:12:29,  1.28s/it] 76%|███████▌  | 36978/48845 [13:05:59<4:11:39,  1.27s/it] 76%|███████▌  | 36979/48845 [13:06:00<4:11:17,  1.27s/it] 76%|███████▌  | 36980/48845 [13:06:01<4:11:07,  1.27s/it]                                                          {'loss': 2.0477, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 36980/48845 [13:06:01<4:11:07,  1.27s/it] 76%|███████▌  | 36981/48845 [13:06:03<4:10:44,  1.27s/it] 76%|███████▌  | 36982/48845 [13:06:04<4:10:30,  1.27s/it] 76%|███████▌  | 36983/48845 [13:06:05<4:10:14,  1.27s/it] 76%|███████▌  | 36984/48845 [13:06:06<4:10:07,  1.27s/it] 76%|███████▌  | 36985/48845 [13:06:08<4:09:51,  1.26s/it]                                                          {'loss': 2.0199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 36985/48845 [13:06:08<4:09:51,  1.26s/it] 76%|███████▌  | 36986/48845 [13:06:09<4:09:46,  1.26s/it] 76%|███████▌  | 36987/48845 [13:06:10<4:09:50,  1.26s/it] 76%|███████▌  | 36988/48845 [13:06:12<4:09:55,  1.26s/it] 76%|███████▌  | 36989/48845 [13:06:13<4:10:12,  1.27s/it] 76%|███████▌  | 36990/48845 [13:06:14<4:10:19,  1.27s/it]                                                          {'loss': 2.0779, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 36990/48845 [13:06:14<4:10:19,  1.27s/it] 76%|███████▌  | 36991/48845 [13:06:15<4:10:26,  1.27s/it] 76%|███████▌  | 36992/48845 [13:06:17<4:10:21,  1.27s/it] 76%|███████▌  | 36993/48845 [13:06:18<4:10:03,  1.27s/it] 76%|███████▌  | 36994/48845 [13:06:19<4:09:43,  1.26s/it] 76%|███████▌  | 36995/48845 [13:06:20<4:09:32,  1.26s/it]                                                          {'loss': 1.8941, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 36995/48845 [13:06:20<4:09:32,  1.26s/it] 76%|███████▌  | 36996/48845 [13:06:22<4:09:35,  1.26s/it] 76%|███████▌  | 36997/48845 [13:06:23<4:09:24,  1.26s/it] 76%|███████▌  | 36998/48845 [13:06:24<4:09:18,  1.26s/it] 76%|███████▌  | 36999/48845 [13:06:25<4:09:19,  1.26s/it] 76%|███████▌  | 37000/48845 [13:06:27<4:09:15,  1.26s/it]                                                          {'loss': 2.0306, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37000/48845 [13:06:27<4:09:15,  1.26s/it] 76%|███████▌  | 37001/48845 [13:06:31<6:47:38,  2.07s/it] 76%|███████▌  | 37002/48845 [13:06:32<5:59:49,  1.82s/it] 76%|███████▌  | 37003/48845 [13:06:33<5:26:22,  1.65s/it] 76%|███████▌  | 37004/48845 [13:06:34<5:03:13,  1.54s/it] 76%|███████▌  | 37005/48845 [13:06:36<4:47:07,  1.45s/it]                                                          {'loss': 2.1996, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37005/48845 [13:06:36<4:47:07,  1.45s/it] 76%|███████▌  | 37006/48845 [13:06:37<4:35:37,  1.40s/it] 76%|███████▌  | 37007/48845 [13:06:38<4:27:39,  1.36s/it] 76%|███████▌  | 37008/48845 [13:06:39<4:22:33,  1.33s/it] 76%|███████▌  | 37009/48845 [13:06:41<4:29:29,  1.37s/it] 76%|███████▌  | 37010/48845 [13:06:42<4:23:15,  1.33s/it]                                                          {'loss': 1.884, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37010/48845 [13:06:42<4:23:15,  1.33s/it] 76%|███████▌  | 37011/48845 [13:06:43<4:18:54,  1.31s/it] 76%|███████▌  | 37012/48845 [13:06:45<4:15:56,  1.30s/it] 76%|███████▌  | 37013/48845 [13:06:46<4:13:46,  1.29s/it] 76%|███████▌  | 37014/48845 [13:06:47<4:12:06,  1.28s/it] 76%|███████▌  | 37015/48845 [13:06:48<4:11:03,  1.27s/it]                                                          {'loss': 1.9826, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37015/48845 [13:06:48<4:11:03,  1.27s/it] 76%|███████▌  | 37016/48845 [13:06:50<4:10:24,  1.27s/it] 76%|███████▌  | 37017/48845 [13:06:51<4:10:12,  1.27s/it] 76%|███████▌  | 37018/48845 [13:06:52<4:09:44,  1.27s/it] 76%|███████▌  | 37019/48845 [13:06:54<4:09:16,  1.26s/it] 76%|███████▌  | 37020/48845 [13:06:55<4:08:59,  1.26s/it]                                                          {'loss': 1.9817, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37020/48845 [13:06:55<4:08:59,  1.26s/it] 76%|███████▌  | 37021/48845 [13:06:56<4:09:11,  1.26s/it] 76%|███████▌  | 37022/48845 [13:06:57<4:09:03,  1.26s/it] 76%|███████▌  | 37023/48845 [13:06:59<4:08:44,  1.26s/it] 76%|███████▌  | 37024/48845 [13:07:00<4:08:41,  1.26s/it] 76%|███████▌  | 37025/48845 [13:07:01<4:08:54,  1.26s/it]                                                          {'loss': 2.0367, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37025/48845 [13:07:01<4:08:54,  1.26s/it] 76%|███████▌  | 37026/48845 [13:07:02<4:08:46,  1.26s/it] 76%|███████▌  | 37027/48845 [13:07:04<4:08:50,  1.26s/it] 76%|███████▌  | 37028/48845 [13:07:05<4:08:39,  1.26s/it] 76%|███████▌  | 37029/48845 [13:07:06<4:08:52,  1.26s/it] 76%|███████▌  | 37030/48845 [13:07:07<4:08:41,  1.26s/it]                                                          {'loss': 1.925, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37030/48845 [13:07:07<4:08:41,  1.26s/it] 76%|███████▌  | 37031/48845 [13:07:09<4:08:56,  1.26s/it] 76%|███████▌  | 37032/48845 [13:07:10<4:08:37,  1.26s/it] 76%|███████▌  | 37033/48845 [13:07:11<4:08:23,  1.26s/it] 76%|███████▌  | 37034/48845 [13:07:12<4:08:26,  1.26s/it] 76%|███████▌  | 37035/48845 [13:07:14<4:08:31,  1.26s/it]                                                          {'loss': 2.0876, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37035/48845 [13:07:14<4:08:31,  1.26s/it] 76%|███████▌  | 37036/48845 [13:07:15<4:08:26,  1.26s/it] 76%|███████▌  | 37037/48845 [13:07:16<4:08:27,  1.26s/it] 76%|███████▌  | 37038/48845 [13:07:18<4:08:26,  1.26s/it] 76%|███████▌  | 37039/48845 [13:07:19<4:08:23,  1.26s/it] 76%|███████▌  | 37040/48845 [13:07:20<4:08:13,  1.26s/it]                                                          {'loss': 1.9555, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37040/48845 [13:07:20<4:08:13,  1.26s/it] 76%|███████▌  | 37041/48845 [13:07:21<4:14:23,  1.29s/it] 76%|███████▌  | 37042/48845 [13:07:23<4:12:29,  1.28s/it] 76%|███████▌  | 37043/48845 [13:07:24<4:11:22,  1.28s/it] 76%|███████▌  | 37044/48845 [13:07:25<4:10:36,  1.27s/it] 76%|███████▌  | 37045/48845 [13:07:26<4:09:57,  1.27s/it]                                                          {'loss': 2.0876, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37045/48845 [13:07:26<4:09:57,  1.27s/it] 76%|███████▌  | 37046/48845 [13:07:28<4:09:25,  1.27s/it] 76%|███████▌  | 37047/48845 [13:07:29<4:08:54,  1.27s/it] 76%|███████▌  | 37048/48845 [13:07:30<4:08:39,  1.26s/it] 76%|███████▌  | 37049/48845 [13:07:32<4:08:59,  1.27s/it] 76%|██���████▌  | 37050/48845 [13:07:33<4:08:41,  1.27s/it]                                                          {'loss': 2.1182, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37050/48845 [13:07:33<4:08:41,  1.27s/it] 76%|███████▌  | 37051/48845 [13:07:34<4:08:38,  1.26s/it] 76%|███████▌  | 37052/48845 [13:07:35<4:08:23,  1.26s/it] 76%|███████▌  | 37053/48845 [13:07:37<4:08:33,  1.26s/it] 76%|███████▌  | 37054/48845 [13:07:38<4:08:33,  1.26s/it] 76%|███████▌  | 37055/48845 [13:07:39<4:08:13,  1.26s/it]                                                          {'loss': 2.0586, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37055/48845 [13:07:39<4:08:13,  1.26s/it] 76%|███████▌  | 37056/48845 [13:07:40<4:08:19,  1.26s/it] 76%|███████▌  | 37057/48845 [13:07:42<4:08:09,  1.26s/it] 76%|███████▌  | 37058/48845 [13:07:43<4:08:01,  1.26s/it] 76%|███████▌  | 37059/48845 [13:07:44<4:07:52,  1.26s/it] 76%|███████▌  | 37060/48845 [13:07:45<4:08:09,  1.26s/it]                                                          {'loss': 2.0265, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37060/48845 [13:07:45<4:08:09,  1.26s/it] 76%|███████▌  | 37061/48845 [13:07:47<4:08:18,  1.26s/it] 76%|███████▌  | 37062/48845 [13:07:48<4:08:02,  1.26s/it] 76%|███████▌  | 37063/48845 [13:07:49<4:07:53,  1.26s/it] 76%|███████▌  | 37064/48845 [13:07:50<4:07:50,  1.26s/it] 76%|███████▌  | 37065/48845 [13:07:52<4:33:10,  1.39s/it]                                                          {'loss': 1.9274, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37065/48845 [13:07:52<4:33:10,  1.39s/it] 76%|███████▌  | 37066/48845 [13:07:53<4:25:36,  1.35s/it] 76%|███████▌  | 37067/48845 [13:07:55<4:20:06,  1.33s/it] 76%|███████▌  | 37068/48845 [13:07:56<4:16:23,  1.31s/it] 76%|███████▌  | 37069/48845 [13:07:57<4:13:41,  1.29s/it] 76%|███████▌  | 37070/48845 [13:07:58<4:12:19,  1.29s/it]                                                          {'loss': 1.9835, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.79}
+ 76%|███████▌  | 37070/48845 [13:07:58<4:12:19,  1.29s/it] 76%|███████▌  | 37071/48845 [13:08:00<4:11:02,  1.28s/it] 76%|███████▌  | 37072/48845 [13:08:01<4:09:56,  1.27s/it] 76%|███████▌  | 37073/48845 [13:08:02<4:09:12,  1.27s/it] 76%|███████▌  | 37074/48845 [13:08:04<4:08:42,  1.27s/it] 76%|███████▌  | 37075/48845 [13:08:05<4:08:39,  1.27s/it]                                                          {'loss': 1.9042, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37075/48845 [13:08:05<4:08:39,  1.27s/it] 76%|███████▌  | 37076/48845 [13:08:06<4:08:06,  1.26s/it] 76%|███████▌  | 37077/48845 [13:08:07<4:10:32,  1.28s/it] 76%|███████▌  | 37078/48845 [13:08:09<4:09:41,  1.27s/it] 76%|███████▌  | 37079/48845 [13:08:10<4:08:57,  1.27s/it] 76%|███████▌  | 37080/48845 [13:08:11<4:08:27,  1.27s/it]                                                          {'loss': 2.0317, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37080/48845 [13:08:11<4:08:27,  1.27s/it] 76%|███████▌  | 37081/48845 [13:08:12<4:08:47,  1.27s/it] 76%|███████▌  | 37082/48845 [13:08:14<4:08:26,  1.27s/it] 76%|███████▌  | 37083/48845 [13:08:15<4:08:16,  1.27s/it] 76%|███████▌  | 37084/48845 [13:08:16<4:08:01,  1.27s/it] 76%|███████▌  | 37085/48845 [13:08:18<4:12:25,  1.29s/it]                                                          {'loss': 2.0026, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37085/48845 [13:08:18<4:12:25,  1.29s/it] 76%|███████▌  | 37086/48845 [13:08:19<4:10:50,  1.28s/it] 76%|███████▌  | 37087/48845 [13:08:20<4:09:32,  1.27s/it] 76%|███████▌  | 37088/48845 [13:08:21<4:08:51,  1.27s/it] 76%|███████▌  | 37089/48845 [13:08:23<4:08:33,  1.27s/it] 76%|███████▌  | 37090/48845 [13:08:24<4:08:44,  1.27s/it]                                                          {'loss': 1.9715, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37090/48845 [13:08:24<4:08:44,  1.27s/it] 76%|███████▌  | 37091/48845 [13:08:25<4:08:28,  1.27s/it] 76%|███████▌  | 37092/48845 [13:08:26<4:08:18,  1.27s/it] 76%|███████▌  | 37093/48845 [13:08:28<4:08:05,  1.27s/it] 76%|███████▌  | 37094/48845 [13:08:29<4:07:44,  1.26s/it] 76%|███████▌  | 37095/48845 [13:08:30<4:07:33,  1.26s/it]                                                          {'loss': 2.1294, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37095/48845 [13:08:30<4:07:33,  1.26s/it] 76%|███████▌  | 37096/48845 [13:08:31<4:07:19,  1.26s/it] 76%|███████▌  | 37097/48845 [13:08:33<4:07:10,  1.26s/it] 76%|███████▌  | 37098/48845 [13:08:34<4:07:07,  1.26s/it] 76%|███████▌  | 37099/48845 [13:08:35<4:06:57,  1.26s/it] 76%|███████▌  | 37100/48845 [13:08:37<4:06:53,  1.26s/it]                                                          {'loss': 2.0608, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37100/48845 [13:08:37<4:06:53,  1.26s/it] 76%|███████▌  | 37101/48845 [13:08:38<4:07:27,  1.26s/it] 76%|███████▌  | 37102/48845 [13:08:39<4:07:17,  1.26s/it] 76%|███████▌  | 37103/48845 [13:08:40<4:07:24,  1.26s/it] 76%|███████▌  | 37104/48845 [13:08:42<4:07:04,  1.26s/it] 76%|███████▌  | 37105/48845 [13:08:43<4:07:11,  1.26s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37105/48845 [13:08:43<4:07:11,  1.26s/it] 76%|███████▌  | 37106/48845 [13:08:44<4:06:56,  1.26s/it] 76%|███████▌  | 37107/48845 [13:08:45<4:06:57,  1.26s/it] 76%|███████▌  | 37108/48845 [13:08:47<4:07:04,  1.26s/it] 76%|███████▌  | 37109/48845 [13:08:48<4:07:08,  1.26s/it] 76%|███████▌  | 37110/48845 [13:08:49<4:06:49,  1.26s/it]                                                          {'loss': 1.977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37110/48845 [13:08:49<4:06:49,  1.26s/it] 76%|███████▌  | 37111/48845 [13:08:50<4:06:56,  1.26s/it] 76%|███████▌  | 37112/48845 [13:08:52<4:06:54,  1.26s/it] 76%|███████▌  | 37113/48845 [13:08:53<4:07:07,  1.26s/it] 76%|███████▌  | 37114/48845 [13:08:54<4:07:05,  1.26s/it] 76%|███████▌  | 37115/48845 [13:08:55<4:06:55,  1.26s/it]                                                          {'loss': 2.1516, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37115/48845 [13:08:55<4:06:55,  1.26s/it] 76%|███████▌  | 37116/48845 [13:08:57<4:07:38,  1.27s/it] 76%|███████▌  | 37117/48845 [13:08:58<4:07:27,  1.27s/it] 76%|███████▌  | 37118/48845 [13:08:59<4:07:09,  1.26s/it] 76%|███████▌  | 37119/48845 [13:09:01<4:07:06,  1.26s/it] 76%|███████▌  | 37120/48845 [13:09:02<4:07:09,  1.26s/it]                                                          {'loss': 2.2119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37120/48845 [13:09:02<4:07:09,  1.26s/it] 76%|███████▌  | 37121/48845 [13:09:03<4:07:34,  1.27s/it] 76%|███████▌  | 37122/48845 [13:09:04<4:07:09,  1.26s/it] 76%|███████▌  | 37123/48845 [13:09:06<4:07:04,  1.26s/it] 76%|███████▌  | 37124/48845 [13:09:07<4:07:06,  1.26s/it] 76%|███████▌  | 37125/48845 [13:09:08<4:12:37,  1.29s/it]                                                          {'loss': 2.0826, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37125/48845 [13:09:08<4:12:37,  1.29s/it] 76%|███████▌  | 37126/48845 [13:09:09<4:10:56,  1.28s/it] 76%|███████▌  | 37127/48845 [13:09:11<4:09:49,  1.28s/it] 76%|███████▌  | 37128/48845 [13:09:12<4:08:44,  1.27s/it] 76%|███████▌  | 37129/48845 [13:09:13<4:08:32,  1.27s/it] 76%|███████▌  | 37130/48845 [13:09:15<4:08:10,  1.27s/it]                                                          {'loss': 1.9325, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37130/48845 [13:09:15<4:08:10,  1.27s/it] 76%|███████▌  | 37131/48845 [13:09:16<4:07:30,  1.27s/it] 76%|███████▌  | 37132/48845 [13:09:17<4:07:14,  1.27s/it] 76%|███████▌  | 37133/48845 [13:09:18<4:07:32,  1.27s/it] 76%|███████▌  | 37134/48845 [13:09:20<4:07:16,  1.27s/it] 76%|███████▌  | 37135/48845 [13:09:21<4:07:17,  1.27s/it]                                                          {'loss': 2.0299, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37135/48845 [13:09:21<4:07:17,  1.27s/it] 76%|███████▌  | 37136/48845 [13:09:22<4:07:04,  1.27s/it] 76%|███████▌  | 37137/48845 [13:09:23<4:07:34,  1.27s/it] 76%|███████▌  | 37138/48845 [13:09:25<4:07:21,  1.27s/it] 76%|███████▌  | 37139/48845 [13:09:26<4:06:57,  1.27s/it] 76%|███████▌  | 37140/48845 [13:09:27<4:06:34,  1.26s/it]                                                          {'loss': 2.0932, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37140/48845 [13:09:27<4:06:34,  1.26s/it] 76%|███████▌  | 37141/48845 [13:09:28<4:06:56,  1.27s/it] 76%|███████▌  | 37142/48845 [13:09:30<4:06:39,  1.26s/it] 76%|███████▌  | 37143/48845 [13:09:31<4:06:20,  1.26s/it] 76%|███████▌  | 37144/48845 [13:09:32<4:06:04,  1.26s/it] 76%|███████▌  | 37145/48845 [13:09:34<4:06:22,  1.26s/it]                                                          {'loss': 2.1351, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37145/48845 [13:09:34<4:06:22,  1.26s/it] 76%|███████▌  | 37146/48845 [13:09:35<4:06:13,  1.26s/it] 76%|███████▌  | 37147/48845 [13:09:36<4:06:03,  1.26s/it] 76%|███████▌  | 37148/48845 [13:09:37<4:05:56,  1.26s/it] 76%|███████▌  | 37149/48845 [13:09:39<4:06:13,  1.26s/it] 76%|███████▌  | 37150/48845 [13:09:40<4:06:13,  1.26s/it]                                                          {'loss': 2.1756, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37150/48845 [13:09:40<4:06:13,  1.26s/it] 76%|███████▌  | 37151/48845 [13:09:41<4:06:36,  1.27s/it] 76%|███████▌  | 37152/48845 [13:09:42<4:06:30,  1.26s/it] 76%|███████▌  | 37153/48845 [13:09:44<4:06:26,  1.26s/it] 76%|███████▌  | 37154/48845 [13:09:45<4:06:18,  1.26s/it] 76%|███████▌  | 37155/48845 [13:09:46<4:06:22,  1.26s/it]                                                          {'loss': 1.8378, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37155/48845 [13:09:46<4:06:22,  1.26s/it] 76%|███████▌  | 37156/48845 [13:09:47<4:06:42,  1.27s/it] 76%|███████▌  | 37157/48845 [13:09:49<4:07:04,  1.27s/it] 76%|███████▌  | 37158/48845 [13:09:50<4:06:54,  1.27s/it] 76%|███████▌  | 37159/48845 [13:09:51<4:06:42,  1.27s/it] 76%|███████▌  | 37160/48845 [13:09:52<4:06:17,  1.26s/it]                                                          {'loss': 2.134, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37160/48845 [13:09:52<4:06:17,  1.26s/it] 76%|███████▌  | 37161/48845 [13:09:54<4:06:42,  1.27s/it] 76%|███████▌  | 37162/48845 [13:09:55<4:06:21,  1.27s/it] 76%|███████▌  | 37163/48845 [13:09:56<4:06:09,  1.26s/it] 76%|███████▌  | 37164/48845 [13:09:58<4:05:57,  1.26s/it] 76%|███████▌  | 37165/48845 [13:09:59<4:06:10,  1.26s/it]                                                          {'loss': 2.0894, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37165/48845 [13:09:59<4:06:10,  1.26s/it] 76%|███████▌  | 37166/48845 [13:10:00<4:06:48,  1.27s/it] 76%|███████▌  | 37167/48845 [13:10:01<4:06:26,  1.27s/it] 76%|███████▌  | 37168/48845 [13:10:03<4:06:30,  1.27s/it] 76%|███████▌  | 37169/48845 [13:10:04<4:06:50,  1.27s/it] 76%|███████▌  | 37170/48845 [13:10:05<4:06:27,  1.27s/it]                                                          {'loss': 2.0356, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.8}
+ 76%|███████▌  | 37170/48845 [13:10:05<4:06:27,  1.27s/it] 76%|███████▌  | 37171/48845 [13:10:06<4:06:43,  1.27s/it] 76%|███████▌  | 37172/48845 [13:10:08<4:06:27,  1.27s/it] 76%|███████▌  | 37173/48845 [13:10:09<4:06:31,  1.27s/it] 76%|███████▌  | 37174/48845 [13:10:10<4:06:04,  1.27s/it] 76%|███████▌  | 37175/48845 [13:10:11<4:06:05,  1.27s/it]                                                          {'loss': 1.9266, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37175/48845 [13:10:11<4:06:05,  1.27s/it] 76%|███████▌  | 37176/48845 [13:10:13<4:05:54,  1.26s/it] 76%|███████▌  | 37177/48845 [13:10:14<4:06:14,  1.27s/it] 76%|███████▌  | 37178/48845 [13:10:15<4:05:51,  1.26s/it] 76%|███████▌  | 37179/48845 [13:10:17<4:05:44,  1.26s/it] 76%|███████▌  | 37180/48845 [13:10:18<4:05:43,  1.26s/it]                                                          {'loss': 2.0084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37180/48845 [13:10:18<4:05:43,  1.26s/it] 76%|███████▌  | 37181/48845 [13:10:19<4:05:52,  1.26s/it] 76%|███████▌  | 37182/48845 [13:10:20<4:05:45,  1.26s/it] 76%|███████▌  | 37183/48845 [13:10:22<4:05:36,  1.26s/it] 76%|███████▌  | 37184/48845 [13:10:23<4:05:40,  1.26s/it] 76%|███████▌  | 37185/48845 [13:10:24<4:05:43,  1.26s/it]                                                          {'loss': 1.8671, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37185/48845 [13:10:24<4:05:43,  1.26s/it] 76%|███████▌  | 37186/48845 [13:10:25<4:05:51,  1.27s/it] 76%|███████▌  | 37187/48845 [13:10:27<4:05:36,  1.26s/it] 76%|███████▌  | 37188/48845 [13:10:28<4:05:49,  1.27s/it] 76%|███████▌  | 37189/48845 [13:10:29<4:06:09,  1.27s/it] 76%|███████▌  | 37190/48845 [13:10:30<4:06:06,  1.27s/it]                                                          {'loss': 2.1051, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37190/48845 [13:10:30<4:06:06,  1.27s/it] 76%|███████▌  | 37191/48845 [13:10:32<4:06:17,  1.27s/it] 76%|███████▌  | 37192/48845 [13:10:33<4:05:51,  1.27s/it] 76%|███████▌  | 37193/48845 [13:10:34<4:05:42,  1.27s/it] 76%|███████▌  | 37194/48845 [13:10:36<4:05:36,  1.26s/it] 76%|███████▌  | 37195/48845 [13:10:37<4:05:21,  1.26s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37195/48845 [13:10:37<4:05:21,  1.26s/it] 76%|███████▌  | 37196/48845 [13:10:38<4:05:30,  1.26s/it] 76%|███████▌  | 37197/48845 [13:10:39<4:05:27,  1.26s/it] 76%|███████▌  | 37198/48845 [13:10:41<4:05:32,  1.26s/it] 76%|███████▌  | 37199/48845 [13:10:42<4:05:18,  1.26s/it] 76%|███████▌  | 37200/48845 [13:10:43<4:05:17,  1.26s/it]                                                          {'loss': 1.9844, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37200/48845 [13:10:43<4:05:17,  1.26s/it] 76%|███████▌  | 37201/48845 [13:10:47<6:32:37,  2.02s/it] 76%|███████▌  | 37202/48845 [13:10:48<5:48:34,  1.80s/it] 76%|███████▌  | 37203/48845 [13:10:49<5:17:58,  1.64s/it] 76%|███████▌  | 37204/48845 [13:10:51<4:56:23,  1.53s/it] 76%|███████▌  | 37205/48845 [13:10:52<4:41:04,  1.45s/it]                                                          {'loss': 1.9377, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37205/48845 [13:10:52<4:41:04,  1.45s/it] 76%|███████▌  | 37206/48845 [13:10:53<4:30:57,  1.40s/it] 76%|███████▌  | 37207/48845 [13:10:54<4:23:03,  1.36s/it] 76%|███████▌  | 37208/48845 [13:10:56<4:17:37,  1.33s/it] 76%|███████▌  | 37209/48845 [13:10:57<4:13:52,  1.31s/it] 76%|███████▌  | 37210/48845 [13:10:58<4:11:35,  1.30s/it]                                                          {'loss': 1.9401, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37210/48845 [13:10:58<4:11:35,  1.30s/it] 76%|███████▌  | 37211/48845 [13:11:00<4:10:02,  1.29s/it] 76%|███████▌  | 37212/48845 [13:11:01<4:08:52,  1.28s/it] 76%|███████▌  | 37213/48845 [13:11:02<4:07:40,  1.28s/it] 76%|███████▌  | 37214/48845 [13:11:03<4:06:52,  1.27s/it] 76%|███████▌  | 37215/48845 [13:11:05<4:06:02,  1.27s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37215/48845 [13:11:05<4:06:02,  1.27s/it] 76%|███████▌  | 37216/48845 [13:11:06<4:06:15,  1.27s/it] 76%|███████▌  | 37217/48845 [13:11:07<4:05:53,  1.27s/it] 76%|███████▌  | 37218/48845 [13:11:08<4:05:29,  1.27s/it] 76%|███████▌  | 37219/48845 [13:11:10<4:05:27,  1.27s/it] 76%|███████▌  | 37220/48845 [13:11:11<4:05:06,  1.27s/it]                                                          {'loss': 2.1458, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37220/48845 [13:11:11<4:05:06,  1.27s/it] 76%|███████▌  | 37221/48845 [13:11:12<4:05:02,  1.26s/it] 76%|███████▌  | 37222/48845 [13:11:13<4:05:00,  1.26s/it] 76%|███████▌  | 37223/48845 [13:11:15<4:04:51,  1.26s/it] 76%|███████▌  | 37224/48845 [13:11:16<4:05:01,  1.27s/it] 76%|███████▌  | 37225/48845 [13:11:17<4:04:41,  1.26s/it]                                                          {'loss': 1.9849, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37225/48845 [13:11:17<4:04:41,  1.26s/it] 76%|███████▌  | 37226/48845 [13:11:19<4:04:33,  1.26s/it] 76%|███████▌  | 37227/48845 [13:11:20<4:04:29,  1.26s/it] 76%|███████▌  | 37228/48845 [13:11:21<4:04:22,  1.26s/it] 76%|███████▌  | 37229/48845 [13:11:22<4:04:06,  1.26s/it] 76%|███████▌  | 37230/48845 [13:11:24<4:04:13,  1.26s/it]                                                          {'loss': 2.0789, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37230/48845 [13:11:24<4:04:13,  1.26s/it] 76%|███████▌  | 37231/48845 [13:11:25<4:04:38,  1.26s/it] 76%|███████▌  | 37232/48845 [13:11:26<4:04:21,  1.26s/it] 76%|███████▌  | 37233/48845 [13:11:27<4:04:19,  1.26s/it] 76%|███████▌  | 37234/48845 [13:11:29<4:04:27,  1.26s/it] 76%|███████▌  | 37235/48845 [13:11:30<4:04:48,  1.27s/it]                                                          {'loss': 2.0715, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37235/48845 [13:11:30<4:04:48,  1.27s/it] 76%|███████▌  | 37236/48845 [13:11:31<4:04:48,  1.27s/it] 76%|███████▌  | 37237/48845 [13:11:32<4:04:30,  1.26s/it] 76%|███████▌  | 37238/48845 [13:11:34<4:04:38,  1.26s/it] 76%|███████▌  | 37239/48845 [13:11:35<4:04:38,  1.26s/it] 76%|███████▌  | 37240/48845 [13:11:36<4:04:30,  1.26s/it]                                                          {'loss': 2.0145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▌  | 37240/48845 [13:11:36<4:04:30,  1.26s/it] 76%|███████▌  | 37241/48845 [13:11:37<4:04:18,  1.26s/it] 76%|███████▌  | 37242/48845 [13:11:39<4:04:38,  1.27s/it] 76%|███████▌  | 37243/48845 [13:11:40<4:04:53,  1.27s/it] 76%|███████▌  | 37244/48845 [13:11:41<4:04:32,  1.26s/it] 76%|███████▋  | 37245/48845 [13:11:43<4:04:09,  1.26s/it]                                                          {'loss': 2.1308, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▋  | 37245/48845 [13:11:43<4:04:09,  1.26s/it] 76%|███████▋  | 37246/48845 [13:11:44<4:04:26,  1.26s/it] 76%|███████▋  | 37247/48845 [13:11:45<4:04:09,  1.26s/it] 76%|███████▋  | 37248/48845 [13:11:46<4:04:02,  1.26s/it] 76%|███████▋  | 37249/48845 [13:11:48<4:04:16,  1.26s/it] 76%|███████▋  | 37250/48845 [13:11:49<4:04:15,  1.26s/it]                                                          {'loss': 2.0298, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▋  | 37250/48845 [13:11:49<4:04:15,  1.26s/it] 76%|███████▋  | 37251/48845 [13:11:50<4:03:57,  1.26s/it] 76%|███████▋  | 37252/48845 [13:11:51<4:03:53,  1.26s/it] 76%|███████▋  | 37253/48845 [13:11:53<4:04:04,  1.26s/it] 76%|███████▋  | 37254/48845 [13:11:54<4:04:16,  1.26s/it] 76%|███████▋  | 37255/48845 [13:11:55<4:04:02,  1.26s/it]                                                          {'loss': 2.0619, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▋  | 37255/48845 [13:11:55<4:04:02,  1.26s/it] 76%|███████▋  | 37256/48845 [13:11:56<4:04:22,  1.27s/it] 76%|███████▋  | 37257/48845 [13:11:58<4:04:10,  1.26s/it] 76%|███████▋  | 37258/48845 [13:11:59<4:14:46,  1.32s/it] 76%|███████▋  | 37259/48845 [13:12:00<4:11:34,  1.30s/it] 76%|███████▋  | 37260/48845 [13:12:02<4:09:15,  1.29s/it]                                                          {'loss': 1.9851, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▋  | 37260/48845 [13:12:02<4:09:15,  1.29s/it] 76%|███████▋  | 37261/48845 [13:12:03<4:08:00,  1.28s/it] 76%|███████▋  | 37262/48845 [13:12:04<4:09:26,  1.29s/it] 76%|███████▋  | 37263/48845 [13:12:06<4:07:47,  1.28s/it] 76%|███████▋  | 37264/48845 [13:12:07<4:06:27,  1.28s/it] 76%|███████▋  | 37265/48845 [13:12:08<4:05:39,  1.27s/it]                                                          {'loss': 2.1199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.81}
+ 76%|███████▋  | 37265/48845 [13:12:08<4:05:39,  1.27s/it] 76%|███████▋  | 37266/48845 [13:12:09<4:05:28,  1.27s/it] 76%|███████▋  | 37267/48845 [13:12:11<4:04:53,  1.27s/it] 76%|███████▋  | 37268/48845 [13:12:12<4:04:37,  1.27s/it] 76%|██��████▋  | 37269/48845 [13:12:13<4:04:20,  1.27s/it] 76%|███████▋  | 37270/48845 [13:12:14<4:09:43,  1.29s/it]                                                          {'loss': 2.1073, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37270/48845 [13:12:14<4:09:43,  1.29s/it] 76%|███████▋  | 37271/48845 [13:12:16<4:07:50,  1.28s/it] 76%|███████▋  | 37272/48845 [13:12:17<4:06:25,  1.28s/it] 76%|███████▋  | 37273/48845 [13:12:18<4:05:22,  1.27s/it] 76%|███████▋  | 37274/48845 [13:12:20<4:04:44,  1.27s/it] 76%|███████▋  | 37275/48845 [13:12:21<4:04:28,  1.27s/it]                                                          {'loss': 2.0131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37275/48845 [13:12:21<4:04:28,  1.27s/it] 76%|███████▋  | 37276/48845 [13:12:22<4:04:32,  1.27s/it] 76%|███████▋  | 37277/48845 [13:12:23<4:03:55,  1.27s/it] 76%|███████▋  | 37278/48845 [13:12:25<4:03:57,  1.27s/it] 76%|███████▋  | 37279/48845 [13:12:26<4:03:41,  1.26s/it] 76%|███████▋  | 37280/48845 [13:12:27<4:03:19,  1.26s/it]                                                          {'loss': 1.8535, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37280/48845 [13:12:27<4:03:19,  1.26s/it] 76%|███████▋  | 37281/48845 [13:12:28<4:03:49,  1.27s/it] 76%|███████▋  | 37282/48845 [13:12:30<4:03:38,  1.26s/it] 76%|███████▋  | 37283/48845 [13:12:31<4:03:22,  1.26s/it] 76%|███████▋  | 37284/48845 [13:12:32<4:03:04,  1.26s/it] 76%|███████▋  | 37285/48845 [13:12:33<4:02:56,  1.26s/it]                                                          {'loss': 1.9887, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37285/48845 [13:12:33<4:02:56,  1.26s/it] 76%|███████▋  | 37286/48845 [13:12:35<4:03:51,  1.27s/it] 76%|███████▋  | 37287/48845 [13:12:36<4:03:47,  1.27s/it] 76%|███████▋  | 37288/48845 [13:12:37<4:03:54,  1.27s/it] 76%|███████▋  | 37289/48845 [13:12:38<4:03:50,  1.27s/it] 76%|███████▋  | 37290/48845 [13:12:40<4:09:35,  1.30s/it]                                                          {'loss': 2.0358, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37290/48845 [13:12:40<4:09:35,  1.30s/it] 76%|███████▋  | 37291/48845 [13:12:41<4:07:37,  1.29s/it] 76%|███████▋  | 37292/48845 [13:12:42<4:06:13,  1.28s/it] 76%|███████▋  | 37293/48845 [13:12:44<4:05:08,  1.27s/it] 76%|███████▋  | 37294/48845 [13:12:45<4:04:51,  1.27s/it] 76%|███████▋  | 37295/48845 [13:12:46<4:04:06,  1.27s/it]                                                          {'loss': 2.1, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37295/48845 [13:12:46<4:04:06,  1.27s/it] 76%|███████▋  | 37296/48845 [13:12:47<4:03:48,  1.27s/it] 76%|███████▋  | 37297/48845 [13:12:49<4:03:29,  1.27s/it] 76%|███████▋  | 37298/48845 [13:12:50<4:03:28,  1.27s/it] 76%|███████▋  | 37299/48845 [13:12:51<4:03:11,  1.26s/it] 76%|███████▋  | 37300/48845 [13:12:52<4:03:03,  1.26s/it]                                                          {'loss': 1.8898, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37300/48845 [13:12:52<4:03:03,  1.26s/it] 76%|███████▋  | 37301/48845 [13:12:54<4:02:50,  1.26s/it] 76%|███████▋  | 37302/48845 [13:12:55<4:02:54,  1.26s/it] 76%|███████▋  | 37303/48845 [13:12:56<4:03:00,  1.26s/it] 76%|███████▋  | 37304/48845 [13:12:58<4:02:47,  1.26s/it] 76%|███████▋  | 37305/48845 [13:12:59<4:02:58,  1.26s/it]                                                          {'loss': 1.951, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37305/48845 [13:12:59<4:02:58,  1.26s/it] 76%|███████▋  | 37306/48845 [13:13:00<4:03:15,  1.26s/it] 76%|███████▋  | 37307/48845 [13:13:01<4:03:09,  1.26s/it] 76%|███████▋  | 37308/48845 [13:13:03<4:02:47,  1.26s/it] 76%|███████▋  | 37309/48845 [13:13:04<4:02:42,  1.26s/it] 76%|███████▋  | 37310/48845 [13:13:05<4:02:53,  1.26s/it]                                                          {'loss': 1.9718, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37310/48845 [13:13:05<4:02:53,  1.26s/it] 76%|███████▋  | 37311/48845 [13:13:06<4:03:18,  1.27s/it] 76%|███████▋  | 37312/48845 [13:13:08<4:03:23,  1.27s/it] 76%|███████▋  | 37313/48845 [13:13:09<4:03:00,  1.26s/it] 76%|███████▋  | 37314/48845 [13:13:10<4:03:26,  1.27s/it] 76%|███████▋  | 37315/48845 [13:13:11<4:03:14,  1.27s/it]                                                          {'loss': 2.077, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37315/48845 [13:13:11<4:03:14,  1.27s/it] 76%|███████▋  | 37316/48845 [13:13:13<4:03:04,  1.26s/it] 76%|███████▋  | 37317/48845 [13:13:14<4:02:37,  1.26s/it] 76%|███████▋  | 37318/48845 [13:13:15<4:02:53,  1.26s/it] 76%|███████▋  | 37319/48845 [13:13:16<4:03:02,  1.27s/it] 76%|███████▋  | 37320/48845 [13:13:18<4:02:52,  1.26s/it]                                                          {'loss': 2.0303, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37320/48845 [13:13:18<4:02:52,  1.26s/it] 76%|███████▋  | 37321/48845 [13:13:19<4:03:07,  1.27s/it] 76%|███████▋  | 37322/48845 [13:13:20<4:03:00,  1.27s/it] 76%|███████▋  | 37323/48845 [13:13:22<4:02:49,  1.26s/it] 76%|███████▋  | 37324/48845 [13:13:23<4:02:32,  1.26s/it] 76%|███████▋  | 37325/48845 [13:13:24<4:02:30,  1.26s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37325/48845 [13:13:24<4:02:30,  1.26s/it] 76%|███████▋  | 37326/48845 [13:13:25<4:02:37,  1.26s/it] 76%|███████▋  | 37327/48845 [13:13:27<4:02:55,  1.27s/it] 76%|███████▋  | 37328/48845 [13:13:28<4:02:42,  1.26s/it] 76%|███████▋  | 37329/48845 [13:13:29<4:02:37,  1.26s/it] 76%|███████▋  | 37330/48845 [13:13:30<4:02:14,  1.26s/it]                                                          {'loss': 2.0368, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37330/48845 [13:13:30<4:02:14,  1.26s/it] 76%|███████▋  | 37331/48845 [13:13:32<4:02:20,  1.26s/it] 76%|███████▋  | 37332/48845 [13:13:33<4:02:09,  1.26s/it] 76%|███████▋  | 37333/48845 [13:13:34<4:02:03,  1.26s/it] 76%|███████▋  | 37334/48845 [13:13:35<4:02:19,  1.26s/it] 76%|███████▋  | 37335/48845 [13:13:37<4:02:13,  1.26s/it]                                                          {'loss': 2.0466, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37335/48845 [13:13:37<4:02:13,  1.26s/it] 76%|███████▋  | 37336/48845 [13:13:38<4:02:14,  1.26s/it] 76%|███████▋  | 37337/48845 [13:13:39<4:02:06,  1.26s/it] 76%|███████▋  | 37338/48845 [13:13:41<4:09:34,  1.30s/it] 76%|███████▋  | 37339/48845 [13:13:42<4:07:09,  1.29s/it] 76%|███████▋  | 37340/48845 [13:13:43<4:05:26,  1.28s/it]                                                          {'loss': 1.9485, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37340/48845 [13:13:43<4:05:26,  1.28s/it] 76%|███████▋  | 37341/48845 [13:13:44<4:04:46,  1.28s/it] 76%|███████▋  | 37342/48845 [13:13:46<4:03:54,  1.27s/it] 76%|███████▋  | 37343/48845 [13:13:47<4:03:09,  1.27s/it] 76%|███████▋  | 37344/48845 [13:13:48<4:03:06,  1.27s/it] 76%|███████▋  | 37345/48845 [13:13:49<4:02:43,  1.27s/it]                                                          {'loss': 2.2033, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37345/48845 [13:13:49<4:02:43,  1.27s/it] 76%|███████▋  | 37346/48845 [13:13:51<4:02:55,  1.27s/it] 76%|███████▋  | 37347/48845 [13:13:52<4:02:47,  1.27s/it] 76%|███████▋  | 37348/48845 [13:13:53<4:02:25,  1.27s/it] 76%|███████▋  | 37349/48845 [13:13:55<4:02:12,  1.26s/it] 76%|███████▋  | 37350/48845 [13:13:56<4:02:11,  1.26s/it]                                                          {'loss': 1.9255, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37350/48845 [13:13:56<4:02:11,  1.26s/it] 76%|███████▋  | 37351/48845 [13:13:57<4:02:01,  1.26s/it] 76%|███████▋  | 37352/48845 [13:13:58<4:01:56,  1.26s/it] 76%|███████▋  | 37353/48845 [13:14:00<4:01:56,  1.26s/it] 76%|███████▋  | 37354/48845 [13:14:01<4:02:06,  1.26s/it] 76%|███████▋  | 37355/48845 [13:14:02<4:01:55,  1.26s/it]                                                          {'loss': 2.0871, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37355/48845 [13:14:02<4:01:55,  1.26s/it] 76%|███████▋  | 37356/48845 [13:14:03<4:01:49,  1.26s/it] 76%|███████▋  | 37357/48845 [13:14:05<4:01:46,  1.26s/it] 76%|███████▋  | 37358/48845 [13:14:06<4:01:46,  1.26s/it] 76%|███████▋  | 37359/48845 [13:14:07<4:01:35,  1.26s/it] 76%|███████▋  | 37360/48845 [13:14:08<4:01:28,  1.26s/it]                                                          {'loss': 2.0361, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37360/48845 [13:14:08<4:01:28,  1.26s/it] 76%|███████▋  | 37361/48845 [13:14:10<4:01:46,  1.26s/it] 76%|███████▋  | 37362/48845 [13:14:11<4:05:11,  1.28s/it] 76%|███████▋  | 37363/48845 [13:14:12<4:04:20,  1.28s/it] 76%|███████▋  | 37364/48845 [13:14:14<4:03:35,  1.27s/it] 76%|███████▋  | 37365/48845 [13:14:15<4:02:57,  1.27s/it]                                                          {'loss': 2.01, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.82}
+ 76%|███████▋  | 37365/48845 [13:14:15<4:02:57,  1.27s/it] 76%|███████▋  | 37366/48845 [13:14:16<4:02:42,  1.27s/it] 77%|███████▋  | 37367/48845 [13:14:17<4:02:20,  1.27s/it] 77%|███████▋  | 37368/48845 [13:14:19<4:01:56,  1.26s/it] 77%|███████▋  | 37369/48845 [13:14:20<4:01:46,  1.26s/it] 77%|███████▋  | 37370/48845 [13:14:21<4:04:55,  1.28s/it]                                                          {'loss': 2.0306, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37370/48845 [13:14:21<4:04:55,  1.28s/it] 77%|███████▋  | 37371/48845 [13:14:22<4:04:14,  1.28s/it] 77%|███████▋  | 37372/48845 [13:14:24<4:03:13,  1.27s/it] 77%|███████▋  | 37373/48845 [13:14:25<4:02:41,  1.27s/it] 77%|███████▋  | 37374/48845 [13:14:26<4:02:16,  1.27s/it] 77%|███████▋  | 37375/48845 [13:14:27<4:01:56,  1.27s/it]                                                          {'loss': 1.9218, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37375/48845 [13:14:27<4:01:56,  1.27s/it] 77%|███████▋  | 37376/48845 [13:14:29<4:02:13,  1.27s/it] 77%|███████▋  | 37377/48845 [13:14:30<4:02:06,  1.27s/it] 77%|███████▋  | 37378/48845 [13:14:31<4:08:25,  1.30s/it] 77%|███████▋  | 37379/48845 [13:14:33<4:06:08,  1.29s/it] 77%|███████▋  | 37380/48845 [13:14:34<4:04:34,  1.28s/it]                                                          {'loss': 2.0483, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37380/48845 [13:14:34<4:04:34,  1.28s/it] 77%|███████▋  | 37381/48845 [13:14:35<4:03:17,  1.27s/it] 77%|███████▋  | 37382/48845 [13:14:37<4:07:43,  1.30s/it] 77%|███████▋  | 37383/48845 [13:14:38<4:05:48,  1.29s/it] 77%|███████▋  | 37384/48845 [13:14:39<4:04:12,  1.28s/it] 77%|███████▋  | 37385/48845 [13:14:40<4:03:21,  1.27s/it]                                                          {'loss': 2.0147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37385/48845 [13:14:40<4:03:21,  1.27s/it] 77%|███████▋  | 37386/48845 [13:14:42<4:02:54,  1.27s/it] 77%|███████▋  | 37387/48845 [13:14:43<4:02:09,  1.27s/it] 77%|███████▋  | 37388/48845 [13:14:44<4:01:52,  1.27s/it] 77%|███████▋  | 37389/48845 [13:14:45<4:01:39,  1.27s/it] 77%|███████▋  | 37390/48845 [13:14:47<4:02:22,  1.27s/it]                                                          {'loss': 2.0949, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37390/48845 [13:14:47<4:02:22,  1.27s/it] 77%|███████▋  | 37391/48845 [13:14:48<4:02:25,  1.27s/it] 77%|███████▋  | 37392/48845 [13:14:49<4:02:05,  1.27s/it] 77%|███████▋  | 37393/48845 [13:14:50<4:01:44,  1.27s/it] 77%|███████▋  | 37394/48845 [13:14:52<4:06:33,  1.29s/it] 77%|███████▋  | 37395/48845 [13:14:53<4:04:43,  1.28s/it]                                                          {'loss': 1.9712, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37395/48845 [13:14:53<4:04:43,  1.28s/it] 77%|███████▋  | 37396/48845 [13:14:54<4:03:55,  1.28s/it] 77%|███████▋  | 37397/48845 [13:14:56<4:02:56,  1.27s/it] 77%|███████▋  | 37398/48845 [13:14:57<4:02:26,  1.27s/it] 77%|███████▋  | 37399/48845 [13:14:58<4:02:02,  1.27s/it] 77%|███████▋  | 37400/48845 [13:14:59<4:02:05,  1.27s/it]                                                          {'loss': 2.1767, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37400/48845 [13:14:59<4:02:05,  1.27s/it] 77%|███████▋  | 37401/48845 [13:15:03<6:27:34,  2.03s/it] 77%|███████▋  | 37402/48845 [13:15:04<5:43:28,  1.80s/it] 77%|███████▋  | 37403/48845 [13:15:06<5:12:39,  1.64s/it] 77%|███████▋  | 37404/48845 [13:15:07<4:50:53,  1.53s/it] 77%|███████▋  | 37405/48845 [13:15:08<4:35:39,  1.45s/it]                                                          {'loss': 2.1724, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37405/48845 [13:15:08<4:35:39,  1.45s/it] 77%|███████▋  | 37406/48845 [13:15:09<4:25:07,  1.39s/it] 77%|███████▋  | 37407/48845 [13:15:11<4:17:49,  1.35s/it] 77%|███████▋  | 37408/48845 [13:15:12<4:12:39,  1.33s/it] 77%|███████▋  | 37409/48845 [13:15:13<4:08:46,  1.31s/it] 77%|███████▋  | 37410/48845 [13:15:15<4:06:19,  1.29s/it]                                                          {'loss': 1.9, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37410/48845 [13:15:15<4:06:19,  1.29s/it] 77%|███████▋  | 37411/48845 [13:15:16<4:04:46,  1.28s/it] 77%|███████▋  | 37412/48845 [13:15:17<4:03:26,  1.28s/it] 77%|███████▋  | 37413/48845 [13:15:18<4:02:26,  1.27s/it] 77%|███████▋  | 37414/48845 [13:15:20<4:01:45,  1.27s/it] 77%|███████▋  | 37415/48845 [13:15:21<4:01:19,  1.27s/it]                                                          {'loss': 1.9185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37415/48845 [13:15:21<4:01:19,  1.27s/it] 77%|███████▋  | 37416/48845 [13:15:22<4:01:08,  1.27s/it] 77%|███████▋  | 37417/48845 [13:15:23<4:00:43,  1.26s/it] 77%|███████▋  | 37418/48845 [13:15:25<4:00:23,  1.26s/it] 77%|███████▋  | 37419/48845 [13:15:26<4:00:19,  1.26s/it] 77%|███████▋  | 37420/48845 [13:15:27<4:00:27,  1.26s/it]                                                          {'loss': 1.9347, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37420/48845 [13:15:27<4:00:27,  1.26s/it] 77%|███████▋  | 37421/48845 [13:15:28<4:00:29,  1.26s/it] 77%|███████▋  | 37422/48845 [13:15:30<4:00:31,  1.26s/it] 77%|███████▋  | 37423/48845 [13:15:31<4:00:17,  1.26s/it] 77%|███████▋  | 37424/48845 [13:15:32<4:00:15,  1.26s/it] 77%|███████▋  | 37425/48845 [13:15:33<4:00:12,  1.26s/it]                                                          {'loss': 2.0157, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37425/48845 [13:15:33<4:00:12,  1.26s/it] 77%|███████▋  | 37426/48845 [13:15:35<4:00:18,  1.26s/it] 77%|███████▋  | 37427/48845 [13:15:36<4:00:13,  1.26s/it] 77%|███████▋  | 37428/48845 [13:15:37<4:00:21,  1.26s/it] 77%|███████▋  | 37429/48845 [13:15:39<4:00:08,  1.26s/it] 77%|███████▋  | 37430/48845 [13:15:40<3:59:58,  1.26s/it]                                                          {'loss': 2.0825, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37430/48845 [13:15:40<3:59:58,  1.26s/it] 77%|███████▋  | 37431/48845 [13:15:41<4:00:03,  1.26s/it] 77%|███████▋  | 37432/48845 [13:15:42<3:59:51,  1.26s/it] 77%|███████▋  | 37433/48845 [13:15:44<3:59:51,  1.26s/it] 77%|███████▋  | 37434/48845 [13:15:45<3:59:43,  1.26s/it] 77%|███████▋  | 37435/48845 [13:15:46<3:59:42,  1.26s/it]                                                          {'loss': 2.2341, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37435/48845 [13:15:46<3:59:42,  1.26s/it] 77%|███████▋  | 37436/48845 [13:15:47<3:59:50,  1.26s/it] 77%|███████▋  | 37437/48845 [13:15:49<4:00:36,  1.27s/it] 77%|███████▋  | 37438/48845 [13:15:50<4:00:24,  1.26s/it] 77%|███████▋  | 37439/48845 [13:15:51<4:00:06,  1.26s/it] 77%|███████▋  | 37440/48845 [13:15:52<4:00:19,  1.26s/it]                                                          {'loss': 2.1047, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37440/48845 [13:15:52<4:00:19,  1.26s/it] 77%|███████▋  | 37441/48845 [13:15:54<4:00:19,  1.26s/it] 77%|███████▋  | 37442/48845 [13:15:55<4:00:13,  1.26s/it] 77%|███████▋  | 37443/48845 [13:15:56<4:00:06,  1.26s/it] 77%|███████▋  | 37444/48845 [13:15:57<4:00:01,  1.26s/it] 77%|███████▋  | 37445/48845 [13:15:59<4:02:12,  1.27s/it]                                                          {'loss': 1.9826, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37445/48845 [13:15:59<4:02:12,  1.27s/it] 77%|███████▋  | 37446/48845 [13:16:00<4:02:03,  1.27s/it] 77%|███████▋  | 37447/48845 [13:16:01<4:01:24,  1.27s/it] 77%|███████▋  | 37448/48845 [13:16:03<4:00:49,  1.27s/it] 77%|███████▋  | 37449/48845 [13:16:04<4:00:23,  1.27s/it] 77%|███████▋  | 37450/48845 [13:16:05<4:04:12,  1.29s/it]                                                          {'loss': 2.0646, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37450/48845 [13:16:05<4:04:12,  1.29s/it] 77%|███████▋  | 37451/48845 [13:16:06<4:02:58,  1.28s/it] 77%|███████▋  | 37452/48845 [13:16:08<4:02:02,  1.27s/it] 77%|███████▋  | 37453/48845 [13:16:09<4:01:18,  1.27s/it] 77%|███████▋  | 37454/48845 [13:16:10<4:01:09,  1.27s/it] 77%|███████▋  | 37455/48845 [13:16:11<4:00:46,  1.27s/it]                                                          {'loss': 2.0308, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37455/48845 [13:16:11<4:00:46,  1.27s/it] 77%|███████▋  | 37456/48845 [13:16:13<4:00:20,  1.27s/it] 77%|███████▋  | 37457/48845 [13:16:14<4:00:02,  1.26s/it] 77%|███████▋  | 37458/48845 [13:16:15<3:59:58,  1.26s/it] 77%|███████▋  | 37459/48845 [13:16:17<4:00:10,  1.27s/it] 77%|███████▋  | 37460/48845 [13:16:18<4:00:06,  1.27s/it]                                                          {'loss': 2.0075, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.83}
+ 77%|███████▋  | 37460/48845 [13:16:18<4:00:06,  1.27s/it] 77%|███████▋  | 37461/48845 [13:16:19<4:00:02,  1.27s/it] 77%|███████▋  | 37462/48845 [13:16:20<4:00:01,  1.27s/it] 77%|███████▋  | 37463/48845 [13:16:22<3:59:47,  1.26s/it] 77%|███████▋  | 37464/48845 [13:16:23<3:59:42,  1.26s/it] 77%|███████▋  | 37465/48845 [13:16:24<3:59:39,  1.26s/it]                                                          {'loss': 1.9658, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37465/48845 [13:16:24<3:59:39,  1.26s/it] 77%|███████▋  | 37466/48845 [13:16:25<4:03:51,  1.29s/it] 77%|███████▋  | 37467/48845 [13:16:27<4:02:14,  1.28s/it] 77%|███████▋  | 37468/48845 [13:16:28<4:01:29,  1.27s/it] 77%|███████▋  | 37469/48845 [13:16:29<4:00:59,  1.27s/it] 77%|███████▋  | 37470/48845 [13:16:31<4:09:43,  1.32s/it]                                                          {'loss': 2.2074, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37470/48845 [13:16:31<4:09:43,  1.32s/it] 77%|███████▋  | 37471/48845 [13:16:32<4:06:45,  1.30s/it] 77%|███████▋  | 37472/48845 [13:16:33<4:04:28,  1.29s/it] 77%|███████▋  | 37473/48845 [13:16:34<4:02:48,  1.28s/it] 77%|███████▋  | 37474/48845 [13:16:36<4:02:02,  1.28s/it] 77%|███████▋  | 37475/48845 [13:16:37<4:01:13,  1.27s/it]                                                          {'loss': 1.9794, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37475/48845 [13:16:37<4:01:13,  1.27s/it] 77%|███████▋  | 37476/48845 [13:16:38<4:00:40,  1.27s/it] 77%|███████▋  | 37477/48845 [13:16:40<4:00:06,  1.27s/it] 77%|███████▋  | 37478/48845 [13:16:41<4:08:24,  1.31s/it] 77%|███████▋  | 37479/48845 [13:16:42<4:05:29,  1.30s/it] 77%|███████▋  | 37480/48845 [13:16:43<4:03:27,  1.29s/it]                                                          {'loss': 2.1672, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37480/48845 [13:16:43<4:03:27,  1.29s/it] 77%|███████▋  | 37481/48845 [13:16:45<4:02:10,  1.28s/it] 77%|███████▋  | 37482/48845 [13:16:46<4:01:26,  1.27s/it] 77%|███████▋  | 37483/48845 [13:16:47<4:00:27,  1.27s/it] 77%|███████▋  | 37484/48845 [13:16:48<4:00:20,  1.27s/it] 77%|███████▋  | 37485/48845 [13:16:50<3:59:55,  1.27s/it]                                                          {'loss': 2.0045, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37485/48845 [13:16:50<3:59:55,  1.27s/it] 77%|███████▋  | 37486/48845 [13:16:51<3:59:48,  1.27s/it] 77%|███████▋  | 37487/48845 [13:16:52<3:59:27,  1.26s/it] 77%|███████▋  | 37488/48845 [13:16:54<3:59:19,  1.26s/it] 77%|███████▋  | 37489/48845 [13:16:55<3:58:55,  1.26s/it] 77%|███████▋  | 37490/48845 [13:16:56<3:58:59,  1.26s/it]                                                          {'loss': 2.0662, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37490/48845 [13:16:56<3:58:59,  1.26s/it] 77%|███████▋  | 37491/48845 [13:16:57<3:58:46,  1.26s/it] 77%|███████▋  | 37492/48845 [13:16:59<3:58:41,  1.26s/it] 77%|███████▋  | 37493/48845 [13:17:00<3:58:50,  1.26s/it] 77%|███████▋  | 37494/48845 [13:17:01<4:00:40,  1.27s/it] 77%|███████▋  | 37495/48845 [13:17:02<4:00:18,  1.27s/it]                                                          {'loss': 1.9818, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37495/48845 [13:17:02<4:00:18,  1.27s/it] 77%|███████▋  | 37496/48845 [13:17:04<3:59:59,  1.27s/it] 77%|███████▋  | 37497/48845 [13:17:05<3:59:25,  1.27s/it] 77%|███████▋  | 37498/48845 [13:17:06<4:07:30,  1.31s/it] 77%|███████▋  | 37499/48845 [13:17:08<4:04:55,  1.30s/it] 77%|███████▋  | 37500/48845 [13:17:09<4:02:58,  1.29s/it]                                                          {'loss': 1.9624, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37500/48845 [13:17:09<4:02:58,  1.29s/it] 77%|███████▋  | 37501/48845 [13:17:10<4:04:29,  1.29s/it] 77%|███████▋  | 37502/48845 [13:17:11<4:02:34,  1.28s/it] 77%|███████▋  | 37503/48845 [13:17:13<4:01:43,  1.28s/it] 77%|███████▋  | 37504/48845 [13:17:14<4:00:44,  1.27s/it] 77%|███████▋  | 37505/48845 [13:17:15<4:00:04,  1.27s/it]                                                          {'loss': 2.1082, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37505/48845 [13:17:15<4:00:04,  1.27s/it] 77%|███████▋  | 37506/48845 [13:17:17<3:59:30,  1.27s/it] 77%|███████▋  | 37507/48845 [13:17:18<3:59:20,  1.27s/it] 77%|███████▋  | 37508/48845 [13:17:19<3:58:51,  1.26s/it] 77%|███████▋  | 37509/48845 [13:17:20<3:58:30,  1.26s/it] 77%|███████▋  | 37510/48845 [13:17:22<3:58:48,  1.26s/it]                                                          {'loss': 2.2888, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37510/48845 [13:17:22<3:58:48,  1.26s/it] 77%|███████▋  | 37511/48845 [13:17:23<3:58:52,  1.26s/it] 77%|███████▋  | 37512/48845 [13:17:24<3:58:47,  1.26s/it] 77%|███████▋  | 37513/48845 [13:17:25<3:58:35,  1.26s/it] 77%|███████▋  | 37514/48845 [13:17:27<3:58:41,  1.26s/it] 77%|███████▋  | 37515/48845 [13:17:28<3:58:29,  1.26s/it]                                                          {'loss': 2.0822, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37515/48845 [13:17:28<3:58:29,  1.26s/it] 77%|███████▋  | 37516/48845 [13:17:29<3:58:40,  1.26s/it] 77%|███████▋  | 37517/48845 [13:17:30<3:58:26,  1.26s/it] 77%|███████▋  | 37518/48845 [13:17:32<3:58:29,  1.26s/it] 77%|███████▋  | 37519/48845 [13:17:33<3:58:30,  1.26s/it] 77%|███████▋  | 37520/48845 [13:17:34<3:58:30,  1.26s/it]                                                          {'loss': 1.9985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37520/48845 [13:17:34<3:58:30,  1.26s/it] 77%|███████▋  | 37521/48845 [13:17:35<3:58:33,  1.26s/it] 77%|███████▋  | 37522/48845 [13:17:37<3:58:24,  1.26s/it] 77%|███████▋  | 37523/48845 [13:17:38<3:58:26,  1.26s/it] 77%|███████▋  | 37524/48845 [13:17:39<3:58:21,  1.26s/it] 77%|███████▋  | 37525/48845 [13:17:40<3:58:08,  1.26s/it]                                                          {'loss': 2.0496, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37525/48845 [13:17:41<3:58:08,  1.26s/it] 77%|███████▋  | 37526/48845 [13:17:42<3:58:16,  1.26s/it] 77%|███████▋  | 37527/48845 [13:17:43<3:58:04,  1.26s/it] 77%|███████▋  | 37528/48845 [13:17:44<3:58:06,  1.26s/it] 77%|███████▋  | 37529/48845 [13:17:46<3:57:58,  1.26s/it] 77%|███████▋  | 37530/48845 [13:17:47<3:58:01,  1.26s/it]                                                          {'loss': 2.1521, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37530/48845 [13:17:47<3:58:01,  1.26s/it] 77%|███��███▋  | 37531/48845 [13:17:48<3:58:03,  1.26s/it] 77%|███████▋  | 37532/48845 [13:17:49<3:58:00,  1.26s/it] 77%|███████▋  | 37533/48845 [13:17:51<3:57:51,  1.26s/it] 77%|███████▋  | 37534/48845 [13:17:52<3:57:54,  1.26s/it] 77%|███████▋  | 37535/48845 [13:17:53<3:57:52,  1.26s/it]                                                          {'loss': 1.9467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37535/48845 [13:17:53<3:57:52,  1.26s/it] 77%|███████▋  | 37536/48845 [13:17:54<3:58:04,  1.26s/it] 77%|███████▋  | 37537/48845 [13:17:56<3:57:58,  1.26s/it] 77%|███████▋  | 37538/48845 [13:17:57<3:58:19,  1.26s/it] 77%|███████▋  | 37539/48845 [13:17:58<3:58:15,  1.26s/it] 77%|███████▋  | 37540/48845 [13:17:59<3:58:11,  1.26s/it]                                                          {'loss': 1.9907, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37540/48845 [13:17:59<3:58:11,  1.26s/it] 77%|███████▋  | 37541/48845 [13:18:01<3:58:10,  1.26s/it] 77%|███████▋  | 37542/48845 [13:18:02<3:59:00,  1.27s/it] 77%|███████▋  | 37543/48845 [13:18:03<3:58:55,  1.27s/it] 77%|███████▋  | 37544/48845 [13:18:05<3:58:36,  1.27s/it] 77%|███████▋  | 37545/48845 [13:18:06<3:58:12,  1.26s/it]                                                          {'loss': 2.145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37545/48845 [13:18:06<3:58:12,  1.26s/it] 77%|███████▋  | 37546/48845 [13:18:07<4:05:14,  1.30s/it] 77%|███████▋  | 37547/48845 [13:18:08<4:03:14,  1.29s/it] 77%|███████▋  | 37548/48845 [13:18:10<4:01:33,  1.28s/it] 77%|███████▋  | 37549/48845 [13:18:11<4:00:25,  1.28s/it] 77%|███████▋  | 37550/48845 [13:18:12<3:59:30,  1.27s/it]                                                          {'loss': 1.9396, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37550/48845 [13:18:12<3:59:30,  1.27s/it] 77%|███████▋  | 37551/48845 [13:18:14<3:59:55,  1.27s/it] 77%|███████▋  | 37552/48845 [13:18:15<3:59:07,  1.27s/it] 77%|███████▋  | 37553/48845 [13:18:16<3:58:43,  1.27s/it] 77%|███████▋  | 37554/48845 [13:18:17<4:08:49,  1.32s/it] 77%|███████▋  | 37555/48845 [13:18:19<4:05:37,  1.31s/it]                                                          {'loss': 2.2134, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37555/48845 [13:18:19<4:05:37,  1.31s/it] 77%|███████▋  | 37556/48845 [13:18:20<4:03:41,  1.30s/it] 77%|███████▋  | 37557/48845 [13:18:21<4:01:45,  1.29s/it] 77%|███████▋  | 37558/48845 [13:18:23<4:00:49,  1.28s/it] 77%|███████▋  | 37559/48845 [13:18:24<3:59:43,  1.27s/it] 77%|███████▋  | 37560/48845 [13:18:25<3:59:10,  1.27s/it]                                                          {'loss': 1.9717, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.84}
+ 77%|███████▋  | 37560/48845 [13:18:25<3:59:10,  1.27s/it] 77%|███████▋  | 37561/48845 [13:18:26<3:58:41,  1.27s/it] 77%|███████▋  | 37562/48845 [13:18:28<3:58:07,  1.27s/it] 77%|███████▋  | 37563/48845 [13:18:29<3:57:57,  1.27s/it] 77%|███████▋  | 37564/48845 [13:18:30<3:57:46,  1.26s/it] 77%|███████▋  | 37565/48845 [13:18:31<3:57:31,  1.26s/it]                                                          {'loss': 2.2311, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37565/48845 [13:18:31<3:57:31,  1.26s/it] 77%|███████▋  | 37566/48845 [13:18:33<3:58:09,  1.27s/it] 77%|███████▋  | 37567/48845 [13:18:34<3:57:44,  1.26s/it] 77%|███████▋  | 37568/48845 [13:18:35<3:57:45,  1.27s/it] 77%|███████▋  | 37569/48845 [13:18:36<3:57:43,  1.26s/it] 77%|███████▋  | 37570/48845 [13:18:38<3:57:59,  1.27s/it]                                                          {'loss': 1.9142, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37570/48845 [13:18:38<3:57:59,  1.27s/it] 77%|███████▋  | 37571/48845 [13:18:39<3:57:40,  1.26s/it] 77%|███████▋  | 37572/48845 [13:18:40<3:57:29,  1.26s/it] 77%|███████▋  | 37573/48845 [13:18:41<3:57:16,  1.26s/it] 77%|███████▋  | 37574/48845 [13:18:43<3:57:45,  1.27s/it] 77%|███████▋  | 37575/48845 [13:18:44<3:57:38,  1.27s/it]                                                          {'loss': 2.1597, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37575/48845 [13:18:44<3:57:38,  1.27s/it] 77%|███████▋  | 37576/48845 [13:18:45<3:57:58,  1.27s/it] 77%|███████▋  | 37577/48845 [13:18:47<3:57:31,  1.26s/it] 77%|███████▋  | 37578/48845 [13:18:48<3:57:31,  1.26s/it] 77%|███████▋  | 37579/48845 [13:18:49<3:57:29,  1.26s/it] 77%|███████▋  | 37580/48845 [13:18:50<3:57:45,  1.27s/it]                                                          {'loss': 2.0476, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37580/48845 [13:18:50<3:57:45,  1.27s/it] 77%|███████▋  | 37581/48845 [13:18:52<3:58:03,  1.27s/it] 77%|███████▋  | 37582/48845 [13:18:53<3:58:12,  1.27s/it] 77%|███████▋  | 37583/48845 [13:18:54<3:57:49,  1.27s/it] 77%|███████▋  | 37584/48845 [13:18:55<3:57:33,  1.27s/it] 77%|███████▋  | 37585/48845 [13:18:57<3:57:38,  1.27s/it]                                                          {'loss': 1.9357, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37585/48845 [13:18:57<3:57:38,  1.27s/it] 77%|███████▋  | 37586/48845 [13:18:58<3:57:46,  1.27s/it] 77%|███████▋  | 37587/48845 [13:18:59<3:57:19,  1.26s/it] 77%|███████▋  | 37588/48845 [13:19:00<3:57:34,  1.27s/it] 77%|███████▋  | 37589/48845 [13:19:02<3:57:19,  1.27s/it] 77%|███████▋  | 37590/48845 [13:19:03<3:57:09,  1.26s/it]                                                          {'loss': 1.9529, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37590/48845 [13:19:03<3:57:09,  1.26s/it] 77%|███████▋  | 37591/48845 [13:19:04<3:57:00,  1.26s/it] 77%|███████▋  | 37592/48845 [13:19:06<3:57:01,  1.26s/it] 77%|███████▋  | 37593/48845 [13:19:07<3:57:11,  1.26s/it] 77%|███████▋  | 37594/48845 [13:19:08<3:57:01,  1.26s/it] 77%|███████▋  | 37595/48845 [13:19:09<3:56:54,  1.26s/it]                                                          {'loss': 2.156, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37595/48845 [13:19:09<3:56:54,  1.26s/it] 77%|███████▋  | 37596/48845 [13:19:11<3:57:30,  1.27s/it] 77%|███████▋  | 37597/48845 [13:19:12<3:57:15,  1.27s/it] 77%|███████▋  | 37598/48845 [13:19:13<3:57:15,  1.27s/it] 77%|███████▋  | 37599/48845 [13:19:14<3:57:04,  1.26s/it] 77%|███████▋  | 37600/48845 [13:19:16<3:56:53,  1.26s/it]                                                          {'loss': 1.8786, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37600/48845 [13:19:16<3:56:53,  1.26s/it] 77%|███████▋  | 37601/48845 [13:19:19<6:18:36,  2.02s/it] 77%|███████▋  | 37602/48845 [13:19:21<5:35:56,  1.79s/it] 77%|███████▋  | 37603/48845 [13:19:22<5:05:47,  1.63s/it] 77%|███████▋  | 37604/48845 [13:19:23<4:45:47,  1.53s/it] 77%|███████▋  | 37605/48845 [13:19:25<4:30:58,  1.45s/it]                                                          {'loss': 2.2318, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37605/48845 [13:19:25<4:30:58,  1.45s/it] 77%|███████▋  | 37606/48845 [13:19:26<4:21:24,  1.40s/it] 77%|███████▋  | 37607/48845 [13:19:27<4:13:53,  1.36s/it] 77%|███████▋  | 37608/48845 [13:19:28<4:08:38,  1.33s/it] 77%|███████▋  | 37609/48845 [13:19:30<4:04:42,  1.31s/it] 77%|███████▋  | 37610/48845 [13:19:31<4:02:34,  1.30s/it]                                                          {'loss': 2.066, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37610/48845 [13:19:31<4:02:34,  1.30s/it] 77%|███████▋  | 37611/48845 [13:19:32<4:01:20,  1.29s/it] 77%|███████▋  | 37612/48845 [13:19:33<3:59:55,  1.28s/it] 77%|███████▋  | 37613/48845 [13:19:35<3:58:35,  1.27s/it] 77%|███████▋  | 37614/48845 [13:19:36<3:57:49,  1.27s/it] 77%|███████▋  | 37615/48845 [13:19:37<3:57:13,  1.27s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37615/48845 [13:19:37<3:57:13,  1.27s/it] 77%|███████▋  | 37616/48845 [13:19:39<4:03:35,  1.30s/it] 77%|███████▋  | 37617/48845 [13:19:40<4:01:40,  1.29s/it] 77%|███████▋  | 37618/48845 [13:19:41<4:00:05,  1.28s/it] 77%|███████▋  | 37619/48845 [13:19:42<3:58:49,  1.28s/it] 77%|███████▋  | 37620/48845 [13:19:44<3:58:06,  1.27s/it]                                                          {'loss': 2.0125, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37620/48845 [13:19:44<3:58:06,  1.27s/it] 77%|███████▋  | 37621/48845 [13:19:45<3:57:28,  1.27s/it] 77%|███████▋  | 37622/48845 [13:19:46<3:56:57,  1.27s/it] 77%|███████▋  | 37623/48845 [13:19:47<3:56:41,  1.27s/it] 77%|███████▋  | 37624/48845 [13:19:49<3:56:36,  1.27s/it] 77%|███████▋  | 37625/48845 [13:19:50<3:56:29,  1.26s/it]                                                          {'loss': 1.991, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37625/48845 [13:19:50<3:56:29,  1.26s/it] 77%|███████▋  | 37626/48845 [13:19:51<3:56:19,  1.26s/it] 77%|███████▋  | 37627/48845 [13:19:52<3:56:02,  1.26s/it] 77%|███████▋  | 37628/48845 [13:19:54<3:56:02,  1.26s/it] 77%|███████▋  | 37629/48845 [13:19:55<3:55:52,  1.26s/it] 77%|███████▋  | 37630/48845 [13:19:56<3:55:45,  1.26s/it]                                                          {'loss': 2.0336, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37630/48845 [13:19:56<3:55:45,  1.26s/it] 77%|███████▋  | 37631/48845 [13:19:57<3:55:44,  1.26s/it] 77%|███████▋  | 37632/48845 [13:19:59<4:02:59,  1.30s/it] 77%|███████▋  | 37633/48845 [13:20:00<4:00:50,  1.29s/it] 77%|███████▋  | 37634/48845 [13:20:01<3:59:26,  1.28s/it] 77%|███████▋  | 37635/48845 [13:20:03<3:58:13,  1.28s/it]                                                          {'loss': 1.9866, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37635/48845 [13:20:03<3:58:13,  1.28s/it] 77%|███████▋  | 37636/48845 [13:20:04<3:57:43,  1.27s/it] 77%|███████▋  | 37637/48845 [13:20:05<3:57:11,  1.27s/it] 77%|███████▋  | 37638/48845 [13:20:06<3:56:49,  1.27s/it] 77%|███████▋  | 37639/48845 [13:20:08<3:56:24,  1.27s/it] 77%|███████▋  | 37640/48845 [13:20:09<3:56:29,  1.27s/it]                                                          {'loss': 2.1137, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37640/48845 [13:20:09<3:56:29,  1.27s/it] 77%|███████▋  | 37641/48845 [13:20:10<3:56:25,  1.27s/it] 77%|███████▋  | 37642/48845 [13:20:12<3:56:11,  1.26s/it] 77%|███████▋  | 37643/48845 [13:20:13<3:56:00,  1.26s/it] 77%|███████▋  | 37644/48845 [13:20:14<3:56:13,  1.27s/it] 77%|███████▋  | 37645/48845 [13:20:15<3:56:02,  1.26s/it]                                                          {'loss': 2.1434, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37645/48845 [13:20:15<3:56:02,  1.26s/it] 77%|███████▋  | 37646/48845 [13:20:17<3:55:46,  1.26s/it] 77%|███████▋  | 37647/48845 [13:20:18<3:55:33,  1.26s/it] 77%|███████▋  | 37648/48845 [13:20:19<3:55:49,  1.26s/it] 77%|███████▋  | 37649/48845 [13:20:20<3:55:40,  1.26s/it] 77%|███████▋  | 37650/48845 [13:20:22<3:55:35,  1.26s/it]                                                          {'loss': 2.1249, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37650/48845 [13:20:22<3:55:35,  1.26s/it] 77%|███████▋  | 37651/48845 [13:20:23<3:55:30,  1.26s/it] 77%|███████▋  | 37652/48845 [13:20:24<3:55:39,  1.26s/it] 77%|███████▋  | 37653/48845 [13:20:25<3:55:28,  1.26s/it] 77%|███████▋  | 37654/48845 [13:20:27<3:55:20,  1.26s/it] 77%|███████▋  | 37655/48845 [13:20:28<3:55:18,  1.26s/it]                                                          {'loss': 1.9961, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.85}
+ 77%|███████▋  | 37655/48845 [13:20:28<3:55:18,  1.26s/it] 77%|███████▋  | 37656/48845 [13:20:29<3:55:33,  1.26s/it] 77%|███████▋  | 37657/48845 [13:20:30<3:55:15,  1.26s/it] 77%|███████▋  | 37658/48845 [13:20:32<3:55:07,  1.26s/it] 77%|███████▋  | 37659/48845 [13:20:33<3:55:04,  1.26s/it] 77%|███████▋  | 37660/48845 [13:20:34<4:04:28,  1.31s/it]                                                          {'loss': 2.0133, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37660/48845 [13:20:34<4:04:28,  1.31s/it] 77%|███████▋  | 37661/48845 [13:20:36<4:01:44,  1.30s/it] 77%|███████▋  | 37662/48845 [13:20:37<3:59:51,  1.29s/it] 77%|███████▋  | 37663/48845 [13:20:38<3:58:18,  1.28s/it] 77%|███████▋  | 37664/48845 [13:20:40<4:04:12,  1.31s/it] 77%|███████▋  | 37665/48845 [13:20:41<4:01:17,  1.29s/it]                                                          {'loss': 1.9509, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37665/48845 [13:20:41<4:01:17,  1.29s/it] 77%|███████▋  | 37666/48845 [13:20:42<3:59:22,  1.28s/it] 77%|███████▋  | 37667/48845 [13:20:43<3:57:50,  1.28s/it] 77%|███████▋  | 37668/48845 [13:20:45<3:57:09,  1.27s/it] 77%|███████▋  | 37669/48845 [13:20:46<3:56:23,  1.27s/it] 77%|███████▋  | 37670/48845 [13:20:47<3:55:59,  1.27s/it]                                                          {'loss': 2.0157, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37670/48845 [13:20:47<3:55:59,  1.27s/it] 77%|███████▋  | 37671/48845 [13:20:48<3:55:53,  1.27s/it] 77%|███████▋  | 37672/48845 [13:20:50<3:55:35,  1.27s/it] 77%|███████▋  | 37673/48845 [13:20:51<3:55:32,  1.27s/it] 77%|███████▋  | 37674/48845 [13:20:52<3:55:30,  1.26s/it] 77%|███████▋  | 37675/48845 [13:20:53<3:55:09,  1.26s/it]                                                          {'loss': 2.2782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37675/48845 [13:20:53<3:55:09,  1.26s/it] 77%|███████▋  | 37676/48845 [13:20:55<3:55:31,  1.27s/it] 77%|███████▋  | 37677/48845 [13:20:56<3:55:21,  1.26s/it] 77%|███████▋  | 37678/48845 [13:20:57<3:55:30,  1.27s/it] 77%|███████▋  | 37679/48845 [13:20:59<3:55:40,  1.27s/it] 77%|███████▋  | 37680/48845 [13:21:00<3:55:28,  1.27s/it]                                                          {'loss': 2.2725, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37680/48845 [13:21:00<3:55:28,  1.27s/it] 77%|███████▋  | 37681/48845 [13:21:01<3:55:12,  1.26s/it] 77%|███████▋  | 37682/48845 [13:21:02<3:55:05,  1.26s/it] 77%|███████▋  | 37683/48845 [13:21:04<3:54:52,  1.26s/it] 77%|███████▋  | 37684/48845 [13:21:05<3:54:57,  1.26s/it] 77%|███████▋  | 37685/48845 [13:21:06<3:55:03,  1.26s/it]                                                          {'loss': 1.9564, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37685/48845 [13:21:06<3:55:03,  1.26s/it] 77%|███████▋  | 37686/48845 [13:21:07<3:54:52,  1.26s/it] 77%|███████▋  | 37687/48845 [13:21:09<3:54:48,  1.26s/it] 77%|███████▋  | 37688/48845 [13:21:10<3:54:59,  1.26s/it] 77%|███████▋  | 37689/48845 [13:21:11<3:54:48,  1.26s/it] 77%|███████▋  | 37690/48845 [13:21:12<3:54:48,  1.26s/it]                                                          {'loss': 1.8927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37690/48845 [13:21:12<3:54:48,  1.26s/it] 77%|███████▋  | 37691/48845 [13:21:14<3:54:48,  1.26s/it] 77%|███████▋  | 37692/48845 [13:21:15<3:54:31,  1.26s/it] 77%|███████▋  | 37693/48845 [13:21:16<3:54:35,  1.26s/it] 77%|███████▋  | 37694/48845 [13:21:17<3:54:19,  1.26s/it] 77%|███████▋  | 37695/48845 [13:21:19<3:54:13,  1.26s/it]                                                          {'loss': 2.0873, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37695/48845 [13:21:19<3:54:13,  1.26s/it] 77%|███████▋  | 37696/48845 [13:21:20<3:54:33,  1.26s/it] 77%|███████▋  | 37697/48845 [13:21:21<3:54:21,  1.26s/it] 77%|███████▋  | 37698/48845 [13:21:22<3:54:43,  1.26s/it] 77%|███████▋  | 37699/48845 [13:21:24<3:54:46,  1.26s/it] 77%|███████▋  | 37700/48845 [13:21:25<3:54:46,  1.26s/it]                                                          {'loss': 2.0753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37700/48845 [13:21:25<3:54:46,  1.26s/it] 77%|███████▋  | 37701/48845 [13:21:26<3:54:34,  1.26s/it] 77%|███████▋  | 37702/48845 [13:21:28<3:54:17,  1.26s/it] 77%|███████▋  | 37703/48845 [13:21:29<3:54:11,  1.26s/it] 77%|███████▋  | 37704/48845 [13:21:30<3:54:32,  1.26s/it] 77%|███████▋  | 37705/48845 [13:21:31<3:54:20,  1.26s/it]                                                          {'loss': 2.1572, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37705/48845 [13:21:31<3:54:20,  1.26s/it] 77%|███████▋  | 37706/48845 [13:21:33<3:54:16,  1.26s/it] 77%|███████▋  | 37707/48845 [13:21:34<3:54:06,  1.26s/it] 77%|███████▋  | 37708/48845 [13:21:35<3:54:06,  1.26s/it] 77%|███████▋  | 37709/48845 [13:21:36<3:54:36,  1.26s/it] 77%|███████▋  | 37710/48845 [13:21:38<3:54:38,  1.26s/it]                                                          {'loss': 2.0664, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37710/48845 [13:21:38<3:54:38,  1.26s/it] 77%|███████▋  | 37711/48845 [13:21:39<3:54:36,  1.26s/it] 77%|███████▋  | 37712/48845 [13:21:40<3:54:33,  1.26s/it] 77%|███████▋  | 37713/48845 [13:21:41<3:54:36,  1.26s/it] 77%|███████▋  | 37714/48845 [13:21:43<3:54:24,  1.26s/it] 77%|███████▋  | 37715/48845 [13:21:44<3:54:29,  1.26s/it]                                                          {'loss': 2.062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37715/48845 [13:21:44<3:54:29,  1.26s/it] 77%|███████▋  | 37716/48845 [13:21:45<3:54:32,  1.26s/it] 77%|███████▋  | 37717/48845 [13:21:46<3:54:23,  1.26s/it] 77%|███████▋  | 37718/48845 [13:21:48<3:54:21,  1.26s/it] 77%|███████▋  | 37719/48845 [13:21:49<3:54:09,  1.26s/it] 77%|███████▋  | 37720/48845 [13:21:50<3:54:14,  1.26s/it]                                                          {'loss': 2.0847, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37720/48845 [13:21:50<3:54:14,  1.26s/it] 77%|███████▋  | 37721/48845 [13:21:52<3:54:17,  1.26s/it] 77%|███████▋  | 37722/48845 [13:21:53<3:54:09,  1.26s/it] 77%|███████▋  | 37723/48845 [13:21:54<3:54:11,  1.26s/it] 77%|███████▋  | 37724/48845 [13:21:55<3:54:26,  1.26s/it] 77%|███████▋  | 37725/48845 [13:21:57<3:54:07,  1.26s/it]                                                          {'loss': 2.0132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37725/48845 [13:21:57<3:54:07,  1.26s/it] 77%|███████▋  | 37726/48845 [13:21:58<3:54:06,  1.26s/it] 77%|███████▋  | 37727/48845 [13:21:59<3:54:06,  1.26s/it] 77%|███████▋  | 37728/48845 [13:22:00<3:53:59,  1.26s/it] 77%|███████▋  | 37729/48845 [13:22:02<3:53:54,  1.26s/it] 77%|███████▋  | 37730/48845 [13:22:03<3:53:53,  1.26s/it]                                                          {'loss': 2.0084, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37730/48845 [13:22:03<3:53:53,  1.26s/it] 77%|███████▋  | 37731/48845 [13:22:04<3:53:53,  1.26s/it] 77%|███████▋  | 37732/48845 [13:22:05<3:54:09,  1.26s/it] 77%|███████▋  | 37733/48845 [13:22:07<3:53:52,  1.26s/it] 77%|███████▋  | 37734/48845 [13:22:08<3:53:45,  1.26s/it] 77%|███████▋  | 37735/48845 [13:22:09<3:53:28,  1.26s/it]                                                          {'loss': 2.0467, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37735/48845 [13:22:09<3:53:28,  1.26s/it] 77%|███████▋  | 37736/48845 [13:22:10<3:53:50,  1.26s/it] 77%|███████▋  | 37737/48845 [13:22:12<3:54:02,  1.26s/it] 77%|███████▋  | 37738/48845 [13:22:13<3:53:48,  1.26s/it] 77%|███████▋  | 37739/48845 [13:22:14<3:53:41,  1.26s/it] 77%|███████▋  | 37740/48845 [13:22:16<4:02:12,  1.31s/it]                                                          {'loss': 2.0127, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37740/48845 [13:22:16<4:02:12,  1.31s/it] 77%|███████▋  | 37741/48845 [13:22:17<3:59:34,  1.29s/it] 77%|███████▋  | 37742/48845 [13:22:18<3:57:40,  1.28s/it] 77%|███████▋  | 37743/48845 [13:22:19<3:56:20,  1.28s/it] 77%|███████▋  | 37744/48845 [13:22:21<3:55:36,  1.27s/it] 77%|███████▋  | 37745/48845 [13:22:22<3:54:49,  1.27s/it]                                                          {'loss': 1.9744, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37745/48845 [13:22:22<3:54:49,  1.27s/it] 77%|███████▋  | 37746/48845 [13:22:23<3:54:28,  1.27s/it] 77%|███████▋  | 37747/48845 [13:22:25<3:54:20,  1.27s/it] 77%|███████▋  | 37748/48845 [13:22:26<3:54:04,  1.27s/it] 77%|███████▋  | 37749/48845 [13:22:27<3:53:57,  1.27s/it] 77%|███████▋  | 37750/48845 [13:22:28<3:53:37,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37750/48845 [13:22:28<3:53:37,  1.26s/it] 77%|███████▋  | 37751/48845 [13:22:30<3:53:19,  1.26s/it] 77%|███████▋  | 37752/48845 [13:22:31<3:53:30,  1.26s/it] 77%|███████▋  | 37753/48845 [13:22:32<3:53:26,  1.26s/it] 77%|███████▋  | 37754/48845 [13:22:33<3:53:19,  1.26s/it] 77%|███████▋  | 37755/48845 [13:22:35<3:53:13,  1.26s/it]                                                          {'loss': 2.1521, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.86}
+ 77%|███████▋  | 37755/48845 [13:22:35<3:53:13,  1.26s/it] 77%|███████▋  | 37756/48845 [13:22:36<3:53:44,  1.26s/it] 77%|███████▋  | 37757/48845 [13:22:37<3:53:29,  1.26s/it] 77%|███████▋  | 37758/48845 [13:22:38<3:53:10,  1.26s/it] 77%|███████▋  | 37759/48845 [13:22:40<3:53:01,  1.26s/it] 77%|███████▋  | 37760/48845 [13:22:41<3:52:56,  1.26s/it]                                                          {'loss': 2.1505, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37760/48845 [13:22:41<3:52:56,  1.26s/it] 77%|███████▋  | 37761/48845 [13:22:42<3:53:04,  1.26s/it] 77%|███████▋  | 37762/48845 [13:22:43<3:53:46,  1.27s/it] 77%|███████▋  | 37763/48845 [13:22:45<3:53:23,  1.26s/it] 77%|███████▋  | 37764/48845 [13:22:46<3:53:09,  1.26s/it] 77%|███████▋  | 37765/48845 [13:22:47<3:52:58,  1.26s/it]                                                          {'loss': 2.3011, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37765/48845 [13:22:47<3:52:58,  1.26s/it] 77%|███████▋  | 37766/48845 [13:22:49<3:52:56,  1.26s/it] 77%|███████▋  | 37767/48845 [13:22:50<3:52:43,  1.26s/it] 77%|███████▋  | 37768/48845 [13:22:51<3:52:47,  1.26s/it] 77%|███████▋  | 37769/48845 [13:22:52<3:52:39,  1.26s/it] 77%|███████▋  | 37770/48845 [13:22:54<3:52:33,  1.26s/it]                                                          {'loss': 1.9858, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37770/48845 [13:22:54<3:52:33,  1.26s/it] 77%|███████▋  | 37771/48845 [13:22:55<3:52:53,  1.26s/it] 77%|███████▋  | 37772/48845 [13:22:56<3:52:41,  1.26s/it] 77%|███████▋  | 37773/48845 [13:22:57<3:52:35,  1.26s/it] 77%|███████▋  | 37774/48845 [13:22:59<3:52:27,  1.26s/it] 77%|███████▋  | 37775/48845 [13:23:00<3:52:45,  1.26s/it]                                                          {'loss': 2.0445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37775/48845 [13:23:00<3:52:45,  1.26s/it] 77%|███████▋  | 37776/48845 [13:23:01<3:53:00,  1.26s/it] 77%|███████▋  | 37777/48845 [13:23:02<3:52:47,  1.26s/it] 77%|███████▋  | 37778/48845 [13:23:04<3:52:41,  1.26s/it] 77%|███████▋  | 37779/48845 [13:23:05<3:52:30,  1.26s/it] 77%|███████▋  | 37780/48845 [13:23:06<3:52:38,  1.26s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37780/48845 [13:23:06<3:52:38,  1.26s/it] 77%|███████▋  | 37781/48845 [13:23:07<3:52:39,  1.26s/it] 77%|███████▋  | 37782/48845 [13:23:09<3:52:29,  1.26s/it] 77%|███████▋  | 37783/48845 [13:23:10<3:52:53,  1.26s/it] 77%|███████▋  | 37784/48845 [13:23:11<3:52:38,  1.26s/it] 77%|███████▋  | 37785/48845 [13:23:12<3:52:28,  1.26s/it]                                                          {'loss': 1.9599, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37785/48845 [13:23:12<3:52:28,  1.26s/it] 77%|███████▋  | 37786/48845 [13:23:14<3:52:30,  1.26s/it] 77%|███████▋  | 37787/48845 [13:23:15<3:52:43,  1.26s/it] 77%|███████▋  | 37788/48845 [13:23:16<3:52:41,  1.26s/it] 77%|███████▋  | 37789/48845 [13:23:18<3:52:38,  1.26s/it] 77%|███████▋  | 37790/48845 [13:23:19<3:52:21,  1.26s/it]                                                          {'loss': 1.8997, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37790/48845 [13:23:19<3:52:21,  1.26s/it] 77%|███████▋  | 37791/48845 [13:23:20<3:52:44,  1.26s/it] 77%|███████▋  | 37792/48845 [13:23:21<3:52:35,  1.26s/it] 77%|███████▋  | 37793/48845 [13:23:23<3:52:29,  1.26s/it] 77%|███████▋  | 37794/48845 [13:23:24<3:52:34,  1.26s/it] 77%|███████▋  | 37795/48845 [13:23:25<3:52:34,  1.26s/it]                                                          {'loss': 2.0782, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37795/48845 [13:23:25<3:52:34,  1.26s/it] 77%|███████▋  | 37796/48845 [13:23:26<3:52:28,  1.26s/it] 77%|███████▋  | 37797/48845 [13:23:28<3:52:36,  1.26s/it] 77%|███████▋  | 37798/48845 [13:23:29<3:52:32,  1.26s/it] 77%|███████▋  | 37799/48845 [13:23:30<3:52:43,  1.26s/it] 77%|███████▋  | 37800/48845 [13:23:31<3:52:33,  1.26s/it]                                                          {'loss': 2.0012, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37800/48845 [13:23:31<3:52:33,  1.26s/it] 77%|███████▋  | 37801/48845 [13:23:35<6:10:30,  2.01s/it] 77%|███████▋  | 37802/48845 [13:23:36<5:29:08,  1.79s/it] 77%|███████▋  | 37803/48845 [13:23:38<4:59:53,  1.63s/it] 77%|███████▋  | 37804/48845 [13:23:39<4:39:34,  1.52s/it] 77%|███████▋  | 37805/48845 [13:23:40<4:25:36,  1.44s/it]                                                          {'loss': 1.9145, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37805/48845 [13:23:40<4:25:36,  1.44s/it] 77%|███████▋  | 37806/48845 [13:23:41<4:15:16,  1.39s/it] 77%|███████▋  | 37807/48845 [13:23:43<4:08:16,  1.35s/it] 77%|███████▋  | 37808/48845 [13:23:44<4:03:32,  1.32s/it] 77%|███████▋  | 37809/48845 [13:23:45<3:59:50,  1.30s/it] 77%|███████▋  | 37810/48845 [13:23:47<3:57:28,  1.29s/it]                                                          {'loss': 1.9948, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37810/48845 [13:23:47<3:57:28,  1.29s/it] 77%|███████▋  | 37811/48845 [13:23:48<3:55:51,  1.28s/it] 77%|███████▋  | 37812/48845 [13:23:49<3:54:31,  1.28s/it] 77%|███████▋  | 37813/48845 [13:23:50<3:53:32,  1.27s/it] 77%|███████▋  | 37814/48845 [13:23:52<3:53:20,  1.27s/it] 77%|███████▋  | 37815/48845 [13:23:53<3:52:55,  1.27s/it]                                                          {'loss': 2.2554, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37815/48845 [13:23:53<3:52:55,  1.27s/it] 77%|███████▋  | 37816/48845 [13:23:54<3:52:44,  1.27s/it] 77%|███████▋  | 37817/48845 [13:23:55<3:52:20,  1.26s/it] 77%|███████▋  | 37818/48845 [13:23:57<3:52:15,  1.26s/it] 77%|███████▋  | 37819/48845 [13:23:58<3:51:58,  1.26s/it] 77%|███████▋  | 37820/48845 [13:23:59<3:52:02,  1.26s/it]                                                          {'loss': 2.0667, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37820/48845 [13:23:59<3:52:02,  1.26s/it] 77%|███████▋  | 37821/48845 [13:24:00<3:52:06,  1.26s/it] 77%|███████▋  | 37822/48845 [13:24:02<3:52:04,  1.26s/it] 77%|███████▋  | 37823/48845 [13:24:03<3:51:50,  1.26s/it] 77%|███████▋  | 37824/48845 [13:24:04<3:51:43,  1.26s/it] 77%|███████▋  | 37825/48845 [13:24:05<3:51:54,  1.26s/it]                                                          {'loss': 2.0434, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37825/48845 [13:24:05<3:51:54,  1.26s/it] 77%|███████▋  | 37826/48845 [13:24:07<3:51:52,  1.26s/it] 77%|███████▋  | 37827/48845 [13:24:08<3:52:00,  1.26s/it] 77%|███████▋  | 37828/48845 [13:24:09<3:52:07,  1.26s/it] 77%|███████▋  | 37829/48845 [13:24:11<3:52:10,  1.26s/it] 77%|███████▋  | 37830/48845 [13:24:12<3:51:58,  1.26s/it]                                                          {'loss': 2.048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37830/48845 [13:24:12<3:51:58,  1.26s/it] 77%|███████▋  | 37831/48845 [13:24:13<3:51:50,  1.26s/it] 77%|███████▋  | 37832/48845 [13:24:14<3:51:41,  1.26s/it] 77%|███████▋  | 37833/48845 [13:24:16<3:52:17,  1.27s/it] 77%|███████▋  | 37834/48845 [13:24:17<3:52:20,  1.27s/it] 77%|███████▋  | 37835/48845 [13:24:18<3:52:20,  1.27s/it]                                                          {'loss': 2.1464, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37835/48845 [13:24:18<3:52:20,  1.27s/it] 77%|███████▋  | 37836/48845 [13:24:19<3:52:11,  1.27s/it] 77%|███████▋  | 37837/48845 [13:24:21<3:59:52,  1.31s/it] 77%|███████▋  | 37838/48845 [13:24:22<3:57:25,  1.29s/it] 77%|██��████▋  | 37839/48845 [13:24:23<3:55:48,  1.29s/it] 77%|███████▋  | 37840/48845 [13:24:25<3:54:29,  1.28s/it]                                                          {'loss': 1.9835, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37840/48845 [13:24:25<3:54:29,  1.28s/it] 77%|███████▋  | 37841/48845 [13:24:26<3:55:53,  1.29s/it] 77%|███████▋  | 37842/48845 [13:24:27<3:54:21,  1.28s/it] 77%|███████▋  | 37843/48845 [13:24:28<3:53:19,  1.27s/it] 77%|███████▋  | 37844/48845 [13:24:30<3:52:42,  1.27s/it] 77%|███████▋  | 37845/48845 [13:24:31<3:52:13,  1.27s/it]                                                          {'loss': 2.1074, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37845/48845 [13:24:31<3:52:13,  1.27s/it] 77%|███████▋  | 37846/48845 [13:24:32<3:51:57,  1.27s/it] 77%|███████▋  | 37847/48845 [13:24:33<3:51:47,  1.26s/it] 77%|███████▋  | 37848/48845 [13:24:35<3:51:46,  1.26s/it] 77%|███████▋  | 37849/48845 [13:24:36<3:51:57,  1.27s/it] 77%|███████▋  | 37850/48845 [13:24:37<3:51:39,  1.26s/it]                                                          {'loss': 1.9857, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.87}
+ 77%|███████▋  | 37850/48845 [13:24:37<3:51:39,  1.26s/it] 77%|███████▋  | 37851/48845 [13:24:39<3:51:32,  1.26s/it] 77%|███████▋  | 37852/48845 [13:24:40<3:51:41,  1.26s/it] 77%|███████▋  | 37853/48845 [13:24:41<3:51:55,  1.27s/it] 77%|███████▋  | 37854/48845 [13:24:42<3:51:44,  1.27s/it] 78%|███████▊  | 37855/48845 [13:24:44<3:53:07,  1.27s/it]                                                          {'loss': 2.2114, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37855/48845 [13:24:44<3:53:07,  1.27s/it] 78%|███████▊  | 37856/48845 [13:24:45<3:52:45,  1.27s/it] 78%|███████▊  | 37857/48845 [13:24:46<3:52:44,  1.27s/it] 78%|███████▊  | 37858/48845 [13:24:47<3:52:16,  1.27s/it] 78%|███████▊  | 37859/48845 [13:24:49<3:51:40,  1.27s/it] 78%|███████▊  | 37860/48845 [13:24:50<3:51:41,  1.27s/it]                                                          {'loss': 1.9006, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37860/48845 [13:24:50<3:51:41,  1.27s/it] 78%|███████▊  | 37861/48845 [13:24:51<3:51:47,  1.27s/it] 78%|███████▊  | 37862/48845 [13:24:52<3:51:24,  1.26s/it] 78%|███████▊  | 37863/48845 [13:24:54<3:51:15,  1.26s/it] 78%|███████▊  | 37864/48845 [13:24:55<3:51:04,  1.26s/it] 78%|███████▊  | 37865/48845 [13:24:56<3:51:03,  1.26s/it]                                                          {'loss': 1.9719, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37865/48845 [13:24:56<3:51:03,  1.26s/it] 78%|███████▊  | 37866/48845 [13:24:57<3:50:55,  1.26s/it] 78%|███████▊  | 37867/48845 [13:24:59<3:50:47,  1.26s/it] 78%|███████▊  | 37868/48845 [13:25:00<3:50:54,  1.26s/it] 78%|███████▊  | 37869/48845 [13:25:01<3:50:57,  1.26s/it] 78%|███████▊  | 37870/48845 [13:25:03<3:50:53,  1.26s/it]                                                          {'loss': 2.0397, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37870/48845 [13:25:03<3:50:53,  1.26s/it] 78%|███████▊  | 37871/48845 [13:25:04<3:51:14,  1.26s/it] 78%|███████▊  | 37872/48845 [13:25:05<3:51:01,  1.26s/it] 78%|███████▊  | 37873/48845 [13:25:07<4:00:26,  1.31s/it] 78%|███████▊  | 37874/48845 [13:25:08<3:57:20,  1.30s/it] 78%|███████▊  | 37875/48845 [13:25:09<3:55:21,  1.29s/it]                                                          {'loss': 1.9793, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37875/48845 [13:25:09<3:55:21,  1.29s/it] 78%|███████▊  | 37876/48845 [13:25:10<3:54:16,  1.28s/it] 78%|███████▊  | 37877/48845 [13:25:12<3:53:28,  1.28s/it] 78%|███████▊  | 37878/48845 [13:25:13<3:52:32,  1.27s/it] 78%|███████▊  | 37879/48845 [13:25:14<3:51:44,  1.27s/it] 78%|███████▊  | 37880/48845 [13:25:15<3:51:23,  1.27s/it]                                                          {'loss': 2.1091, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37880/48845 [13:25:15<3:51:23,  1.27s/it] 78%|███████▊  | 37881/48845 [13:25:17<3:51:26,  1.27s/it] 78%|███████���  | 37882/48845 [13:25:18<3:51:07,  1.26s/it] 78%|███████▊  | 37883/48845 [13:25:19<3:51:01,  1.26s/it] 78%|███████▊  | 37884/48845 [13:25:20<3:50:58,  1.26s/it] 78%|███████▊  | 37885/48845 [13:25:22<3:51:01,  1.26s/it]                                                          {'loss': 1.9005, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37885/48845 [13:25:22<3:51:01,  1.26s/it] 78%|███████▊  | 37886/48845 [13:25:23<3:50:52,  1.26s/it] 78%|███████▊  | 37887/48845 [13:25:24<3:50:46,  1.26s/it] 78%|███████▊  | 37888/48845 [13:25:25<3:50:45,  1.26s/it] 78%|███████▊  | 37889/48845 [13:25:27<3:53:04,  1.28s/it] 78%|███████▊  | 37890/48845 [13:25:28<3:52:09,  1.27s/it]                                                          {'loss': 1.9807, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37890/48845 [13:25:28<3:52:09,  1.27s/it] 78%|███████▊  | 37891/48845 [13:25:29<3:51:48,  1.27s/it] 78%|███████▊  | 37892/48845 [13:25:31<3:51:16,  1.27s/it] 78%|███████▊  | 37893/48845 [13:25:32<3:51:27,  1.27s/it] 78%|███████▊  | 37894/48845 [13:25:33<3:51:13,  1.27s/it] 78%|███████▊  | 37895/48845 [13:25:34<3:50:57,  1.27s/it]                                                          {'loss': 2.1471, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37895/48845 [13:25:34<3:50:57,  1.27s/it] 78%|███████▊  | 37896/48845 [13:25:36<3:50:44,  1.26s/it] 78%|███████▊  | 37897/48845 [13:25:37<3:50:36,  1.26s/it] 78%|███████▊  | 37898/48845 [13:25:38<3:50:46,  1.26s/it] 78%|███████▊  | 37899/48845 [13:25:39<3:50:33,  1.26s/it] 78%|███████▊  | 37900/48845 [13:25:41<3:50:28,  1.26s/it]                                                          {'loss': 1.9826, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37900/48845 [13:25:41<3:50:28,  1.26s/it] 78%|███████▊  | 37901/48845 [13:25:42<3:50:29,  1.26s/it] 78%|███████▊  | 37902/48845 [13:25:43<3:50:10,  1.26s/it] 78%|███████▊  | 37903/48845 [13:25:44<3:50:03,  1.26s/it] 78%|███████▊  | 37904/48845 [13:25:46<3:50:00,  1.26s/it] 78%|███████▊  | 37905/48845 [13:25:47<3:49:57,  1.26s/it]                                                          {'loss': 1.9927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37905/48845 [13:25:47<3:49:57,  1.26s/it] 78%|███████▊  | 37906/48845 [13:25:48<3:50:12,  1.26s/it] 78%|███████▊  | 37907/48845 [13:25:49<3:50:06,  1.26s/it] 78%|███████▊  | 37908/48845 [13:25:51<3:49:55,  1.26s/it] 78%|███████▊  | 37909/48845 [13:25:52<3:58:13,  1.31s/it] 78%|███████▊  | 37910/48845 [13:25:53<3:55:37,  1.29s/it]                                                          {'loss': 2.0039, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37910/48845 [13:25:53<3:55:37,  1.29s/it] 78%|███████▊  | 37911/48845 [13:25:55<3:53:48,  1.28s/it] 78%|███████▊  | 37912/48845 [13:25:56<3:52:51,  1.28s/it] 78%|███████▊  | 37913/48845 [13:25:57<3:52:12,  1.27s/it] 78%|███████▊  | 37914/48845 [13:25:58<3:51:20,  1.27s/it] 78%|███████▊  | 37915/48845 [13:26:00<3:50:53,  1.27s/it]                                                          {'loss': 2.1792, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37915/48845 [13:26:00<3:50:53,  1.27s/it] 78%|███████▊  | 37916/48845 [13:26:01<3:50:41,  1.27s/it] 78%|███████▊  | 37917/48845 [13:26:02<3:50:40,  1.27s/it] 78%|███████▊  | 37918/48845 [13:26:04<3:50:27,  1.27s/it] 78%|███████▊  | 37919/48845 [13:26:05<3:50:13,  1.26s/it] 78%|███████▊  | 37920/48845 [13:26:06<3:50:15,  1.26s/it]                                                          {'loss': 1.9283, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37920/48845 [13:26:06<3:50:15,  1.26s/it] 78%|███████▊  | 37921/48845 [13:26:07<3:50:20,  1.27s/it] 78%|███████▊  | 37922/48845 [13:26:09<3:50:01,  1.26s/it] 78%|███████▊  | 37923/48845 [13:26:10<3:49:52,  1.26s/it] 78%|███████▊  | 37924/48845 [13:26:11<3:49:45,  1.26s/it] 78%|███████▊  | 37925/48845 [13:26:12<3:49:41,  1.26s/it]                                                          {'loss': 2.0062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37925/48845 [13:26:12<3:49:41,  1.26s/it] 78%|███████▊  | 37926/48845 [13:26:14<3:49:36,  1.26s/it] 78%|███████▊  | 37927/48845 [13:26:15<3:49:23,  1.26s/it] 78%|███████▊  | 37928/48845 [13:26:16<3:49:22,  1.26s/it] 78%|███████▊  | 37929/48845 [13:26:17<3:49:16,  1.26s/it] 78%|███████▊  | 37930/48845 [13:26:19<3:49:19,  1.26s/it]                                                          {'loss': 2.021, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37930/48845 [13:26:19<3:49:19,  1.26s/it] 78%|███████▊  | 37931/48845 [13:26:20<3:49:22,  1.26s/it] 78%|███████▊  | 37932/48845 [13:26:21<3:49:26,  1.26s/it] 78%|███████▊  | 37933/48845 [13:26:22<3:49:19,  1.26s/it] 78%|███████▊  | 37934/48845 [13:26:24<3:49:12,  1.26s/it] 78%|███████▊  | 37935/48845 [13:26:25<3:49:24,  1.26s/it]                                                          {'loss': 2.0618, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37935/48845 [13:26:25<3:49:24,  1.26s/it] 78%|███████▊  | 37936/48845 [13:26:26<3:49:25,  1.26s/it] 78%|███████▊  | 37937/48845 [13:26:28<3:49:52,  1.26s/it] 78%|███████▊  | 37938/48845 [13:26:29<3:49:42,  1.26s/it] 78%|███████▊  | 37939/48845 [13:26:30<3:49:31,  1.26s/it] 78%|███████▊  | 37940/48845 [13:26:31<3:49:53,  1.26s/it]                                                          {'loss': 2.0631, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37940/48845 [13:26:31<3:49:53,  1.26s/it] 78%|███████▊  | 37941/48845 [13:26:33<3:57:32,  1.31s/it] 78%|███████▊  | 37942/48845 [13:26:34<3:54:54,  1.29s/it] 78%|███████▊  | 37943/48845 [13:26:35<3:53:08,  1.28s/it] 78%|███████▊  | 37944/48845 [13:26:36<3:52:16,  1.28s/it] 78%|███████▊  | 37945/48845 [13:26:38<3:51:22,  1.27s/it]                                                          {'loss': 1.947, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37945/48845 [13:26:38<3:51:22,  1.27s/it] 78%|███████▊  | 37946/48845 [13:26:39<3:50:35,  1.27s/it] 78%|███████▊  | 37947/48845 [13:26:40<3:50:04,  1.27s/it] 78%|███████▊  | 37948/48845 [13:26:42<3:49:45,  1.27s/it] 78%|███████▊  | 37949/48845 [13:26:43<3:49:44,  1.27s/it] 78%|███████▊  | 37950/48845 [13:26:44<3:49:28,  1.26s/it]                                                          {'loss': 2.1505, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.88}
+ 78%|███████▊  | 37950/48845 [13:26:44<3:49:28,  1.26s/it] 78%|███████▊  | 37951/48845 [13:26:45<3:49:17,  1.26s/it] 78%|███████▊  | 37952/48845 [13:26:47<3:49:07,  1.26s/it] 78%|███████▊  | 37953/48845 [13:26:48<3:49:17,  1.26s/it] 78%|███████▊  | 37954/48845 [13:26:49<3:49:23,  1.26s/it] 78%|███████▊  | 37955/48845 [13:26:50<3:49:29,  1.26s/it]                                                          {'loss': 2.0232, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37955/48845 [13:26:50<3:49:29,  1.26s/it] 78%|███████▊  | 37956/48845 [13:26:52<3:49:21,  1.26s/it] 78%|███████▊  | 37957/48845 [13:26:53<3:49:49,  1.27s/it] 78%|███████▊  | 37958/48845 [13:26:54<3:49:27,  1.26s/it] 78%|███████▊  | 37959/48845 [13:26:55<3:49:12,  1.26s/it] 78%|███████▊  | 37960/48845 [13:26:57<3:49:06,  1.26s/it]                                                          {'loss': 2.2177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37960/48845 [13:26:57<3:49:06,  1.26s/it] 78%|███████▊  | 37961/48845 [13:26:58<3:49:32,  1.27s/it] 78%|███████▊  | 37962/48845 [13:26:59<3:49:15,  1.26s/it] 78%|███████▊  | 37963/48845 [13:27:00<3:49:07,  1.26s/it] 78%|███████▊  | 37964/48845 [13:27:02<3:48:53,  1.26s/it] 78%|███████▊  | 37965/48845 [13:27:03<3:49:06,  1.26s/it]                                                          {'loss': 1.9834, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37965/48845 [13:27:03<3:49:06,  1.26s/it] 78%|███████▊  | 37966/48845 [13:27:04<3:49:04,  1.26s/it] 78%|███████▊  | 37967/48845 [13:27:06<3:49:12,  1.26s/it] 78%|███████▊  | 37968/48845 [13:27:07<3:48:56,  1.26s/it] 78%|███████▊  | 37969/48845 [13:27:08<3:49:04,  1.26s/it] 78%|███████▊  | 37970/48845 [13:27:09<3:48:42,  1.26s/it]                                                          {'loss': 2.1975, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37970/48845 [13:27:09<3:48:42,  1.26s/it] 78%|███████▊  | 37971/48845 [13:27:11<3:48:44,  1.26s/it] 78%|███████▊  | 37972/48845 [13:27:12<3:48:48,  1.26s/it] 78%|███████▊  | 37973/48845 [13:27:13<3:55:36,  1.30s/it] 78%|███████▊  | 37974/48845 [13:27:15<3:53:20,  1.29s/it] 78%|███████▊  | 37975/48845 [13:27:16<3:52:16,  1.28s/it]                                                          {'loss': 1.8912, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37975/48845 [13:27:16<3:52:16,  1.28s/it] 78%|███████▊  | 37976/48845 [13:27:17<3:51:10,  1.28s/it] 78%|███████▊  | 37977/48845 [13:27:18<3:50:29,  1.27s/it] 78%|███████▊  | 37978/48845 [13:27:20<3:49:58,  1.27s/it] 78%|███████▊  | 37979/48845 [13:27:21<3:49:24,  1.27s/it] 78%|███████▊  | 37980/48845 [13:27:22<3:49:06,  1.27s/it]                                                          {'loss': 2.0607, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37980/48845 [13:27:22<3:49:06,  1.27s/it] 78%|███████▊  | 37981/48845 [13:27:23<3:49:02,  1.26s/it] 78%|███████▊  | 37982/48845 [13:27:25<3:48:45,  1.26s/it] 78%|███████▊  | 37983/48845 [13:27:26<3:48:40,  1.26s/it] 78%|███████▊  | 37984/48845 [13:27:27<3:48:32,  1.26s/it] 78%|███████▊  | 37985/48845 [13:27:28<3:48:20,  1.26s/it]                                                          {'loss': 1.9434, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37985/48845 [13:27:28<3:48:20,  1.26s/it] 78%|███████▊  | 37986/48845 [13:27:30<3:48:35,  1.26s/it] 78%|███████▊  | 37987/48845 [13:27:31<3:48:28,  1.26s/it] 78%|███████▊  | 37988/48845 [13:27:32<3:48:17,  1.26s/it] 78%|███████▊  | 37989/48845 [13:27:34<3:52:40,  1.29s/it] 78%|███████▊  | 37990/48845 [13:27:35<3:51:33,  1.28s/it]                                                          {'loss': 2.1017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37990/48845 [13:27:35<3:51:33,  1.28s/it] 78%|███████▊  | 37991/48845 [13:27:36<3:50:26,  1.27s/it] 78%|███████▊  | 37992/48845 [13:27:37<3:49:44,  1.27s/it] 78%|███████▊  | 37993/48845 [13:27:39<3:49:35,  1.27s/it] 78%|███████▊  | 37994/48845 [13:27:40<3:49:15,  1.27s/it] 78%|███████▊  | 37995/48845 [13:27:41<3:48:47,  1.27s/it]                                                          {'loss': 2.1267, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 37995/48845 [13:27:41<3:48:47,  1.27s/it] 78%|███████▊  | 37996/48845 [13:27:42<3:48:39,  1.26s/it] 78%|███████▊  | 37997/48845 [13:27:44<3:48:20,  1.26s/it] 78%|███████▊  | 37998/48845 [13:27:45<3:48:27,  1.26s/it] 78%|███████▊  | 37999/48845 [13:27:46<3:48:29,  1.26s/it] 78%|███████▊  | 38000/48845 [13:27:47<3:48:23,  1.26s/it]                                                          {'loss': 1.9638, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38000/48845 [13:27:47<3:48:23,  1.26s/it] 78%|███████▊  | 38001/48845 [13:27:51<6:06:57,  2.03s/it] 78%|███████▊  | 38002/48845 [13:27:52<5:24:57,  1.80s/it] 78%|███████▊  | 38003/48845 [13:27:54<4:55:51,  1.64s/it] 78%|███████▊  | 38004/48845 [13:27:55<4:35:30,  1.52s/it] 78%|███████▊  | 38005/48845 [13:27:56<4:21:24,  1.45s/it]                                                          {'loss': 2.029, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38005/48845 [13:27:56<4:21:24,  1.45s/it] 78%|███████▊  | 38006/48845 [13:27:58<4:11:27,  1.39s/it] 78%|███████▊  | 38007/48845 [13:27:59<4:04:39,  1.35s/it] 78%|███████▊  | 38008/48845 [13:28:00<3:59:35,  1.33s/it] 78%|███████▊  | 38009/48845 [13:28:01<3:56:11,  1.31s/it] 78%|███████▊  | 38010/48845 [13:28:03<3:53:25,  1.29s/it]                                                          {'loss': 2.2235, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38010/48845 [13:28:03<3:53:25,  1.29s/it] 78%|███████▊  | 38011/48845 [13:28:04<3:52:11,  1.29s/it] 78%|███████▊  | 38012/48845 [13:28:05<3:50:43,  1.28s/it] 78%|███████▊  | 38013/48845 [13:28:06<3:49:58,  1.27s/it] 78%|███████▊  | 38014/48845 [13:28:08<3:49:27,  1.27s/it] 78%|███████▊  | 38015/48845 [13:28:09<3:49:00,  1.27s/it]                                                          {'loss': 2.1183, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38015/48845 [13:28:09<3:49:00,  1.27s/it] 78%|███████▊  | 38016/48845 [13:28:10<3:48:48,  1.27s/it] 78%|███████▊  | 38017/48845 [13:28:11<3:48:22,  1.27s/it] 78%|███████▊  | 38018/48845 [13:28:13<3:48:15,  1.26s/it] 78%|███████▊  | 38019/48845 [13:28:14<3:48:00,  1.26s/it] 78%|███████▊  | 38020/48845 [13:28:15<3:48:03,  1.26s/it]                                                          {'loss': 2.0124, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38020/48845 [13:28:15<3:48:03,  1.26s/it] 78%|███████▊  | 38021/48845 [13:28:16<3:47:57,  1.26s/it] 78%|███████▊  | 38022/48845 [13:28:18<3:47:45,  1.26s/it] 78%|███████▊  | 38023/48845 [13:28:19<3:47:57,  1.26s/it] 78%|███████▊  | 38024/48845 [13:28:20<3:47:51,  1.26s/it] 78%|███████▊  | 38025/48845 [13:28:22<3:48:09,  1.27s/it]                                                          {'loss': 1.9771, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38025/48845 [13:28:22<3:48:09,  1.27s/it] 78%|███████▊  | 38026/48845 [13:28:23<3:47:58,  1.26s/it] 78%|███████▊  | 38027/48845 [13:28:24<3:47:47,  1.26s/it] 78%|███████▊  | 38028/48845 [13:28:25<3:48:00,  1.26s/it] 78%|███████▊  | 38029/48845 [13:28:27<3:47:43,  1.26s/it] 78%|███████▊  | 38030/48845 [13:28:28<3:47:35,  1.26s/it]                                                          {'loss': 1.8998, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38030/48845 [13:28:28<3:47:35,  1.26s/it] 78%|███████▊  | 38031/48845 [13:28:29<3:47:29,  1.26s/it] 78%|███████▊  | 38032/48845 [13:28:30<3:47:23,  1.26s/it] 78%|███████▊  | 38033/48845 [13:28:32<3:47:32,  1.26s/it] 78%|███████▊  | 38034/48845 [13:28:33<3:47:31,  1.26s/it] 78%|███████▊  | 38035/48845 [13:28:34<3:47:35,  1.26s/it]                                                          {'loss': 2.1478, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38035/48845 [13:28:34<3:47:35,  1.26s/it] 78%|███████▊  | 38036/48845 [13:28:35<3:47:46,  1.26s/it] 78%|███████▊  | 38037/48845 [13:28:37<3:47:27,  1.26s/it] 78%|███████▊  | 38038/48845 [13:28:38<3:47:18,  1.26s/it] 78%|███████▊  | 38039/48845 [13:28:39<3:47:12,  1.26s/it] 78%|███████▊  | 38040/48845 [13:28:40<3:47:13,  1.26s/it]                                                          {'loss': 2.0483, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38040/48845 [13:28:40<3:47:13,  1.26s/it] 78%|███████▊  | 38041/48845 [13:28:42<3:47:43,  1.26s/it] 78%|███████▊  | 38042/48845 [13:28:43<3:47:34,  1.26s/it] 78%|███████▊  | 38043/48845 [13:28:44<3:47:31,  1.26s/it] 78%|███████▊  | 38044/48845 [13:28:46<3:47:39,  1.26s/it] 78%|███████▊  | 38045/48845 [13:28:47<3:47:17,  1.26s/it]                                                          {'loss': 1.9149, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38045/48845 [13:28:47<3:47:17,  1.26s/it] 78%|███████▊  | 38046/48845 [13:28:48<3:47:24,  1.26s/it] 78%|███████▊  | 38047/48845 [13:28:49<3:47:30,  1.26s/it] 78%|███████▊  | 38048/48845 [13:28:51<3:53:50,  1.30s/it] 78%|███████▊  | 38049/48845 [13:28:52<3:51:41,  1.29s/it] 78%|███████▊  | 38050/48845 [13:28:53<3:50:10,  1.28s/it]                                                          {'loss': 2.1035, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.89}
+ 78%|███████▊  | 38050/48845 [13:28:53<3:50:10,  1.28s/it] 78%|███████▊  | 38051/48845 [13:28:55<3:49:13,  1.27s/it] 78%|███████▊  | 38052/48845 [13:28:56<3:48:32,  1.27s/it] 78%|███████▊  | 38053/48845 [13:28:57<3:47:58,  1.27s/it] 78%|███████▊  | 38054/48845 [13:28:58<3:47:32,  1.27s/it] 78%|███████▊  | 38055/48845 [13:29:00<3:47:28,  1.26s/it]                                                          {'loss': 2.0272, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38055/48845 [13:29:00<3:47:28,  1.26s/it] 78%|███████▊  | 38056/48845 [13:29:01<3:47:39,  1.27s/it] 78%|███████▊  | 38057/48845 [13:29:02<3:47:24,  1.26s/it] 78%|███████▊  | 38058/48845 [13:29:03<3:47:20,  1.26s/it] 78%|███████▊  | 38059/48845 [13:29:05<3:47:21,  1.26s/it] 78%|███████▊  | 38060/48845 [13:29:06<3:47:19,  1.26s/it]                                                          {'loss': 1.9069, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38060/48845 [13:29:06<3:47:19,  1.26s/it] 78%|███████▊  | 38061/48845 [13:29:07<3:47:05,  1.26s/it] 78%|███████▊  | 38062/48845 [13:29:08<3:46:57,  1.26s/it] 78%|███████▊  | 38063/48845 [13:29:10<3:46:49,  1.26s/it] 78%|███████▊  | 38064/48845 [13:29:11<3:46:49,  1.26s/it] 78%|███████▊  | 38065/48845 [13:29:12<3:46:38,  1.26s/it]                                                          {'loss': 2.0571, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38065/48845 [13:29:12<3:46:38,  1.26s/it] 78%|███████▊  | 38066/48845 [13:29:13<3:46:48,  1.26s/it] 78%|███████▊  | 38067/48845 [13:29:15<3:46:43,  1.26s/it] 78%|███████▊  | 38068/48845 [13:29:16<3:48:18,  1.27s/it] 78%|███████▊  | 38069/48845 [13:29:17<3:47:36,  1.27s/it] 78%|███████▊  | 38070/48845 [13:29:19<3:47:07,  1.26s/it]                                                          {'loss': 2.131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38070/48845 [13:29:19<3:47:07,  1.26s/it] 78%|███████▊  | 38071/48845 [13:29:20<3:46:56,  1.26s/it] 78%|███████▊  | 38072/48845 [13:29:21<3:47:03,  1.26s/it] 78%|███████▊  | 38073/48845 [13:29:22<3:46:51,  1.26s/it] 78%|███████▊  | 38074/48845 [13:29:24<3:46:45,  1.26s/it] 78%|███████▊  | 38075/48845 [13:29:25<3:46:36,  1.26s/it]                                                          {'loss': 1.9798, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38075/48845 [13:29:25<3:46:36,  1.26s/it] 78%|███████▊  | 38076/48845 [13:29:26<3:46:46,  1.26s/it] 78%|███████▊  | 38077/48845 [13:29:27<3:46:36,  1.26s/it] 78%|███████▊  | 38078/48845 [13:29:29<3:46:53,  1.26s/it] 78%|███████▊  | 38079/48845 [13:29:30<3:46:41,  1.26s/it] 78%|███████▊  | 38080/48845 [13:29:31<3:46:58,  1.27s/it]                                                          {'loss': 2.0658, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38080/48845 [13:29:31<3:46:58,  1.27s/it] 78%|███████▊  | 38081/48845 [13:29:32<3:47:01,  1.27s/it] 78%|███████▊  | 38082/48845 [13:29:34<3:46:55,  1.27s/it] 78%|███████▊  | 38083/48845 [13:29:35<3:46:51,  1.26s/it] 78%|███████▊  | 38084/48845 [13:29:36<3:46:53,  1.27s/it] 78%|███████▊  | 38085/48845 [13:29:37<3:46:52,  1.27s/it]                                                          {'loss': 2.1387, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38085/48845 [13:29:37<3:46:52,  1.27s/it] 78%|███████▊  | 38086/48845 [13:29:39<3:46:51,  1.27s/it] 78%|███████▊  | 38087/48845 [13:29:40<3:46:40,  1.26s/it] 78%|███████▊  | 38088/48845 [13:29:41<3:46:35,  1.26s/it] 78%|███████▊  | 38089/48845 [13:29:43<3:46:40,  1.26s/it] 78%|███████▊  | 38090/48845 [13:29:44<3:59:10,  1.33s/it]                                                          {'loss': 2.0837, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38090/48845 [13:29:44<3:59:10,  1.33s/it] 78%|███████▊  | 38091/48845 [13:29:45<3:55:24,  1.31s/it] 78%|███████▊  | 38092/48845 [13:29:47<3:52:39,  1.30s/it] 78%|███████▊  | 38093/48845 [13:29:48<3:50:42,  1.29s/it] 78%|███████▊  | 38094/48845 [13:29:49<3:49:17,  1.28s/it] 78%|███████▊  | 38095/48845 [13:29:50<3:48:28,  1.28s/it]                                                          {'loss': 1.8699, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38095/48845 [13:29:50<3:48:28,  1.28s/it] 78%|███████▊  | 38096/48845 [13:29:52<3:48:11,  1.27s/it] 78%|███████▊  | 38097/48845 [13:29:53<3:47:22,  1.27s/it] 78%|███████▊  | 38098/48845 [13:29:54<3:47:02,  1.27s/it] 78%|███████▊  | 38099/48845 [13:29:55<3:47:00,  1.27s/it] 78%|███████▊  | 38100/48845 [13:29:57<3:47:01,  1.27s/it]                                                          {'loss': 2.1783, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38100/48845 [13:29:57<3:47:01,  1.27s/it] 78%|███████▊  | 38101/48845 [13:29:58<3:46:53,  1.27s/it] 78%|███████▊  | 38102/48845 [13:29:59<3:46:46,  1.27s/it] 78%|███████▊  | 38103/48845 [13:30:00<3:46:21,  1.26s/it] 78%|███████▊  | 38104/48845 [13:30:02<3:46:30,  1.27s/it] 78%|███████▊  | 38105/48845 [13:30:03<3:46:15,  1.26s/it]                                                          {'loss': 2.0038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38105/48845 [13:30:03<3:46:15,  1.26s/it] 78%|███████▊  | 38106/48845 [13:30:04<3:46:17,  1.26s/it] 78%|███████▊  | 38107/48845 [13:30:06<3:46:14,  1.26s/it] 78%|███████▊  | 38108/48845 [13:30:07<3:46:25,  1.27s/it] 78%|███████▊  | 38109/48845 [13:30:08<3:46:15,  1.26s/it] 78%|███████▊  | 38110/48845 [13:30:09<3:46:10,  1.26s/it]                                                          {'loss': 1.924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38110/48845 [13:30:09<3:46:10,  1.26s/it] 78%|███████▊  | 38111/48845 [13:30:11<3:46:04,  1.26s/it] 78%|███████▊  | 38112/48845 [13:30:12<3:46:51,  1.27s/it] 78%|███████▊  | 38113/48845 [13:30:13<3:46:29,  1.27s/it] 78%|███████▊  | 38114/48845 [13:30:14<3:46:18,  1.27s/it] 78%|███████▊  | 38115/48845 [13:30:16<3:46:20,  1.27s/it]                                                          {'loss': 2.0352, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38115/48845 [13:30:16<3:46:20,  1.27s/it] 78%|███████▊  | 38116/48845 [13:30:17<3:46:48,  1.27s/it] 78%|███████▊  | 38117/48845 [13:30:18<3:46:34,  1.27s/it] 78%|███████▊  | 38118/48845 [13:30:19<3:46:22,  1.27s/it] 78%|███████▊  | 38119/48845 [13:30:21<3:46:12,  1.27s/it] 78%|███████▊  | 38120/48845 [13:30:22<3:45:51,  1.26s/it]                                                          {'loss': 2.0051, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38120/48845 [13:30:22<3:45:51,  1.26s/it] 78%|███████▊  | 38121/48845 [13:30:23<3:45:56,  1.26s/it] 78%|███████▊  | 38122/48845 [13:30:25<3:45:59,  1.26s/it] 78%|███████▊  | 38123/48845 [13:30:26<3:45:49,  1.26s/it] 78%|███████▊  | 38124/48845 [13:30:27<3:45:48,  1.26s/it] 78%|███████▊  | 38125/48845 [13:30:28<3:45:47,  1.26s/it]                                                          {'loss': 1.8267, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38125/48845 [13:30:28<3:45:47,  1.26s/it] 78%|███████▊  | 38126/48845 [13:30:30<3:45:58,  1.26s/it] 78%|███████▊  | 38127/48845 [13:30:31<3:45:44,  1.26s/it] 78%|███████▊  | 38128/48845 [13:30:32<3:46:04,  1.27s/it] 78%|███████▊  | 38129/48845 [13:30:33<3:45:46,  1.26s/it] 78%|███████▊  | 38130/48845 [13:30:35<3:45:47,  1.26s/it]                                                          {'loss': 2.0754, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38130/48845 [13:30:35<3:45:47,  1.26s/it] 78%|███████▊  | 38131/48845 [13:30:36<3:45:57,  1.27s/it] 78%|███████▊  | 38132/48845 [13:30:37<3:45:53,  1.27s/it] 78%|███████▊  | 38133/48845 [13:30:38<3:45:55,  1.27s/it] 78%|███████▊  | 38134/48845 [13:30:40<3:45:57,  1.27s/it] 78%|███████▊  | 38135/48845 [13:30:41<3:45:46,  1.26s/it]                                                          {'loss': 2.1288, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38135/48845 [13:30:41<3:45:46,  1.26s/it] 78%|███████▊  | 38136/48845 [13:30:42<3:45:53,  1.27s/it] 78%|███████▊  | 38137/48845 [13:30:43<3:45:50,  1.27s/it] 78%|███████▊  | 38138/48845 [13:30:45<3:45:38,  1.26s/it] 78%|███████▊  | 38139/48845 [13:30:46<3:45:27,  1.26s/it] 78%|███████▊  | 38140/48845 [13:30:47<3:45:13,  1.26s/it]                                                          {'loss': 2.0742, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38140/48845 [13:30:47<3:45:13,  1.26s/it] 78%|███████▊  | 38141/48845 [13:30:49<3:45:14,  1.26s/it] 78%|███████▊  | 38142/48845 [13:30:50<3:45:09,  1.26s/it] 78%|███████▊  | 38143/48845 [13:30:51<3:44:58,  1.26s/it] 78%|███████▊  | 38144/48845 [13:30:52<3:45:06,  1.26s/it] 78%|███████▊  | 38145/48845 [13:30:54<3:45:06,  1.26s/it]                                                          {'loss': 2.0279, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.9}
+ 78%|███████▊  | 38145/48845 [13:30:54<3:45:06,  1.26s/it] 78%|███████▊  | 38146/48845 [13:30:55<3:45:16,  1.26s/it] 78%|███████▊  | 38147/48845 [13:30:56<3:45:13,  1.26s/it] 78%|███████▊  | 38148/48845 [13:30:58<3:54:16,  1.31s/it] 78%|███████▊  | 38149/48845 [13:30:59<3:51:34,  1.30s/it] 78%|███████▊  | 38150/48845 [13:31:00<3:49:28,  1.29s/it]                                                          {'loss': 2.2057, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38150/48845 [13:31:00<3:49:28,  1.29s/it] 78%|███████▊  | 38151/48845 [13:31:01<3:48:04,  1.28s/it] 78%|███████▊  | 38152/48845 [13:31:03<3:55:09,  1.32s/it] 78%|███████▊  | 38153/48845 [13:31:04<3:52:05,  1.30s/it] 78%|███████▊  | 38154/48845 [13:31:05<3:49:53,  1.29s/it] 78%|███████▊  | 38155/48845 [13:31:07<3:48:19,  1.28s/it]                                                          {'loss': 2.1142, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38155/48845 [13:31:07<3:48:19,  1.28s/it] 78%|███████▊  | 38156/48845 [13:31:08<3:47:29,  1.28s/it] 78%|███████▊  | 38157/48845 [13:31:09<3:46:52,  1.27s/it] 78%|███████▊  | 38158/48845 [13:31:10<3:46:20,  1.27s/it] 78%|███████▊  | 38159/48845 [13:31:12<3:45:53,  1.27s/it] 78%|███████▊  | 38160/48845 [13:31:13<3:45:20,  1.27s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38160/48845 [13:31:13<3:45:20,  1.27s/it] 78%|███████▊  | 38161/48845 [13:31:14<3:45:15,  1.27s/it] 78%|███████▊  | 38162/48845 [13:31:15<3:45:02,  1.26s/it] 78%|███████▊  | 38163/48845 [13:31:17<3:45:00,  1.26s/it] 78%|███████▊  | 38164/48845 [13:31:18<3:45:32,  1.27s/it] 78%|███████▊  | 38165/48845 [13:31:19<3:45:25,  1.27s/it]                                                          {'loss': 2.0556, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38165/48845 [13:31:19<3:45:25,  1.27s/it] 78%|███████▊  | 38166/48845 [13:31:20<3:45:13,  1.27s/it] 78%|███████▊  | 38167/48845 [13:31:22<3:44:53,  1.26s/it] 78%|███████▊  | 38168/48845 [13:31:23<3:44:43,  1.26s/it] 78%|███████▊  | 38169/48845 [13:31:24<3:44:27,  1.26s/it] 78%|███████▊  | 38170/48845 [13:31:25<3:44:32,  1.26s/it]                                                          {'loss': 2.2116, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38170/48845 [13:31:25<3:44:32,  1.26s/it] 78%|███████▊  | 38171/48845 [13:31:27<3:44:33,  1.26s/it] 78%|███████▊  | 38172/48845 [13:31:28<3:44:40,  1.26s/it] 78%|███████▊  | 38173/48845 [13:31:29<3:44:23,  1.26s/it] 78%|███████▊  | 38174/48845 [13:31:31<3:44:22,  1.26s/it] 78%|███████▊  | 38175/48845 [13:31:32<3:44:33,  1.26s/it]                                                          {'loss': 2.0579, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38175/48845 [13:31:32<3:44:33,  1.26s/it] 78%|███████▊  | 38176/48845 [13:31:33<3:44:41,  1.26s/it] 78%|███████▊  | 38177/48845 [13:31:34<3:44:34,  1.26s/it] 78%|███████▊  | 38178/48845 [13:31:36<3:44:22,  1.26s/it] 78%|███████▊  | 38179/48845 [13:31:37<3:44:39,  1.26s/it] 78%|███████▊  | 38180/48845 [13:31:38<3:44:39,  1.26s/it]                                                          {'loss': 1.9455, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38180/48845 [13:31:38<3:44:39,  1.26s/it] 78%|███████▊  | 38181/48845 [13:31:39<3:44:35,  1.26s/it] 78%|███████▊  | 38182/48845 [13:31:41<3:44:31,  1.26s/it] 78%|███████▊  | 38183/48845 [13:31:42<3:44:22,  1.26s/it] 78%|███████▊  | 38184/48845 [13:31:43<3:44:32,  1.26s/it] 78%|███████▊  | 38185/48845 [13:31:44<3:44:24,  1.26s/it]                                                          {'loss': 2.0791, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38185/48845 [13:31:44<3:44:24,  1.26s/it] 78%|███████▊  | 38186/48845 [13:31:46<3:44:34,  1.26s/it] 78%|███████▊  | 38187/48845 [13:31:47<3:44:26,  1.26s/it] 78%|███████▊  | 38188/48845 [13:31:48<3:44:24,  1.26s/it] 78%|███████▊  | 38189/48845 [13:31:49<3:44:22,  1.26s/it] 78%|███████▊  | 38190/48845 [13:31:51<3:44:27,  1.26s/it]                                                          {'loss': 1.9717, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38190/48845 [13:31:51<3:44:27,  1.26s/it] 78%|███████▊  | 38191/48845 [13:31:52<3:44:23,  1.26s/it] 78%|███████▊  | 38192/48845 [13:31:53<3:44:07,  1.26s/it] 78%|███████▊  | 38193/48845 [13:31:55<3:44:01,  1.26s/it] 78%|███████▊  | 38194/48845 [13:31:56<3:44:13,  1.26s/it] 78%|███████▊  | 38195/48845 [13:31:57<3:44:15,  1.26s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38195/48845 [13:31:57<3:44:15,  1.26s/it] 78%|███████▊  | 38196/48845 [13:31:58<3:44:27,  1.26s/it] 78%|███████▊  | 38197/48845 [13:32:00<3:44:21,  1.26s/it] 78%|███████▊  | 38198/48845 [13:32:01<3:43:57,  1.26s/it] 78%|███████▊  | 38199/48845 [13:32:02<3:43:51,  1.26s/it] 78%|███████▊  | 38200/48845 [13:32:04<3:53:02,  1.31s/it]                                                          {'loss': 2.0002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38200/48845 [13:32:04<3:53:02,  1.31s/it] 78%|███████▊  | 38201/48845 [13:32:07<6:04:09,  2.05s/it] 78%|███████▊  | 38202/48845 [13:32:09<5:22:09,  1.82s/it] 78%|███████▊  | 38203/48845 [13:32:10<4:52:35,  1.65s/it] 78%|███████▊  | 38204/48845 [13:32:11<4:32:07,  1.53s/it] 78%|███████▊  | 38205/48845 [13:32:12<4:17:39,  1.45s/it]                                                          {'loss': 1.976, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38205/48845 [13:32:12<4:17:39,  1.45s/it] 78%|███████▊  | 38206/48845 [13:32:14<4:07:38,  1.40s/it] 78%|███████▊  | 38207/48845 [13:32:15<4:00:14,  1.35s/it] 78%|███████▊  | 38208/48845 [13:32:16<3:55:08,  1.33s/it] 78%|███████▊  | 38209/48845 [13:32:17<3:51:38,  1.31s/it] 78%|███████▊  | 38210/48845 [13:32:19<3:49:21,  1.29s/it]                                                          {'loss': 2.0012, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38210/48845 [13:32:19<3:49:21,  1.29s/it] 78%|███████▊  | 38211/48845 [13:32:20<3:47:31,  1.28s/it] 78%|███████▊  | 38212/48845 [13:32:21<3:46:17,  1.28s/it] 78%|███████▊  | 38213/48845 [13:32:22<3:45:21,  1.27s/it] 78%|███████▊  | 38214/48845 [13:32:24<3:44:58,  1.27s/it] 78%|███████▊  | 38215/48845 [13:32:25<3:44:33,  1.27s/it]                                                          {'loss': 2.1361, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38215/48845 [13:32:25<3:44:33,  1.27s/it] 78%|███████▊  | 38216/48845 [13:32:26<3:44:11,  1.27s/it] 78%|███████▊  | 38217/48845 [13:32:28<3:44:01,  1.26s/it] 78%|███████▊  | 38218/48845 [13:32:29<3:44:02,  1.26s/it] 78%|███████▊  | 38219/48845 [13:32:30<3:43:59,  1.26s/it] 78%|███████▊  | 38220/48845 [13:32:31<3:43:44,  1.26s/it]                                                          {'loss': 1.8642, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38220/48845 [13:32:31<3:43:44,  1.26s/it] 78%|███████▊  | 38221/48845 [13:32:33<3:43:59,  1.27s/it] 78%|███████▊  | 38222/48845 [13:32:34<3:52:51,  1.32s/it] 78%|███████▊  | 38223/48845 [13:32:35<3:50:07,  1.30s/it] 78%|███████▊  | 38224/48845 [13:32:37<3:48:08,  1.29s/it] 78%|███████▊  | 38225/48845 [13:32:38<3:46:37,  1.28s/it]                                                          {'loss': 1.9125, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38225/48845 [13:32:38<3:46:37,  1.28s/it] 78%|███████▊  | 38226/48845 [13:32:39<3:45:33,  1.27s/it] 78%|███████▊  | 38227/48845 [13:32:40<3:44:54,  1.27s/it] 78%|███████▊  | 38228/48845 [13:32:42<3:44:14,  1.27s/it] 78%|███████▊  | 38229/48845 [13:32:43<3:43:39,  1.26s/it] 78%|███████▊  | 38230/48845 [13:32:44<3:43:42,  1.26s/it]                                                          {'loss': 2.1369, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38230/48845 [13:32:44<3:43:42,  1.26s/it] 78%|███████▊  | 38231/48845 [13:32:45<3:43:59,  1.27s/it] 78%|███████▊  | 38232/48845 [13:32:47<3:43:44,  1.26s/it] 78%|███████▊  | 38233/48845 [13:32:48<3:43:38,  1.26s/it] 78%|███████▊  | 38234/48845 [13:32:49<3:43:28,  1.26s/it] 78%|███████▊  | 38235/48845 [13:32:50<3:48:11,  1.29s/it]                                                          {'loss': 1.8931, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38235/48845 [13:32:50<3:48:11,  1.29s/it] 78%|███████▊  | 38236/48845 [13:32:52<3:46:41,  1.28s/it] 78%|███████▊  | 38237/48845 [13:32:53<3:45:39,  1.28s/it] 78%|███████▊  | 38238/48845 [13:32:54<3:44:51,  1.27s/it] 78%|███████▊  | 38239/48845 [13:32:56<3:44:38,  1.27s/it] 78%|███████▊  | 38240/48845 [13:32:57<3:44:29,  1.27s/it]                                                          {'loss': 2.1547, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38240/48845 [13:32:57<3:44:29,  1.27s/it] 78%|███████▊  | 38241/48845 [13:32:58<3:44:12,  1.27s/it] 78%|███████▊  | 38242/48845 [13:32:59<3:43:48,  1.27s/it] 78%|███████▊  | 38243/48845 [13:33:01<3:43:31,  1.26s/it] 78%|███████▊  | 38244/48845 [13:33:02<3:43:15,  1.26s/it] 78%|███████▊  | 38245/48845 [13:33:03<3:43:13,  1.26s/it]                                                          {'loss': 2.0812, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.91}
+ 78%|███████▊  | 38245/48845 [13:33:03<3:43:13,  1.26s/it] 78%|███████▊  | 38246/48845 [13:33:04<3:43:09,  1.26s/it] 78%|███████▊  | 38247/48845 [13:33:06<3:43:13,  1.26s/it] 78%|███████▊  | 38248/48845 [13:33:07<3:43:13,  1.26s/it] 78%|███████▊  | 38249/48845 [13:33:08<3:43:16,  1.26s/it] 78%|███████▊  | 38250/48845 [13:33:09<3:43:14,  1.26s/it]                                                          {'loss': 2.0166, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38250/48845 [13:33:09<3:43:14,  1.26s/it] 78%|███████▊  | 38251/48845 [13:33:11<3:43:18,  1.26s/it] 78%|███████▊  | 38252/48845 [13:33:12<3:42:55,  1.26s/it] 78%|███████▊  | 38253/48845 [13:33:13<3:42:49,  1.26s/it] 78%|███████▊  | 38254/48845 [13:33:14<3:42:45,  1.26s/it] 78%|███████▊  | 38255/48845 [13:33:16<3:42:46,  1.26s/it]                                                          {'loss': 2.0786, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38255/48845 [13:33:16<3:42:46,  1.26s/it] 78%|███████▊  | 38256/48845 [13:33:17<3:42:59,  1.26s/it] 78%|███████▊  | 38257/48845 [13:33:18<3:43:04,  1.26s/it] 78%|███████▊  | 38258/48845 [13:33:20<3:42:57,  1.26s/it] 78%|███████▊  | 38259/48845 [13:33:21<3:42:45,  1.26s/it] 78%|███████▊  | 38260/48845 [13:33:22<3:48:31,  1.30s/it]                                                          {'loss': 2.1416, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38260/48845 [13:33:22<3:48:31,  1.30s/it] 78%|███████▊  | 38261/48845 [13:33:23<3:46:51,  1.29s/it] 78%|███████▊  | 38262/48845 [13:33:25<3:45:27,  1.28s/it] 78%|███████▊  | 38263/48845 [13:33:26<3:44:34,  1.27s/it] 78%|███████▊  | 38264/48845 [13:33:27<3:44:18,  1.27s/it] 78%|███████▊  | 38265/48845 [13:33:29<3:43:45,  1.27s/it]                                                          {'loss': 1.9251, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38265/48845 [13:33:29<3:43:45,  1.27s/it] 78%|███████▊  | 38266/48845 [13:33:30<3:43:25,  1.27s/it] 78%|███████▊  | 38267/48845 [13:33:31<3:43:04,  1.27s/it] 78%|███████▊  | 38268/48845 [13:33:32<3:42:52,  1.26s/it] 78%|███████▊  | 38269/48845 [13:33:34<3:42:34,  1.26s/it] 78%|███████▊  | 38270/48845 [13:33:35<3:42:31,  1.26s/it]                                                          {'loss': 1.9474, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38270/48845 [13:33:35<3:42:31,  1.26s/it] 78%|███████▊  | 38271/48845 [13:33:36<3:42:36,  1.26s/it] 78%|███████▊  | 38272/48845 [13:33:37<3:42:42,  1.26s/it] 78%|███████▊  | 38273/48845 [13:33:39<3:42:34,  1.26s/it] 78%|███████▊  | 38274/48845 [13:33:40<3:42:26,  1.26s/it] 78%|███████▊  | 38275/48845 [13:33:41<3:42:13,  1.26s/it]                                                          {'loss': 2.0305, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38275/48845 [13:33:41<3:42:13,  1.26s/it] 78%|███████▊  | 38276/48845 [13:33:42<3:42:36,  1.26s/it] 78%|███████▊  | 38277/48845 [13:33:44<3:42:31,  1.26s/it] 78%|███████▊  | 38278/48845 [13:33:45<3:42:35,  1.26s/it] 78%|███████▊  | 38279/48845 [13:33:46<3:42:27,  1.26s/it] 78%|███████▊  | 38280/48845 [13:33:47<3:42:28,  1.26s/it]                                                          {'loss': 1.9846, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38280/48845 [13:33:47<3:42:28,  1.26s/it] 78%|███████▊  | 38281/48845 [13:33:49<3:42:15,  1.26s/it] 78%|███████▊  | 38282/48845 [13:33:50<3:42:01,  1.26s/it] 78%|███████▊  | 38283/48845 [13:33:51<3:41:56,  1.26s/it] 78%|███████▊  | 38284/48845 [13:33:52<3:41:57,  1.26s/it] 78%|███████▊  | 38285/48845 [13:33:54<3:41:52,  1.26s/it]                                                          {'loss': 1.9602, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38285/48845 [13:33:54<3:41:52,  1.26s/it] 78%|███████▊  | 38286/48845 [13:33:55<3:42:00,  1.26s/it] 78%|███████▊  | 38287/48845 [13:33:56<3:42:07,  1.26s/it] 78%|███████▊  | 38288/48845 [13:33:58<3:43:04,  1.27s/it] 78%|███████▊  | 38289/48845 [13:33:59<3:42:43,  1.27s/it] 78%|███████▊  | 38290/48845 [13:34:00<3:42:28,  1.26s/it]                                                          {'loss': 1.9885, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38290/48845 [13:34:00<3:42:28,  1.26s/it] 78%|███████▊  | 38291/48845 [13:34:01<3:42:26,  1.26s/it] 78%|███████▊  | 38292/48845 [13:34:03<3:42:14,  1.26s/it] 78%|███████▊  | 38293/48845 [13:34:04<3:42:13,  1.26s/it] 78%|███████▊  | 38294/48845 [13:34:05<3:42:17,  1.26s/it] 78%|███████▊  | 38295/48845 [13:34:06<3:42:11,  1.26s/it]                                                          {'loss': 2.1814, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38295/48845 [13:34:06<3:42:11,  1.26s/it] 78%|███████▊  | 38296/48845 [13:34:08<3:42:14,  1.26s/it] 78%|███████▊  | 38297/48845 [13:34:09<3:41:57,  1.26s/it] 78%|███████▊  | 38298/48845 [13:34:10<3:42:02,  1.26s/it] 78%|███████▊  | 38299/48845 [13:34:11<3:41:52,  1.26s/it] 78%|███████▊  | 38300/48845 [13:34:13<3:47:24,  1.29s/it]                                                          {'loss': 2.1963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38300/48845 [13:34:13<3:47:24,  1.29s/it] 78%|███████▊  | 38301/48845 [13:34:14<3:45:49,  1.29s/it] 78%|███████▊  | 38302/48845 [13:34:15<3:44:30,  1.28s/it] 78%|███████▊  | 38303/48845 [13:34:17<3:43:44,  1.27s/it] 78%|███████▊  | 38304/48845 [13:34:18<3:43:15,  1.27s/it] 78%|███████▊  | 38305/48845 [13:34:19<3:42:56,  1.27s/it]                                                          {'loss': 1.9557, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38305/48845 [13:34:19<3:42:56,  1.27s/it] 78%|███████▊  | 38306/48845 [13:34:20<3:42:28,  1.27s/it] 78%|███████▊  | 38307/48845 [13:34:22<3:42:25,  1.27s/it] 78%|███████▊  | 38308/48845 [13:34:23<3:42:25,  1.27s/it] 78%|███████▊  | 38309/48845 [13:34:24<3:42:13,  1.27s/it] 78%|███████▊  | 38310/48845 [13:34:25<3:41:57,  1.26s/it]                                                          {'loss': 1.989, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38310/48845 [13:34:25<3:41:57,  1.26s/it] 78%|███████▊  | 38311/48845 [13:34:27<3:41:51,  1.26s/it] 78%|███████▊  | 38312/48845 [13:34:28<3:41:51,  1.26s/it] 78%|███████▊  | 38313/48845 [13:34:29<3:41:41,  1.26s/it] 78%|███████▊  | 38314/48845 [13:34:30<3:41:38,  1.26s/it] 78%|███████▊  | 38315/48845 [13:34:32<3:42:00,  1.27s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38315/48845 [13:34:32<3:42:00,  1.27s/it] 78%|███████▊  | 38316/48845 [13:34:33<3:42:03,  1.27s/it] 78%|███████▊  | 38317/48845 [13:34:34<3:41:59,  1.27s/it] 78%|███████▊  | 38318/48845 [13:34:36<3:41:47,  1.26s/it] 78%|███████▊  | 38319/48845 [13:34:37<3:41:52,  1.26s/it] 78%|███████▊  | 38320/48845 [13:34:38<3:42:10,  1.27s/it]                                                          {'loss': 2.1179, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38320/48845 [13:34:38<3:42:10,  1.27s/it] 78%|███████▊  | 38321/48845 [13:34:39<3:42:05,  1.27s/it] 78%|███████▊  | 38322/48845 [13:34:41<3:42:09,  1.27s/it] 78%|███████▊  | 38323/48845 [13:34:42<3:41:46,  1.26s/it] 78%|███████▊  | 38324/48845 [13:34:43<3:41:50,  1.27s/it] 78%|███████▊  | 38325/48845 [13:34:44<3:41:30,  1.26s/it]                                                          {'loss': 2.1396, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38325/48845 [13:34:44<3:41:30,  1.26s/it] 78%|███████▊  | 38326/48845 [13:34:46<3:41:24,  1.26s/it] 78%|███████▊  | 38327/48845 [13:34:47<3:41:23,  1.26s/it] 78%|███████▊  | 38328/48845 [13:34:48<3:41:32,  1.26s/it] 78%|███████▊  | 38329/48845 [13:34:49<3:41:17,  1.26s/it] 78%|███████▊  | 38330/48845 [13:34:51<3:41:10,  1.26s/it]                                                          {'loss': 1.9745, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38330/48845 [13:34:51<3:41:10,  1.26s/it] 78%|███████▊  | 38331/48845 [13:34:52<3:41:10,  1.26s/it] 78%|███████▊  | 38332/48845 [13:34:53<3:46:13,  1.29s/it] 78%|███████▊  | 38333/48845 [13:34:55<3:44:42,  1.28s/it] 78%|███████▊  | 38334/48845 [13:34:56<3:43:22,  1.28s/it] 78%|███████▊  | 38335/48845 [13:34:57<3:42:34,  1.27s/it]                                                          {'loss': 2.095, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38335/48845 [13:34:57<3:42:34,  1.27s/it] 78%|███████▊  | 38336/48845 [13:34:58<3:42:22,  1.27s/it] 78%|███████▊  | 38337/48845 [13:35:00<3:42:02,  1.27s/it] 78%|███████▊  | 38338/48845 [13:35:01<3:41:41,  1.27s/it] 78%|███████▊  | 38339/48845 [13:35:02<3:41:18,  1.26s/it] 78%|███████▊  | 38340/48845 [13:35:04<3:47:19,  1.30s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.92}
+ 78%|███████▊  | 38340/48845 [13:35:04<3:47:19,  1.30s/it] 78%|███████▊  | 38341/48845 [13:35:05<3:45:40,  1.29s/it] 78%|███████▊  | 38342/48845 [13:35:06<3:44:08,  1.28s/it] 78%|███████▊  | 38343/48845 [13:35:07<3:43:10,  1.28s/it] 79%|███████▊  | 38344/48845 [13:35:09<3:42:35,  1.27s/it] 79%|███████▊  | 38345/48845 [13:35:10<3:41:56,  1.27s/it]                                                          {'loss': 2.0623, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38345/48845 [13:35:10<3:41:56,  1.27s/it] 79%|███████▊  | 38346/48845 [13:35:11<3:41:37,  1.27s/it] 79%|███████▊  | 38347/48845 [13:35:12<3:41:43,  1.27s/it] 79%|███████▊  | 38348/48845 [13:35:14<3:41:50,  1.27s/it] 79%|███████▊  | 38349/48845 [13:35:15<3:41:24,  1.27s/it] 79%|███████▊  | 38350/48845 [13:35:16<3:41:18,  1.27s/it]                                                          {'loss': 1.9792, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38350/48845 [13:35:16<3:41:18,  1.27s/it] 79%|███████▊  | 38351/48845 [13:35:17<3:40:59,  1.26s/it] 79%|███████▊  | 38352/48845 [13:35:19<3:49:17,  1.31s/it] 79%|███████▊  | 38353/48845 [13:35:20<3:46:39,  1.30s/it] 79%|███████▊  | 38354/48845 [13:35:21<3:44:59,  1.29s/it] 79%|███████▊  | 38355/48845 [13:35:23<3:43:44,  1.28s/it]                                                          {'loss': 2.0208, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38355/48845 [13:35:23<3:43:44,  1.28s/it] 79%|███████▊  | 38356/48845 [13:35:24<3:42:59,  1.28s/it] 79%|███████▊  | 38357/48845 [13:35:25<3:46:20,  1.29s/it] 79%|███████▊  | 38358/48845 [13:35:27<3:44:37,  1.29s/it] 79%|███████▊  | 38359/48845 [13:35:28<3:43:28,  1.28s/it] 79%|███████▊  | 38360/48845 [13:35:29<3:42:43,  1.27s/it]                                                          {'loss': 2.115, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38360/48845 [13:35:29<3:42:43,  1.27s/it] 79%|███████▊  | 38361/48845 [13:35:30<3:42:12,  1.27s/it] 79%|███████▊  | 38362/48845 [13:35:32<3:41:49,  1.27s/it] 79%|███████▊  | 38363/48845 [13:35:33<3:41:15,  1.27s/it] 79%|███████▊  | 38364/48845 [13:35:34<3:41:25,  1.27s/it] 79%|███████▊  | 38365/48845 [13:35:35<3:41:14,  1.27s/it]                                                          {'loss': 2.0583, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38365/48845 [13:35:35<3:41:14,  1.27s/it] 79%|███████▊  | 38366/48845 [13:35:37<3:40:54,  1.26s/it] 79%|███████▊  | 38367/48845 [13:35:38<3:40:38,  1.26s/it] 79%|███████▊  | 38368/48845 [13:35:39<3:40:46,  1.26s/it] 79%|███████▊  | 38369/48845 [13:35:40<3:40:34,  1.26s/it] 79%|███████▊  | 38370/48845 [13:35:42<3:40:32,  1.26s/it]                                                          {'loss': 2.0104, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38370/48845 [13:35:42<3:40:32,  1.26s/it] 79%|███████▊  | 38371/48845 [13:35:43<3:40:26,  1.26s/it] 79%|███████▊  | 38372/48845 [13:35:44<3:40:29,  1.26s/it] 79%|███████▊  | 38373/48845 [13:35:45<3:40:31,  1.26s/it] 79%|███████▊  | 38374/48845 [13:35:47<3:40:39,  1.26s/it] 79%|███████▊  | 38375/48845 [13:35:48<3:40:30,  1.26s/it]                                                          {'loss': 2.2626, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38375/48845 [13:35:48<3:40:30,  1.26s/it] 79%|███████▊  | 38376/48845 [13:35:49<3:48:02,  1.31s/it] 79%|███████▊  | 38377/48845 [13:35:51<3:45:40,  1.29s/it] 79%|███████▊  | 38378/48845 [13:35:52<3:44:02,  1.28s/it] 79%|███████▊  | 38379/48845 [13:35:53<3:42:50,  1.28s/it] 79%|███████▊  | 38380/48845 [13:35:55<3:44:07,  1.29s/it]                                                          {'loss': 1.944, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38380/48845 [13:35:55<3:44:07,  1.29s/it] 79%|███████▊  | 38381/48845 [13:35:56<3:42:53,  1.28s/it] 79%|███████▊  | 38382/48845 [13:35:57<3:42:02,  1.27s/it] 79%|███████▊  | 38383/48845 [13:35:58<3:41:39,  1.27s/it] 79%|███████▊  | 38384/48845 [13:36:00<3:41:31,  1.27s/it] 79%|███████▊  | 38385/48845 [13:36:01<3:40:58,  1.27s/it]                                                          {'loss': 1.9535, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38385/48845 [13:36:01<3:40:58,  1.27s/it] 79%|███████▊  | 38386/48845 [13:36:02<3:40:35,  1.27s/it] 79%|███████▊  | 38387/48845 [13:36:03<3:40:23,  1.26s/it] 79%|███████▊  | 38388/48845 [13:36:05<3:40:23,  1.26s/it] 79%|███████▊  | 38389/48845 [13:36:06<3:40:06,  1.26s/it] 79%|███████▊  | 38390/48845 [13:36:07<3:40:16,  1.26s/it]                                                          {'loss': 2.2185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38390/48845 [13:36:07<3:40:16,  1.26s/it] 79%|███████▊  | 38391/48845 [13:36:08<3:40:52,  1.27s/it] 79%|███████▊  | 38392/48845 [13:36:10<3:40:47,  1.27s/it] 79%|███████▊  | 38393/48845 [13:36:11<3:40:28,  1.27s/it] 79%|███████▊  | 38394/48845 [13:36:12<3:40:17,  1.26s/it] 79%|███████▊  | 38395/48845 [13:36:13<3:39:55,  1.26s/it]                                                          {'loss': 2.0023, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38395/48845 [13:36:13<3:39:55,  1.26s/it] 79%|███████▊  | 38396/48845 [13:36:15<3:40:02,  1.26s/it] 79%|███████▊  | 38397/48845 [13:36:16<3:39:47,  1.26s/it] 79%|███████▊  | 38398/48845 [13:36:17<3:39:37,  1.26s/it] 79%|███████▊  | 38399/48845 [13:36:19<3:39:36,  1.26s/it] 79%|███████▊  | 38400/48845 [13:36:20<3:39:55,  1.26s/it]                                                          {'loss': 1.9649, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38400/48845 [13:36:20<3:39:55,  1.26s/it] 79%|███████▊  | 38401/48845 [13:36:24<5:51:52,  2.02s/it] 79%|███████▊  | 38402/48845 [13:36:25<5:12:11,  1.79s/it] 79%|███████▊  | 38403/48845 [13:36:26<4:44:27,  1.63s/it] 79%|███████▊  | 38404/48845 [13:36:27<4:24:55,  1.52s/it] 79%|███████▊  | 38405/48845 [13:36:29<4:11:11,  1.44s/it]                                                          {'loss': 1.7843, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38405/48845 [13:36:29<4:11:11,  1.44s/it] 79%|███████▊  | 38406/48845 [13:36:30<4:01:42,  1.39s/it] 79%|███████▊  | 38407/48845 [13:36:31<3:54:51,  1.35s/it] 79%|███████▊  | 38408/48845 [13:36:32<3:50:00,  1.32s/it] 79%|███████▊  | 38409/48845 [13:36:34<3:46:31,  1.30s/it] 79%|███████▊  | 38410/48845 [13:36:35<3:44:21,  1.29s/it]                                                          {'loss': 1.9737, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38410/48845 [13:36:35<3:44:21,  1.29s/it] 79%|███████▊  | 38411/48845 [13:36:36<3:42:48,  1.28s/it] 79%|███████▊  | 38412/48845 [13:36:37<3:41:39,  1.27s/it] 79%|███████▊  | 38413/48845 [13:36:39<3:41:02,  1.27s/it] 79%|███████▊  | 38414/48845 [13:36:40<3:40:42,  1.27s/it] 79%|███████▊  | 38415/48845 [13:36:41<3:40:07,  1.27s/it]                                                          {'loss': 2.1288, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38415/48845 [13:36:41<3:40:07,  1.27s/it] 79%|███████▊  | 38416/48845 [13:36:42<3:39:59,  1.27s/it] 79%|███████▊  | 38417/48845 [13:36:44<3:39:47,  1.26s/it] 79%|███████▊  | 38418/48845 [13:36:45<3:39:48,  1.26s/it] 79%|███████▊  | 38419/48845 [13:36:46<3:39:49,  1.27s/it] 79%|███████▊  | 38420/48845 [13:36:48<3:39:35,  1.26s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38420/48845 [13:36:48<3:39:35,  1.26s/it] 79%|███████▊  | 38421/48845 [13:36:49<3:39:22,  1.26s/it] 79%|███████▊  | 38422/48845 [13:36:50<3:39:22,  1.26s/it] 79%|███████▊  | 38423/48845 [13:36:51<3:39:08,  1.26s/it] 79%|███████▊  | 38424/48845 [13:36:53<3:39:21,  1.26s/it] 79%|███████▊  | 38425/48845 [13:36:54<3:39:04,  1.26s/it]                                                          {'loss': 2.0063, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38425/48845 [13:36:54<3:39:04,  1.26s/it] 79%|███████▊  | 38426/48845 [13:36:55<3:39:22,  1.26s/it] 79%|███████▊  | 38427/48845 [13:36:56<3:39:16,  1.26s/it] 79%|███████▊  | 38428/48845 [13:36:58<3:38:59,  1.26s/it] 79%|███████▊  | 38429/48845 [13:36:59<3:38:46,  1.26s/it] 79%|███████▊  | 38430/48845 [13:37:00<3:38:52,  1.26s/it]                                                          {'loss': 2.0508, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38430/48845 [13:37:00<3:38:52,  1.26s/it] 79%|███████▊  | 38431/48845 [13:37:01<3:38:59,  1.26s/it] 79%|███████▊  | 38432/48845 [13:37:03<3:39:11,  1.26s/it] 79%|███████▊  | 38433/48845 [13:37:04<3:39:08,  1.26s/it] 79%|███████▊  | 38434/48845 [13:37:05<3:39:09,  1.26s/it] 79%|███████▊  | 38435/48845 [13:37:06<3:39:02,  1.26s/it]                                                          {'loss': 2.0459, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38435/48845 [13:37:06<3:39:02,  1.26s/it] 79%|███████▊  | 38436/48845 [13:37:08<3:38:58,  1.26s/it] 79%|███████▊  | 38437/48845 [13:37:09<3:38:48,  1.26s/it] 79%|███████▊  | 38438/48845 [13:37:10<3:42:06,  1.28s/it] 79%|███████▊  | 38439/48845 [13:37:12<3:41:05,  1.27s/it] 79%|███████▊  | 38440/48845 [13:37:13<3:40:37,  1.27s/it]                                                          {'loss': 2.1179, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.93}
+ 79%|███████▊  | 38440/48845 [13:37:13<3:40:37,  1.27s/it] 79%|███████▊  | 38441/48845 [13:37:14<3:40:01,  1.27s/it] 79%|███████▊  | 38442/48845 [13:37:15<3:39:52,  1.27s/it] 79%|███████▊  | 38443/48845 [13:37:17<3:39:18,  1.26s/it] 79%|███████▊  | 38444/48845 [13:37:18<3:39:10,  1.26s/it] 79%|███████▊  | 38445/48845 [13:37:19<3:38:50,  1.26s/it]                                                          {'loss': 1.8911, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▊  | 38445/48845 [13:37:19<3:38:50,  1.26s/it] 79%|███████▊  | 38446/48845 [13:37:20<3:39:25,  1.27s/it] 79%|███████▊  | 38447/48845 [13:37:22<3:39:13,  1.27s/it] 79%|███████▊  | 38448/48845 [13:37:23<3:38:54,  1.26s/it] 79%|███████▊  | 38449/48845 [13:37:24<3:38:37,  1.26s/it] 79%|███████▊  | 38450/48845 [13:37:25<3:38:54,  1.26s/it]                                                          {'loss': 2.0251, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▊  | 38450/48845 [13:37:25<3:38:54,  1.26s/it] 79%|███████▊  | 38451/48845 [13:37:27<3:38:47,  1.26s/it] 79%|███████▊  | 38452/48845 [13:37:28<3:38:40,  1.26s/it] 79%|███████▊  | 38453/48845 [13:37:29<3:38:44,  1.26s/it] 79%|███████▊  | 38454/48845 [13:37:31<3:38:42,  1.26s/it] 79%|███████▊  | 38455/48845 [13:37:32<3:38:38,  1.26s/it]                                                          {'loss': 2.0596, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▊  | 38455/48845 [13:37:32<3:38:38,  1.26s/it] 79%|███████▊  | 38456/48845 [13:37:33<3:38:33,  1.26s/it] 79%|███████▊  | 38457/48845 [13:37:34<3:38:20,  1.26s/it] 79%|███████▊  | 38458/48845 [13:37:36<3:38:27,  1.26s/it] 79%|███████▊  | 38459/48845 [13:37:37<3:38:19,  1.26s/it] 79%|███████▊  | 38460/48845 [13:37:38<3:38:26,  1.26s/it]                                                          {'loss': 1.9177, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▊  | 38460/48845 [13:37:38<3:38:26,  1.26s/it] 79%|███████▊  | 38461/48845 [13:37:39<3:38:36,  1.26s/it] 79%|███████▊  | 38462/48845 [13:37:41<3:42:54,  1.29s/it] 79%|███████▊  | 38463/48845 [13:37:42<3:41:35,  1.28s/it] 79%|███████▊  | 38464/48845 [13:37:43<3:40:35,  1.27s/it] 79%|███████▊  | 38465/48845 [13:37:44<3:39:50,  1.27s/it]                                                          {'loss': 1.8753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▊  | 38465/48845 [13:37:45<3:39:50,  1.27s/it] 79%|███████▉  | 38466/48845 [13:37:46<3:39:32,  1.27s/it] 79%|███████▉  | 38467/48845 [13:37:47<3:38:59,  1.27s/it] 79%|███████▉  | 38468/48845 [13:37:48<3:38:41,  1.26s/it] 79%|███████▉  | 38469/48845 [13:37:50<3:38:31,  1.26s/it] 79%|███████▉  | 38470/48845 [13:37:51<3:38:27,  1.26s/it]                                                          {'loss': 1.9319, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38470/48845 [13:37:51<3:38:27,  1.26s/it] 79%|███████▉  | 38471/48845 [13:37:52<3:38:16,  1.26s/it] 79%|███████▉  | 38472/48845 [13:37:53<3:38:10,  1.26s/it] 79%|███████▉  | 38473/48845 [13:37:55<3:38:21,  1.26s/it] 79%|███████▉  | 38474/48845 [13:37:56<3:38:32,  1.26s/it] 79%|███████▉  | 38475/48845 [13:37:57<3:38:17,  1.26s/it]                                                          {'loss': 2.1738, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38475/48845 [13:37:57<3:38:17,  1.26s/it] 79%|███████▉  | 38476/48845 [13:37:58<3:38:23,  1.26s/it] 79%|███████▉  | 38477/48845 [13:38:00<3:38:09,  1.26s/it] 79%|███████▉  | 38478/48845 [13:38:01<3:38:19,  1.26s/it] 79%|███████▉  | 38479/48845 [13:38:02<3:38:12,  1.26s/it] 79%|███████▉  | 38480/48845 [13:38:03<3:38:11,  1.26s/it]                                                          {'loss': 1.8975, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38480/48845 [13:38:03<3:38:11,  1.26s/it] 79%|███████▉  | 38481/48845 [13:38:05<3:38:10,  1.26s/it] 79%|███████▉  | 38482/48845 [13:38:06<3:38:05,  1.26s/it] 79%|███████▉  | 38483/48845 [13:38:07<3:37:56,  1.26s/it] 79%|███████▉  | 38484/48845 [13:38:08<3:38:02,  1.26s/it] 79%|███████▉  | 38485/48845 [13:38:10<3:37:49,  1.26s/it]                                                          {'loss': 1.957, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38485/48845 [13:38:10<3:37:49,  1.26s/it] 79%|███████▉  | 38486/48845 [13:38:11<3:37:53,  1.26s/it] 79%|███████▉  | 38487/48845 [13:38:12<3:38:04,  1.26s/it] 79%|███████▉  | 38488/48845 [13:38:14<3:40:12,  1.28s/it] 79%|███████▉  | 38489/48845 [13:38:15<3:39:21,  1.27s/it] 79%|███████▉  | 38490/48845 [13:38:16<3:38:42,  1.27s/it]                                                          {'loss': 2.0788, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38490/48845 [13:38:16<3:38:42,  1.27s/it] 79%|███████▉  | 38491/48845 [13:38:17<3:38:27,  1.27s/it] 79%|███████▉  | 38492/48845 [13:38:19<3:38:44,  1.27s/it] 79%|███████▉  | 38493/48845 [13:38:20<3:38:30,  1.27s/it] 79%|███████▉  | 38494/48845 [13:38:21<3:38:33,  1.27s/it] 79%|███████▉  | 38495/48845 [13:38:22<3:38:15,  1.27s/it]                                                          {'loss': 1.8977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38495/48845 [13:38:22<3:38:15,  1.27s/it] 79%|███████▉  | 38496/48845 [13:38:24<3:38:18,  1.27s/it] 79%|███████▉  | 38497/48845 [13:38:25<3:38:04,  1.26s/it] 79%|███████▉  | 38498/48845 [13:38:26<3:37:54,  1.26s/it] 79%|███████▉  | 38499/48845 [13:38:27<3:37:55,  1.26s/it] 79%|███████▉  | 38500/48845 [13:38:29<3:38:14,  1.27s/it]                                                          {'loss': 1.955, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38500/48845 [13:38:29<3:38:14,  1.27s/it] 79%|███████▉  | 38501/48845 [13:38:30<3:37:55,  1.26s/it] 79%|███████▉  | 38502/48845 [13:38:31<3:37:42,  1.26s/it] 79%|███████▉  | 38503/48845 [13:38:33<3:37:39,  1.26s/it] 79%|███████▉  | 38504/48845 [13:38:34<3:37:32,  1.26s/it] 79%|███████▉  | 38505/48845 [13:38:35<3:37:22,  1.26s/it]                                                          {'loss': 2.1217, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38505/48845 [13:38:35<3:37:22,  1.26s/it] 79%|███████▉  | 38506/48845 [13:38:36<3:37:17,  1.26s/it] 79%|███████▉  | 38507/48845 [13:38:38<3:37:10,  1.26s/it] 79%|███████▉  | 38508/48845 [13:38:39<3:37:50,  1.26s/it] 79%|███████▉  | 38509/48845 [13:38:40<3:37:42,  1.26s/it] 79%|███████▉  | 38510/48845 [13:38:41<3:37:39,  1.26s/it]                                                          {'loss': 2.1002, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38510/48845 [13:38:41<3:37:39,  1.26s/it] 79%|███████▉  | 38511/48845 [13:38:43<3:37:34,  1.26s/it] 79%|███████▉  | 38512/48845 [13:38:44<3:37:28,  1.26s/it] 79%|███████▉  | 38513/48845 [13:38:45<3:37:26,  1.26s/it] 79%|███████▉  | 38514/48845 [13:38:46<3:37:14,  1.26s/it] 79%|███████▉  | 38515/48845 [13:38:48<3:37:20,  1.26s/it]                                                          {'loss': 1.9298, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38515/48845 [13:38:48<3:37:20,  1.26s/it] 79%|███████▉  | 38516/48845 [13:38:49<3:37:28,  1.26s/it] 79%|███████▉  | 38517/48845 [13:38:50<3:37:21,  1.26s/it] 79%|███████▉  | 38518/48845 [13:38:51<3:37:18,  1.26s/it] 79%|███████▉  | 38519/48845 [13:38:53<3:36:58,  1.26s/it] 79%|███████▉  | 38520/48845 [13:38:54<3:37:02,  1.26s/it]                                                          {'loss': 1.8734, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38520/48845 [13:38:54<3:37:02,  1.26s/it] 79%|███████▉  | 38521/48845 [13:38:55<3:37:03,  1.26s/it] 79%|███████▉  | 38522/48845 [13:38:57<3:36:50,  1.26s/it] 79%|███████▉  | 38523/48845 [13:38:58<3:37:06,  1.26s/it] 79%|███████▉  | 38524/48845 [13:38:59<3:37:16,  1.26s/it] 79%|███████▉  | 38525/48845 [13:39:00<3:37:15,  1.26s/it]                                                          {'loss': 2.1061, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38525/48845 [13:39:00<3:37:15,  1.26s/it] 79%|███████▉  | 38526/48845 [13:39:02<3:37:10,  1.26s/it] 79%|███████▉  | 38527/48845 [13:39:03<3:37:09,  1.26s/it] 79%|███████▉  | 38528/48845 [13:39:04<3:37:03,  1.26s/it] 79%|███████▉  | 38529/48845 [13:39:05<3:36:59,  1.26s/it] 79%|███████▉  | 38530/48845 [13:39:07<3:37:03,  1.26s/it]                                                          {'loss': 2.184, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38530/48845 [13:39:07<3:37:03,  1.26s/it] 79%|███████▉  | 38531/48845 [13:39:08<3:36:58,  1.26s/it] 79%|███████▉  | 38532/48845 [13:39:09<3:36:53,  1.26s/it] 79%|███████▉  | 38533/48845 [13:39:10<3:36:43,  1.26s/it] 79%|███████▉  | 38534/48845 [13:39:12<3:36:40,  1.26s/it] 79%|███████▉  | 38535/48845 [13:39:13<3:36:37,  1.26s/it]                                                          {'loss': 2.1083, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.94}
+ 79%|███████▉  | 38535/48845 [13:39:13<3:36:37,  1.26s/it] 79%|███████▉  | 38536/48845 [13:39:14<3:36:53,  1.26s/it] 79%|███████▉  | 38537/48845 [13:39:15<3:36:53,  1.26s/it] 79%|███████▉  | 38538/48845 [13:39:17<3:36:39,  1.26s/it] 79%|███████▉  | 38539/48845 [13:39:18<3:36:35,  1.26s/it] 79%|███████▉  | 38540/48845 [13:39:19<3:36:43,  1.26s/it]                                                          {'loss': 2.0426, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38540/48845 [13:39:19<3:36:43,  1.26s/it] 79%|███████▉  | 38541/48845 [13:39:20<3:36:48,  1.26s/it] 79%|███████▉  | 38542/48845 [13:39:22<3:36:44,  1.26s/it] 79%|███████▉  | 38543/48845 [13:39:23<3:36:52,  1.26s/it] 79%|███████▉  | 38544/48845 [13:39:24<3:36:59,  1.26s/it] 79%|███████▉  | 38545/48845 [13:39:26<3:36:52,  1.26s/it]                                                          {'loss': 2.4066, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38545/48845 [13:39:26<3:36:52,  1.26s/it] 79%|███████▉  | 38546/48845 [13:39:27<3:36:43,  1.26s/it] 79%|███████▉  | 38547/48845 [13:39:28<3:36:37,  1.26s/it] 79%|███████▉  | 38548/48845 [13:39:29<3:37:41,  1.27s/it] 79%|███████▉  | 38549/48845 [13:39:31<3:37:18,  1.27s/it] 79%|███████▉  | 38550/48845 [13:39:32<3:37:00,  1.26s/it]                                                          {'loss': 2.1072, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38550/48845 [13:39:32<3:37:00,  1.26s/it] 79%|███████▉  | 38551/48845 [13:39:33<3:36:57,  1.26s/it] 79%|███████▉  | 38552/48845 [13:39:34<3:37:04,  1.27s/it] 79%|███████▉  | 38553/48845 [13:39:36<3:37:00,  1.27s/it] 79%|███████▉  | 38554/48845 [13:39:37<3:37:01,  1.27s/it] 79%|███████▉  | 38555/48845 [13:39:38<3:36:49,  1.26s/it]                                                          {'loss': 1.9157, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38555/48845 [13:39:38<3:36:49,  1.26s/it] 79%|███████▉  | 38556/48845 [13:39:39<3:37:00,  1.27s/it] 79%|███████▉  | 38557/48845 [13:39:41<3:36:40,  1.26s/it] 79%|███████▉  | 38558/48845 [13:39:42<3:36:38,  1.26s/it] 79%|███████▉  | 38559/48845 [13:39:43<3:36:25,  1.26s/it] 79%|███████▉  | 38560/48845 [13:39:45<3:36:27,  1.26s/it]                                                          {'loss': 2.0362, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38560/48845 [13:39:45<3:36:27,  1.26s/it] 79%|███████▉  | 38561/48845 [13:39:46<3:36:27,  1.26s/it] 79%|███████▉  | 38562/48845 [13:39:47<3:36:25,  1.26s/it] 79%|███████▉  | 38563/48845 [13:39:48<3:36:25,  1.26s/it] 79%|███████▉  | 38564/48845 [13:39:50<3:36:25,  1.26s/it] 79%|███████▉  | 38565/48845 [13:39:51<3:36:16,  1.26s/it]                                                          {'loss': 1.986, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38565/48845 [13:39:51<3:36:16,  1.26s/it] 79%|███████▉  | 38566/48845 [13:39:52<3:36:13,  1.26s/it] 79%|███████▉  | 38567/48845 [13:39:53<3:36:12,  1.26s/it] 79%|███████▉  | 38568/48845 [13:39:55<3:36:39,  1.26s/it] 79%|███████▉  | 38569/48845 [13:39:56<3:36:25,  1.26s/it] 79%|███████▉  | 38570/48845 [13:39:57<3:36:18,  1.26s/it]                                                          {'loss': 2.0109, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38570/48845 [13:39:57<3:36:18,  1.26s/it] 79%|███████▉  | 38571/48845 [13:39:58<3:36:22,  1.26s/it] 79%|███████▉  | 38572/48845 [13:40:00<3:36:23,  1.26s/it] 79%|███████▉  | 38573/48845 [13:40:01<3:36:29,  1.26s/it] 79%|███████▉  | 38574/48845 [13:40:02<3:36:16,  1.26s/it] 79%|███████▉  | 38575/48845 [13:40:03<3:36:10,  1.26s/it]                                                          {'loss': 1.9211, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38575/48845 [13:40:03<3:36:10,  1.26s/it] 79%|███████▉  | 38576/48845 [13:40:05<3:36:20,  1.26s/it] 79%|███████▉  | 38577/48845 [13:40:06<3:36:12,  1.26s/it] 79%|███████▉  | 38578/48845 [13:40:07<3:36:03,  1.26s/it] 79%|███████▉  | 38579/48845 [13:40:09<3:36:01,  1.26s/it] 79%|███████▉  | 38580/48845 [13:40:10<3:36:06,  1.26s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38580/48845 [13:40:10<3:36:06,  1.26s/it] 79%|███████▉  | 38581/48845 [13:40:11<3:36:01,  1.26s/it] 79%|███████▉  | 38582/48845 [13:40:12<3:36:03,  1.26s/it] 79%|███████▉  | 38583/48845 [13:40:14<3:35:57,  1.26s/it] 79%|███████▉  | 38584/48845 [13:40:15<3:36:10,  1.26s/it] 79%|███████▉  | 38585/48845 [13:40:16<3:36:05,  1.26s/it]                                                          {'loss': 1.9994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38585/48845 [13:40:16<3:36:05,  1.26s/it] 79%|███████▉  | 38586/48845 [13:40:17<3:36:00,  1.26s/it] 79%|███████▉  | 38587/48845 [13:40:19<3:35:48,  1.26s/it] 79%|███████▉  | 38588/48845 [13:40:20<3:35:54,  1.26s/it] 79%|███████▉  | 38589/48845 [13:40:21<3:36:05,  1.26s/it] 79%|███████▉  | 38590/48845 [13:40:22<3:36:04,  1.26s/it]                                                          {'loss': 2.2118, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38590/48845 [13:40:22<3:36:04,  1.26s/it] 79%|███████▉  | 38591/48845 [13:40:24<3:35:58,  1.26s/it] 79%|███████▉  | 38592/48845 [13:40:25<3:36:04,  1.26s/it] 79%|███████▉  | 38593/48845 [13:40:26<3:36:04,  1.26s/it] 79%|███████▉  | 38594/48845 [13:40:27<3:35:59,  1.26s/it] 79%|███████▉  | 38595/48845 [13:40:29<3:35:48,  1.26s/it]                                                          {'loss': 1.939, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38595/48845 [13:40:29<3:35:48,  1.26s/it] 79%|███████▉  | 38596/48845 [13:40:30<3:36:17,  1.27s/it] 79%|███████▉  | 38597/48845 [13:40:31<3:36:15,  1.27s/it] 79%|███████▉  | 38598/48845 [13:40:33<3:36:02,  1.27s/it] 79%|███████▉  | 38599/48845 [13:40:34<3:35:57,  1.26s/it] 79%|███████▉  | 38600/48845 [13:40:35<3:36:15,  1.27s/it]                                                          {'loss': 2.0184, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38600/48845 [13:40:35<3:36:15,  1.27s/it] 79%|███████▉  | 38601/48845 [13:40:39<5:45:47,  2.03s/it] 79%|███████▉  | 38602/48845 [13:40:40<5:06:42,  1.80s/it] 79%|███████▉  | 38603/48845 [13:40:41<4:39:15,  1.64s/it] 79%|███████▉  | 38604/48845 [13:40:43<4:20:00,  1.52s/it] 79%|███████▉  | 38605/48845 [13:40:44<4:06:36,  1.44s/it]                                                          {'loss': 1.9007, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38605/48845 [13:40:44<4:06:36,  1.44s/it] 79%|███████▉  | 38606/48845 [13:40:45<3:57:52,  1.39s/it] 79%|███████▉  | 38607/48845 [13:40:46<3:51:00,  1.35s/it] 79%|███████▉  | 38608/48845 [13:40:48<3:46:19,  1.33s/it] 79%|███████▉  | 38609/48845 [13:40:49<3:42:57,  1.31s/it] 79%|███████▉  | 38610/48845 [13:40:50<3:42:59,  1.31s/it]                                                          {'loss': 2.0309, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38610/48845 [13:40:50<3:42:59,  1.31s/it] 79%|███████▉  | 38611/48845 [13:40:52<3:40:51,  1.29s/it] 79%|███████▉  | 38612/48845 [13:40:53<3:39:17,  1.29s/it] 79%|███████▉  | 38613/48845 [13:40:54<3:37:55,  1.28s/it] 79%|███████▉  | 38614/48845 [13:40:55<3:37:56,  1.28s/it] 79%|███████▉  | 38615/48845 [13:40:57<3:37:00,  1.27s/it]                                                          {'loss': 2.1884, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38615/48845 [13:40:57<3:37:00,  1.27s/it] 79%|███████▉  | 38616/48845 [13:40:58<3:36:20,  1.27s/it] 79%|███████▉  | 38617/48845 [13:40:59<3:35:58,  1.27s/it] 79%|███████▉  | 38618/48845 [13:41:00<3:35:29,  1.26s/it] 79%|███████▉  | 38619/48845 [13:41:02<3:35:22,  1.26s/it] 79%|███████▉  | 38620/48845 [13:41:03<3:35:10,  1.26s/it]                                                          {'loss': 1.9259, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38620/48845 [13:41:03<3:35:10,  1.26s/it] 79%|███████▉  | 38621/48845 [13:41:04<3:35:03,  1.26s/it] 79%|███████▉  | 38622/48845 [13:41:05<3:35:11,  1.26s/it] 79%|███████▉  | 38623/48845 [13:41:07<3:35:10,  1.26s/it] 79%|███████▉  | 38624/48845 [13:41:08<3:35:02,  1.26s/it] 79%|███████▉  | 38625/48845 [13:41:09<3:34:53,  1.26s/it]                                                          {'loss': 2.0499, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38625/48845 [13:41:09<3:34:53,  1.26s/it] 79%|███████▉  | 38626/48845 [13:41:10<3:34:45,  1.26s/it] 79%|███████▉  | 38627/48845 [13:41:12<3:34:45,  1.26s/it] 79%|█��█████▉  | 38628/48845 [13:41:13<3:34:56,  1.26s/it] 79%|███████▉  | 38629/48845 [13:41:14<3:35:06,  1.26s/it] 79%|███████▉  | 38630/48845 [13:41:16<3:37:22,  1.28s/it]                                                          {'loss': 2.1154, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38630/48845 [13:41:16<3:37:22,  1.28s/it] 79%|███████▉  | 38631/48845 [13:41:17<3:36:40,  1.27s/it] 79%|███████▉  | 38632/48845 [13:41:18<3:36:03,  1.27s/it] 79%|███████▉  | 38633/48845 [13:41:19<3:35:37,  1.27s/it] 79%|███████▉  | 38634/48845 [13:41:21<3:38:46,  1.29s/it] 79%|███████▉  | 38635/48845 [13:41:22<3:37:40,  1.28s/it]                                                          {'loss': 1.8896, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.95}
+ 79%|███████▉  | 38635/48845 [13:41:22<3:37:40,  1.28s/it] 79%|███████▉  | 38636/48845 [13:41:23<3:36:53,  1.27s/it] 79%|███████▉  | 38637/48845 [13:41:24<3:36:37,  1.27s/it] 79%|███████▉  | 38638/48845 [13:41:26<3:36:39,  1.27s/it] 79%|███████▉  | 38639/48845 [13:41:27<3:36:08,  1.27s/it] 79%|███████▉  | 38640/48845 [13:41:28<3:35:53,  1.27s/it]                                                          {'loss': 1.9483, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38640/48845 [13:41:28<3:35:53,  1.27s/it] 79%|███████▉  | 38641/48845 [13:41:30<3:35:30,  1.27s/it] 79%|███████▉  | 38642/48845 [13:41:31<3:35:26,  1.27s/it] 79%|███████▉  | 38643/48845 [13:41:32<3:35:15,  1.27s/it] 79%|███████▉  | 38644/48845 [13:41:33<3:34:59,  1.26s/it] 79%|███████▉  | 38645/48845 [13:41:35<3:34:44,  1.26s/it]                                                          {'loss': 1.9336, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38645/48845 [13:41:35<3:34:44,  1.26s/it] 79%|███████▉  | 38646/48845 [13:41:36<3:34:50,  1.26s/it] 79%|███████▉  | 38647/48845 [13:41:37<3:34:40,  1.26s/it] 79%|███████▉  | 38648/48845 [13:41:38<3:34:39,  1.26s/it] 79%|███████▉  | 38649/48845 [13:41:40<3:34:35,  1.26s/it] 79%|███████▉  | 38650/48845 [13:41:41<3:34:46,  1.26s/it]                                                          {'loss': 2.1473, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38650/48845 [13:41:41<3:34:46,  1.26s/it] 79%|███████▉  | 38651/48845 [13:41:42<3:34:38,  1.26s/it] 79%|███████▉  | 38652/48845 [13:41:43<3:34:31,  1.26s/it] 79%|███████▉  | 38653/48845 [13:41:45<3:34:27,  1.26s/it] 79%|███████▉  | 38654/48845 [13:41:46<3:34:40,  1.26s/it] 79%|███████▉  | 38655/48845 [13:41:47<3:39:02,  1.29s/it]                                                          {'loss': 2.0017, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38655/48845 [13:41:47<3:39:02,  1.29s/it] 79%|███████▉  | 38656/48845 [13:41:49<3:37:25,  1.28s/it] 79%|███████▉  | 38657/48845 [13:41:50<3:36:20,  1.27s/it] 79%|███████▉  | 38658/48845 [13:41:51<3:35:44,  1.27s/it] 79%|███████▉  | 38659/48845 [13:41:52<3:35:07,  1.27s/it] 79%|███████▉  | 38660/48845 [13:41:54<3:34:39,  1.26s/it]                                                          {'loss': 2.0451, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38660/48845 [13:41:54<3:34:39,  1.26s/it] 79%|███████▉  | 38661/48845 [13:41:55<3:34:22,  1.26s/it] 79%|███████▉  | 38662/48845 [13:41:56<3:34:12,  1.26s/it] 79%|███████▉  | 38663/48845 [13:41:57<3:34:10,  1.26s/it] 79%|███████▉  | 38664/48845 [13:41:59<3:34:04,  1.26s/it] 79%|███████▉  | 38665/48845 [13:42:00<3:34:09,  1.26s/it]                                                          {'loss': 1.9627, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38665/48845 [13:42:00<3:34:09,  1.26s/it] 79%|███████▉  | 38666/48845 [13:42:01<3:34:51,  1.27s/it] 79%|███████▉  | 38667/48845 [13:42:02<3:34:33,  1.26s/it] 79%|███████▉  | 38668/48845 [13:42:04<3:34:08,  1.26s/it] 79%|███████▉  | 38669/48845 [13:42:05<3:34:13,  1.26s/it] 79%|███████▉  | 38670/48845 [13:42:06<3:42:49,  1.31s/it]                                                          {'loss': 1.9755, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38670/48845 [13:42:06<3:42:49,  1.31s/it] 79%|██████���▉  | 38671/48845 [13:42:08<3:40:11,  1.30s/it] 79%|███████▉  | 38672/48845 [13:42:09<3:38:21,  1.29s/it] 79%|███████▉  | 38673/48845 [13:42:10<3:36:55,  1.28s/it] 79%|███████▉  | 38674/48845 [13:42:12<3:41:36,  1.31s/it] 79%|███████▉  | 38675/48845 [13:42:13<3:39:17,  1.29s/it]                                                          {'loss': 1.9455, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38675/48845 [13:42:13<3:39:17,  1.29s/it] 79%|███████▉  | 38676/48845 [13:42:14<3:37:39,  1.28s/it] 79%|███████▉  | 38677/48845 [13:42:15<3:36:28,  1.28s/it] 79%|███████▉  | 38678/48845 [13:42:17<3:35:44,  1.27s/it] 79%|███████▉  | 38679/48845 [13:42:18<3:35:17,  1.27s/it] 79%|███████▉  | 38680/48845 [13:42:19<3:34:54,  1.27s/it]                                                          {'loss': 2.1158, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38680/48845 [13:42:19<3:34:54,  1.27s/it] 79%|███████▉  | 38681/48845 [13:42:20<3:34:55,  1.27s/it] 79%|███████▉  | 38682/48845 [13:42:22<3:34:52,  1.27s/it] 79%|███████▉  | 38683/48845 [13:42:23<3:34:27,  1.27s/it] 79%|███████▉  | 38684/48845 [13:42:24<3:34:08,  1.26s/it] 79%|███████▉  | 38685/48845 [13:42:25<3:33:53,  1.26s/it]                                                          {'loss': 1.9099, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38685/48845 [13:42:25<3:33:53,  1.26s/it] 79%|███████▉  | 38686/48845 [13:42:27<3:34:14,  1.27s/it] 79%|███████▉  | 38687/48845 [13:42:28<3:33:55,  1.26s/it] 79%|███████▉  | 38688/48845 [13:42:29<3:34:02,  1.26s/it] 79%|███████▉  | 38689/48845 [13:42:31<3:33:51,  1.26s/it] 79%|███████▉  | 38690/48845 [13:42:32<3:33:51,  1.26s/it]                                                          {'loss': 1.9929, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38690/48845 [13:42:32<3:33:51,  1.26s/it] 79%|███████▉  | 38691/48845 [13:42:33<3:33:44,  1.26s/it] 79%|███████▉  | 38692/48845 [13:42:34<3:33:34,  1.26s/it] 79%|███████▉  | 38693/48845 [13:42:36<3:33:22,  1.26s/it] 79%|███████▉  | 38694/48845 [13:42:37<3:33:38,  1.26s/it] 79%|███████▉  | 38695/48845 [13:42:38<3:33:32,  1.26s/it]                                                          {'loss': 2.078, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38695/48845 [13:42:38<3:33:32,  1.26s/it] 79%|███████▉  | 38696/48845 [13:42:39<3:33:33,  1.26s/it] 79%|███████▉  | 38697/48845 [13:42:41<3:33:32,  1.26s/it] 79%|███████▉  | 38698/48845 [13:42:42<3:33:27,  1.26s/it] 79%|███████▉  | 38699/48845 [13:42:43<3:33:34,  1.26s/it] 79%|███████▉  | 38700/48845 [13:42:44<3:33:22,  1.26s/it]                                                          {'loss': 1.994, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38700/48845 [13:42:44<3:33:22,  1.26s/it] 79%|███████▉  | 38701/48845 [13:42:46<3:33:29,  1.26s/it] 79%|███████▉  | 38702/48845 [13:42:47<3:33:35,  1.26s/it] 79%|███████▉  | 38703/48845 [13:42:48<3:33:22,  1.26s/it] 79%|███████▉  | 38704/48845 [13:42:49<3:33:20,  1.26s/it] 79%|███████▉  | 38705/48845 [13:42:51<3:33:16,  1.26s/it]                                                          {'loss': 1.9896, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38705/48845 [13:42:51<3:33:16,  1.26s/it] 79%|███████▉  | 38706/48845 [13:42:52<3:33:47,  1.27s/it] 79%|███████▉  | 38707/48845 [13:42:53<3:33:34,  1.26s/it] 79%|███████▉  | 38708/48845 [13:42:55<3:33:26,  1.26s/it] 79%|███████▉  | 38709/48845 [13:42:56<3:33:14,  1.26s/it] 79%|███████▉  | 38710/48845 [13:42:57<3:33:40,  1.27s/it]                                                          {'loss': 2.0753, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38710/48845 [13:42:57<3:33:40,  1.27s/it] 79%|███████▉  | 38711/48845 [13:42:58<3:33:44,  1.27s/it] 79%|███████▉  | 38712/48845 [13:43:00<3:33:35,  1.26s/it] 79%|███████▉  | 38713/48845 [13:43:01<3:33:25,  1.26s/it] 79%|███████▉  | 38714/48845 [13:43:02<3:33:45,  1.27s/it] 79%|███████▉  | 38715/48845 [13:43:03<3:33:33,  1.26s/it]                                                          {'loss': 2.1457, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38715/48845 [13:43:03<3:33:33,  1.26s/it] 79%|███████▉  | 38716/48845 [13:43:05<3:33:27,  1.26s/it] 79%|███████▉  | 38717/48845 [13:43:06<3:33:24,  1.26s/it] 79%|███████▉  | 38718/48845 [13:43:07<3:33:26,  1.26s/it] 79%|███████▉  | 38719/48845 [13:43:08<3:33:12,  1.26s/it] 79%|███████▉  | 38720/48845 [13:43:10<3:33:02,  1.26s/it]                                                          {'loss': 1.9185, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38720/48845 [13:43:10<3:33:02,  1.26s/it] 79%|███████▉  | 38721/48845 [13:43:11<3:32:57,  1.26s/it] 79%|███████▉  | 38722/48845 [13:43:12<3:32:53,  1.26s/it] 79%|███████▉  | 38723/48845 [13:43:13<3:33:06,  1.26s/it] 79%|███████▉  | 38724/48845 [13:43:15<3:39:03,  1.30s/it] 79%|███████▉  | 38725/48845 [13:43:16<3:37:08,  1.29s/it]                                                          {'loss': 1.9845, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38725/48845 [13:43:16<3:37:08,  1.29s/it] 79%|███████▉  | 38726/48845 [13:43:17<3:36:03,  1.28s/it] 79%|███████▉  | 38727/48845 [13:43:19<3:35:33,  1.28s/it] 79%|███████▉  | 38728/48845 [13:43:20<3:34:37,  1.27s/it] 79%|███████▉  | 38729/48845 [13:43:21<3:34:14,  1.27s/it] 79%|███████▉  | 38730/48845 [13:43:22<3:33:48,  1.27s/it]                                                          {'loss': 2.0041, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.96}
+ 79%|███████▉  | 38730/48845 [13:43:22<3:33:48,  1.27s/it] 79%|███████▉  | 38731/48845 [13:43:24<3:33:38,  1.27s/it] 79%|███████▉  | 38732/48845 [13:43:25<3:33:30,  1.27s/it] 79%|███████▉  | 38733/48845 [13:43:26<3:33:30,  1.27s/it] 79%|███████▉  | 38734/48845 [13:43:28<3:33:07,  1.26s/it] 79%|███████▉  | 38735/48845 [13:43:29<3:32:52,  1.26s/it]                                                          {'loss': 1.9359, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38735/48845 [13:43:29<3:32:52,  1.26s/it] 79%|███████▉  | 38736/48845 [13:43:30<3:33:00,  1.26s/it] 79%|███████▉  | 38737/48845 [13:43:31<3:41:42,  1.32s/it] 79%|███████▉  | 38738/48845 [13:43:33<3:39:01,  1.30s/it] 79%|███████▉  | 38739/48845 [13:43:34<3:36:58,  1.29s/it] 79%|███████▉  | 38740/48845 [13:43:35<3:35:34,  1.28s/it]                                                          {'loss': 2.0337, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38740/48845 [13:43:35<3:35:34,  1.28s/it] 79%|███████▉  | 38741/48845 [13:43:37<3:35:01,  1.28s/it] 79%|███████▉  | 38742/48845 [13:43:38<3:34:10,  1.27s/it] 79%|███████▉  | 38743/48845 [13:43:39<3:33:35,  1.27s/it] 79%|███████▉  | 38744/48845 [13:43:40<3:33:14,  1.27s/it] 79%|███████▉  | 38745/48845 [13:43:42<3:33:36,  1.27s/it]                                                          {'loss': 1.9205, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38745/48845 [13:43:42<3:33:36,  1.27s/it] 79%|███████▉  | 38746/48845 [13:43:43<3:34:06,  1.27s/it] 79%|███████▉  | 38747/48845 [13:43:44<3:33:35,  1.27s/it] 79%|███████▉  | 38748/48845 [13:43:45<3:33:11,  1.27s/it] 79%|███████▉  | 38749/48845 [13:43:47<3:32:57,  1.27s/it] 79%|███████▉  | 38750/48845 [13:43:48<3:32:43,  1.26s/it]                                                          {'loss': 1.9977, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38750/48845 [13:43:48<3:32:43,  1.26s/it] 79%|███████▉  | 38751/48845 [13:43:49<3:32:35,  1.26s/it] 79%|███████▉  | 38752/48845 [13:43:50<3:32:47,  1.26s/it] 79%|███████▉  | 38753/48845 [13:43:52<3:32:36,  1.26s/it] 79%|███████▉  | 38754/48845 [13:43:53<3:32:40,  1.26s/it] 79%|███████▉  | 38755/48845 [13:43:54<3:32:21,  1.26s/it]                                                          {'loss': 1.9761, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38755/48845 [13:43:54<3:32:21,  1.26s/it] 79%|███████▉  | 38756/48845 [13:43:55<3:32:09,  1.26s/it] 79%|███████▉  | 38757/48845 [13:43:57<3:32:33,  1.26s/it] 79%|███████▉  | 38758/48845 [13:43:58<3:32:33,  1.26s/it] 79%|███████▉  | 38759/48845 [13:43:59<3:32:23,  1.26s/it] 79%|███████▉  | 38760/48845 [13:44:01<3:32:29,  1.26s/it]                                                          {'loss': 2.1368, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38760/48845 [13:44:01<3:32:29,  1.26s/it] 79%|███████▉  | 38761/48845 [13:44:02<3:32:37,  1.27s/it] 79%|███████▉  | 38762/48845 [13:44:03<3:32:21,  1.26s/it] 79%|███████▉  | 38763/48845 [13:44:04<3:32:12,  1.26s/it] 79%|███████▉  | 38764/48845 [13:44:06<3:32:20,  1.26s/it] 79%|███████▉  | 38765/48845 [13:44:07<3:32:38,  1.27s/it]                                                          {'loss': 2.1927, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38765/48845 [13:44:07<3:32:38,  1.27s/it] 79%|███████▉  | 38766/48845 [13:44:08<3:32:26,  1.26s/it] 79%|███████▉  | 38767/48845 [13:44:09<3:32:08,  1.26s/it] 79%|███████▉  | 38768/48845 [13:44:11<3:32:01,  1.26s/it] 79%|███████▉  | 38769/48845 [13:44:12<3:32:00,  1.26s/it] 79%|███████▉  | 38770/48845 [13:44:13<3:31:56,  1.26s/it]                                                          {'loss': 2.0216, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38770/48845 [13:44:13<3:31:56,  1.26s/it] 79%|███████▉  | 38771/48845 [13:44:14<3:31:56,  1.26s/it] 79%|███████▉  | 38772/48845 [13:44:16<3:31:41,  1.26s/it] 79%|███████▉  | 38773/48845 [13:44:17<3:31:54,  1.26s/it] 79%|███████▉  | 38774/48845 [13:44:18<3:32:02,  1.26s/it] 79%|███████▉  | 38775/48845 [13:44:20<3:31:59,  1.26s/it]                                                          {'loss': 2.0199, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38775/48845 [13:44:20<3:31:59,  1.26s/it] 79%|███████▉  | 38776/48845 [13:44:21<3:31:52,  1.26s/it] 79%|███████▉  | 38777/48845 [13:44:22<3:32:02,  1.26s/it] 79%|███████▉  | 38778/48845 [13:44:23<3:31:54,  1.26s/it] 79%|███████▉  | 38779/48845 [13:44:25<3:31:59,  1.26s/it] 79%|███████▉  | 38780/48845 [13:44:26<3:32:01,  1.26s/it]                                                          {'loss': 1.985, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38780/48845 [13:44:26<3:32:01,  1.26s/it] 79%|███████▉  | 38781/48845 [13:44:27<3:32:14,  1.27s/it] 79%|███████▉  | 38782/48845 [13:44:28<3:32:03,  1.26s/it] 79%|███████▉  | 38783/48845 [13:44:30<3:31:52,  1.26s/it] 79%|███████▉  | 38784/48845 [13:44:31<3:31:55,  1.26s/it] 79%|███████▉  | 38785/48845 [13:44:32<3:31:46,  1.26s/it]                                                          {'loss': 2.0655, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38785/48845 [13:44:32<3:31:46,  1.26s/it] 79%|███████▉  | 38786/48845 [13:44:33<3:31:38,  1.26s/it] 79%|███████▉  | 38787/48845 [13:44:35<3:31:35,  1.26s/it] 79%|███████▉  | 38788/48845 [13:44:36<3:31:32,  1.26s/it] 79%|███████▉  | 38789/48845 [13:44:37<3:37:39,  1.30s/it] 79%|███████▉  | 38790/48845 [13:44:39<3:35:52,  1.29s/it]                                                          {'loss': 1.922, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38790/48845 [13:44:39<3:35:52,  1.29s/it] 79%|███████▉  | 38791/48845 [13:44:40<3:34:56,  1.28s/it] 79%|███████▉  | 38792/48845 [13:44:41<3:34:04,  1.28s/it] 79%|███████▉  | 38793/48845 [13:44:42<3:34:41,  1.28s/it] 79%|███████▉  | 38794/48845 [13:44:44<3:33:41,  1.28s/it] 79%|███████▉  | 38795/48845 [13:44:45<3:32:56,  1.27s/it]                                                          {'loss': 2.0062, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38795/48845 [13:44:45<3:32:56,  1.27s/it] 79%|███████▉  | 38796/48845 [13:44:46<3:32:31,  1.27s/it] 79%|███████▉  | 38797/48845 [13:44:47<3:32:21,  1.27s/it] 79%|███████▉  | 38798/48845 [13:44:49<3:32:03,  1.27s/it] 79%|███████▉  | 38799/48845 [13:44:50<3:31:49,  1.27s/it] 79%|███████▉  | 38800/48845 [13:44:51<3:31:43,  1.26s/it]                                                          {'loss': 1.8963, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38800/48845 [13:44:51<3:31:43,  1.26s/it] 79%|███████▉  | 38801/48845 [13:44:55<5:43:08,  2.05s/it] 79%|███████▉  | 38802/48845 [13:44:56<5:03:12,  1.81s/it] 79%|███████▉  | 38803/48845 [13:44:58<4:35:32,  1.65s/it] 79%|███████▉  | 38804/48845 [13:44:59<4:16:04,  1.53s/it] 79%|███████▉  | 38805/48845 [13:45:00<4:02:18,  1.45s/it]                                                          {'loss': 1.9159, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38805/48845 [13:45:00<4:02:18,  1.45s/it] 79%|███████▉  | 38806/48845 [13:45:01<3:52:42,  1.39s/it] 79%|███████▉  | 38807/48845 [13:45:03<3:46:22,  1.35s/it] 79%|███████▉  | 38808/48845 [13:45:04<3:41:33,  1.32s/it] 79%|███████▉  | 38809/48845 [13:45:05<3:38:17,  1.31s/it] 79%|███████▉  | 38810/48845 [13:45:06<3:35:57,  1.29s/it]                                                          {'loss': 2.0219, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38810/48845 [13:45:06<3:35:57,  1.29s/it] 79%|███████▉  | 38811/48845 [13:45:08<3:34:25,  1.28s/it] 79%|███████▉  | 38812/48845 [13:45:09<3:33:19,  1.28s/it] 79%|███████▉  | 38813/48845 [13:45:10<3:32:33,  1.27s/it] 79%|███████▉  | 38814/48845 [13:45:11<3:31:51,  1.27s/it] 79%|███████▉  | 38815/48845 [13:45:13<3:31:21,  1.26s/it]                                                          {'loss': 1.9386, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38815/48845 [13:45:13<3:31:21,  1.26s/it] 79%|███████▉  | 38816/48845 [13:45:14<3:31:19,  1.26s/it] 79%|███████▉  | 38817/48845 [13:45:15<3:31:15,  1.26s/it] 79%|███████▉  | 38818/48845 [13:45:17<3:30:58,  1.26s/it] 79%|███████▉  | 38819/48845 [13:45:18<3:31:06,  1.26s/it] 79%|███████▉  | 38820/48845 [13:45:19<3:31:06,  1.26s/it]                                                          {'loss': 2.048, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38820/48845 [13:45:19<3:31:06,  1.26s/it] 79%|███████▉  | 38821/48845 [13:45:20<3:31:01,  1.26s/it] 79%|███████▉  | 38822/48845 [13:45:22<3:30:47,  1.26s/it] 79%|███████▉  | 38823/48845 [13:45:23<3:30:49,  1.26s/it] 79%|███████▉  | 38824/48845 [13:45:24<3:30:46,  1.26s/it] 79%|███████▉  | 38825/48845 [13:45:25<3:30:57,  1.26s/it]                                                          {'loss': 2.202, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38825/48845 [13:45:25<3:30:57,  1.26s/it] 79%|███████▉  | 38826/48845 [13:45:27<3:30:55,  1.26s/it] 79%|███████▉  | 38827/48845 [13:45:28<3:31:02,  1.26s/it] 79%|███████▉  | 38828/48845 [13:45:29<3:31:05,  1.26s/it] 79%|███████▉  | 38829/48845 [13:45:30<3:30:59,  1.26s/it] 79%|███████▉  | 38830/48845 [13:45:32<3:30:48,  1.26s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.97}
+ 79%|███████▉  | 38830/48845 [13:45:32<3:30:48,  1.26s/it] 79%|███████▉  | 38831/48845 [13:45:33<3:38:56,  1.31s/it] 80%|███████▉  | 38832/48845 [13:45:34<3:36:21,  1.30s/it] 80%|███████▉  | 38833/48845 [13:45:36<3:34:43,  1.29s/it] 80%|███████▉  | 38834/48845 [13:45:37<3:33:25,  1.28s/it] 80%|███████▉  | 38835/48845 [13:45:38<3:36:37,  1.30s/it]                                                          {'loss': 2.0374, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38835/48845 [13:45:38<3:36:37,  1.30s/it] 80%|███████▉  | 38836/48845 [13:45:40<3:34:52,  1.29s/it] 80%|███████▉  | 38837/48845 [13:45:41<3:33:27,  1.28s/it] 80%|███████▉  | 38838/48845 [13:45:42<3:32:34,  1.27s/it] 80%|███████▉  | 38839/48845 [13:45:43<3:37:48,  1.31s/it] 80%|███████▉  | 38840/48845 [13:45:45<3:35:39,  1.29s/it]                                                          {'loss': 2.0533, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38840/48845 [13:45:45<3:35:39,  1.29s/it] 80%|███████▉  | 38841/48845 [13:45:46<3:33:56,  1.28s/it] 80%|███████▉  | 38842/48845 [13:45:47<3:33:07,  1.28s/it] 80%|███████▉  | 38843/48845 [13:45:48<3:32:25,  1.27s/it] 80%|███████▉  | 38844/48845 [13:45:50<3:32:16,  1.27s/it] 80%|███████▉  | 38845/48845 [13:45:51<3:31:34,  1.27s/it]                                                          {'loss': 2.2275, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38845/48845 [13:45:51<3:31:34,  1.27s/it] 80%|███████▉  | 38846/48845 [13:45:52<3:31:28,  1.27s/it] 80%|███████▉  | 38847/48845 [13:45:54<3:35:01,  1.29s/it] 80%|███████▉  | 38848/48845 [13:45:55<3:33:31,  1.28s/it] 80%|███████▉  | 38849/48845 [13:45:56<3:32:46,  1.28s/it] 80%|███████▉  | 38850/48845 [13:45:57<3:31:54,  1.27s/it]                                                          {'loss': 2.0789, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38850/48845 [13:45:57<3:31:54,  1.27s/it] 80%|███████▉  | 38851/48845 [13:45:59<3:31:23,  1.27s/it] 80%|███████▉  | 38852/48845 [13:46:00<3:31:09,  1.27s/it] 80%|███████▉  | 38853/48845 [13:46:01<3:30:47,  1.27s/it] 80%|███████▉  | 38854/48845 [13:46:02<3:30:33,  1.26s/it] 80%|███████▉  | 38855/48845 [13:46:04<3:30:26,  1.26s/it]                                                          {'loss': 1.9739, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38855/48845 [13:46:04<3:30:26,  1.26s/it] 80%|███████▉  | 38856/48845 [13:46:05<3:30:30,  1.26s/it] 80%|███████▉  | 38857/48845 [13:46:06<3:30:18,  1.26s/it] 80%|███████▉  | 38858/48845 [13:46:07<3:30:07,  1.26s/it] 80%|███████▉  | 38859/48845 [13:46:09<3:30:17,  1.26s/it] 80%|███████▉  | 38860/48845 [13:46:10<3:30:14,  1.26s/it]                                                          {'loss': 2.0924, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38860/48845 [13:46:10<3:30:14,  1.26s/it] 80%|███████▉  | 38861/48845 [13:46:11<3:30:11,  1.26s/it] 80%|███████▉  | 38862/48845 [13:46:13<3:29:58,  1.26s/it] 80%|███████▉  | 38863/48845 [13:46:14<3:30:13,  1.26s/it] 80%|███████▉  | 38864/48845 [13:46:15<3:30:08,  1.26s/it] 80%|███████▉  | 38865/48845 [13:46:16<3:29:59,  1.26s/it]                                                          {'loss': 2.0648, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38865/48845 [13:46:16<3:29:59,  1.26s/it] 80%|███████▉  | 38866/48845 [13:46:18<3:30:00,  1.26s/it] 80%|███████▉  | 38867/48845 [13:46:19<3:30:11,  1.26s/it] 80%|███████▉  | 38868/48845 [13:46:20<3:30:24,  1.27s/it] 80%|███████▉  | 38869/48845 [13:46:21<3:30:16,  1.26s/it] 80%|███████▉  | 38870/48845 [13:46:23<3:30:08,  1.26s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38870/48845 [13:46:23<3:30:08,  1.26s/it] 80%|███████▉  | 38871/48845 [13:46:24<3:30:09,  1.26s/it] 80%|███████▉  | 38872/48845 [13:46:25<3:29:54,  1.26s/it] 80%|███████▉  | 38873/48845 [13:46:26<3:29:46,  1.26s/it] 80%|███████▉  | 38874/48845 [13:46:28<3:29:46,  1.26s/it] 80%|███████▉  | 38875/48845 [13:46:29<3:29:59,  1.26s/it]                                                          {'loss': 1.9429, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38875/48845 [13:46:29<3:29:59,  1.26s/it] 80%|███████▉  | 38876/48845 [13:46:30<3:29:50,  1.26s/it] 80%|███████▉  | 38877/48845 [13:46:31<3:29:37,  1.26s/it] 80%|███████▉  | 38878/48845 [13:46:33<3:29:31,  1.26s/it] 80%|███████▉  | 38879/48845 [13:46:34<3:29:44,  1.26s/it] 80%|███████▉  | 38880/48845 [13:46:35<3:29:36,  1.26s/it]                                                          {'loss': 2.0131, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38880/48845 [13:46:35<3:29:36,  1.26s/it] 80%|███████▉  | 38881/48845 [13:46:37<3:29:41,  1.26s/it] 80%|███████▉  | 38882/48845 [13:46:38<3:29:53,  1.26s/it] 80%|███████▉  | 38883/48845 [13:46:39<3:29:50,  1.26s/it] 80%|███████▉  | 38884/48845 [13:46:40<3:29:44,  1.26s/it] 80%|███████▉  | 38885/48845 [13:46:42<3:29:34,  1.26s/it]                                                          {'loss': 2.0956, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38885/48845 [13:46:42<3:29:34,  1.26s/it] 80%|███████▉  | 38886/48845 [13:46:43<3:29:29,  1.26s/it] 80%|███████▉  | 38887/48845 [13:46:44<3:29:34,  1.26s/it] 80%|███████▉  | 38888/48845 [13:46:45<3:29:37,  1.26s/it] 80%|███████▉  | 38889/48845 [13:46:47<3:29:31,  1.26s/it] 80%|███████▉  | 38890/48845 [13:46:48<3:29:28,  1.26s/it]                                                          {'loss': 2.1281, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|█���█████▉  | 38890/48845 [13:46:48<3:29:28,  1.26s/it] 80%|███████▉  | 38891/48845 [13:46:49<3:29:44,  1.26s/it] 80%|███████▉  | 38892/48845 [13:46:50<3:29:39,  1.26s/it] 80%|███████▉  | 38893/48845 [13:46:52<3:29:41,  1.26s/it] 80%|███████▉  | 38894/48845 [13:46:53<3:29:28,  1.26s/it] 80%|███████▉  | 38895/48845 [13:46:54<3:35:15,  1.30s/it]                                                          {'loss': 2.0231, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38895/48845 [13:46:54<3:35:15,  1.30s/it] 80%|███████▉  | 38896/48845 [13:46:56<3:33:31,  1.29s/it] 80%|███████▉  | 38897/48845 [13:46:57<3:32:15,  1.28s/it] 80%|███████▉  | 38898/48845 [13:46:58<3:31:16,  1.27s/it] 80%|███████▉  | 38899/48845 [13:46:59<3:31:12,  1.27s/it] 80%|███████▉  | 38900/48845 [13:47:01<3:30:33,  1.27s/it]                                                          {'loss': 2.0338, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38900/48845 [13:47:01<3:30:33,  1.27s/it] 80%|███████▉  | 38901/48845 [13:47:02<3:29:58,  1.27s/it] 80%|███████▉  | 38902/48845 [13:47:03<3:29:37,  1.26s/it] 80%|███████▉  | 38903/48845 [13:47:04<3:29:21,  1.26s/it] 80%|███████▉  | 38904/48845 [13:47:06<3:29:14,  1.26s/it] 80%|███████▉  | 38905/48845 [13:47:07<3:29:17,  1.26s/it]                                                          {'loss': 2.0413, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38905/48845 [13:47:07<3:29:17,  1.26s/it] 80%|███████▉  | 38906/48845 [13:47:08<3:29:17,  1.26s/it] 80%|███████▉  | 38907/48845 [13:47:10<3:29:32,  1.27s/it] 80%|███████▉  | 38908/48845 [13:47:11<3:29:09,  1.26s/it] 80%|███████▉  | 38909/48845 [13:47:12<3:29:05,  1.26s/it] 80%|███████▉  | 38910/48845 [13:47:13<3:29:02,  1.26s/it]                                                          {'loss': 2.0718, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38910/48845 [13:47:13<3:29:02,  1.26s/it] 80%|███████▉  | 38911/48845 [13:47:15<3:29:10,  1.26s/it] 80%|███████▉  | 38912/48845 [13:47:16<3:29:10,  1.26s/it] 80%|███████▉  | 38913/48845 [13:47:17<3:29:03,  1.26s/it] 80%|███████▉  | 38914/48845 [13:47:18<3:28:53,  1.26s/it] 80%|███████▉  | 38915/48845 [13:47:20<3:28:56,  1.26s/it]                                                          {'loss': 1.9543, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38915/48845 [13:47:20<3:28:56,  1.26s/it] 80%|███████▉  | 38916/48845 [13:47:21<3:28:55,  1.26s/it] 80%|███████▉  | 38917/48845 [13:47:22<3:28:49,  1.26s/it] 80%|███████▉  | 38918/48845 [13:47:23<3:28:55,  1.26s/it] 80%|███████▉  | 38919/48845 [13:47:25<3:28:57,  1.26s/it] 80%|███████▉  | 38920/48845 [13:47:26<3:28:50,  1.26s/it]                                                          {'loss': 1.9778, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38920/48845 [13:47:26<3:28:50,  1.26s/it] 80%|███████▉  | 38921/48845 [13:47:27<3:28:50,  1.26s/it] 80%|███████▉  | 38922/48845 [13:47:28<3:28:40,  1.26s/it] 80%|███████▉  | 38923/48845 [13:47:30<3:34:44,  1.30s/it] 80%|███████▉  | 38924/48845 [13:47:31<3:32:47,  1.29s/it] 80%|███████▉  | 38925/48845 [13:47:32<3:31:40,  1.28s/it]                                                          {'loss': 1.9293, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.98}
+ 80%|███████▉  | 38925/48845 [13:47:32<3:31:40,  1.28s/it] 80%|███████▉  | 38926/48845 [13:47:34<3:31:03,  1.28s/it] 80%|███████▉  | 38927/48845 [13:47:35<3:30:33,  1.27s/it] 80%|███████▉  | 38928/48845 [13:47:36<3:30:21,  1.27s/it] 80%|███████▉  | 38929/48845 [13:47:37<3:29:45,  1.27s/it] 80%|███████▉  | 38930/48845 [13:47:39<3:29:16,  1.27s/it]                                                          {'loss': 2.0468, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38930/48845 [13:47:39<3:29:16,  1.27s/it] 80%|███████▉  | 38931/48845 [13:47:40<3:29:13,  1.27s/it] 80%|███████▉  | 38932/48845 [13:47:41<3:29:01,  1.27s/it] 80%|███████▉  | 38933/48845 [13:47:42<3:28:54,  1.26s/it] 80%|███████▉  | 38934/48845 [13:47:44<3:28:43,  1.26s/it] 80%|███████▉  | 38935/48845 [13:47:45<3:28:40,  1.26s/it]                                                          {'loss': 2.0587, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38935/48845 [13:47:45<3:28:40,  1.26s/it] 80%|███████▉  | 38936/48845 [13:47:46<3:28:40,  1.26s/it] 80%|███████▉  | 38937/48845 [13:47:48<3:28:28,  1.26s/it] 80%|███████▉  | 38938/48845 [13:47:49<3:28:20,  1.26s/it] 80%|███████▉  | 38939/48845 [13:47:50<3:28:19,  1.26s/it] 80%|███████▉  | 38940/48845 [13:47:51<3:28:34,  1.26s/it]                                                          {'loss': 2.1487, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38940/48845 [13:47:51<3:28:34,  1.26s/it] 80%|███████▉  | 38941/48845 [13:47:53<3:28:33,  1.26s/it] 80%|███████▉  | 38942/48845 [13:47:54<3:28:26,  1.26s/it] 80%|███████▉  | 38943/48845 [13:47:55<3:28:30,  1.26s/it] 80%|███████▉  | 38944/48845 [13:47:56<3:28:31,  1.26s/it] 80%|███████▉  | 38945/48845 [13:47:58<3:28:45,  1.27s/it]                                                          {'loss': 1.9631, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38945/48845 [13:47:58<3:28:45,  1.27s/it] 80%|███████▉  | 38946/48845 [13:47:59<3:28:37,  1.26s/it] 80%|███████▉  | 38947/48845 [13:48:00<3:28:32,  1.26s/it] 80%|███████▉  | 38948/48845 [13:48:01<3:28:18,  1.26s/it] 80%|███████▉  | 38949/48845 [13:48:03<3:28:09,  1.26s/it] 80%|███████▉  | 38950/48845 [13:48:04<3:28:08,  1.26s/it]                                                          {'loss': 1.9147, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38950/48845 [13:48:04<3:28:08,  1.26s/it] 80%|███████▉  | 38951/48845 [13:48:05<3:28:21,  1.26s/it] 80%|███████▉  | 38952/48845 [13:48:06<3:28:23,  1.26s/it] 80%|███████▉  | 38953/48845 [13:48:08<3:28:09,  1.26s/it] 80%|███████▉  | 38954/48845 [13:48:09<3:27:55,  1.26s/it] 80%|███████▉  | 38955/48845 [13:48:10<3:28:40,  1.27s/it]                                                          {'loss': 1.9886, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38955/48845 [13:48:10<3:28:40,  1.27s/it] 80%|███████▉  | 38956/48845 [13:48:12<3:28:22,  1.26s/it] 80%|███████▉  | 38957/48845 [13:48:13<3:28:19,  1.26s/it] 80%|███████▉  | 38958/48845 [13:48:14<3:28:13,  1.26s/it] 80%|███████▉  | 38959/48845 [13:48:15<3:28:13,  1.26s/it] 80%|███████▉  | 38960/48845 [13:48:17<3:28:00,  1.26s/it]                                                          {'loss': 1.8694, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38960/48845 [13:48:17<3:28:00,  1.26s/it] 80%|███████▉  | 38961/48845 [13:48:18<3:27:53,  1.26s/it] 80%|███████▉  | 38962/48845 [13:48:19<3:27:41,  1.26s/it] 80%|███████▉  | 38963/48845 [13:48:20<3:27:53,  1.26s/it] 80%|███████▉  | 38964/48845 [13:48:22<3:28:27,  1.27s/it] 80%|███████▉  | 38965/48845 [13:48:23<3:28:06,  1.26s/it]                                                          {'loss': 2.0314, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38965/48845 [13:48:23<3:28:06,  1.26s/it] 80%|███████▉  | 38966/48845 [13:48:24<3:28:13,  1.26s/it] 80%|███████▉  | 38967/48845 [13:48:25<3:28:03,  1.26s/it] 80%|███████▉  | 38968/48845 [13:48:27<3:31:18,  1.28s/it] 80%|███████▉  | 38969/48845 [13:48:28<3:30:24,  1.28s/it] 80%|███████▉  | 38970/48845 [13:48:29<3:29:53,  1.28s/it]                                                          {'loss': 2.0391, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38970/48845 [13:48:29<3:29:53,  1.28s/it] 80%|███████▉  | 38971/48845 [13:48:31<3:29:20,  1.27s/it] 80%|███████▉  | 38972/48845 [13:48:32<3:29:12,  1.27s/it] 80%|███████▉  | 38973/48845 [13:48:33<3:28:39,  1.27s/it] 80%|███████▉  | 38974/48845 [13:48:34<3:28:15,  1.27s/it] 80%|███████▉  | 38975/48845 [13:48:36<3:27:59,  1.26s/it]                                                          {'loss': 2.0403, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38975/48845 [13:48:36<3:27:59,  1.26s/it] 80%|███████▉  | 38976/48845 [13:48:37<3:28:17,  1.27s/it] 80%|███████▉  | 38977/48845 [13:48:38<3:28:01,  1.26s/it] 80%|███████▉  | 38978/48845 [13:48:39<3:27:56,  1.26s/it] 80%|█████���█▉  | 38979/48845 [13:48:41<3:27:51,  1.26s/it] 80%|███████▉  | 38980/48845 [13:48:42<3:27:38,  1.26s/it]                                                          {'loss': 2.0436, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38980/48845 [13:48:42<3:27:38,  1.26s/it] 80%|███████▉  | 38981/48845 [13:48:43<3:27:34,  1.26s/it] 80%|███████▉  | 38982/48845 [13:48:44<3:27:33,  1.26s/it] 80%|███████▉  | 38983/48845 [13:48:46<3:27:41,  1.26s/it] 80%|███████▉  | 38984/48845 [13:48:47<3:32:28,  1.29s/it] 80%|███████▉  | 38985/48845 [13:48:48<3:31:05,  1.28s/it]                                                          {'loss': 1.9562, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38985/48845 [13:48:48<3:31:05,  1.28s/it] 80%|███████▉  | 38986/48845 [13:48:50<3:34:35,  1.31s/it] 80%|███████▉  | 38987/48845 [13:48:51<3:32:27,  1.29s/it] 80%|███████▉  | 38988/48845 [13:48:52<3:31:05,  1.28s/it] 80%|███████▉  | 38989/48845 [13:48:53<3:29:49,  1.28s/it] 80%|███████▉  | 38990/48845 [13:48:55<3:29:08,  1.27s/it]                                                          {'loss': 1.9676, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38990/48845 [13:48:55<3:29:08,  1.27s/it] 80%|███████▉  | 38991/48845 [13:48:56<3:28:37,  1.27s/it] 80%|███████▉  | 38992/48845 [13:48:57<3:28:15,  1.27s/it] 80%|███████▉  | 38993/48845 [13:48:59<3:28:01,  1.27s/it] 80%|███████▉  | 38994/48845 [13:49:00<3:27:44,  1.27s/it] 80%|███████▉  | 38995/48845 [13:49:01<3:27:23,  1.26s/it]                                                          {'loss': 2.065, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 38995/48845 [13:49:01<3:27:23,  1.26s/it] 80%|███████▉  | 38996/48845 [13:49:02<3:27:28,  1.26s/it] 80%|███████▉  | 38997/48845 [13:49:04<3:27:23,  1.26s/it] 80%|███████▉  | 38998/48845 [13:49:05<3:27:18,  1.26s/it] 80%|███████▉  | 38999/48845 [13:49:06<3:27:17,  1.26s/it] 80%|███████▉  | 39000/48845 [13:49:07<3:29:42,  1.28s/it]                                                          {'loss': 2.0404, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39000/48845 [13:49:07<3:29:42,  1.28s/it] 80%|███████▉  | 39001/48845 [13:49:11<5:33:09,  2.03s/it] 80%|███████▉  | 39002/48845 [13:49:12<4:55:18,  1.80s/it] 80%|███████▉  | 39003/48845 [13:49:14<4:28:33,  1.64s/it] 80%|███████▉  | 39004/48845 [13:49:15<4:09:41,  1.52s/it] 80%|███████▉  | 39005/48845 [13:49:16<3:56:51,  1.44s/it]                                                          {'loss': 2.0438, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39005/48845 [13:49:16<3:56:51,  1.44s/it] 80%|███████▉  | 39006/48845 [13:49:18<3:47:46,  1.39s/it] 80%|███████▉  | 39007/48845 [13:49:19<3:41:31,  1.35s/it] 80%|███████▉  | 39008/48845 [13:49:20<3:36:56,  1.32s/it] 80%|███████▉  | 39009/48845 [13:49:21<3:33:50,  1.30s/it] 80%|███████▉  | 39010/48845 [13:49:23<3:31:49,  1.29s/it]                                                          {'loss': 1.9714, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39010/48845 [13:49:23<3:31:49,  1.29s/it] 80%|███████▉  | 39011/48845 [13:49:24<3:30:22,  1.28s/it] 80%|███████▉  | 39012/48845 [13:49:25<3:29:11,  1.28s/it] 80%|███████▉  | 39013/48845 [13:49:26<3:28:26,  1.27s/it] 80%|███████▉  | 39014/48845 [13:49:28<3:28:05,  1.27s/it] 80%|███████▉  | 39015/48845 [13:49:29<3:27:40,  1.27s/it]                                                          {'loss': 2.2445, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39015/48845 [13:49:29<3:27:40,  1.27s/it] 80%|███████▉  | 39016/48845 [13:49:30<3:27:45,  1.27s/it] 80%|███████▉  | 39017/48845 [13:49:31<3:27:12,  1.26s/it] 80%|███████▉  | 39018/48845 [13:49:33<3:27:23,  1.27s/it] 80%|███████▉  | 39019/48845 [13:49:34<3:27:16,  1.27s/it] 80%|███████▉  | 39020/48845 [13:49:35<3:27:02,  1.26s/it]                                                          {'loss': 2.1139, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39020/48845 [13:49:35<3:27:02,  1.26s/it] 80%|███████▉  | 39021/48845 [13:49:36<3:26:54,  1.26s/it] 80%|███████▉  | 39022/48845 [13:49:38<3:27:11,  1.27s/it] 80%|███████▉  | 39023/48845 [13:49:39<3:26:53,  1.26s/it] 80%|███████▉  | 39024/48845 [13:49:40<3:26:56,  1.26s/it] 80%|███████▉  | 39025/48845 [13:49:42<3:26:49,  1.26s/it]                                                          {'loss': 1.956, 'learning_rate': 4.1031279423066025e-05, 'epoch': 3.99}
+ 80%|███████▉  | 39025/48845 [13:49:42<3:26:49,  1.26s/it] 80%|███████▉  | 39026/48845 [13:49:43<3:26:54,  1.26s/it] 80%|███████▉  | 39027/48845 [13:49:44<3:26:56,  1.26s/it] 80%|███████▉  | 39028/48845 [13:49:45<3:26:51,  1.26s/it] 80%|███████▉  | 39029/48845 [13:49:47<3:26:51,  1.26s/it] 80%|███████▉  | 39030/48845 [13:49:48<3:27:03,  1.27s/it]                                                          {'loss': 2.0379, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39030/48845 [13:49:48<3:27:03,  1.27s/it] 80%|███████▉  | 39031/48845 [13:49:49<3:27:02,  1.27s/it] 80%|███████▉  | 39032/48845 [13:49:50<3:26:57,  1.27s/it] 80%|███████▉  | 39033/48845 [13:49:52<3:26:43,  1.26s/it] 80%|███████▉  | 39034/48845 [13:49:53<3:26:30,  1.26s/it] 80%|███████▉  | 39035/48845 [13:49:54<3:26:41,  1.26s/it]                                                          {'loss': 2.0583, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39035/48845 [13:49:54<3:26:41,  1.26s/it] 80%|███████▉  | 39036/48845 [13:49:55<3:26:28,  1.26s/it] 80%|███████▉  | 39037/48845 [13:49:57<3:26:25,  1.26s/it] 80%|███████▉  | 39038/48845 [13:49:58<3:28:12,  1.27s/it] 80%|███████▉  | 39039/48845 [13:49:59<3:27:34,  1.27s/it] 80%|███████▉  | 39040/48845 [13:50:00<3:27:01,  1.27s/it]                                                          {'loss': 1.9592, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39040/48845 [13:50:00<3:27:01,  1.27s/it] 80%|███████▉  | 39041/48845 [13:50:02<3:26:54,  1.27s/it] 80%|███████▉  | 39042/48845 [13:50:03<3:34:17,  1.31s/it] 80%|███████▉  | 39043/48845 [13:50:04<3:31:47,  1.30s/it] 80%|███████▉  | 39044/48845 [13:50:06<3:29:49,  1.28s/it] 80%|███████▉  | 39045/48845 [13:50:07<3:28:34,  1.28s/it]                                                          {'loss': 2.1346, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39045/48845 [13:50:07<3:28:34,  1.28s/it] 80%|███████▉  | 39046/48845 [13:50:08<3:28:01,  1.27s/it] 80%|███████▉  | 39047/48845 [13:50:09<3:27:13,  1.27s/it] 80%|███████▉  | 39048/48845 [13:50:11<3:26:47,  1.27s/it] 80%|███████▉  | 39049/48845 [13:50:12<3:26:24,  1.26s/it] 80%|███████▉  | 39050/48845 [13:50:13<3:26:22,  1.26s/it]                                                          {'loss': 1.9542, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39050/48845 [13:50:13<3:26:22,  1.26s/it] 80%|███████▉  | 39051/48845 [13:50:15<3:26:30,  1.27s/it] 80%|███████▉  | 39052/48845 [13:50:16<3:26:15,  1.26s/it] 80%|███████▉  | 39053/48845 [13:50:17<3:26:09,  1.26s/it] 80%|███████▉  | 39054/48845 [13:50:18<3:26:13,  1.26s/it] 80%|███████▉  | 39055/48845 [13:50:20<3:25:58,  1.26s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39055/48845 [13:50:20<3:25:58,  1.26s/it] 80%|███████▉  | 39056/48845 [13:50:21<3:25:53,  1.26s/it] 80%|███████▉  | 39057/48845 [13:50:22<3:25:55,  1.26s/it] 80%|███████▉  | 39058/48845 [13:50:23<3:25:50,  1.26s/it] 80%|███████▉  | 39059/48845 [13:50:25<3:25:57,  1.26s/it] 80%|███████▉  | 39060/48845 [13:50:26<3:25:48,  1.26s/it]                                                          {'loss': 2.0517, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39060/48845 [13:50:26<3:25:48,  1.26s/it] 80%|███████▉  | 39061/48845 [13:50:27<3:25:43,  1.26s/it] 80%|███████▉  | 39062/48845 [13:50:28<3:27:22,  1.27s/it] 80%|███████▉  | 39063/48845 [13:50:30<3:26:46,  1.27s/it] 80%|███████▉  | 39064/48845 [13:50:31<3:26:25,  1.27s/it] 80%|███████▉  | 39065/48845 [13:50:32<3:26:05,  1.26s/it]                                                          {'loss': 2.0394, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39065/48845 [13:50:32<3:26:05,  1.26s/it] 80%|███████▉  | 39066/48845 [13:50:34<3:32:59,  1.31s/it] 80%|███████▉  | 39067/48845 [13:50:35<3:30:39,  1.29s/it] 80%|███████▉  | 39068/48845 [13:50:36<3:29:04,  1.28s/it] 80%|███████▉  | 39069/48845 [13:50:37<3:27:53,  1.28s/it] 80%|███████▉  | 39070/48845 [13:50:39<3:32:50,  1.31s/it]                                                          {'loss': 2.1132, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39070/48845 [13:50:39<3:32:50,  1.31s/it] 80%|███████▉  | 39071/48845 [13:50:40<3:31:12,  1.30s/it] 80%|███████▉  | 39072/48845 [13:50:41<3:29:34,  1.29s/it] 80%|███████▉  | 39073/48845 [13:50:43<3:28:11,  1.28s/it] 80%|███████▉  | 39074/48845 [13:50:44<3:27:26,  1.27s/it] 80%|███████▉  | 39075/48845 [13:50:45<3:27:04,  1.27s/it]                                                          {'loss': 2.0619, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|███████▉  | 39075/48845 [13:50:45<3:27:04,  1.27s/it] 80%|████████  | 39076/48845 [13:50:46<3:26:47,  1.27s/it] 80%|████████  | 39077/48845 [13:50:48<3:29:00,  1.28s/it] 80%|████████  | 39078/48845 [13:50:49<3:28:45,  1.28s/it] 80%|████████  | 39079/48845 [13:50:50<3:27:46,  1.28s/it] 80%|████████  | 39080/48845 [13:50:51<3:26:55,  1.27s/it]                                                          {'loss': 2.2425, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39080/48845 [13:50:51<3:26:55,  1.27s/it] 80%|████████  | 39081/48845 [13:50:53<3:26:35,  1.27s/it] 80%|████████  | 39082/48845 [13:50:54<3:26:27,  1.27s/it] 80%|████████  | 39083/48845 [13:50:55<3:26:06,  1.27s/it] 80%|████████  | 39084/48845 [13:50:57<3:25:53,  1.27s/it] 80%|████████  | 39085/48845 [13:50:58<3:25:44,  1.26s/it]                                                          {'loss': 1.9768, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39085/48845 [13:50:58<3:25:44,  1.26s/it] 80%|████████  | 39086/48845 [13:50:59<3:25:44,  1.26s/it] 80%|████████  | 39087/48845 [13:51:00<3:25:33,  1.26s/it] 80%|████████  | 39088/48845 [13:51:02<3:25:36,  1.26s/it] 80%|████████  | 39089/48845 [13:51:03<3:25:34,  1.26s/it] 80%|████████  | 39090/48845 [13:51:04<3:32:37,  1.31s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39090/48845 [13:51:04<3:32:37,  1.31s/it] 80%|████████  | 39091/48845 [13:51:06<3:30:15,  1.29s/it] 80%|████████  | 39092/48845 [13:51:07<3:28:43,  1.28s/it] 80%|████████  | 39093/48845 [13:51:08<3:27:40,  1.28s/it] 80%|████████  | 39094/48845 [13:51:09<3:27:07,  1.27s/it] 80%|████████  | 39095/48845 [13:51:11<3:26:39,  1.27s/it]                                                          {'loss': 1.8637, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39095/48845 [13:51:11<3:26:39,  1.27s/it] 80%|████████  | 39096/48845 [13:51:12<3:26:20,  1.27s/it] 80%|████████  | 39097/48845 [13:51:13<3:25:59,  1.27s/it] 80%|████████  | 39098/48845 [13:51:15<3:32:23,  1.31s/it] 80%|████████  | 39099/48845 [13:51:16<3:30:16,  1.29s/it] 80%|████████  | 39100/48845 [13:51:17<3:28:28,  1.28s/it]                                                          {'loss': 2.0201, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39100/48845 [13:51:17<3:28:28,  1.28s/it] 80%|████████  | 39101/48845 [13:51:18<3:27:25,  1.28s/it] 80%|████████  | 39102/48845 [13:51:20<3:30:02,  1.29s/it] 80%|████████  | 39103/48845 [13:51:21<3:28:49,  1.29s/it] 80%|████████  | 39104/48845 [13:51:22<3:27:40,  1.28s/it] 80%|████████  | 39105/48845 [13:51:23<3:26:46,  1.27s/it]                                                          {'loss': 1.9774, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39105/48845 [13:51:23<3:26:46,  1.27s/it] 80%|████████  | 39106/48845 [13:51:25<3:26:19,  1.27s/it] 80%|████████  | 39107/48845 [13:51:26<3:25:46,  1.27s/it] 80%|████████  | 39108/48845 [13:51:27<3:25:30,  1.27s/it] 80%|████████  | 39109/48845 [13:51:28<3:25:21,  1.27s/it] 80%|████████  | 39110/48845 [13:51:30<3:25:31,  1.27s/it]                                                          {'loss': 2.288, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39110/48845 [13:51:30<3:25:31,  1.27s/it] 80%|████████  | 39111/48845 [13:51:31<3:25:24,  1.27s/it] 80%|████████  | 39112/48845 [13:51:32<3:25:10,  1.26s/it] 80%|████████  | 39113/48845 [13:51:34<3:25:16,  1.27s/it] 80%|████████  | 39114/48845 [13:51:35<3:25:25,  1.27s/it] 80%|████████  | 39115/48845 [13:51:36<3:25:22,  1.27s/it]                                                          {'loss': 2.0093, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39115/48845 [13:51:36<3:25:22,  1.27s/it] 80%|████████  | 39116/48845 [13:51:37<3:25:07,  1.27s/it] 80%|████████  | 39117/48845 [13:51:39<3:25:07,  1.27s/it] 80%|████████  | 39118/48845 [13:51:40<3:25:02,  1.26s/it] 80%|████████  | 39119/48845 [13:51:41<3:24:57,  1.26s/it] 80%|████████  | 39120/48845 [13:51:42<3:24:54,  1.26s/it]                                                          {'loss': 2.0251, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.0}
+ 80%|████████  | 39120/48845 [13:51:42<3:24:54,  1.26s/it] 80%|████████  | 39121/48845 [13:51:44<3:24:51,  1.26s/it] 80%|████████  | 39122/48845 [13:51:45<3:24:47,  1.26s/it] 80%|████████  | 39123/48845 [13:51:46<3:24:47,  1.26s/it] 80%|████████  | 39124/48845 [13:51:47<3:24:41,  1.26s/it] 80%|████████  | 39125/48845 [13:51:49<3:24:43,  1.26s/it]                                                          {'loss': 1.9945, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.01}
+ 80%|████████  | 39125/48845 [13:51:49<3:24:43,  1.26s/it] 80%|████████  | 39126/48845 [13:51:50<3:24:54,  1.27s/it] 80%|████████  | 39127/48845 [13:51:51<3:24:47,  1.26s/it] 80%|████████  | 39128/48845 [13:51:53<3:24:41,  1.26s/it] 80%|████████  | 39129/48845 [13:51:54<3:24:35,  1.26s/it] 80%|████████  | 39130/48845 [13:51:55<3:24:36,  1.26s/it]                                                          {'loss': 2.1613, 'learning_rate': 4.1031279423066025e-05, 'epoch': 4.01}
+ 80%|████████  | 39130/48845 [13:51:55<3:24:36,  1.26s/it] 80%|████████  | 39131/48845 [13:51:57<3:34:48,  1.33s/it] 80%|████████  | 39132/48845 [13:51:58<3:31:49,  1.31s/it] 80%|████████  | 39133/48845 [13:51:59<3:29:32,  1.29s/it] 80%|████████  | 39134/48845 [13:52:00<3:28:12,  1.29s/it] 80%|████████  | 39135/48845 [13:52:02<3:27:01,  1.28s/it]                                                          {'loss': 1.803, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39135/48845 [13:52:02<3:27:01,  1.28s/it] 80%|████████  | 39136/48845 [13:52:03<3:26:14,  1.27s/it] 80%|████████  | 39137/48845 [13:52:04<3:25:43,  1.27s/it] 80%|████████  | 39138/48845 [13:52:06<3:32:36,  1.31s/it] 80%|████████  | 39139/48845 [13:52:07<3:29:53,  1.30s/it] 80%|████████  | 39140/48845 [13:52:08<3:28:01,  1.29s/it]                                                          {'loss': 1.9088, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39140/48845 [13:52:08<3:28:01,  1.29s/it] 80%|████████  | 39141/48845 [13:52:09<3:26:58,  1.28s/it] 80%|████████  | 39142/48845 [13:52:11<3:26:05,  1.27s/it] 80%|████████  | 39143/48845 [13:52:12<3:25:28,  1.27s/it] 80%|████████  | 39144/48845 [13:52:13<3:25:06,  1.27s/it] 80%|████████  | 39145/48845 [13:52:14<3:24:55,  1.27s/it]                                                          {'loss': 2.0451, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39145/48845 [13:52:14<3:24:55,  1.27s/it] 80%|████████  | 39146/48845 [13:52:16<3:24:53,  1.27s/it] 80%|████████  | 39147/48845 [13:52:17<3:24:41,  1.27s/it] 80%|████████  | 39148/48845 [13:52:18<3:24:32,  1.27s/it] 80%|████████  | 39149/48845 [13:52:19<3:24:30,  1.27s/it] 80%|████████  | 39150/48845 [13:52:21<3:24:21,  1.26s/it]                                                          {'loss': 2.0828, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39150/48845 [13:52:21<3:24:21,  1.26s/it] 80%|████████  | 39151/48845 [13:52:22<3:24:17,  1.26s/it] 80%|████████  | 39152/48845 [13:52:23<3:24:07,  1.26s/it] 80%|████████  | 39153/48845 [13:52:24<3:24:08,  1.26s/it] 80%|████████  | 39154/48845 [13:52:26<3:24:19,  1.27s/it] 80%|█���██████  | 39155/48845 [13:52:27<3:24:13,  1.26s/it]                                                          {'loss': 2.0855, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39155/48845 [13:52:27<3:24:13,  1.26s/it] 80%|████████  | 39156/48845 [13:52:28<3:24:07,  1.26s/it] 80%|████████  | 39157/48845 [13:52:30<3:24:09,  1.26s/it] 80%|████████  | 39158/48845 [13:52:31<3:24:11,  1.26s/it] 80%|████████  | 39159/48845 [13:52:32<3:23:57,  1.26s/it] 80%|████████  | 39160/48845 [13:52:33<3:24:10,  1.26s/it]                                                          {'loss': 2.1824, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39160/48845 [13:52:33<3:24:10,  1.26s/it] 80%|████████  | 39161/48845 [13:52:35<3:24:17,  1.27s/it] 80%|████████  | 39162/48845 [13:52:36<3:24:13,  1.27s/it] 80%|████████  | 39163/48845 [13:52:37<3:23:59,  1.26s/it] 80%|████████  | 39164/48845 [13:52:38<3:24:09,  1.27s/it] 80%|████████  | 39165/48845 [13:52:40<3:24:01,  1.26s/it]                                                          {'loss': 2.0602, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39165/48845 [13:52:40<3:24:01,  1.26s/it] 80%|████████  | 39166/48845 [13:52:41<3:23:55,  1.26s/it] 80%|████████  | 39167/48845 [13:52:42<3:23:47,  1.26s/it] 80%|████████  | 39168/48845 [13:52:43<3:23:35,  1.26s/it] 80%|████████  | 39169/48845 [13:52:45<3:23:53,  1.26s/it] 80%|████████  | 39170/48845 [13:52:46<3:23:44,  1.26s/it]                                                          {'loss': 2.249, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39170/48845 [13:52:46<3:23:44,  1.26s/it] 80%|████████  | 39171/48845 [13:52:47<3:23:47,  1.26s/it] 80%|████████  | 39172/48845 [13:52:48<3:23:35,  1.26s/it] 80%|████████  | 39173/48845 [13:52:50<3:23:31,  1.26s/it] 80%|████████  | 39174/48845 [13:52:51<3:23:27,  1.26s/it] 80%|████████  | 39175/48845 [13:52:52<3:23:28,  1.26s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39175/48845 [13:52:52<3:23:28,  1.26s/it] 80%|████████  | 39176/48845 [13:52:54<3:23:30,  1.26s/it] 80%|████████  | 39177/48845 [13:52:55<3:23:33,  1.26s/it] 80%|████████  | 39178/48845 [13:52:56<3:23:14,  1.26s/it] 80%|████████  | 39179/48845 [13:52:57<3:23:21,  1.26s/it] 80%|████████  | 39180/48845 [13:52:59<3:23:14,  1.26s/it]                                                          {'loss': 1.9487, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39180/48845 [13:52:59<3:23:14,  1.26s/it] 80%|████████  | 39181/48845 [13:53:00<3:23:44,  1.26s/it] 80%|████████  | 39182/48845 [13:53:01<3:23:37,  1.26s/it] 80%|████████  | 39183/48845 [13:53:02<3:23:26,  1.26s/it] 80%|████████  | 39184/48845 [13:53:04<3:23:21,  1.26s/it] 80%|████████  | 39185/48845 [13:53:05<3:23:30,  1.26s/it]                                                          {'loss': 2.098, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39185/48845 [13:53:05<3:23:30,  1.26s/it] 80%|████████  | 39186/48845 [13:53:06<3:23:48,  1.27s/it] 80%|████████  | 39187/48845 [13:53:07<3:23:37,  1.27s/it] 80%|████████  | 39188/48845 [13:53:09<3:23:37,  1.27s/it] 80%|████████  | 39189/48845 [13:53:10<3:23:37,  1.27s/it] 80%|████████  | 39190/48845 [13:53:11<3:23:48,  1.27s/it]                                                          {'loss': 2.0601, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39190/48845 [13:53:11<3:23:48,  1.27s/it] 80%|████████  | 39191/48845 [13:53:13<3:23:40,  1.27s/it] 80%|████████  | 39192/48845 [13:53:14<3:23:33,  1.27s/it] 80%|████████  | 39193/48845 [13:53:15<3:23:27,  1.26s/it] 80%|████████  | 39194/48845 [13:53:16<3:23:18,  1.26s/it] 80%|████████  | 39195/48845 [13:53:18<3:23:05,  1.26s/it]                                                          {'loss': 2.2158, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39195/48845 [13:53:18<3:23:05,  1.26s/it] 80%|████████  | 39196/48845 [13:53:19<3:23:10,  1.26s/it] 80%|████████  | 39197/48845 [13:53:20<3:23:18,  1.26s/it] 80%|██████��█  | 39198/48845 [13:53:21<3:23:16,  1.26s/it] 80%|████████  | 39199/48845 [13:53:23<3:23:08,  1.26s/it] 80%|████████  | 39200/48845 [13:53:24<3:23:11,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39200/48845 [13:53:24<3:23:11,  1.26s/it] 80%|████████  | 39201/48845 [13:53:28<5:26:40,  2.03s/it] 80%|████████  | 39202/48845 [13:53:29<4:49:28,  1.80s/it] 80%|████████  | 39203/48845 [13:53:30<4:23:29,  1.64s/it] 80%|████████  | 39204/48845 [13:53:31<4:05:12,  1.53s/it] 80%|████████  | 39205/48845 [13:53:33<3:52:17,  1.45s/it]                                                          {'loss': 1.9852, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39205/48845 [13:53:33<3:52:17,  1.45s/it] 80%|████████  | 39206/48845 [13:53:34<3:43:29,  1.39s/it] 80%|████████  | 39207/48845 [13:53:35<3:37:08,  1.35s/it] 80%|████████  | 39208/48845 [13:53:37<3:32:48,  1.32s/it] 80%|████████  | 39209/48845 [13:53:38<3:30:03,  1.31s/it] 80%|████████  | 39210/48845 [13:53:39<3:28:21,  1.30s/it]                                                          {'loss': 2.2477, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39210/48845 [13:53:39<3:28:21,  1.30s/it] 80%|████████  | 39211/48845 [13:53:40<3:26:58,  1.29s/it] 80%|████████  | 39212/48845 [13:53:42<3:25:35,  1.28s/it] 80%|████████  | 39213/48845 [13:53:43<3:24:53,  1.28s/it] 80%|████████  | 39214/48845 [13:53:44<3:24:15,  1.27s/it] 80%|████████  | 39215/48845 [13:53:45<3:23:57,  1.27s/it]                                                          {'loss': 2.1438, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39215/48845 [13:53:45<3:23:57,  1.27s/it] 80%|████████  | 39216/48845 [13:53:47<3:23:29,  1.27s/it] 80%|████████  | 39217/48845 [13:53:48<3:23:22,  1.27s/it] 80%|████████  | 39218/48845 [13:53:49<3:23:06,  1.27s/it] 80%|████████  | 39219/48845 [13:53:50<3:22:57,  1.27s/it] 80%|████████  | 39220/48845 [13:53:52<3:22:56,  1.27s/it]                                                          {'loss': 2.0659, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.01}
+ 80%|████████  | 39220/48845 [13:53:52<3:22:56,  1.27s/it] 80%|████████  | 39221/48845 [13:53:53<3:22:56,  1.27s/it] 80%|████████  | 39222/48845 [13:53:54<3:23:00,  1.27s/it] 80%|████████  | 39223/48845 [13:53:56<3:22:57,  1.27s/it] 80%|████████  | 39224/48845 [13:53:57<3:22:56,  1.27s/it] 80%|████████  | 39225/48845 [13:53:58<3:22:43,  1.26s/it]                                                          {'loss': 2.0269, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39225/48845 [13:53:58<3:22:43,  1.26s/it] 80%|████████  | 39226/48845 [13:53:59<3:22:39,  1.26s/it] 80%|████████  | 39227/48845 [13:54:01<3:22:28,  1.26s/it] 80%|████████  | 39228/48845 [13:54:02<3:22:25,  1.26s/it] 80%|████████  | 39229/48845 [13:54:03<3:22:35,  1.26s/it] 80%|████████  | 39230/48845 [13:54:04<3:22:32,  1.26s/it]                                                          {'loss': 2.1155, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39230/48845 [13:54:04<3:22:32,  1.26s/it] 80%|████████  | 39231/48845 [13:54:06<3:22:31,  1.26s/it] 80%|████████  | 39232/48845 [13:54:07<3:22:23,  1.26s/it] 80%|████████  | 39233/48845 [13:54:08<3:22:29,  1.26s/it] 80%|████████  | 39234/48845 [13:54:09<3:22:23,  1.26s/it] 80%|████████  | 39235/48845 [13:54:11<3:28:51,  1.30s/it]                                                          {'loss': 1.9997, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39235/48845 [13:54:11<3:28:51,  1.30s/it] 80%|████████  | 39236/48845 [13:54:12<3:26:49,  1.29s/it] 80%|████████  | 39237/48845 [13:54:13<3:25:16,  1.28s/it] 80%|████████  | 39238/48845 [13:54:15<3:24:14,  1.28s/it] 80%|████████  | 39239/48845 [13:54:16<3:23:43,  1.27s/it] 80%|████████  | 39240/48845 [13:54:17<3:23:05,  1.27s/it]                                                          {'loss': 2.0386, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39240/48845 [13:54:17<3:23:05,  1.27s/it] 80%|████████  | 39241/48845 [13:54:18<3:22:42,  1.27s/it] 80%|████████  | 39242/48845 [13:54:20<3:22:36,  1.27s/it] 80%|████████  | 39243/48845 [13:54:21<3:22:34,  1.27s/it] 80%|████████  | 39244/48845 [13:54:22<3:22:15,  1.26s/it] 80%|████████  | 39245/48845 [13:54:23<3:22:11,  1.26s/it]                                                          {'loss': 2.0913, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39245/48845 [13:54:23<3:22:11,  1.26s/it] 80%|████████  | 39246/48845 [13:54:25<3:22:05,  1.26s/it] 80%|████████  | 39247/48845 [13:54:26<3:22:09,  1.26s/it] 80%|████████  | 39248/48845 [13:54:27<3:22:12,  1.26s/it] 80%|████████  | 39249/48845 [13:54:28<3:22:12,  1.26s/it] 80%|████████  | 39250/48845 [13:54:30<3:22:01,  1.26s/it]                                                          {'loss': 2.208, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39250/48845 [13:54:30<3:22:01,  1.26s/it] 80%|████████  | 39251/48845 [13:54:31<3:22:05,  1.26s/it] 80%|████████  | 39252/48845 [13:54:32<3:22:12,  1.26s/it] 80%|████████  | 39253/48845 [13:54:34<3:22:10,  1.26s/it] 80%|████████  | 39254/48845 [13:54:35<3:21:48,  1.26s/it] 80%|████████  | 39255/48845 [13:54:36<3:22:08,  1.26s/it]                                                          {'loss': 2.041, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39255/48845 [13:54:36<3:22:08,  1.26s/it] 80%|████████  | 39256/48845 [13:54:37<3:22:13,  1.27s/it] 80%|████████  | 39257/48845 [13:54:39<3:22:05,  1.26s/it] 80%|████████  | 39258/48845 [13:54:40<3:22:10,  1.27s/it] 80%|████████  | 39259/48845 [13:54:41<3:22:11,  1.27s/it] 80%|████████  | 39260/48845 [13:54:42<3:22:10,  1.27s/it]                                                          {'loss': 2.1343, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39260/48845 [13:54:42<3:22:10,  1.27s/it] 80%|████████  | 39261/48845 [13:54:44<3:21:56,  1.26s/it] 80%|████████  | 39262/48845 [13:54:45<3:21:49,  1.26s/it] 80%|████████  | 39263/48845 [13:54:46<3:26:58,  1.30s/it] 80%|████████  | 39264/48845 [13:54:48<3:25:33,  1.29s/it] 80%|████████  | 39265/48845 [13:54:49<3:24:24,  1.28s/it]                                                          {'loss': 2.0201, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39265/48845 [13:54:49<3:24:24,  1.28s/it] 80%|████████  | 39266/48845 [13:54:50<3:23:32,  1.27s/it] 80%|████████  | 39267/48845 [13:54:51<3:23:06,  1.27s/it] 80%|████████  | 39268/48845 [13:54:53<3:22:37,  1.27s/it] 80%|████████  | 39269/48845 [13:54:54<3:22:04,  1.27s/it] 80%|████████  | 39270/48845 [13:54:55<3:22:09,  1.27s/it]                                                          {'loss': 1.9674, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39270/48845 [13:54:55<3:22:09,  1.27s/it] 80%|████████  | 39271/48845 [13:54:56<3:22:06,  1.27s/it] 80%|████████  | 39272/48845 [13:54:58<3:21:55,  1.27s/it] 80%|████████  | 39273/48845 [13:54:59<3:21:56,  1.27s/it] 80%|████████  | 39274/48845 [13:55:00<3:21:45,  1.26s/it] 80%|████████  | 39275/48845 [13:55:01<3:21:30,  1.26s/it]                                                          {'loss': 2.069, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39275/48845 [13:55:01<3:21:30,  1.26s/it] 80%|████████  | 39276/48845 [13:55:03<3:21:21,  1.26s/it] 80%|████████  | 39277/48845 [13:55:04<3:22:15,  1.27s/it] 80%|████████  | 39278/48845 [13:55:05<3:22:10,  1.27s/it] 80%|████████  | 39279/48845 [13:55:07<3:22:09,  1.27s/it] 80%|████████  | 39280/48845 [13:55:08<3:21:47,  1.27s/it]                                                          {'loss': 2.1571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39280/48845 [13:55:08<3:21:47,  1.27s/it] 80%|████████  | 39281/48845 [13:55:09<3:21:50,  1.27s/it] 80%|████████  | 39282/48845 [13:55:10<3:21:38,  1.27s/it] 80%|████████  | 39283/48845 [13:55:12<3:24:21,  1.28s/it] 80%|████████  | 39284/48845 [13:55:13<3:23:22,  1.28s/it] 80%|████████  | 39285/48845 [13:55:14<3:22:44,  1.27s/it]                                                          {'loss': 2.1143, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39285/48845 [13:55:14<3:22:44,  1.27s/it] 80%|████████  | 39286/48845 [13:55:15<3:22:27,  1.27s/it] 80%|████████  | 39287/48845 [13:55:17<3:25:47,  1.29s/it] 80%|████████  | 39288/48845 [13:55:18<3:24:26,  1.28s/it] 80%|████████  | 39289/48845 [13:55:19<3:23:17,  1.28s/it] 80%|████████  | 39290/48845 [13:55:21<3:22:35,  1.27s/it]                                                          {'loss': 1.9443, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39290/48845 [13:55:21<3:22:35,  1.27s/it] 80%|████████  | 39291/48845 [13:55:22<3:22:40,  1.27s/it] 80%|████████  | 39292/48845 [13:55:23<3:22:10,  1.27s/it] 80%|████████  | 39293/48845 [13:55:24<3:21:38,  1.27s/it] 80%|████████  | 39294/48845 [13:55:26<3:21:25,  1.27s/it] 80%|████████  | 39295/48845 [13:55:27<3:21:22,  1.27s/it]                                                          {'loss': 2.0875, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39295/48845 [13:55:27<3:21:22,  1.27s/it] 80%|████████  | 39296/48845 [13:55:28<3:21:17,  1.26s/it] 80%|████████  | 39297/48845 [13:55:29<3:21:09,  1.26s/it] 80%|████████  | 39298/48845 [13:55:31<3:21:04,  1.26s/it] 80%|████████  | 39299/48845 [13:55:32<3:21:03,  1.26s/it] 80%|████████  | 39300/48845 [13:55:33<3:20:49,  1.26s/it]                                                          {'loss': 2.1479, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39300/48845 [13:55:33<3:20:49,  1.26s/it] 80%|████████  | 39301/48845 [13:55:34<3:20:50,  1.26s/it] 80%|████████  | 39302/48845 [13:55:36<3:20:47,  1.26s/it] 80%|████████  | 39303/48845 [13:55:37<3:21:04,  1.26s/it] 80%|████████  | 39304/48845 [13:55:38<3:20:55,  1.26s/it] 80%|████████  | 39305/48845 [13:55:40<3:21:03,  1.26s/it]                                                          {'loss': 2.0514, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39305/48845 [13:55:40<3:21:03,  1.26s/it] 80%|████████  | 39306/48845 [13:55:41<3:21:11,  1.27s/it] 80%|████████  | 39307/48845 [13:55:42<3:21:08,  1.27s/it] 80%|████████  | 39308/48845 [13:55:43<3:21:00,  1.26s/it] 80%|████████  | 39309/48845 [13:55:45<3:20:53,  1.26s/it] 80%|████████  | 39310/48845 [13:55:46<3:20:47,  1.26s/it]                                                          {'loss': 1.9798, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39310/48845 [13:55:46<3:20:47,  1.26s/it] 80%|████████  | 39311/48845 [13:55:47<3:21:10,  1.27s/it] 80%|████████  | 39312/48845 [13:55:48<3:21:12,  1.27s/it] 80%|████████  | 39313/48845 [13:55:50<3:21:09,  1.27s/it] 80%|████████  | 39314/48845 [13:55:51<3:21:02,  1.27s/it] 80%|████████  | 39315/48845 [13:55:52<3:28:22,  1.31s/it]                                                          {'loss': 2.1673, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39315/48845 [13:55:52<3:28:22,  1.31s/it] 80%|████████  | 39316/48845 [13:55:54<3:25:59,  1.30s/it] 80%|████████  | 39317/48845 [13:55:55<3:24:25,  1.29s/it] 80%|████████  | 39318/48845 [13:55:56<3:23:23,  1.28s/it] 80%|████████  | 39319/48845 [13:55:57<3:22:34,  1.28s/it] 80%|████████  | 39320/48845 [13:55:59<3:21:52,  1.27s/it]                                                          {'loss': 1.8923, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.02}
+ 80%|████████  | 39320/48845 [13:55:59<3:21:52,  1.27s/it] 81%|████████  | 39321/48845 [13:56:00<3:21:21,  1.27s/it] 81%|████████  | 39322/48845 [13:56:01<3:21:05,  1.27s/it] 81%|████████  | 39323/48845 [13:56:02<3:21:02,  1.27s/it] 81%|████████  | 39324/48845 [13:56:04<3:20:55,  1.27s/it] 81%|████████  | 39325/48845 [13:56:05<3:20:39,  1.26s/it]                                                          {'loss': 2.0831, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39325/48845 [13:56:05<3:20:39,  1.26s/it] 81%|████████  | 39326/48845 [13:56:06<3:20:46,  1.27s/it] 81%|████████  | 39327/48845 [13:56:08<3:20:42,  1.27s/it] 81%|████████  | 39328/48845 [13:56:09<3:20:31,  1.26s/it] 81%|████████  | 39329/48845 [13:56:10<3:20:28,  1.26s/it] 81%|████████  | 39330/48845 [13:56:11<3:20:34,  1.26s/it]                                                          {'loss': 2.0098, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39330/48845 [13:56:11<3:20:34,  1.26s/it] 81%|████████  | 39331/48845 [13:56:13<3:20:45,  1.27s/it] 81%|████████  | 39332/48845 [13:56:14<3:20:38,  1.27s/it] 81%|████████  | 39333/48845 [13:56:15<3:20:34,  1.27s/it] 81%|████████  | 39334/48845 [13:56:16<3:20:21,  1.26s/it] 81%|████████  | 39335/48845 [13:56:18<3:20:29,  1.26s/it]                                                          {'loss': 2.097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39335/48845 [13:56:18<3:20:29,  1.26s/it] 81%|████████  | 39336/48845 [13:56:19<3:20:30,  1.27s/it] 81%|████████  | 39337/48845 [13:56:20<3:20:14,  1.26s/it] 81%|████████  | 39338/48845 [13:56:21<3:20:22,  1.26s/it] 81%|████████  | 39339/48845 [13:56:23<3:20:29,  1.27s/it] 81%|████████  | 39340/48845 [13:56:24<3:20:22,  1.26s/it]                                                          {'loss': 2.0572, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39340/48845 [13:56:24<3:20:22,  1.26s/it] 81%|████████  | 39341/48845 [13:56:25<3:20:26,  1.27s/it] 81%|████████  | 39342/48845 [13:56:26<3:20:13,  1.26s/it] 81%|████████  | 39343/48845 [13:56:28<3:20:19,  1.26s/it] 81%|████████  | 39344/48845 [13:56:29<3:20:17,  1.26s/it] 81%|████████  | 39345/48845 [13:56:30<3:20:15,  1.26s/it]                                                          {'loss': 2.2498, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39345/48845 [13:56:30<3:20:15,  1.26s/it] 81%|████████  | 39346/48845 [13:56:32<3:20:05,  1.26s/it] 81%|████████  | 39347/48845 [13:56:33<3:20:20,  1.27s/it] 81%|████████  | 39348/48845 [13:56:34<3:20:08,  1.26s/it] 81%|████████  | 39349/48845 [13:56:35<3:20:06,  1.26s/it] 81%|████████  | 39350/48845 [13:56:37<3:20:00,  1.26s/it]                                                          {'loss': 2.0261, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39350/48845 [13:56:37<3:20:00,  1.26s/it] 81%|████████  | 39351/48845 [13:56:38<3:20:05,  1.26s/it] 81%|████████  | 39352/48845 [13:56:39<3:19:56,  1.26s/it] 81%|████████  | 39353/48845 [13:56:40<3:19:44,  1.26s/it] 81%|████████  | 39354/48845 [13:56:42<3:19:54,  1.26s/it] 81%|████████  | 39355/48845 [13:56:43<3:20:05,  1.27s/it]                                                          {'loss': 2.1976, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39355/48845 [13:56:43<3:20:05,  1.27s/it] 81%|████████  | 39356/48845 [13:56:44<3:20:05,  1.27s/it] 81%|████████  | 39357/48845 [13:56:45<3:19:45,  1.26s/it] 81%|████████  | 39358/48845 [13:56:47<3:19:44,  1.26s/it] 81%|████████  | 39359/48845 [13:56:48<3:20:00,  1.27s/it] 81%|████████  | 39360/48845 [13:56:49<3:20:04,  1.27s/it]                                                          {'loss': 1.9711, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39360/48845 [13:56:49<3:20:04,  1.27s/it] 81%|████████  | 39361/48845 [13:56:51<3:20:05,  1.27s/it] 81%|████████  | 39362/48845 [13:56:52<3:19:44,  1.26s/it] 81%|████████  | 39363/48845 [13:56:53<3:25:36,  1.30s/it] 81%|████████  | 39364/48845 [13:56:54<3:24:02,  1.29s/it] 81%|████████  | 39365/48845 [13:56:56<3:22:37,  1.28s/it]                                                          {'loss': 1.9677, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39365/48845 [13:56:56<3:22:37,  1.28s/it] 81%|████████  | 39366/48845 [13:56:57<3:21:43,  1.28s/it] 81%|████████  | 39367/48845 [13:56:58<3:23:11,  1.29s/it] 81%|████████  | 39368/48845 [13:57:00<3:22:03,  1.28s/it] 81%|████████  | 39369/48845 [13:57:01<3:21:14,  1.27s/it] 81%|████████  | 39370/48845 [13:57:02<3:20:33,  1.27s/it]                                                          {'loss': 2.1359, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39370/48845 [13:57:02<3:20:33,  1.27s/it] 81%|████████  | 39371/48845 [13:57:03<3:22:16,  1.28s/it] 81%|████████  | 39372/48845 [13:57:05<3:21:18,  1.28s/it] 81%|████████  | 39373/48845 [13:57:06<3:20:39,  1.27s/it] 81%|████████  | 39374/48845 [13:57:07<3:20:16,  1.27s/it] 81%|████████  | 39375/48845 [13:57:08<3:20:00,  1.27s/it]                                                          {'loss': 2.027, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39375/48845 [13:57:08<3:20:00,  1.27s/it] 81%|████████  | 39376/48845 [13:57:10<3:19:43,  1.27s/it] 81%|████████  | 39377/48845 [13:57:11<3:19:39,  1.27s/it] 81%|████████  | 39378/48845 [13:57:12<3:19:37,  1.27s/it] 81%|████████  | 39379/48845 [13:57:13<3:19:25,  1.26s/it] 81%|████████  | 39380/48845 [13:57:15<3:19:16,  1.26s/it]                                                          {'loss': 1.9447, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39380/48845 [13:57:15<3:19:16,  1.26s/it] 81%|████████  | 39381/48845 [13:57:16<3:19:17,  1.26s/it] 81%|████████  | 39382/48845 [13:57:17<3:19:10,  1.26s/it] 81%|████████  | 39383/48845 [13:57:19<3:19:25,  1.26s/it] 81%|████████  | 39384/48845 [13:57:20<3:19:32,  1.27s/it] 81%|████████  | 39385/48845 [13:57:21<3:19:31,  1.27s/it]                                                          {'loss': 2.1555, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39385/48845 [13:57:21<3:19:31,  1.27s/it] 81%|████████  | 39386/48845 [13:57:22<3:19:25,  1.26s/it] 81%|████████  | 39387/48845 [13:57:24<3:19:13,  1.26s/it] 81%|████████  | 39388/48845 [13:57:25<3:19:10,  1.26s/it] 81%|████████  | 39389/48845 [13:57:26<3:19:17,  1.26s/it] 81%|████████  | 39390/48845 [13:57:27<3:19:04,  1.26s/it]                                                          {'loss': 2.0084, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39390/48845 [13:57:27<3:19:04,  1.26s/it] 81%|████████  | 39391/48845 [13:57:29<3:19:22,  1.27s/it] 81%|████████  | 39392/48845 [13:57:30<3:19:21,  1.27s/it] 81%|████████  | 39393/48845 [13:57:31<3:18:59,  1.26s/it] 81%|████████  | 39394/48845 [13:57:32<3:18:56,  1.26s/it] 81%|████████  | 39395/48845 [13:57:34<3:19:01,  1.26s/it]                                                          {'loss': 2.146, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39395/48845 [13:57:34<3:19:01,  1.26s/it] 81%|████████  | 39396/48845 [13:57:35<3:18:44,  1.26s/it] 81%|████████  | 39397/48845 [13:57:36<3:20:03,  1.27s/it] 81%|████████  | 39398/48845 [13:57:37<3:19:34,  1.27s/it] 81%|████████  | 39399/48845 [13:57:39<3:19:27,  1.27s/it] 81%|████████  | 39400/48845 [13:57:40<3:19:36,  1.27s/it]                                                          {'loss': 2.1348, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39400/48845 [13:57:40<3:19:36,  1.27s/it] 81%|████████  | 39401/48845 [13:57:44<5:20:26,  2.04s/it] 81%|████████  | 39402/48845 [13:57:45<4:44:22,  1.81s/it] 81%|████████  | 39403/48845 [13:57:46<4:18:36,  1.64s/it] 81%|████████  | 39404/48845 [13:57:48<4:00:26,  1.53s/it] 81%|████████  | 39405/48845 [13:57:49<3:47:38,  1.45s/it]                                                          {'loss': 2.1284, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39405/48845 [13:57:49<3:47:38,  1.45s/it] 81%|████████  | 39406/48845 [13:57:50<3:38:59,  1.39s/it] 81%|████████  | 39407/48845 [13:57:51<3:32:40,  1.35s/it] 81%|████████  | 39408/48845 [13:57:53<3:28:19,  1.32s/it] 81%|████████  | 39409/48845 [13:57:54<3:25:09,  1.30s/it] 81%|████████  | 39410/48845 [13:57:55<3:22:58,  1.29s/it]                                                          {'loss': 1.9675, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39410/48845 [13:57:55<3:22:58,  1.29s/it] 81%|████████  | 39411/48845 [13:57:56<3:21:30,  1.28s/it] 81%|████████  | 39412/48845 [13:57:58<3:20:36,  1.28s/it] 81%|████████  | 39413/48845 [13:57:59<3:19:58,  1.27s/it] 81%|████████  | 39414/48845 [13:58:00<3:19:27,  1.27s/it] 81%|████████  | 39415/48845 [13:58:02<3:19:12,  1.27s/it]                                                          {'loss': 2.0594, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.03}
+ 81%|████████  | 39415/48845 [13:58:02<3:19:12,  1.27s/it] 81%|████████  | 39416/48845 [13:58:03<3:19:00,  1.27s/it] 81%|█��██████  | 39417/48845 [13:58:04<3:18:51,  1.27s/it] 81%|████████  | 39418/48845 [13:58:05<3:18:44,  1.26s/it] 81%|████████  | 39419/48845 [13:58:07<3:18:43,  1.26s/it] 81%|████████  | 39420/48845 [13:58:08<3:18:25,  1.26s/it]                                                          {'loss': 2.1655, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39420/48845 [13:58:08<3:18:25,  1.26s/it] 81%|████████  | 39421/48845 [13:58:09<3:18:31,  1.26s/it] 81%|████████  | 39422/48845 [13:58:10<3:18:25,  1.26s/it] 81%|████████  | 39423/48845 [13:58:12<3:20:08,  1.27s/it] 81%|████████  | 39424/48845 [13:58:13<3:19:34,  1.27s/it] 81%|████████  | 39425/48845 [13:58:14<3:19:13,  1.27s/it]                                                          {'loss': 1.9606, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39425/48845 [13:58:14<3:19:13,  1.27s/it] 81%|████████  | 39426/48845 [13:58:15<3:18:45,  1.27s/it] 81%|████████  | 39427/48845 [13:58:17<3:18:44,  1.27s/it] 81%|████████  | 39428/48845 [13:58:18<3:18:38,  1.27s/it] 81%|████████  | 39429/48845 [13:58:19<3:18:33,  1.27s/it] 81%|████████  | 39430/48845 [13:58:21<3:18:24,  1.26s/it]                                                          {'loss': 1.9477, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39430/48845 [13:58:21<3:18:24,  1.26s/it] 81%|████████  | 39431/48845 [13:58:22<3:18:30,  1.27s/it] 81%|████████  | 39432/48845 [13:58:23<3:18:22,  1.26s/it] 81%|████████  | 39433/48845 [13:58:24<3:18:10,  1.26s/it] 81%|████████  | 39434/48845 [13:58:26<3:17:53,  1.26s/it] 81%|████████  | 39435/48845 [13:58:27<3:17:56,  1.26s/it]                                                          {'loss': 2.126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39435/48845 [13:58:27<3:17:56,  1.26s/it] 81%|████████  | 39436/48845 [13:58:28<3:17:59,  1.26s/it] 81%|████████  | 39437/48845 [13:58:29<3:18:03,  1.26s/it] 81%|████████  | 39438/48845 [13:58:31<3:18:09,  1.26s/it] 81%|████████  | 39439/48845 [13:58:32<3:18:13,  1.26s/it] 81%|████████  | 39440/48845 [13:58:33<3:18:03,  1.26s/it]                                                          {'loss': 2.2485, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39440/48845 [13:58:33<3:18:03,  1.26s/it] 81%|████████  | 39441/48845 [13:58:34<3:18:00,  1.26s/it] 81%|████████  | 39442/48845 [13:58:36<3:17:54,  1.26s/it] 81%|████████  | 39443/48845 [13:58:37<3:18:08,  1.26s/it] 81%|████████  | 39444/48845 [13:58:38<3:18:11,  1.26s/it] 81%|████████  | 39445/48845 [13:58:39<3:18:10,  1.26s/it]                                                          {'loss': 1.9325, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39445/48845 [13:58:39<3:18:10,  1.26s/it] 81%|████████  | 39446/48845 [13:58:41<3:18:08,  1.26s/it] 81%|████████  | 39447/48845 [13:58:42<3:18:06,  1.26s/it] 81%|████████  | 39448/48845 [13:58:43<3:17:58,  1.26s/it] 81%|████████  | 39449/48845 [13:58:45<3:17:43,  1.26s/it] 81%|████████  | 39450/48845 [13:58:46<3:17:37,  1.26s/it]                                                          {'loss': 1.9599, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39450/48845 [13:58:46<3:17:37,  1.26s/it] 81%|████████  | 39451/48845 [13:58:47<3:17:39,  1.26s/it] 81%|████████  | 39452/48845 [13:58:48<3:17:35,  1.26s/it] 81%|████████  | 39453/48845 [13:58:50<3:17:31,  1.26s/it] 81%|████████  | 39454/48845 [13:58:51<3:17:20,  1.26s/it] 81%|████████  | 39455/48845 [13:58:52<3:17:39,  1.26s/it]                                                          {'loss': 1.9645, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39455/48845 [13:58:52<3:17:39,  1.26s/it] 81%|████████  | 39456/48845 [13:58:53<3:17:35,  1.26s/it] 81%|████████  | 39457/48845 [13:58:55<3:17:34,  1.26s/it] 81%|████████  | 39458/48845 [13:58:56<3:17:30,  1.26s/it] 81%|████████  | 39459/48845 [13:58:57<3:17:43,  1.26s/it] 81%|████████  | 39460/48845 [13:58:58<3:17:44,  1.26s/it]                                                          {'loss': 1.9865, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|██████��█  | 39460/48845 [13:58:58<3:17:44,  1.26s/it] 81%|████████  | 39461/48845 [13:59:00<3:17:39,  1.26s/it] 81%|████████  | 39462/48845 [13:59:01<3:17:44,  1.26s/it] 81%|████████  | 39463/48845 [13:59:02<3:22:01,  1.29s/it] 81%|████████  | 39464/48845 [13:59:04<3:20:30,  1.28s/it] 81%|████████  | 39465/48845 [13:59:05<3:19:31,  1.28s/it]                                                          {'loss': 1.9527, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39465/48845 [13:59:05<3:19:31,  1.28s/it] 81%|████████  | 39466/48845 [13:59:06<3:18:52,  1.27s/it] 81%|████████  | 39467/48845 [13:59:07<3:18:29,  1.27s/it] 81%|████████  | 39468/48845 [13:59:09<3:18:34,  1.27s/it] 81%|████████  | 39469/48845 [13:59:10<3:18:22,  1.27s/it] 81%|████████  | 39470/48845 [13:59:11<3:18:06,  1.27s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39470/48845 [13:59:11<3:18:06,  1.27s/it] 81%|████████  | 39471/48845 [13:59:12<3:18:30,  1.27s/it] 81%|████████  | 39472/48845 [13:59:14<3:18:06,  1.27s/it] 81%|████████  | 39473/48845 [13:59:15<3:17:43,  1.27s/it] 81%|████████  | 39474/48845 [13:59:16<3:17:35,  1.27s/it] 81%|████████  | 39475/48845 [13:59:17<3:17:27,  1.26s/it]                                                          {'loss': 1.992, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39475/48845 [13:59:17<3:17:27,  1.26s/it] 81%|████████  | 39476/48845 [13:59:19<3:17:14,  1.26s/it] 81%|████████  | 39477/48845 [13:59:20<3:17:10,  1.26s/it] 81%|████████  | 39478/48845 [13:59:21<3:17:17,  1.26s/it] 81%|████████  | 39479/48845 [13:59:23<3:17:15,  1.26s/it] 81%|████████  | 39480/48845 [13:59:24<3:17:04,  1.26s/it]                                                          {'loss': 1.9695, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39480/48845 [13:59:24<3:17:04,  1.26s/it] 81%|████████  | 39481/48845 [13:59:25<3:17:12,  1.26s/it] 81%|████████  | 39482/48845 [13:59:26<3:17:31,  1.27s/it] 81%|████████  | 39483/48845 [13:59:28<3:17:46,  1.27s/it] 81%|████████  | 39484/48845 [13:59:29<3:17:27,  1.27s/it] 81%|████████  | 39485/48845 [13:59:30<3:17:21,  1.27s/it]                                                          {'loss': 2.131, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39485/48845 [13:59:30<3:17:21,  1.27s/it] 81%|████████  | 39486/48845 [13:59:31<3:17:34,  1.27s/it] 81%|████████  | 39487/48845 [13:59:33<3:19:45,  1.28s/it] 81%|████████  | 39488/48845 [13:59:34<3:18:49,  1.27s/it] 81%|████████  | 39489/48845 [13:59:35<3:17:58,  1.27s/it] 81%|████████  | 39490/48845 [13:59:36<3:17:34,  1.27s/it]                                                          {'loss': 2.0664, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39490/48845 [13:59:36<3:17:34,  1.27s/it] 81%|████████  | 39491/48845 [13:59:38<3:17:35,  1.27s/it] 81%|████████  | 39492/48845 [13:59:39<3:17:23,  1.27s/it] 81%|████████  | 39493/48845 [13:59:40<3:17:16,  1.27s/it] 81%|████████  | 39494/48845 [13:59:42<3:17:10,  1.27s/it] 81%|████████  | 39495/48845 [13:59:43<3:17:34,  1.27s/it]                                                          {'loss': 2.0553, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39495/48845 [13:59:43<3:17:34,  1.27s/it] 81%|████████  | 39496/48845 [13:59:44<3:17:24,  1.27s/it] 81%|████████  | 39497/48845 [13:59:45<3:17:06,  1.27s/it] 81%|████████  | 39498/48845 [13:59:47<3:16:55,  1.26s/it] 81%|████████  | 39499/48845 [13:59:48<3:17:02,  1.27s/it] 81%|████████  | 39500/48845 [13:59:49<3:17:13,  1.27s/it]                                                          {'loss': 1.9312, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39500/48845 [13:59:49<3:17:13,  1.27s/it] 81%|████████  | 39501/48845 [13:59:50<3:17:01,  1.27s/it] 81%|████████  | 39502/48845 [13:59:52<3:17:19,  1.27s/it] 81%|████████  | 39503/48845 [13:59:53<3:17:10,  1.27s/it] 81%|████████  | 39504/48845 [13:59:54<3:16:57,  1.27s/it] 81%|████████  | 39505/48845 [13:59:55<3:16:36,  1.26s/it]                                                          {'loss': 2.1424, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39505/48845 [13:59:55<3:16:36,  1.26s/it] 81%|████████  | 39506/48845 [13:59:57<3:16:34,  1.26s/it] 81%|████████  | 39507/48845 [13:59:58<3:23:17,  1.31s/it] 81%|████████  | 39508/48845 [13:59:59<3:21:30,  1.29s/it] 81%|████████  | 39509/48845 [14:00:01<3:19:51,  1.28s/it] 81%|████████  | 39510/48845 [14:00:02<3:18:51,  1.28s/it]                                                          {'loss': 2.0257, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39510/48845 [14:00:02<3:18:51,  1.28s/it] 81%|████████  | 39511/48845 [14:00:03<3:18:09,  1.27s/it] 81%|████████  | 39512/48845 [14:00:04<3:18:08,  1.27s/it] 81%|████████  | 39513/48845 [14:00:06<3:17:33,  1.27s/it] 81%|████████  | 39514/48845 [14:00:07<3:17:05,  1.27s/it] 81%|████████  | 39515/48845 [14:00:08<3:17:16,  1.27s/it]                                                          {'loss': 1.9007, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.04}
+ 81%|████████  | 39515/48845 [14:00:08<3:17:16,  1.27s/it] 81%|████████  | 39516/48845 [14:00:10<3:17:01,  1.27s/it] 81%|████████  | 39517/48845 [14:00:11<3:16:51,  1.27s/it] 81%|████████  | 39518/48845 [14:00:12<3:16:41,  1.27s/it] 81%|████████  | 39519/48845 [14:00:13<3:21:17,  1.30s/it] 81%|████████  | 39520/48845 [14:00:15<3:19:47,  1.29s/it]                                                          {'loss': 2.048, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39520/48845 [14:00:15<3:19:47,  1.29s/it] 81%|████████  | 39521/48845 [14:00:16<3:18:40,  1.28s/it] 81%|████████  | 39522/48845 [14:00:17<3:17:58,  1.27s/it] 81%|████████  | 39523/48845 [14:00:18<3:17:37,  1.27s/it] 81%|████████  | 39524/48845 [14:00:20<3:17:15,  1.27s/it] 81%|████████  | 39525/48845 [14:00:21<3:17:03,  1.27s/it]                                                          {'loss': 2.2179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39525/48845 [14:00:21<3:17:03,  1.27s/it] 81%|████████  | 39526/48845 [14:00:22<3:16:55,  1.27s/it] 81%|████████  | 39527/48845 [14:00:24<3:24:53,  1.32s/it] 81%|████████  | 39528/48845 [14:00:25<3:22:08,  1.30s/it] 81%|████████  | 39529/48845 [14:00:26<3:20:26,  1.29s/it] 81%|████████  | 39530/48845 [14:00:27<3:18:55,  1.28s/it]                                                          {'loss': 1.9799, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39530/48845 [14:00:27<3:18:55,  1.28s/it] 81%|████████  | 39531/48845 [14:00:29<3:18:25,  1.28s/it] 81%|████████  | 39532/48845 [14:00:30<3:17:30,  1.27s/it] 81%|████████  | 39533/48845 [14:00:31<3:17:11,  1.27s/it] 81%|████████  | 39534/48845 [14:00:33<3:16:46,  1.27s/it] 81%|████████  | 39535/48845 [14:00:34<3:16:28,  1.27s/it]                                                          {'loss': 2.0907, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39535/48845 [14:00:34<3:16:28,  1.27s/it] 81%|████████  | 39536/48845 [14:00:35<3:16:13,  1.26s/it] 81%|████████  | 39537/48845 [14:00:36<3:16:08,  1.26s/it] 81%|████████  | 39538/48845 [14:00:38<3:16:04,  1.26s/it] 81%|████████  | 39539/48845 [14:00:39<3:15:59,  1.26s/it] 81%|████████  | 39540/48845 [14:00:40<3:15:43,  1.26s/it]                                                          {'loss': 1.9841, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39540/48845 [14:00:40<3:15:43,  1.26s/it] 81%|████████  | 39541/48845 [14:00:41<3:15:45,  1.26s/it] 81%|████████  | 39542/48845 [14:00:43<3:15:47,  1.26s/it] 81%|████████  | 39543/48845 [14:00:44<3:15:47,  1.26s/it] 81%|████████  | 39544/48845 [14:00:45<3:15:55,  1.26s/it] 81%|████████  | 39545/48845 [14:00:46<3:15:50,  1.26s/it]                                                          {'loss': 2.1246, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39545/48845 [14:00:46<3:15:50,  1.26s/it] 81%|████████  | 39546/48845 [14:00:48<3:15:43,  1.26s/it] 81%|████████  | 39547/48845 [14:00:49<3:15:50,  1.26s/it] 81%|████████  | 39548/48845 [14:00:50<3:15:55,  1.26s/it] 81%|████████  | 39549/48845 [14:00:51<3:15:45,  1.26s/it] 81%|████████  | 39550/48845 [14:00:53<3:15:40,  1.26s/it]                                                          {'loss': 2.0063, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39550/48845 [14:00:53<3:15:40,  1.26s/it] 81%|████████  | 39551/48845 [14:00:54<3:15:59,  1.27s/it] 81%|████████  | 39552/48845 [14:00:55<3:15:40,  1.26s/it] 81%|████████  | 39553/48845 [14:00:57<3:15:50,  1.26s/it] 81%|████████  | 39554/48845 [14:00:58<3:15:44,  1.26s/it] 81%|████████  | 39555/48845 [14:00:59<3:15:59,  1.27s/it]                                                          {'loss': 2.0039, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39555/48845 [14:00:59<3:15:59,  1.27s/it] 81%|████████  | 39556/48845 [14:01:00<3:15:57,  1.27s/it] 81%|████████  | 39557/48845 [14:01:02<3:15:47,  1.26s/it] 81%|████████  | 39558/48845 [14:01:03<3:15:45,  1.26s/it] 81%|████████  | 39559/48845 [14:01:04<3:15:50,  1.27s/it] 81%|████████  | 39560/48845 [14:01:05<3:15:33,  1.26s/it]                                                          {'loss': 2.1064, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39560/48845 [14:01:05<3:15:33,  1.26s/it] 81%|████████  | 39561/48845 [14:01:07<3:15:44,  1.26s/it] 81%|████████  | 39562/48845 [14:01:08<3:15:41,  1.26s/it] 81%|████████  | 39563/48845 [14:01:09<3:15:44,  1.27s/it] 81%|████████  | 39564/48845 [14:01:10<3:15:54,  1.27s/it] 81%|████████  | 39565/48845 [14:01:12<3:15:37,  1.26s/it]                                                          {'loss': 2.148, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39565/48845 [14:01:12<3:15:37,  1.26s/it] 81%|████████  | 39566/48845 [14:01:13<3:15:32,  1.26s/it] 81%|████████  | 39567/48845 [14:01:14<3:15:43,  1.27s/it] 81%|████████  | 39568/48845 [14:01:16<3:15:32,  1.26s/it] 81%|████████  | 39569/48845 [14:01:17<3:15:21,  1.26s/it] 81%|████████  | 39570/48845 [14:01:18<3:15:12,  1.26s/it]                                                          {'loss': 2.0989, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39570/48845 [14:01:18<3:15:12,  1.26s/it] 81%|████████  | 39571/48845 [14:01:19<3:15:20,  1.26s/it] 81%|████████  | 39572/48845 [14:01:21<3:15:12,  1.26s/it] 81%|████████  | 39573/48845 [14:01:22<3:15:24,  1.26s/it] 81%|████████  | 39574/48845 [14:01:23<3:15:12,  1.26s/it] 81%|████████  | 39575/48845 [14:01:24<3:15:19,  1.26s/it]                                                          {'loss': 2.047, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39575/48845 [14:01:24<3:15:19,  1.26s/it] 81%|████████  | 39576/48845 [14:01:26<3:15:13,  1.26s/it] 81%|████████  | 39577/48845 [14:01:27<3:15:11,  1.26s/it] 81%|████████  | 39578/48845 [14:01:28<3:14:57,  1.26s/it] 81%|████████  | 39579/48845 [14:01:29<3:15:11,  1.26s/it] 81%|████████  | 39580/48845 [14:01:31<3:15:10,  1.26s/it]                                                          {'loss': 1.9674, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39580/48845 [14:01:31<3:15:10,  1.26s/it] 81%|████████  | 39581/48845 [14:01:32<3:15:21,  1.27s/it] 81%|████████  | 39582/48845 [14:01:33<3:15:19,  1.27s/it] 81%|████████  | 39583/48845 [14:01:34<3:15:19,  1.27s/it] 81%|████████  | 39584/48845 [14:01:36<3:15:17,  1.27s/it] 81%|████████  | 39585/48845 [14:01:37<3:15:20,  1.27s/it]                                                          {'loss': 2.0993, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39585/48845 [14:01:37<3:15:20,  1.27s/it] 81%|████████  | 39586/48845 [14:01:38<3:15:14,  1.27s/it] 81%|████████  | 39587/48845 [14:01:40<3:15:18,  1.27s/it] 81%|████████  | 39588/48845 [14:01:41<3:15:03,  1.26s/it] 81%|████████  | 39589/48845 [14:01:42<3:14:50,  1.26s/it] 81%|████████  | 39590/48845 [14:01:43<3:14:37,  1.26s/it]                                                          {'loss': 2.1059, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39590/48845 [14:01:43<3:14:37,  1.26s/it] 81%|████████  | 39591/48845 [14:01:45<3:14:49,  1.26s/it] 81%|████████  | 39592/48845 [14:01:46<3:14:40,  1.26s/it] 81%|████████  | 39593/48845 [14:01:47<3:14:36,  1.26s/it] 81%|████████  | 39594/48845 [14:01:48<3:14:40,  1.26s/it] 81%|████████  | 39595/48845 [14:01:50<3:14:44,  1.26s/it]                                                          {'loss': 1.9853, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39595/48845 [14:01:50<3:14:44,  1.26s/it] 81%|████████  | 39596/48845 [14:01:51<3:14:44,  1.26s/it] 81%|████████  | 39597/48845 [14:01:52<3:14:42,  1.26s/it] 81%|████████  | 39598/48845 [14:01:53<3:14:41,  1.26s/it] 81%|████████  | 39599/48845 [14:01:55<3:14:53,  1.26s/it] 81%|████████  | 39600/48845 [14:01:56<3:14:49,  1.26s/it]                                                          {'loss': 2.1644, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39600/48845 [14:01:56<3:14:49,  1.26s/it] 81%|████████  | 39601/48845 [14:02:00<5:14:41,  2.04s/it] 81%|████████  | 39602/48845 [14:02:01<4:38:29,  1.81s/it] 81%|████████  | 39603/48845 [14:02:02<4:13:21,  1.64s/it] 81%|████████  | 39604/48845 [14:02:04<3:55:30,  1.53s/it] 81%|████████  | 39605/48845 [14:02:05<3:43:12,  1.45s/it]                                                          {'loss': 2.1224, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39605/48845 [14:02:05<3:43:12,  1.45s/it] 81%|████████  | 39606/48845 [14:02:06<3:34:29,  1.39s/it] 81%|████████  | 39607/48845 [14:02:07<3:28:15,  1.35s/it] 81%|████████  | 39608/48845 [14:02:09<3:23:53,  1.32s/it] 81%|████████  | 39609/48845 [14:02:10<3:20:52,  1.30s/it] 81%|████████  | 39610/48845 [14:02:11<3:18:46,  1.29s/it]                                                          {'loss': 2.3097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.05}
+ 81%|████████  | 39610/48845 [14:02:11<3:18:46,  1.29s/it] 81%|████████  | 39611/48845 [14:02:12<3:17:19,  1.28s/it] 81%|████████  | 39612/48845 [14:02:14<3:16:24,  1.28s/it] 81%|████████  | 39613/48845 [14:02:15<3:15:55,  1.27s/it] 81%|████████  | 39614/48845 [14:02:16<3:15:24,  1.27s/it] 81%|████████  | 39615/48845 [14:02:17<3:15:00,  1.27s/it]                                                          {'loss': 2.183, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39615/48845 [14:02:17<3:15:00,  1.27s/it] 81%|████████  | 39616/48845 [14:02:19<3:14:58,  1.27s/it] 81%|████████  | 39617/48845 [14:02:20<3:14:51,  1.27s/it] 81%|████████  | 39618/48845 [14:02:21<3:14:29,  1.26s/it] 81%|████████  | 39619/48845 [14:02:23<3:14:23,  1.26s/it] 81%|████████  | 39620/48845 [14:02:24<3:14:28,  1.26s/it]                                                          {'loss': 2.0474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39620/48845 [14:02:24<3:14:28,  1.26s/it] 81%|████████  | 39621/48845 [14:02:25<3:14:36,  1.27s/it] 81%|████████  | 39622/48845 [14:02:26<3:14:28,  1.27s/it] 81%|████████  | 39623/48845 [14:02:28<3:14:16,  1.26s/it] 81%|████████  | 39624/48845 [14:02:29<3:18:17,  1.29s/it] 81%|████████  | 39625/48845 [14:02:30<3:17:05,  1.28s/it]                                                          {'loss': 2.1373, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39625/48845 [14:02:30<3:17:05,  1.28s/it] 81%|████████  | 39626/48845 [14:02:31<3:16:12,  1.28s/it] 81%|████████  | 39627/48845 [14:02:33<3:15:36,  1.27s/it] 81%|████████  | 39628/48845 [14:02:34<3:15:10,  1.27s/it] 81%|████████  | 39629/48845 [14:02:35<3:14:48,  1.27s/it] 81%|████████  | 39630/48845 [14:02:37<3:14:34,  1.27s/it]                                                          {'loss': 2.0024, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39630/48845 [14:02:37<3:14:34,  1.27s/it] 81%|████████  | 39631/48845 [14:02:38<3:14:30,  1.27s/it] 81%|████████  | 39632/48845 [14:02:39<3:14:30,  1.27s/it] 81%|████████  | 39633/48845 [14:02:40<3:14:37,  1.27s/it] 81%|████████  | 39634/48845 [14:02:42<3:14:35,  1.27s/it] 81%|████████  | 39635/48845 [14:02:43<3:14:17,  1.27s/it]                                                          {'loss': 2.0856, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39635/48845 [14:02:43<3:14:17,  1.27s/it] 81%|████████  | 39636/48845 [14:02:44<3:14:17,  1.27s/it] 81%|████████  | 39637/48845 [14:02:45<3:14:17,  1.27s/it] 81%|████████  | 39638/48845 [14:02:47<3:14:01,  1.26s/it] 81%|████████  | 39639/48845 [14:02:48<3:13:59,  1.26s/it] 81%|████████  | 39640/48845 [14:02:49<3:13:48,  1.26s/it]                                                          {'loss': 2.077, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39640/48845 [14:02:49<3:13:48,  1.26s/it] 81%|████████  | 39641/48845 [14:02:50<3:14:04,  1.27s/it] 81%|████████  | 39642/48845 [14:02:52<3:13:56,  1.26s/it] 81%|████████  | 39643/48845 [14:02:53<3:13:50,  1.26s/it] 81%|████████  | 39644/48845 [14:02:54<3:13:42,  1.26s/it] 81%|████████  | 39645/48845 [14:02:55<3:13:30,  1.26s/it]                                                          {'loss': 2.2164, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39645/48845 [14:02:55<3:13:30,  1.26s/it] 81%|████████  | 39646/48845 [14:02:57<3:13:26,  1.26s/it] 81%|████████  | 39647/48845 [14:02:58<3:13:32,  1.26s/it] 81%|████████  | 39648/48845 [14:02:59<3:13:26,  1.26s/it] 81%|████████  | 39649/48845 [14:03:01<3:13:27,  1.26s/it] 81%|████████  | 39650/48845 [14:03:02<3:13:32,  1.26s/it]                                                          {'loss': 2.1113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39650/48845 [14:03:02<3:13:32,  1.26s/it] 81%|████████  | 39651/48845 [14:03:03<3:13:33,  1.26s/it] 81%|████████  | 39652/48845 [14:03:04<3:13:30,  1.26s/it] 81%|████████  | 39653/48845 [14:03:06<3:13:35,  1.26s/it] 81%|████████  | 39654/48845 [14:03:07<3:13:30,  1.26s/it] 81%|████████  | 39655/48845 [14:03:08<3:13:47,  1.27s/it]                                                          {'loss': 1.9878, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39655/48845 [14:03:08<3:13:47,  1.27s/it] 81%|████████  | 39656/48845 [14:03:09<3:13:48,  1.27s/it] 81%|████████  | 39657/48845 [14:03:11<3:13:44,  1.27s/it] 81%|████████  | 39658/48845 [14:03:12<3:13:42,  1.27s/it] 81%|████████  | 39659/48845 [14:03:13<3:13:43,  1.27s/it] 81%|████████  | 39660/48845 [14:03:14<3:13:27,  1.26s/it]                                                          {'loss': 1.9631, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39660/48845 [14:03:14<3:13:27,  1.26s/it] 81%|████████  | 39661/48845 [14:03:16<3:13:28,  1.26s/it] 81%|████████  | 39662/48845 [14:03:17<3:13:32,  1.26s/it] 81%|████████  | 39663/48845 [14:03:18<3:13:24,  1.26s/it] 81%|████████  | 39664/48845 [14:03:20<3:13:24,  1.26s/it] 81%|████████  | 39665/48845 [14:03:21<3:13:31,  1.26s/it]                                                          {'loss': 2.1032, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39665/48845 [14:03:21<3:13:31,  1.26s/it] 81%|████████  | 39666/48845 [14:03:22<3:13:32,  1.27s/it] 81%|████████  | 39667/48845 [14:03:23<3:13:27,  1.26s/it] 81%|████████  | 39668/48845 [14:03:25<3:13:37,  1.27s/it] 81%|████████  | 39669/48845 [14:03:26<3:13:37,  1.27s/it] 81%|████████  | 39670/48845 [14:03:27<3:13:43,  1.27s/it]                                                          {'loss': 1.9965, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39670/48845 [14:03:27<3:13:43,  1.27s/it] 81%|████████  | 39671/48845 [14:03:28<3:13:26,  1.27s/it] 81%|████████  | 39672/48845 [14:03:30<3:13:25,  1.27s/it] 81%|████████  | 39673/48845 [14:03:31<3:13:31,  1.27s/it] 81%|████████  | 39674/48845 [14:03:32<3:13:14,  1.26s/it] 81%|████████  | 39675/48845 [14:03:33<3:13:12,  1.26s/it]                                                          {'loss': 2.021, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39675/48845 [14:03:33<3:13:12,  1.26s/it] 81%|████████  | 39676/48845 [14:03:35<3:13:14,  1.26s/it] 81%|████████  | 39677/48845 [14:03:36<3:13:14,  1.26s/it] 81%|████████  | 39678/48845 [14:03:37<3:13:09,  1.26s/it] 81%|████████  | 39679/48845 [14:03:38<3:13:08,  1.26s/it] 81%|████████  | 39680/48845 [14:03:40<3:12:57,  1.26s/it]                                                          {'loss': 2.0937, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39680/48845 [14:03:40<3:12:57,  1.26s/it] 81%|████████  | 39681/48845 [14:03:41<3:13:13,  1.27s/it] 81%|████████  | 39682/48845 [14:03:42<3:13:07,  1.26s/it] 81%|████████  | 39683/48845 [14:03:44<3:13:05,  1.26s/it] 81%|████████  | 39684/48845 [14:03:45<3:13:03,  1.26s/it] 81%|████████  | 39685/48845 [14:03:46<3:13:04,  1.26s/it]                                                          {'loss': 1.9983, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████  | 39685/48845 [14:03:46<3:13:04,  1.26s/it] 81%|████████  | 39686/48845 [14:03:47<3:12:56,  1.26s/it] 81%|████████▏ | 39687/48845 [14:03:49<3:12:47,  1.26s/it] 81%|████████▏ | 39688/48845 [14:03:50<3:12:55,  1.26s/it] 81%|████████▏ | 39689/48845 [14:03:51<3:13:05,  1.27s/it] 81%|████████▏ | 39690/48845 [14:03:52<3:12:58,  1.26s/it]                                                          {'loss': 2.1676, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████▏ | 39690/48845 [14:03:52<3:12:58,  1.26s/it] 81%|████████▏ | 39691/48845 [14:03:54<3:12:55,  1.26s/it] 81%|████████▏ | 39692/48845 [14:03:55<3:12:40,  1.26s/it] 81%|████████▏ | 39693/48845 [14:03:56<3:12:49,  1.26s/it] 81%|████████▏ | 39694/48845 [14:03:57<3:12:50,  1.26s/it] 81%|████████▏ | 39695/48845 [14:03:59<3:12:43,  1.26s/it]                                                          {'loss': 1.9787, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████▏ | 39695/48845 [14:03:59<3:12:43,  1.26s/it] 81%|████████▏ | 39696/48845 [14:04:00<3:12:46,  1.26s/it] 81%|████████▏ | 39697/48845 [14:04:01<3:12:47,  1.26s/it] 81%|████████▏ | 39698/48845 [14:04:03<3:12:46,  1.26s/it] 81%|████████▏ | 39699/48845 [14:04:04<3:12:59,  1.27s/it] 81%|████████▏ | 39700/48845 [14:04:05<3:12:59,  1.27s/it]                                                          {'loss': 2.203, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████▏ | 39700/48845 [14:04:05<3:12:59,  1.27s/it] 81%|████████▏ | 39701/48845 [14:04:06<3:13:04,  1.27s/it] 81%|████████▏ | 39702/48845 [14:04:08<3:12:57,  1.27s/it] 81%|████████▏ | 39703/48845 [14:04:09<3:12:54,  1.27s/it] 81%|████████▏ | 39704/48845 [14:04:10<3:12:45,  1.27s/it] 81%|████████▏ | 39705/48845 [14:04:11<3:12:54,  1.27s/it]                                                          {'loss': 2.1219, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████▏ | 39705/48845 [14:04:11<3:12:54,  1.27s/it] 81%|████████▏ | 39706/48845 [14:04:13<3:12:45,  1.27s/it] 81%|████████▏ | 39707/48845 [14:04:14<3:12:39,  1.27s/it] 81%|████████▏ | 39708/48845 [14:04:15<3:12:54,  1.27s/it] 81%|████████▏ | 39709/48845 [14:04:16<3:13:00,  1.27s/it] 81%|████████▏ | 39710/48845 [14:04:18<3:12:45,  1.27s/it]                                                          {'loss': 1.9681, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.06}
+ 81%|████████▏ | 39710/48845 [14:04:18<3:12:45,  1.27s/it] 81%|████████▏ | 39711/48845 [14:04:19<3:12:46,  1.27s/it] 81%|████████▏ | 39712/48845 [14:04:20<3:12:30,  1.26s/it] 81%|████████▏ | 39713/48845 [14:04:21<3:12:21,  1.26s/it] 81%|████████▏ | 39714/48845 [14:04:23<3:12:18,  1.26s/it] 81%|████████▏ | 39715/48845 [14:04:24<3:12:18,  1.26s/it]                                                          {'loss': 2.3632, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39715/48845 [14:04:24<3:12:18,  1.26s/it] 81%|████████▏ | 39716/48845 [14:04:25<3:12:15,  1.26s/it] 81%|████████▏ | 39717/48845 [14:04:27<3:16:19,  1.29s/it] 81%|████████▏ | 39718/48845 [14:04:28<3:15:04,  1.28s/it] 81%|████████▏ | 39719/48845 [14:04:29<3:14:10,  1.28s/it] 81%|████████▏ | 39720/48845 [14:04:30<3:13:20,  1.27s/it]                                                          {'loss': 2.0066, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39720/48845 [14:04:30<3:13:20,  1.27s/it] 81%|████████▏ | 39721/48845 [14:04:32<3:14:22,  1.28s/it] 81%|████████▏ | 39722/48845 [14:04:33<3:13:36,  1.27s/it] 81%|████████▏ | 39723/48845 [14:04:34<3:13:02,  1.27s/it] 81%|████████▏ | 39724/48845 [14:04:36<3:12:44,  1.27s/it] 81%|████████▏ | 39725/48845 [14:04:37<3:12:45,  1.27s/it]                                                          {'loss': 2.1571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39725/48845 [14:04:37<3:12:45,  1.27s/it] 81%|████████▏ | 39726/48845 [14:04:38<3:12:39,  1.27s/it] 81%|████████▏ | 39727/48845 [14:04:39<3:12:26,  1.27s/it] 81%|████████▏ | 39728/48845 [14:04:41<3:12:18,  1.27s/it] 81%|████████▏ | 39729/48845 [14:04:42<3:19:59,  1.32s/it] 81%|████████▏ | 39730/48845 [14:04:43<3:17:34,  1.30s/it]                                                          {'loss': 2.0998, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39730/48845 [14:04:43<3:17:34,  1.30s/it] 81%|████████▏ | 39731/48845 [14:04:45<3:15:47,  1.29s/it] 81%|████████▏ | 39732/48845 [14:04:46<3:14:39,  1.28s/it] 81%|████████▏ | 39733/48845 [14:04:47<3:13:59,  1.28s/it] 81%|████████▏ | 39734/48845 [14:04:48<3:13:20,  1.27s/it] 81%|████████▏ | 39735/48845 [14:04:50<3:12:50,  1.27s/it]                                                          {'loss': 1.9948, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39735/48845 [14:04:50<3:12:50,  1.27s/it] 81%|████████▏ | 39736/48845 [14:04:51<3:12:36,  1.27s/it] 81%|████████▏ | 39737/48845 [14:04:52<3:12:35,  1.27s/it] 81%|████████▏ | 39738/48845 [14:04:53<3:12:22,  1.27s/it] 81%|████████▏ | 39739/48845 [14:04:55<3:12:19,  1.27s/it] 81%|████████▏ | 39740/48845 [14:04:56<3:12:09,  1.27s/it]                                                          {'loss': 2.0592, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39740/48845 [14:04:56<3:12:09,  1.27s/it] 81%|████████▏ | 39741/48845 [14:04:57<3:12:13,  1.27s/it] 81%|████████▏ | 39742/48845 [14:04:58<3:12:02,  1.27s/it] 81%|████████▏ | 39743/48845 [14:05:00<3:11:56,  1.27s/it] 81%|████████▏ | 39744/48845 [14:05:01<3:11:42,  1.26s/it] 81%|████████▏ | 39745/48845 [14:05:02<3:11:39,  1.26s/it]                                                          {'loss': 2.051, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39745/48845 [14:05:02<3:11:39,  1.26s/it] 81%|████████▏ | 39746/48845 [14:05:03<3:11:38,  1.26s/it] 81%|████████▏ | 39747/48845 [14:05:05<3:11:27,  1.26s/it] 81%|████████▏ | 39748/48845 [14:05:06<3:11:42,  1.26s/it] 81%|████████▏ | 39749/48845 [14:05:07<3:11:45,  1.26s/it] 81%|████████▏ | 39750/48845 [14:05:09<3:11:40,  1.26s/it]                                                          {'loss': 1.9394, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39750/48845 [14:05:09<3:11:40,  1.26s/it] 81%|████████▏ | 39751/48845 [14:05:10<3:11:48,  1.27s/it] 81%|████████▏ | 39752/48845 [14:05:11<3:11:43,  1.27s/it] 81%|████████▏ | 39753/48845 [14:05:12<3:11:44,  1.27s/it] 81%|████████▏ | 39754/48845 [14:05:14<3:11:34,  1.26s/it] 81%|████████▏ | 39755/48845 [14:05:15<3:11:17,  1.26s/it]                                                          {'loss': 2.1089, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39755/48845 [14:05:15<3:11:17,  1.26s/it] 81%|████████▏ | 39756/48845 [14:05:16<3:11:16,  1.26s/it] 81%|████████▏ | 39757/48845 [14:05:17<3:11:16,  1.26s/it] 81%|████████▏ | 39758/48845 [14:05:19<3:11:27,  1.26s/it] 81%|████████▏ | 39759/48845 [14:05:20<3:11:19,  1.26s/it] 81%|████████▏ | 39760/48845 [14:05:21<3:11:13,  1.26s/it]                                                          {'loss': 1.9766, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39760/48845 [14:05:21<3:11:13,  1.26s/it] 81%|████████▏ | 39761/48845 [14:05:22<3:11:24,  1.26s/it] 81%|████████▏ | 39762/48845 [14:05:24<3:11:21,  1.26s/it] 81%|████████▏ | 39763/48845 [14:05:25<3:11:20,  1.26s/it] 81%|████████▏ | 39764/48845 [14:05:26<3:11:13,  1.26s/it] 81%|████████▏ | 39765/48845 [14:05:28<3:11:15,  1.26s/it]                                                          {'loss': 2.0211, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39765/48845 [14:05:28<3:11:15,  1.26s/it] 81%|████████▏ | 39766/48845 [14:05:29<3:11:20,  1.26s/it] 81%|████████▏ | 39767/48845 [14:05:30<3:11:28,  1.27s/it] 81%|████████▏ | 39768/48845 [14:05:31<3:11:13,  1.26s/it] 81%|████████▏ | 39769/48845 [14:05:33<3:11:32,  1.27s/it] 81%|████████▏ | 39770/48845 [14:05:34<3:11:23,  1.27s/it]                                                          {'loss': 2.0457, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39770/48845 [14:05:34<3:11:23,  1.27s/it] 81%|████████▏ | 39771/48845 [14:05:35<3:11:18,  1.26s/it] 81%|████████▏ | 39772/48845 [14:05:36<3:11:09,  1.26s/it] 81%|████████▏ | 39773/48845 [14:05:38<3:11:18,  1.27s/it] 81%|████████▏ | 39774/48845 [14:05:39<3:11:19,  1.27s/it] 81%|████████▏ | 39775/48845 [14:05:40<3:11:16,  1.27s/it]                                                          {'loss': 2.0101, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39775/48845 [14:05:40<3:11:16,  1.27s/it] 81%|████████▏ | 39776/48845 [14:05:41<3:11:22,  1.27s/it] 81%|████████▏ | 39777/48845 [14:05:43<3:17:58,  1.31s/it] 81%|████████▏ | 39778/48845 [14:05:44<3:15:50,  1.30s/it] 81%|████████▏ | 39779/48845 [14:05:45<3:14:28,  1.29s/it] 81%|████████▏ | 39780/48845 [14:05:47<3:13:25,  1.28s/it]                                                          {'loss': 2.0639, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39780/48845 [14:05:47<3:13:25,  1.28s/it] 81%|████████▏ | 39781/48845 [14:05:48<3:13:00,  1.28s/it] 81%|████████▏ | 39782/48845 [14:05:49<3:12:14,  1.27s/it] 81%|████████▏ | 39783/48845 [14:05:50<3:11:53,  1.27s/it] 81%|████████▏ | 39784/48845 [14:05:52<3:11:28,  1.27s/it] 81%|████████▏ | 39785/48845 [14:05:53<3:13:17,  1.28s/it]                                                          {'loss': 2.1816, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39785/48845 [14:05:53<3:13:17,  1.28s/it] 81%|████████▏ | 39786/48845 [14:05:54<3:12:28,  1.27s/it] 81%|████████▏ | 39787/48845 [14:05:56<3:12:03,  1.27s/it] 81%|████████▏ | 39788/48845 [14:05:57<3:11:23,  1.27s/it] 81%|████████▏ | 39789/48845 [14:05:58<3:11:17,  1.27s/it] 81%|████████▏ | 39790/48845 [14:05:59<3:10:59,  1.27s/it]                                                          {'loss': 2.2837, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39790/48845 [14:05:59<3:10:59,  1.27s/it] 81%|████████▏ | 39791/48845 [14:06:01<3:10:59,  1.27s/it] 81%|████████▏ | 39792/48845 [14:06:02<3:11:06,  1.27s/it] 81%|████████▏ | 39793/48845 [14:06:03<3:11:12,  1.27s/it] 81%|████████▏ | 39794/48845 [14:06:04<3:11:03,  1.27s/it] 81%|████████▏ | 39795/48845 [14:06:06<3:10:41,  1.26s/it]                                                          {'loss': 2.2126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39795/48845 [14:06:06<3:10:41,  1.26s/it] 81%|████████▏ | 39796/48845 [14:06:07<3:10:32,  1.26s/it] 81%|████████▏ | 39797/48845 [14:06:08<3:10:44,  1.26s/it] 81%|████████▏ | 39798/48845 [14:06:09<3:10:46,  1.27s/it] 81%|████████▏ | 39799/48845 [14:06:11<3:11:01,  1.27s/it] 81%|████████▏ | 39800/48845 [14:06:12<3:10:50,  1.27s/it]                                                          {'loss': 2.2569, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39800/48845 [14:06:12<3:10:50,  1.27s/it] 81%|████████▏ | 39801/48845 [14:06:16<5:05:36,  2.03s/it] 81%|████████▏ | 39802/48845 [14:06:17<4:30:58,  1.80s/it] 81%|████████▏ | 39803/48845 [14:06:18<4:06:38,  1.64s/it] 81%|████████▏ | 39804/48845 [14:06:20<3:49:40,  1.52s/it] 81%|████████▏ | 39805/48845 [14:06:21<3:37:41,  1.44s/it]                                                          {'loss': 2.1647, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.07}
+ 81%|████████▏ | 39805/48845 [14:06:21<3:37:41,  1.44s/it] 81%|████████▏ | 39806/48845 [14:06:22<3:29:25,  1.39s/it] 81%|████████▏ | 39807/48845 [14:06:24<3:30:17,  1.40s/it] 81%|████████▏ | 39808/48845 [14:06:25<3:24:13,  1.36s/it] 82%|████████▏ | 39809/48845 [14:06:26<3:19:58,  1.33s/it] 82%|████████��� | 39810/48845 [14:06:27<3:17:03,  1.31s/it]                                                          {'loss': 2.13, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39810/48845 [14:06:27<3:17:03,  1.31s/it] 82%|████████▏ | 39811/48845 [14:06:29<3:22:16,  1.34s/it] 82%|████████▏ | 39812/48845 [14:06:30<3:18:38,  1.32s/it] 82%|████████▏ | 39813/48845 [14:06:31<3:16:01,  1.30s/it] 82%|████████▏ | 39814/48845 [14:06:33<3:14:13,  1.29s/it] 82%|████████▏ | 39815/48845 [14:06:34<3:12:58,  1.28s/it]                                                          {'loss': 2.0057, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39815/48845 [14:06:34<3:12:58,  1.28s/it] 82%|████████▏ | 39816/48845 [14:06:35<3:12:04,  1.28s/it] 82%|████████▏ | 39817/48845 [14:06:36<3:11:29,  1.27s/it] 82%|████████▏ | 39818/48845 [14:06:38<3:10:58,  1.27s/it] 82%|████████▏ | 39819/48845 [14:06:39<3:10:48,  1.27s/it] 82%|████████▏ | 39820/48845 [14:06:40<3:10:35,  1.27s/it]                                                          {'loss': 2.0976, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39820/48845 [14:06:40<3:10:35,  1.27s/it] 82%|████████▏ | 39821/48845 [14:06:41<3:11:49,  1.28s/it] 82%|████████▏ | 39822/48845 [14:06:43<3:11:07,  1.27s/it] 82%|████████▏ | 39823/48845 [14:06:44<3:10:46,  1.27s/it] 82%|████████▏ | 39824/48845 [14:06:45<3:10:21,  1.27s/it] 82%|████████▏ | 39825/48845 [14:06:46<3:10:07,  1.26s/it]                                                          {'loss': 2.1053, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39825/48845 [14:06:46<3:10:07,  1.26s/it] 82%|████████▏ | 39826/48845 [14:06:48<3:10:02,  1.26s/it] 82%|████████▏ | 39827/48845 [14:06:49<3:09:57,  1.26s/it] 82%|████████▏ | 39828/48845 [14:06:50<3:09:56,  1.26s/it] 82%|████████▏ | 39829/48845 [14:06:51<3:09:38,  1.26s/it] 82%|████████▏ | 39830/48845 [14:06:53<3:09:56,  1.26s/it]                                                          {'loss': 2.1325, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39830/48845 [14:06:53<3:09:56,  1.26s/it] 82%|████████▏ | 39831/48845 [14:06:54<3:14:14,  1.29s/it] 82%|████████▏ | 39832/48845 [14:06:55<3:13:08,  1.29s/it] 82%|████████▏ | 39833/48845 [14:06:57<3:12:09,  1.28s/it] 82%|████████▏ | 39834/48845 [14:06:58<3:11:18,  1.27s/it] 82%|████████▏ | 39835/48845 [14:06:59<3:10:57,  1.27s/it]                                                          {'loss': 2.1735, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39835/48845 [14:06:59<3:10:57,  1.27s/it] 82%|████████▏ | 39836/48845 [14:07:00<3:10:41,  1.27s/it] 82%|████████▏ | 39837/48845 [14:07:02<3:10:22,  1.27s/it] 82%|████████▏ | 39838/48845 [14:07:03<3:10:00,  1.27s/it] 82%|████████▏ | 39839/48845 [14:07:04<3:09:55,  1.27s/it] 82%|████████▏ | 39840/48845 [14:07:05<3:09:35,  1.26s/it]                                                          {'loss': 2.1794, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39840/48845 [14:07:05<3:09:35,  1.26s/it] 82%|████████▏ | 39841/48845 [14:07:07<3:09:34,  1.26s/it] 82%|████████▏ | 39842/48845 [14:07:08<3:09:34,  1.26s/it] 82%|████████▏ | 39843/48845 [14:07:09<3:09:40,  1.26s/it] 82%|████████▏ | 39844/48845 [14:07:11<3:09:36,  1.26s/it] 82%|████████▏ | 39845/48845 [14:07:12<3:09:32,  1.26s/it]                                                          {'loss': 2.0384, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39845/48845 [14:07:12<3:09:32,  1.26s/it] 82%|████████▏ | 39846/48845 [14:07:13<3:09:25,  1.26s/it] 82%|████████▏ | 39847/48845 [14:07:14<3:12:43,  1.29s/it] 82%|████████▏ | 39848/48845 [14:07:16<3:11:56,  1.28s/it] 82%|████████▏ | 39849/48845 [14:07:17<3:11:05,  1.27s/it] 82%|████████▏ | 39850/48845 [14:07:18<3:10:32,  1.27s/it]                                                          {'loss': 2.1337, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39850/48845 [14:07:18<3:10:32,  1.27s/it] 82%|████████▏ | 39851/48845 [14:07:19<3:10:19,  1.27s/it] 82%|████��███▏ | 39852/48845 [14:07:21<3:09:58,  1.27s/it] 82%|████████▏ | 39853/48845 [14:07:22<3:09:40,  1.27s/it] 82%|████████▏ | 39854/48845 [14:07:23<3:09:26,  1.26s/it] 82%|████████▏ | 39855/48845 [14:07:25<3:09:26,  1.26s/it]                                                          {'loss': 2.0664, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39855/48845 [14:07:25<3:09:26,  1.26s/it] 82%|████████▏ | 39856/48845 [14:07:26<3:09:20,  1.26s/it] 82%|████████▏ | 39857/48845 [14:07:27<3:09:09,  1.26s/it] 82%|████████▏ | 39858/48845 [14:07:28<3:09:11,  1.26s/it] 82%|████████▏ | 39859/48845 [14:07:30<3:09:28,  1.27s/it] 82%|████████▏ | 39860/48845 [14:07:31<3:09:19,  1.26s/it]                                                          {'loss': 2.2004, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39860/48845 [14:07:31<3:09:19,  1.26s/it] 82%|████████▏ | 39861/48845 [14:07:32<3:09:17,  1.26s/it] 82%|████████▏ | 39862/48845 [14:07:33<3:09:08,  1.26s/it] 82%|████████▏ | 39863/48845 [14:07:35<3:09:09,  1.26s/it] 82%|████████▏ | 39864/48845 [14:07:36<3:08:57,  1.26s/it] 82%|████████▏ | 39865/48845 [14:07:37<3:08:57,  1.26s/it]                                                          {'loss': 2.0851, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39865/48845 [14:07:37<3:08:57,  1.26s/it] 82%|████████▏ | 39866/48845 [14:07:38<3:09:06,  1.26s/it] 82%|████████▏ | 39867/48845 [14:07:40<3:09:05,  1.26s/it] 82%|████████▏ | 39868/48845 [14:07:41<3:09:12,  1.26s/it] 82%|████████▏ | 39869/48845 [14:07:42<3:09:07,  1.26s/it] 82%|████████▏ | 39870/48845 [14:07:43<3:09:04,  1.26s/it]                                                          {'loss': 2.0342, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39870/48845 [14:07:43<3:09:04,  1.26s/it] 82%|████████▏ | 39871/48845 [14:07:45<3:09:08,  1.26s/it] 82%|████████▏ | 39872/48845 [14:07:46<3:08:59,  1.26s/it] 82%|████████▏ | 39873/48845 [14:07:47<3:08:53,  1.26s/it] 82%|████████▏ | 39874/48845 [14:07:49<3:09:01,  1.26s/it] 82%|████████▏ | 39875/48845 [14:07:50<3:08:55,  1.26s/it]                                                          {'loss': 2.1087, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39875/48845 [14:07:50<3:08:55,  1.26s/it] 82%|████████▏ | 39876/48845 [14:07:51<3:09:05,  1.26s/it] 82%|████████▏ | 39877/48845 [14:07:52<3:08:58,  1.26s/it] 82%|████████▏ | 39878/48845 [14:07:54<3:08:55,  1.26s/it] 82%|████████▏ | 39879/48845 [14:07:55<3:08:47,  1.26s/it] 82%|████████▏ | 39880/48845 [14:07:56<3:09:05,  1.27s/it]                                                          {'loss': 2.0861, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39880/48845 [14:07:56<3:09:05,  1.27s/it] 82%|████████▏ | 39881/48845 [14:07:57<3:09:04,  1.27s/it] 82%|████████▏ | 39882/48845 [14:07:59<3:08:54,  1.26s/it] 82%|████████▏ | 39883/48845 [14:08:00<3:08:52,  1.26s/it] 82%|████████▏ | 39884/48845 [14:08:01<3:08:56,  1.27s/it] 82%|████████▏ | 39885/48845 [14:08:02<3:08:54,  1.27s/it]                                                          {'loss': 2.0611, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39885/48845 [14:08:02<3:08:54,  1.27s/it] 82%|████████▏ | 39886/48845 [14:08:04<3:08:48,  1.26s/it] 82%|████████▏ | 39887/48845 [14:08:05<3:08:38,  1.26s/it] 82%|████████▏ | 39888/48845 [14:08:06<3:11:52,  1.29s/it] 82%|████████▏ | 39889/48845 [14:08:08<3:10:58,  1.28s/it] 82%|████████▏ | 39890/48845 [14:08:09<3:10:14,  1.27s/it]                                                          {'loss': 2.0448, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39890/48845 [14:08:09<3:10:14,  1.27s/it] 82%|████████▏ | 39891/48845 [14:08:10<3:10:03,  1.27s/it] 82%|████████▏ | 39892/48845 [14:08:11<3:12:07,  1.29s/it] 82%|████████▏ | 39893/48845 [14:08:13<3:11:02,  1.28s/it] 82%|████████▏ | 39894/48845 [14:08:14<3:10:09,  1.27s/it] 82%|████████▏ | 39895/48845 [14:08:15<3:09:35,  1.27s/it]                                                          {'loss': 2.1082, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39895/48845 [14:08:15<3:09:35,  1.27s/it] 82%|████████▏ | 39896/48845 [14:08:17<3:14:36,  1.30s/it] 82%|████████▏ | 39897/48845 [14:08:18<3:12:35,  1.29s/it] 82%|████████▏ | 39898/48845 [14:08:19<3:11:23,  1.28s/it] 82%|████████▏ | 39899/48845 [14:08:20<3:10:36,  1.28s/it] 82%|████████▏ | 39900/48845 [14:08:22<3:13:57,  1.30s/it]                                                          {'loss': 1.9008, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39900/48845 [14:08:22<3:13:57,  1.30s/it] 82%|████████▏ | 39901/48845 [14:08:23<3:12:15,  1.29s/it] 82%|████████▏ | 39902/48845 [14:08:24<3:11:10,  1.28s/it] 82%|████████▏ | 39903/48845 [14:08:26<3:10:11,  1.28s/it] 82%|████████▏ | 39904/48845 [14:08:27<3:09:53,  1.27s/it] 82%|████████▏ | 39905/48845 [14:08:28<3:09:20,  1.27s/it]                                                          {'loss': 2.0799, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.08}
+ 82%|████████▏ | 39905/48845 [14:08:28<3:09:20,  1.27s/it] 82%|████████▏ | 39906/48845 [14:08:29<3:08:59,  1.27s/it] 82%|████████▏ | 39907/48845 [14:08:31<3:09:00,  1.27s/it] 82%|████████▏ | 39908/48845 [14:08:32<3:08:54,  1.27s/it] 82%|████████▏ | 39909/48845 [14:08:33<3:08:40,  1.27s/it] 82%|████████▏ | 39910/48845 [14:08:34<3:08:28,  1.27s/it]                                                          {'loss': 2.0537, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39910/48845 [14:08:34<3:08:28,  1.27s/it] 82%|████████▏ | 39911/48845 [14:08:36<3:08:26,  1.27s/it] 82%|████████▏ | 39912/48845 [14:08:37<3:08:19,  1.26s/it] 82%|████████▏ | 39913/48845 [14:08:38<3:08:11,  1.26s/it] 82%|████████▏ | 39914/48845 [14:08:39<3:08:06,  1.26s/it] 82%|████████▏ | 39915/48845 [14:08:41<3:08:10,  1.26s/it]                                                          {'loss': 2.0004, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39915/48845 [14:08:41<3:08:10,  1.26s/it] 82%|████████▏ | 39916/48845 [14:08:42<3:08:09,  1.26s/it] 82%|████████▏ | 39917/48845 [14:08:43<3:08:03,  1.26s/it] 82%|████████▏ | 39918/48845 [14:08:44<3:08:02,  1.26s/it] 82%|████████▏ | 39919/48845 [14:08:46<3:08:00,  1.26s/it] 82%|████████▏ | 39920/48845 [14:08:47<3:08:08,  1.26s/it]                                                          {'loss': 1.8969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39920/48845 [14:08:47<3:08:08,  1.26s/it] 82%|████████▏ | 39921/48845 [14:08:48<3:08:09,  1.27s/it] 82%|████████▏ | 39922/48845 [14:08:50<3:08:10,  1.27s/it] 82%|████████▏ | 39923/48845 [14:08:51<3:08:20,  1.27s/it] 82%|████████▏ | 39924/48845 [14:08:52<3:08:18,  1.27s/it] 82%|████████▏ | 39925/48845 [14:08:53<3:08:01,  1.26s/it]                                                          {'loss': 2.2319, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39925/48845 [14:08:53<3:08:01,  1.26s/it] 82%|████████▏ | 39926/48845 [14:08:55<3:08:05,  1.27s/it] 82%|████████▏ | 39927/48845 [14:08:56<3:08:00,  1.26s/it] 82%|████████▏ | 39928/48845 [14:08:57<3:08:01,  1.27s/it] 82%|████████▏ | 39929/48845 [14:08:58<3:08:03,  1.27s/it] 82%|████████▏ | 39930/48845 [14:09:00<3:08:02,  1.27s/it]                                                          {'loss': 2.0267, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39930/48845 [14:09:00<3:08:02,  1.27s/it] 82%|████████▏ | 39931/48845 [14:09:01<3:08:02,  1.27s/it] 82%|████████▏ | 39932/48845 [14:09:02<3:08:03,  1.27s/it] 82%|████████▏ | 39933/48845 [14:09:03<3:08:00,  1.27s/it] 82%|████████▏ | 39934/48845 [14:09:05<3:07:51,  1.26s/it] 82%|████████▏ | 39935/48845 [14:09:06<3:07:47,  1.26s/it]                                                          {'loss': 2.0154, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39935/48845 [14:09:06<3:07:47,  1.26s/it] 82%|████████▏ | 39936/48845 [14:09:07<3:07:54,  1.27s/it] 82%|████████▏ | 39937/48845 [14:09:09<3:07:53,  1.27s/it] 82%|████████▏ | 39938/48845 [14:09:10<3:07:39,  1.26s/it] 82%|████████▏ | 39939/48845 [14:09:11<3:07:35,  1.26s/it] 82%|████████▏ | 39940/48845 [14:09:12<3:07:41,  1.26s/it]                                                          {'loss': 2.2061, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39940/48845 [14:09:12<3:07:41,  1.26s/it] 82%|████████▏ | 39941/48845 [14:09:14<3:07:33,  1.26s/it] 82%|████████▏ | 39942/48845 [14:09:15<3:07:46,  1.27s/it] 82%|████████▏ | 39943/48845 [14:09:16<3:07:38,  1.26s/it] 82%|████████▏ | 39944/48845 [14:09:17<3:07:39,  1.27s/it] 82%|████████▏ | 39945/48845 [14:09:19<3:07:30,  1.26s/it]                                                          {'loss': 2.0158, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39945/48845 [14:09:19<3:07:30,  1.26s/it] 82%|████████▏ | 39946/48845 [14:09:20<3:07:29,  1.26s/it] 82%|████████▏ | 39947/48845 [14:09:21<3:07:29,  1.26s/it] 82%|████████▏ | 39948/48845 [14:09:23<3:11:32,  1.29s/it] 82%|████████▏ | 39949/48845 [14:09:24<3:10:10,  1.28s/it] 82%|████████▏ | 39950/48845 [14:09:25<3:09:15,  1.28s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39950/48845 [14:09:25<3:09:15,  1.28s/it] 82%|████████▏ | 39951/48845 [14:09:26<3:08:38,  1.27s/it] 82%|████████▏ | 39952/48845 [14:09:28<3:08:34,  1.27s/it] 82%|████████▏ | 39953/48845 [14:09:29<3:08:08,  1.27s/it] 82%|████████▏ | 39954/48845 [14:09:30<3:07:51,  1.27s/it] 82%|████████▏ | 39955/48845 [14:09:31<3:07:36,  1.27s/it]                                                          {'loss': 1.9834, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39955/48845 [14:09:32<3:07:36,  1.27s/it] 82%|████████▏ | 39956/48845 [14:09:33<3:13:19,  1.30s/it] 82%|████████▏ | 39957/48845 [14:09:34<3:11:39,  1.29s/it] 82%|████████▏ | 39958/48845 [14:09:35<3:10:21,  1.29s/it] 82%|████████▏ | 39959/48845 [14:09:37<3:09:20,  1.28s/it] 82%|████████▏ | 39960/48845 [14:09:38<3:08:40,  1.27s/it]                                                          {'loss': 2.0773, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39960/48845 [14:09:38<3:08:40,  1.27s/it] 82%|████████▏ | 39961/48845 [14:09:39<3:08:13,  1.27s/it] 82%|████████▏ | 39962/48845 [14:09:40<3:07:52,  1.27s/it] 82%|████████▏ | 39963/48845 [14:09:42<3:07:34,  1.27s/it] 82%|████████▏ | 39964/48845 [14:09:43<3:07:26,  1.27s/it] 82%|████████▏ | 39965/48845 [14:09:44<3:07:13,  1.27s/it]                                                          {'loss': 1.9162, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39965/48845 [14:09:44<3:07:13,  1.27s/it] 82%|████████▏ | 39966/48845 [14:09:45<3:07:07,  1.26s/it] 82%|████████▏ | 39967/48845 [14:09:47<3:07:04,  1.26s/it] 82%|████████▏ | 39968/48845 [14:09:48<3:07:05,  1.26s/it] 82%|████████▏ | 39969/48845 [14:09:49<3:12:29,  1.30s/it] 82%|████████▏ | 39970/48845 [14:09:51<3:10:50,  1.29s/it]                                                          {'loss': 2.0187, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39970/48845 [14:09:51<3:10:50,  1.29s/it] 82%|████████▏ | 39971/48845 [14:09:52<3:09:41,  1.28s/it] 82%|████████▏ | 39972/48845 [14:09:53<3:08:39,  1.28s/it] 82%|████████▏ | 39973/48845 [14:09:54<3:08:05,  1.27s/it] 82%|████████▏ | 39974/48845 [14:09:56<3:07:41,  1.27s/it] 82%|████████▏ | 39975/48845 [14:09:57<3:07:15,  1.27s/it]                                                          {'loss': 2.0132, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39975/48845 [14:09:57<3:07:15,  1.27s/it] 82%|████████▏ | 39976/48845 [14:09:58<3:07:23,  1.27s/it] 82%|████████▏ | 39977/48845 [14:09:59<3:07:17,  1.27s/it] 82%|████████▏ | 39978/48845 [14:10:01<3:07:08,  1.27s/it] 82%|████████▏ | 39979/48845 [14:10:02<3:07:00,  1.27s/it] 82%|████████▏ | 39980/48845 [14:10:03<3:06:57,  1.27s/it]                                                          {'loss': 2.081, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39980/48845 [14:10:03<3:06:57,  1.27s/it] 82%|████████▏ | 39981/48845 [14:10:04<3:06:52,  1.26s/it] 82%|████████▏ | 39982/48845 [14:10:06<3:06:45,  1.26s/it] 82%|████████▏ | 39983/48845 [14:10:07<3:06:38,  1.26s/it] 82%|████████▏ | 39984/48845 [14:10:08<3:06:39,  1.26s/it] 82%|████████▏ | 39985/48845 [14:10:10<3:06:44,  1.26s/it]                                                          {'loss': 2.0556, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39985/48845 [14:10:10<3:06:44,  1.26s/it] 82%|████████▏ | 39986/48845 [14:10:11<3:06:46,  1.26s/it] 82%|████████▏ | 39987/48845 [14:10:12<3:06:46,  1.27s/it] 82%|████████▏ | 39988/48845 [14:10:13<3:06:32,  1.26s/it] 82%|████████▏ | 39989/48845 [14:10:15<3:06:34,  1.26s/it] 82%|████████▏ | 39990/48845 [14:10:16<3:06:26,  1.26s/it]                                                          {'loss': 2.1092, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39990/48845 [14:10:16<3:06:26,  1.26s/it] 82%|████████▏ | 39991/48845 [14:10:17<3:06:25,  1.26s/it] 82%|████████▏ | 39992/48845 [14:10:18<3:06:22,  1.26s/it] 82%|████████▏ | 39993/48845 [14:10:20<3:06:21,  1.26s/it] 82%|████████▏ | 39994/48845 [14:10:21<3:06:17,  1.26s/it] 82%|████████▏ | 39995/48845 [14:10:22<3:06:16,  1.26s/it]                                                          {'loss': 2.2057, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 39995/48845 [14:10:22<3:06:16,  1.26s/it] 82%|████████▏ | 39996/48845 [14:10:23<3:06:21,  1.26s/it] 82%|████████▏ | 39997/48845 [14:10:25<3:06:32,  1.26s/it] 82%|████████▏ | 39998/48845 [14:10:26<3:06:15,  1.26s/it] 82%|████████▏ | 39999/48845 [14:10:27<3:06:18,  1.26s/it] 82%|████████▏ | 40000/48845 [14:10:29<3:06:22,  1.26s/it]                                                          {'loss': 2.0655, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.09}
+ 82%|████████▏ | 40000/48845 [14:10:29<3:06:22,  1.26s/it] 82%|████████▏ | 40001/48845 [14:10:32<4:57:44,  2.02s/it] 82%|████████▏ | 40002/48845 [14:10:34<4:31:58,  1.85s/it] 82%|████████▏ | 40003/48845 [14:10:35<4:05:59,  1.67s/it] 82%|████████▏ | 40004/48845 [14:10:36<3:47:50,  1.55s/it] 82%|████████▏ | 40005/48845 [14:10:38<3:35:02,  1.46s/it]                                                          {'loss': 2.148, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40005/48845 [14:10:38<3:35:02,  1.46s/it] 82%|████████▏ | 40006/48845 [14:10:39<3:26:38,  1.40s/it] 82%|████████▏ | 40007/48845 [14:10:40<3:20:26,  1.36s/it] 82%|████████▏ | 40008/48845 [14:10:41<3:16:08,  1.33s/it] 82%|████████▏ | 40009/48845 [14:10:43<3:13:11,  1.31s/it] 82%|████████▏ | 40010/48845 [14:10:44<3:10:53,  1.30s/it]                                                          {'loss': 2.1877, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40010/48845 [14:10:44<3:10:53,  1.30s/it] 82%|████████▏ | 40011/48845 [14:10:45<3:09:24,  1.29s/it] 82%|████████▏ | 40012/48845 [14:10:46<3:08:20,  1.28s/it] 82%|████████▏ | 40013/48845 [14:10:48<3:07:25,  1.27s/it] 82%|████████▏ | 40014/48845 [14:10:49<3:07:06,  1.27s/it] 82%|████████▏ | 40015/48845 [14:10:50<3:06:44,  1.27s/it]                                                          {'loss': 2.1043, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40015/48845 [14:10:50<3:06:44,  1.27s/it] 82%|████████▏ | 40016/48845 [14:10:51<3:06:30,  1.27s/it] 82%|████████▏ | 40017/48845 [14:10:53<3:06:24,  1.27s/it] 82%|████████▏ | 40018/48845 [14:10:54<3:06:36,  1.27s/it] 82%|████████▏ | 40019/48845 [14:10:55<3:06:27,  1.27s/it] 82%|████████▏ | 40020/48845 [14:10:56<3:06:09,  1.27s/it]                                                          {'loss': 2.0197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40020/48845 [14:10:56<3:06:09,  1.27s/it] 82%|████████▏ | 40021/48845 [14:10:58<3:06:12,  1.27s/it] 82%|████████▏ | 40022/48845 [14:10:59<3:06:07,  1.27s/it] 82%|████████▏ | 40023/48845 [14:11:00<3:05:56,  1.26s/it] 82%|████████▏ | 40024/48845 [14:11:02<3:05:55,  1.26s/it] 82%|█��██████▏ | 40025/48845 [14:11:03<3:05:42,  1.26s/it]                                                          {'loss': 2.1304, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40025/48845 [14:11:03<3:05:42,  1.26s/it] 82%|████████▏ | 40026/48845 [14:11:04<3:05:51,  1.26s/it] 82%|████████▏ | 40027/48845 [14:11:05<3:05:42,  1.26s/it] 82%|████████▏ | 40028/48845 [14:11:07<3:05:37,  1.26s/it] 82%|████████▏ | 40029/48845 [14:11:08<3:05:27,  1.26s/it] 82%|████████▏ | 40030/48845 [14:11:09<3:05:39,  1.26s/it]                                                          {'loss': 2.0579, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40030/48845 [14:11:09<3:05:39,  1.26s/it] 82%|████████▏ | 40031/48845 [14:11:10<3:05:50,  1.27s/it] 82%|████████▏ | 40032/48845 [14:11:12<3:05:46,  1.26s/it] 82%|████████▏ | 40033/48845 [14:11:13<3:05:44,  1.26s/it] 82%|████████▏ | 40034/48845 [14:11:14<3:05:50,  1.27s/it] 82%|████████▏ | 40035/48845 [14:11:15<3:05:46,  1.27s/it]                                                          {'loss': 1.9544, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40035/48845 [14:11:15<3:05:46,  1.27s/it] 82%|████████▏ | 40036/48845 [14:11:17<3:05:42,  1.26s/it] 82%|████████▏ | 40037/48845 [14:11:18<3:05:38,  1.26s/it] 82%|████████▏ | 40038/48845 [14:11:19<3:05:46,  1.27s/it] 82%|████████▏ | 40039/48845 [14:11:20<3:05:43,  1.27s/it] 82%|████████▏ | 40040/48845 [14:11:22<3:05:33,  1.26s/it]                                                          {'loss': 2.0363, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40040/48845 [14:11:22<3:05:33,  1.26s/it] 82%|████████▏ | 40041/48845 [14:11:23<3:05:40,  1.27s/it] 82%|████████▏ | 40042/48845 [14:11:24<3:05:43,  1.27s/it] 82%|████████▏ | 40043/48845 [14:11:26<3:05:30,  1.26s/it] 82%|████████▏ | 40044/48845 [14:11:27<3:05:17,  1.26s/it] 82%|████████▏ | 40045/48845 [14:11:28<3:05:11,  1.26s/it]                                                          {'loss': 2.0212, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40045/48845 [14:11:28<3:05:11,  1.26s/it] 82%|████████▏ | 40046/48845 [14:11:29<3:05:29,  1.26s/it] 82%|████████▏ | 40047/48845 [14:11:31<3:05:19,  1.26s/it] 82%|████████▏ | 40048/48845 [14:11:32<3:05:04,  1.26s/it] 82%|████████▏ | 40049/48845 [14:11:33<3:05:07,  1.26s/it] 82%|████████▏ | 40050/48845 [14:11:34<3:05:15,  1.26s/it]                                                          {'loss': 1.989, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40050/48845 [14:11:34<3:05:15,  1.26s/it] 82%|████████▏ | 40051/48845 [14:11:36<3:05:13,  1.26s/it] 82%|████████▏ | 40052/48845 [14:11:37<3:05:12,  1.26s/it] 82%|████████▏ | 40053/48845 [14:11:38<3:05:08,  1.26s/it] 82%|████████▏ | 40054/48845 [14:11:39<3:05:19,  1.26s/it] 82%|████████▏ | 40055/48845 [14:11:41<3:05:23,  1.27s/it]                                                          {'loss': 2.0936, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40055/48845 [14:11:41<3:05:23,  1.27s/it] 82%|████████▏ | 40056/48845 [14:11:42<3:05:12,  1.26s/it] 82%|████████▏ | 40057/48845 [14:11:43<3:05:07,  1.26s/it] 82%|████████▏ | 40058/48845 [14:11:45<3:05:07,  1.26s/it] 82%|████████▏ | 40059/48845 [14:11:46<3:04:48,  1.26s/it] 82%|████████▏ | 40060/48845 [14:11:47<3:05:13,  1.27s/it]                                                          {'loss': 2.3048, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40060/48845 [14:11:47<3:05:13,  1.27s/it] 82%|████████▏ | 40061/48845 [14:11:48<3:05:16,  1.27s/it] 82%|████████▏ | 40062/48845 [14:11:50<3:05:14,  1.27s/it] 82%|████████▏ | 40063/48845 [14:11:51<3:05:16,  1.27s/it] 82%|████████▏ | 40064/48845 [14:11:52<3:05:12,  1.27s/it] 82%|████████▏ | 40065/48845 [14:11:53<3:04:58,  1.26s/it]                                                          {'loss': 2.1813, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40065/48845 [14:11:53<3:04:58,  1.26s/it] 82%|████████▏ | 40066/48845 [14:11:55<3:05:22,  1.27s/it] 82%|��███████▏ | 40067/48845 [14:11:56<3:05:11,  1.27s/it] 82%|████████▏ | 40068/48845 [14:11:57<3:05:06,  1.27s/it] 82%|████████▏ | 40069/48845 [14:11:58<3:05:02,  1.27s/it] 82%|████████▏ | 40070/48845 [14:12:00<3:05:11,  1.27s/it]                                                          {'loss': 2.0697, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40070/48845 [14:12:00<3:05:11,  1.27s/it] 82%|████████▏ | 40071/48845 [14:12:01<3:05:02,  1.27s/it] 82%|████████▏ | 40072/48845 [14:12:02<3:05:02,  1.27s/it] 82%|████████▏ | 40073/48845 [14:12:03<3:04:46,  1.26s/it] 82%|████████▏ | 40074/48845 [14:12:05<3:04:55,  1.26s/it] 82%|████████▏ | 40075/48845 [14:12:06<3:04:46,  1.26s/it]                                                          {'loss': 2.138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40075/48845 [14:12:06<3:04:46,  1.26s/it] 82%|████████▏ | 40076/48845 [14:12:07<3:04:39,  1.26s/it] 82%|████████▏ | 40077/48845 [14:12:09<3:04:37,  1.26s/it] 82%|████████▏ | 40078/48845 [14:12:10<3:04:40,  1.26s/it] 82%|████████▏ | 40079/48845 [14:12:11<3:04:40,  1.26s/it] 82%|████████▏ | 40080/48845 [14:12:12<3:04:51,  1.27s/it]                                                          {'loss': 2.0323, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40080/48845 [14:12:12<3:04:51,  1.27s/it] 82%|████████▏ | 40081/48845 [14:12:14<3:05:05,  1.27s/it] 82%|████████▏ | 40082/48845 [14:12:15<3:05:03,  1.27s/it] 82%|████████▏ | 40083/48845 [14:12:16<3:05:00,  1.27s/it] 82%|████████▏ | 40084/48845 [14:12:17<3:04:56,  1.27s/it] 82%|████████▏ | 40085/48845 [14:12:19<3:04:44,  1.27s/it]                                                          {'loss': 1.9658, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40085/48845 [14:12:19<3:04:44,  1.27s/it] 82%|████████▏ | 40086/48845 [14:12:20<3:04:43,  1.27s/it] 82%|████████▏ | 40087/48845 [14:12:21<3:04:41,  1.27s/it] 82%|████████▏ | 40088/48845 [14:12:22<3:04:42,  1.27s/it] 82%|████████▏ | 40089/48845 [14:12:24<3:04:42,  1.27s/it] 82%|████████▏ | 40090/48845 [14:12:25<3:04:34,  1.26s/it]                                                          {'loss': 2.0418, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40090/48845 [14:12:25<3:04:34,  1.26s/it] 82%|████████▏ | 40091/48845 [14:12:26<3:04:55,  1.27s/it] 82%|████████▏ | 40092/48845 [14:12:28<3:04:44,  1.27s/it] 82%|████████▏ | 40093/48845 [14:12:29<3:04:33,  1.27s/it] 82%|████████▏ | 40094/48845 [14:12:30<3:04:24,  1.26s/it] 82%|████████▏ | 40095/48845 [14:12:31<3:04:27,  1.26s/it]                                                          {'loss': 2.0085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40095/48845 [14:12:31<3:04:27,  1.26s/it] 82%|████████▏ | 40096/48845 [14:12:33<3:04:44,  1.27s/it] 82%|████████▏ | 40097/48845 [14:12:34<3:04:41,  1.27s/it] 82%|████████▏ | 40098/48845 [14:12:35<3:04:30,  1.27s/it] 82%|████████▏ | 40099/48845 [14:12:36<3:04:33,  1.27s/it] 82%|████████▏ | 40100/48845 [14:12:38<3:04:28,  1.27s/it]                                                          {'loss': 1.936, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.1}
+ 82%|████████▏ | 40100/48845 [14:12:38<3:04:28,  1.27s/it] 82%|████████▏ | 40101/48845 [14:12:39<3:04:21,  1.27s/it] 82%|████████▏ | 40102/48845 [14:12:40<3:04:06,  1.26s/it] 82%|████████▏ | 40103/48845 [14:12:41<3:04:15,  1.26s/it] 82%|████████▏ | 40104/48845 [14:12:43<3:04:13,  1.26s/it] 82%|████████▏ | 40105/48845 [14:12:44<3:04:18,  1.27s/it]                                                          {'loss': 2.0204, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40105/48845 [14:12:44<3:04:18,  1.27s/it] 82%|████████▏ | 40106/48845 [14:12:45<3:04:18,  1.27s/it] 82%|████████▏ | 40107/48845 [14:12:47<3:04:08,  1.26s/it] 82%|████████▏ | 40108/48845 [14:12:48<3:04:05,  1.26s/it] 82%|████████▏ | 40109/48845 [14:12:49<3:04:03,  1.26s/it] 82%|████████▏ | 40110/48845 [14:12:50<3:04:08,  1.26s/it]                                                          {'loss': 2.0727, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40110/48845 [14:12:50<3:04:08,  1.26s/it] 82%|████████▏ | 40111/48845 [14:12:52<3:04:11,  1.27s/it] 82%|████████▏ | 40112/48845 [14:12:53<3:04:06,  1.26s/it] 82%|████████▏ | 40113/48845 [14:12:54<3:04:04,  1.26s/it] 82%|████████▏ | 40114/48845 [14:12:55<3:03:56,  1.26s/it] 82%|████████▏ | 40115/48845 [14:12:57<3:04:02,  1.26s/it]                                                          {'loss': 1.9684, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40115/48845 [14:12:57<3:04:02,  1.26s/it] 82%|████████▏ | 40116/48845 [14:12:58<3:04:01,  1.26s/it] 82%|████████▏ | 40117/48845 [14:12:59<3:03:58,  1.26s/it] 82%|████████▏ | 40118/48845 [14:13:00<3:04:04,  1.27s/it] 82%|████████▏ | 40119/48845 [14:13:02<3:07:47,  1.29s/it] 82%|████████▏ | 40120/48845 [14:13:03<3:06:23,  1.28s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40120/48845 [14:13:03<3:06:23,  1.28s/it] 82%|████████▏ | 40121/48845 [14:13:04<3:05:30,  1.28s/it] 82%|████████▏ | 40122/48845 [14:13:06<3:04:56,  1.27s/it] 82%|████████▏ | 40123/48845 [14:13:07<3:04:42,  1.27s/it] 82%|████████▏ | 40124/48845 [14:13:08<3:04:19,  1.27s/it] 82%|████████▏ | 40125/48845 [14:13:09<3:04:21,  1.27s/it]                                                          {'loss': 2.2318, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40125/48845 [14:13:09<3:04:21,  1.27s/it] 82%|████████▏ | 40126/48845 [14:13:11<3:04:07,  1.27s/it] 82%|████████▏ | 40127/48845 [14:13:12<3:04:05,  1.27s/it] 82%|████████▏ | 40128/48845 [14:13:13<3:03:53,  1.27s/it] 82%|████████▏ | 40129/48845 [14:13:14<3:03:44,  1.26s/it] 82%|████████▏ | 40130/48845 [14:13:16<3:03:36,  1.26s/it]                                                          {'loss': 2.0407, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40130/48845 [14:13:16<3:03:36,  1.26s/it] 82%|████████▏ | 40131/48845 [14:13:17<3:03:36,  1.26s/it] 82%|████████▏ | 40132/48845 [14:13:18<3:03:42,  1.27s/it] 82%|████████▏ | 40133/48845 [14:13:19<3:03:32,  1.26s/it] 82%|████████▏ | 40134/48845 [14:13:21<3:03:25,  1.26s/it] 82%|████████▏ | 40135/48845 [14:13:22<3:03:23,  1.26s/it]                                                          {'loss': 2.017, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40135/48845 [14:13:22<3:03:23,  1.26s/it] 82%|████████▏ | 40136/48845 [14:13:23<3:03:28,  1.26s/it] 82%|████████▏ | 40137/48845 [14:13:25<3:03:28,  1.26s/it] 82%|████████▏ | 40138/48845 [14:13:26<3:03:19,  1.26s/it] 82%|████████▏ | 40139/48845 [14:13:27<3:03:20,  1.26s/it] 82%|████████▏ | 40140/48845 [14:13:28<3:03:18,  1.26s/it]                                                          {'loss': 2.0674, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40140/48845 [14:13:28<3:03:18,  1.26s/it] 82%|████████▏ | 40141/48845 [14:13:30<3:03:21,  1.26s/it] 82%|████████▏ | 40142/48845 [14:13:31<3:03:17,  1.26s/it] 82%|████████▏ | 40143/48845 [14:13:32<3:03:14,  1.26s/it] 82%|████████▏ | 40144/48845 [14:13:33<3:03:11,  1.26s/it] 82%|████████▏ | 40145/48845 [14:13:35<3:03:10,  1.26s/it]                                                          {'loss': 2.046, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40145/48845 [14:13:35<3:03:10,  1.26s/it] 82%|████████▏ | 40146/48845 [14:13:36<3:03:10,  1.26s/it] 82%|████████▏ | 40147/48845 [14:13:37<3:03:26,  1.27s/it] 82%|████████▏ | 40148/48845 [14:13:38<3:03:20,  1.26s/it] 82%|████████▏ | 40149/48845 [14:13:40<3:03:19,  1.26s/it] 82%|████████▏ | 40150/48845 [14:13:41<3:03:32,  1.27s/it]                                                          {'loss': 2.0023, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40150/48845 [14:13:41<3:03:32,  1.27s/it] 82%|████████▏ | 40151/48845 [14:13:42<3:03:43,  1.27s/it] 82%|████████▏ | 40152/48845 [14:13:44<3:03:40,  1.27s/it] 82%|████████▏ | 40153/48845 [14:13:45<3:03:26,  1.27s/it] 82%|████████▏ | 40154/48845 [14:13:46<3:03:13,  1.26s/it] 82%|████████▏ | 40155/48845 [14:13:47<3:03:28,  1.27s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40155/48845 [14:13:47<3:03:28,  1.27s/it] 82%|████████▏ | 40156/48845 [14:13:49<3:03:25,  1.27s/it] 82%|████████▏ | 40157/48845 [14:13:50<3:03:13,  1.27s/it] 82%|████████▏ | 40158/48845 [14:13:51<3:03:11,  1.27s/it] 82%|████████▏ | 40159/48845 [14:13:52<3:03:30,  1.27s/it] 82%|████████▏ | 40160/48845 [14:13:54<3:03:12,  1.27s/it]                                                          {'loss': 2.0367, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40160/48845 [14:13:54<3:03:12,  1.27s/it] 82%|████████▏ | 40161/48845 [14:13:55<3:03:03,  1.26s/it] 82%|████████▏ | 40162/48845 [14:13:56<3:02:51,  1.26s/it] 82%|████████▏ | 40163/48845 [14:13:57<3:03:03,  1.27s/it] 82%|████████▏ | 40164/48845 [14:13:59<3:03:05,  1.27s/it] 82%|████████▏ | 40165/48845 [14:14:00<3:03:08,  1.27s/it]                                                          {'loss': 1.966, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40165/48845 [14:14:00<3:03:08,  1.27s/it] 82%|████████▏ | 40166/48845 [14:14:01<3:03:03,  1.27s/it] 82%|████████▏ | 40167/48845 [14:14:02<3:03:08,  1.27s/it] 82%|████████▏ | 40168/48845 [14:14:04<3:02:55,  1.26s/it] 82%|████████▏ | 40169/48845 [14:14:05<3:03:04,  1.27s/it] 82%|████████▏ | 40170/48845 [14:14:06<3:02:59,  1.27s/it]                                                          {'loss': 2.092, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40170/48845 [14:14:06<3:02:59,  1.27s/it] 82%|████████▏ | 40171/48845 [14:14:08<3:03:27,  1.27s/it] 82%|████████▏ | 40172/48845 [14:14:09<3:03:11,  1.27s/it] 82%|████████▏ | 40173/48845 [14:14:10<3:02:50,  1.27s/it] 82%|████████▏ | 40174/48845 [14:14:11<3:02:45,  1.26s/it] 82%|████████▏ | 40175/48845 [14:14:13<3:02:44,  1.26s/it]                                                          {'loss': 2.0917, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40175/48845 [14:14:13<3:02:44,  1.26s/it] 82%|████████▏ | 40176/48845 [14:14:14<3:02:42,  1.26s/it] 82%|████████▏ | 40177/48845 [14:14:15<3:02:45,  1.27s/it] 82%|████████▏ | 40178/48845 [14:14:16<3:02:44,  1.27s/it] 82%|████████▏ | 40179/48845 [14:14:18<3:02:45,  1.27s/it] 82%|████████▏ | 40180/48845 [14:14:19<3:02:41,  1.27s/it]                                                          {'loss': 1.919, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40180/48845 [14:14:19<3:02:41,  1.27s/it] 82%|████████▏ | 40181/48845 [14:14:20<3:02:40,  1.27s/it] 82%|████████▏ | 40182/48845 [14:14:21<3:02:31,  1.26s/it] 82%|████████▏ | 40183/48845 [14:14:23<3:02:42,  1.27s/it] 82%|████████▏ | 40184/48845 [14:14:24<3:02:33,  1.26s/it] 82%|████████▏ | 40185/48845 [14:14:25<3:02:27,  1.26s/it]                                                          {'loss': 2.1157, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40185/48845 [14:14:25<3:02:27,  1.26s/it] 82%|████████▏ | 40186/48845 [14:14:27<3:02:20,  1.26s/it] 82%|████████▏ | 40187/48845 [14:14:28<3:02:32,  1.27s/it] 82%|████████▏ | 40188/48845 [14:14:29<3:02:26,  1.26s/it] 82%|████████▏ | 40189/48845 [14:14:30<3:02:18,  1.26s/it] 82%|████████▏ | 40190/48845 [14:14:32<3:02:28,  1.26s/it]                                                          {'loss': 2.1434, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40190/48845 [14:14:32<3:02:28,  1.26s/it] 82%|████████▏ | 40191/48845 [14:14:33<3:02:37,  1.27s/it] 82%|████████▏ | 40192/48845 [14:14:34<3:02:28,  1.27s/it] 82%|████████▏ | 40193/48845 [14:14:35<3:02:14,  1.26s/it] 82%|████████▏ | 40194/48845 [14:14:37<3:02:19,  1.26s/it] 82%|████████▏ | 40195/48845 [14:14:38<3:02:02,  1.26s/it]                                                          {'loss': 2.0654, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.11}
+ 82%|████████▏ | 40195/48845 [14:14:38<3:02:02,  1.26s/it] 82%|████████▏ | 40196/48845 [14:14:39<3:02:13,  1.26s/it] 82%|████████▏ | 40197/48845 [14:14:40<3:02:01,  1.26s/it] 82%|████████▏ | 40198/48845 [14:14:42<3:02:17,  1.26s/it] 82%|████████▏ | 40199/48845 [14:14:43<3:02:26,  1.27s/it] 82%|████████▏ | 40200/48845 [14:14:44<3:02:18,  1.27s/it]                                                          {'loss': 2.0958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40200/48845 [14:14:44<3:02:18,  1.27s/it] 82%|████████▏ | 40201/48845 [14:14:48<4:51:41,  2.02s/it] 82%|████████▏ | 40202/48845 [14:14:49<4:18:35,  1.80s/it] 82%|████████▏ | 40203/48845 [14:14:51<3:55:30,  1.64s/it] 82%|████████▏ | 40204/48845 [14:14:52<3:39:12,  1.52s/it] 82%|████████▏ | 40205/48845 [14:14:53<3:28:01,  1.44s/it]                                                          {'loss': 2.0573, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40205/48845 [14:14:53<3:28:01,  1.44s/it] 82%|████████▏ | 40206/48845 [14:14:54<3:20:11,  1.39s/it] 82%|████████▏ | 40207/48845 [14:14:56<3:14:29,  1.35s/it] 82%|████████▏ | 40208/48845 [14:14:57<3:10:34,  1.32s/it] 82%|████████▏ | 40209/48845 [14:14:58<3:07:46,  1.30s/it] 82%|████████▏ | 40210/48845 [14:14:59<3:05:57,  1.29s/it]                                                          {'loss': 2.0366, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40210/48845 [14:14:59<3:05:57,  1.29s/it] 82%|████████▏ | 40211/48845 [14:15:01<3:04:47,  1.28s/it] 82%|████████▏ | 40212/48845 [14:15:02<3:03:41,  1.28s/it] 82%|████████▏ | 40213/48845 [14:15:03<3:03:16,  1.27s/it] 82%|████████▏ | 40214/48845 [14:15:04<3:02:42,  1.27s/it] 82%|████████▏ | 40215/48845 [14:15:06<3:02:20,  1.27s/it]                                                          {'loss': 2.0071, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40215/48845 [14:15:06<3:02:20,  1.27s/it] 82%|████████▏ | 40216/48845 [14:15:07<3:02:17,  1.27s/it] 82%|████████▏ | 40217/48845 [14:15:08<3:02:06,  1.27s/it] 82%|████████▏ | 40218/48845 [14:15:09<3:01:55,  1.27s/it] 82%|████████▏ | 40219/48845 [14:15:11<3:01:49,  1.26s/it] 82%|████████▏ | 40220/48845 [14:15:12<3:01:39,  1.26s/it]                                                          {'loss': 2.0354, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40220/48845 [14:15:12<3:01:39,  1.26s/it] 82%|████████▏ | 40221/48845 [14:15:13<3:01:50,  1.27s/it] 82%|████████▏ | 40222/48845 [14:15:15<3:01:39,  1.26s/it] 82%|████████▏ | 40223/48845 [14:15:16<3:01:29,  1.26s/it] 82%|████████▏ | 40224/48845 [14:15:17<3:01:35,  1.26s/it] 82%|████████▏ | 40225/48845 [14:15:18<3:01:41,  1.26s/it]                                                          {'loss': 2.1328, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40225/48845 [14:15:18<3:01:41,  1.26s/it] 82%|████████▏ | 40226/48845 [14:15:20<3:01:45,  1.27s/it] 82%|████████▏ | 40227/48845 [14:15:21<3:01:43,  1.27s/it] 82%|████████▏ | 40228/48845 [14:15:22<3:01:36,  1.26s/it] 82%|████████▏ | 40229/48845 [14:15:23<3:01:39,  1.26s/it] 82%|████████▏ | 40230/48845 [14:15:25<3:01:32,  1.26s/it]                                                          {'loss': 2.2444, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40230/48845 [14:15:25<3:01:32,  1.26s/it] 82%|████████▏ | 40231/48845 [14:15:26<3:01:24,  1.26s/it] 82%|████████▏ | 40232/48845 [14:15:27<3:01:23,  1.26s/it] 82%|████████▏ | 40233/48845 [14:15:28<3:01:36,  1.27s/it] 82%|████████▏ | 40234/48845 [14:15:30<3:01:24,  1.26s/it] 82%|████████▏ | 40235/48845 [14:15:31<3:01:20,  1.26s/it]                                                          {'loss': 2.0987, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40235/48845 [14:15:31<3:01:20,  1.26s/it] 82%|████████▏ | 40236/48845 [14:15:32<3:01:09,  1.26s/it] 82%|████████▏ | 40237/48845 [14:15:33<3:01:00,  1.26s/it] 82%|████████▏ | 40238/48845 [14:15:35<3:01:02,  1.26s/it] 82%|████████▏ | 40239/48845 [14:15:36<3:00:51,  1.26s/it] 82%|���███████▏ | 40240/48845 [14:15:37<3:01:06,  1.26s/it]                                                          {'loss': 2.0829, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40240/48845 [14:15:37<3:01:06,  1.26s/it] 82%|████████▏ | 40241/48845 [14:15:39<3:01:24,  1.27s/it] 82%|████████▏ | 40242/48845 [14:15:40<3:01:09,  1.26s/it] 82%|████████▏ | 40243/48845 [14:15:41<3:00:59,  1.26s/it] 82%|████████▏ | 40244/48845 [14:15:42<3:00:59,  1.26s/it] 82%|████████▏ | 40245/48845 [14:15:44<3:07:47,  1.31s/it]                                                          {'loss': 2.092, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40245/48845 [14:15:44<3:07:47,  1.31s/it] 82%|████████▏ | 40246/48845 [14:15:45<3:05:44,  1.30s/it] 82%|████████▏ | 40247/48845 [14:15:46<3:04:21,  1.29s/it] 82%|████████▏ | 40248/48845 [14:15:48<3:03:36,  1.28s/it] 82%|████████▏ | 40249/48845 [14:15:49<3:02:46,  1.28s/it] 82%|████████▏ | 40250/48845 [14:15:50<3:02:20,  1.27s/it]                                                          {'loss': 2.0723, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40250/48845 [14:15:50<3:02:20,  1.27s/it] 82%|████████▏ | 40251/48845 [14:15:51<3:01:56,  1.27s/it] 82%|████████▏ | 40252/48845 [14:15:53<3:01:32,  1.27s/it] 82%|████████▏ | 40253/48845 [14:15:54<3:01:21,  1.27s/it] 82%|████████▏ | 40254/48845 [14:15:55<3:01:17,  1.27s/it] 82%|████████▏ | 40255/48845 [14:15:56<3:01:06,  1.27s/it]                                                          {'loss': 2.1102, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40255/48845 [14:15:56<3:01:06,  1.27s/it] 82%|████████▏ | 40256/48845 [14:15:58<3:01:04,  1.26s/it] 82%|████████▏ | 40257/48845 [14:15:59<3:00:58,  1.26s/it] 82%|████████▏ | 40258/48845 [14:16:00<3:00:49,  1.26s/it] 82%|████████▏ | 40259/48845 [14:16:01<3:00:47,  1.26s/it] 82%|████████▏ | 40260/48845 [14:16:03<3:00:43,  1.26s/it]                                                          {'loss': 1.9718, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40260/48845 [14:16:03<3:00:43,  1.26s/it] 82%|████████▏ | 40261/48845 [14:16:04<3:03:43,  1.28s/it] 82%|████████▏ | 40262/48845 [14:16:05<3:02:41,  1.28s/it] 82%|████████▏ | 40263/48845 [14:16:07<3:02:17,  1.27s/it] 82%|████████▏ | 40264/48845 [14:16:08<3:01:56,  1.27s/it] 82%|████████▏ | 40265/48845 [14:16:09<3:01:34,  1.27s/it]                                                          {'loss': 1.9779, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40265/48845 [14:16:09<3:01:34,  1.27s/it] 82%|████████▏ | 40266/48845 [14:16:10<3:01:23,  1.27s/it] 82%|████████▏ | 40267/48845 [14:16:12<3:01:11,  1.27s/it] 82%|████████▏ | 40268/48845 [14:16:13<3:00:56,  1.27s/it] 82%|████████▏ | 40269/48845 [14:16:14<3:01:25,  1.27s/it] 82%|████████▏ | 40270/48845 [14:16:15<3:01:19,  1.27s/it]                                                          {'loss': 2.0778, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40270/48845 [14:16:15<3:01:19,  1.27s/it] 82%|████████▏ | 40271/48845 [14:16:17<3:01:07,  1.27s/it] 82%|████████▏ | 40272/48845 [14:16:18<3:00:59,  1.27s/it] 82%|████████▏ | 40273/48845 [14:16:19<3:01:10,  1.27s/it] 82%|████████▏ | 40274/48845 [14:16:21<3:01:13,  1.27s/it] 82%|████████▏ | 40275/48845 [14:16:22<3:01:02,  1.27s/it]                                                          {'loss': 2.1132, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40275/48845 [14:16:22<3:01:02,  1.27s/it] 82%|████████▏ | 40276/48845 [14:16:23<3:00:53,  1.27s/it] 82%|████████▏ | 40277/48845 [14:16:24<3:05:17,  1.30s/it] 82%|████████▏ | 40278/48845 [14:16:26<3:03:48,  1.29s/it] 82%|████████▏ | 40279/48845 [14:16:27<3:02:44,  1.28s/it] 82%|████████▏ | 40280/48845 [14:16:28<3:02:00,  1.27s/it]                                                          {'loss': 2.0719, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40280/48845 [14:16:28<3:02:00,  1.27s/it] 82%|████████▏ | 40281/48845 [14:16:30<3:04:27,  1.29s/it] 82%|████████▏ | 40282/48845 [14:16:31<3:03:04,  1.28s/it] 82%|████████▏ | 40283/48845 [14:16:32<3:02:11,  1.28s/it] 82%|████████▏ | 40284/48845 [14:16:33<3:01:33,  1.27s/it] 82%|████████▏ | 40285/48845 [14:16:35<3:04:09,  1.29s/it]                                                          {'loss': 2.1107, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40285/48845 [14:16:35<3:04:09,  1.29s/it] 82%|████████▏ | 40286/48845 [14:16:36<3:03:00,  1.28s/it] 82%|████████▏ | 40287/48845 [14:16:37<3:02:04,  1.28s/it] 82%|████████▏ | 40288/48845 [14:16:38<3:01:23,  1.27s/it] 82%|████████▏ | 40289/48845 [14:16:40<3:01:05,  1.27s/it] 82%|████████▏ | 40290/48845 [14:16:41<3:00:40,  1.27s/it]                                                          {'loss': 2.0434, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40290/48845 [14:16:41<3:00:40,  1.27s/it] 82%|████████▏ | 40291/48845 [14:16:42<3:00:39,  1.27s/it] 82%|████████▏ | 40292/48845 [14:16:43<3:00:24,  1.27s/it] 82%|████████▏ | 40293/48845 [14:16:45<3:00:25,  1.27s/it] 82%|████████▏ | 40294/48845 [14:16:46<3:00:28,  1.27s/it] 82%|████████▏ | 40295/48845 [14:16:47<3:00:16,  1.27s/it]                                                          {'loss': 2.118, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.12}
+ 82%|████████▏ | 40295/48845 [14:16:47<3:00:16,  1.27s/it] 82%|████████▏ | 40296/48845 [14:16:49<3:00:02,  1.26s/it] 82%|████████▏ | 40297/48845 [14:16:50<3:00:17,  1.27s/it] 83%|████████▎ | 40298/48845 [14:16:51<3:00:04,  1.26s/it] 83%|████████▎ | 40299/48845 [14:16:52<3:00:05,  1.26s/it] 83%|████████▎ | 40300/48845 [14:16:54<2:59:55,  1.26s/it]                                                          {'loss': 2.0313, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40300/48845 [14:16:54<2:59:55,  1.26s/it] 83%|████████▎ | 40301/48845 [14:16:55<2:59:51,  1.26s/it] 83%|████████▎ | 40302/48845 [14:16:56<2:59:54,  1.26s/it] 83%|████████▎ | 40303/48845 [14:16:57<2:59:49,  1.26s/it] 83%|████████▎ | 40304/48845 [14:16:59<2:59:54,  1.26s/it] 83%|████████▎ | 40305/48845 [14:17:00<3:00:01,  1.26s/it]                                                          {'loss': 2.1321, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40305/48845 [14:17:00<3:00:01,  1.26s/it] 83%|████████▎ | 40306/48845 [14:17:01<2:59:54,  1.26s/it] 83%|████████▎ | 40307/48845 [14:17:02<2:59:53,  1.26s/it] 83%|████████▎ | 40308/48845 [14:17:04<2:59:52,  1.26s/it] 83%|████████▎ | 40309/48845 [14:17:05<2:59:57,  1.26s/it] 83%|████████▎ | 40310/48845 [14:17:06<2:59:51,  1.26s/it]                                                          {'loss': 1.9736, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40310/48845 [14:17:06<2:59:51,  1.26s/it] 83%|████████▎ | 40311/48845 [14:17:08<2:59:55,  1.27s/it] 83%|████████▎ | 40312/48845 [14:17:09<2:59:58,  1.27s/it] 83%|████████▎ | 40313/48845 [14:17:10<2:59:59,  1.27s/it] 83%|████████▎ | 40314/48845 [14:17:11<2:59:55,  1.27s/it] 83%|████████▎ | 40315/48845 [14:17:13<2:59:55,  1.27s/it]                                                          {'loss': 1.928, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40315/48845 [14:17:13<2:59:55,  1.27s/it] 83%|████████▎ | 40316/48845 [14:17:14<2:59:51,  1.27s/it] 83%|████████▎ | 40317/48845 [14:17:15<3:00:01,  1.27s/it] 83%|████████▎ | 40318/48845 [14:17:16<2:59:56,  1.27s/it] 83%|████████▎ | 40319/48845 [14:17:18<2:59:50,  1.27s/it] 83%|████████▎ | 40320/48845 [14:17:19<2:59:52,  1.27s/it]                                                          {'loss': 2.3223, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40320/48845 [14:17:19<2:59:52,  1.27s/it] 83%|████████▎ | 40321/48845 [14:17:20<2:59:48,  1.27s/it] 83%|████████▎ | 40322/48845 [14:17:21<2:59:41,  1.26s/it] 83%|████████▎ | 40323/48845 [14:17:23<2:59:54,  1.27s/it] 83%|████████▎ | 40324/48845 [14:17:24<2:59:47,  1.27s/it] 83%|████████▎ | 40325/48845 [14:17:25<2:59:55,  1.27s/it]                                                          {'loss': 2.2244, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40325/48845 [14:17:25<2:59:55,  1.27s/it] 83%|████████▎ | 40326/48845 [14:17:27<2:59:54,  1.27s/it] 83%|████████▎ | 40327/48845 [14:17:28<2:59:39,  1.27s/it] 83%|████████▎ | 40328/48845 [14:17:29<2:59:43,  1.27s/it] 83%|████████▎ | 40329/48845 [14:17:30<2:59:32,  1.26s/it] 83%|████████▎ | 40330/48845 [14:17:32<2:59:30,  1.26s/it]                                                          {'loss': 2.1615, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40330/48845 [14:17:32<2:59:30,  1.26s/it] 83%|████████▎ | 40331/48845 [14:17:33<2:59:28,  1.26s/it] 83%|████████▎ | 40332/48845 [14:17:34<2:59:23,  1.26s/it] 83%|████████▎ | 40333/48845 [14:17:35<2:59:35,  1.27s/it] 83%|████████▎ | 40334/48845 [14:17:37<3:05:17,  1.31s/it] 83%|████████▎ | 40335/48845 [14:17:38<3:03:22,  1.29s/it]                                                          {'loss': 2.2957, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40335/48845 [14:17:38<3:03:22,  1.29s/it] 83%|████████▎ | 40336/48845 [14:17:39<3:02:04,  1.28s/it] 83%|████████▎ | 40337/48845 [14:17:41<3:01:14,  1.28s/it] 83%|████████▎ | 40338/48845 [14:17:42<3:00:56,  1.28s/it] 83%|████████▎ | 40339/48845 [14:17:43<3:00:19,  1.27s/it] 83%|████████▎ | 40340/48845 [14:17:44<2:59:57,  1.27s/it]                                                          {'loss': 2.1573, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40340/48845 [14:17:44<2:59:57,  1.27s/it] 83%|████████▎ | 40341/48845 [14:17:46<2:59:44,  1.27s/it] 83%|████████▎ | 40342/48845 [14:17:47<2:59:37,  1.27s/it] 83%|████████▎ | 40343/48845 [14:17:48<2:59:24,  1.27s/it] 83%|████████▎ | 40344/48845 [14:17:49<2:59:22,  1.27s/it] 83%|████████▎ | 40345/48845 [14:17:51<2:59:19,  1.27s/it]                                                          {'loss': 2.06, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40345/48845 [14:17:51<2:59:19,  1.27s/it] 83%|████████▎ | 40346/48845 [14:17:52<2:59:20,  1.27s/it] 83%|████████▎ | 40347/48845 [14:17:53<2:59:08,  1.26s/it] 83%|████████▎ | 40348/48845 [14:17:54<2:59:01,  1.26s/it] 83%|████████▎ | 40349/48845 [14:17:56<2:58:55,  1.26s/it] 83%|████████▎ | 40350/48845 [14:17:57<2:59:08,  1.27s/it]                                                          {'loss': 2.25, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40350/48845 [14:17:57<2:59:08,  1.27s/it] 83%|████████▎ | 40351/48845 [14:17:58<2:59:11,  1.27s/it] 83%|████████▎ | 40352/48845 [14:18:00<2:59:28,  1.27s/it] 83%|████████▎ | 40353/48845 [14:18:01<2:59:13,  1.27s/it] 83%|████████▎ | 40354/48845 [14:18:02<2:59:10,  1.27s/it] 83%|████████▎ | 40355/48845 [14:18:03<2:59:08,  1.27s/it]                                                          {'loss': 2.1169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40355/48845 [14:18:03<2:59:08,  1.27s/it] 83%|████████▎ | 40356/48845 [14:18:05<2:59:05,  1.27s/it] 83%|████████▎ | 40357/48845 [14:18:06<2:58:53,  1.26s/it] 83%|████████▎ | 40358/48845 [14:18:07<2:58:58,  1.27s/it] 83%|████████▎ | 40359/48845 [14:18:08<2:58:52,  1.26s/it] 83%|████████▎ | 40360/48845 [14:18:10<2:58:48,  1.26s/it]                                                          {'loss': 1.9411, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40360/48845 [14:18:10<2:58:48,  1.26s/it] 83%|████████▎ | 40361/48845 [14:18:11<2:58:50,  1.26s/it] 83%|████████▎ | 40362/48845 [14:18:12<2:58:53,  1.27s/it] 83%|████████▎ | 40363/48845 [14:18:13<2:58:53,  1.27s/it] 83%|████████▎ | 40364/48845 [14:18:15<2:58:49,  1.27s/it] 83%|████████▎ | 40365/48845 [14:18:16<2:58:41,  1.26s/it]                                                          {'loss': 2.1401, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40365/48845 [14:18:16<2:58:41,  1.26s/it] 83%|████████▎ | 40366/48845 [14:18:17<2:59:09,  1.27s/it] 83%|████████▎ | 40367/48845 [14:18:19<2:59:12,  1.27s/it] 83%|████████�� | 40368/48845 [14:18:20<2:58:59,  1.27s/it] 83%|████████▎ | 40369/48845 [14:18:21<2:58:51,  1.27s/it] 83%|████████▎ | 40370/48845 [14:18:22<2:58:55,  1.27s/it]                                                          {'loss': 2.0085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40370/48845 [14:18:22<2:58:55,  1.27s/it] 83%|████████▎ | 40371/48845 [14:18:24<2:58:51,  1.27s/it] 83%|████████▎ | 40372/48845 [14:18:25<2:58:49,  1.27s/it] 83%|████████▎ | 40373/48845 [14:18:26<2:58:52,  1.27s/it] 83%|████████▎ | 40374/48845 [14:18:27<2:58:48,  1.27s/it] 83%|████████▎ | 40375/48845 [14:18:29<2:58:41,  1.27s/it]                                                          {'loss': 2.0673, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40375/48845 [14:18:29<2:58:41,  1.27s/it] 83%|████████▎ | 40376/48845 [14:18:30<2:58:38,  1.27s/it] 83%|████████▎ | 40377/48845 [14:18:31<2:58:39,  1.27s/it] 83%|████████▎ | 40378/48845 [14:18:32<2:58:38,  1.27s/it] 83%|████████▎ | 40379/48845 [14:18:34<2:58:30,  1.27s/it] 83%|████████▎ | 40380/48845 [14:18:35<2:58:25,  1.26s/it]                                                          {'loss': 2.2179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40380/48845 [14:18:35<2:58:25,  1.26s/it] 83%|████████▎ | 40381/48845 [14:18:36<2:58:23,  1.26s/it] 83%|████████▎ | 40382/48845 [14:18:38<3:03:31,  1.30s/it] 83%|████████▎ | 40383/48845 [14:18:39<3:01:50,  1.29s/it] 83%|████████▎ | 40384/48845 [14:18:40<3:00:49,  1.28s/it] 83%|████████▎ | 40385/48845 [14:18:41<3:00:00,  1.28s/it]                                                          {'loss': 1.9642, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40385/48845 [14:18:41<3:00:00,  1.28s/it] 83%|████████▎ | 40386/48845 [14:18:43<2:59:49,  1.28s/it] 83%|████████▎ | 40387/48845 [14:18:44<2:59:19,  1.27s/it] 83%|████████▎ | 40388/48845 [14:18:45<2:59:07,  1.27s/it] 83%|████████▎ | 40389/48845 [14:18:47<2:59:20,  1.27s/it] 83%|████████▎ | 40390/48845 [14:18:48<2:59:03,  1.27s/it]                                                          {'loss': 2.0538, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.13}
+ 83%|████████▎ | 40390/48845 [14:18:48<2:59:03,  1.27s/it] 83%|████████▎ | 40391/48845 [14:18:49<2:58:54,  1.27s/it] 83%|████████▎ | 40392/48845 [14:18:50<2:58:37,  1.27s/it] 83%|████████▎ | 40393/48845 [14:18:52<2:58:28,  1.27s/it] 83%|████████▎ | 40394/48845 [14:18:53<3:01:07,  1.29s/it] 83%|████████▎ | 40395/48845 [14:18:54<3:00:01,  1.28s/it]                                                          {'loss': 2.0574, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40395/48845 [14:18:54<3:00:01,  1.28s/it] 83%|████████▎ | 40396/48845 [14:18:55<2:59:31,  1.27s/it] 83%|████████▎ | 40397/48845 [14:18:57<2:59:17,  1.27s/it] 83%|████████▎ | 40398/48845 [14:18:58<2:59:02,  1.27s/it] 83%|████████▎ | 40399/48845 [14:18:59<2:58:43,  1.27s/it] 83%|████████▎ | 40400/48845 [14:19:00<2:58:38,  1.27s/it]                                                          {'loss': 2.0947, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40400/48845 [14:19:00<2:58:38,  1.27s/it] 83%|████████▎ | 40401/48845 [14:19:04<4:47:19,  2.04s/it] 83%|████████▎ | 40402/48845 [14:19:06<4:14:18,  1.81s/it] 83%|████████▎ | 40403/48845 [14:19:07<3:51:15,  1.64s/it] 83%|████████▎ | 40404/48845 [14:19:08<3:35:11,  1.53s/it] 83%|████████▎ | 40405/48845 [14:19:09<3:23:59,  1.45s/it]                                                          {'loss': 2.1932, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40405/48845 [14:19:09<3:23:59,  1.45s/it] 83%|████████▎ | 40406/48845 [14:19:11<3:16:06,  1.39s/it] 83%|████████▎ | 40407/48845 [14:19:12<3:10:27,  1.35s/it] 83%|████████▎ | 40408/48845 [14:19:13<3:07:24,  1.33s/it] 83%|████████▎ | 40409/48845 [14:19:14<3:04:32,  1.31s/it] 83%|████████▎ | 40410/48845 [14:19:16<3:02:26,  1.30s/it]                                                          {'loss': 2.2006, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████���███▎ | 40410/48845 [14:19:16<3:02:26,  1.30s/it] 83%|████████▎ | 40411/48845 [14:19:17<3:01:09,  1.29s/it] 83%|████████▎ | 40412/48845 [14:19:18<3:00:05,  1.28s/it] 83%|████████▎ | 40413/48845 [14:19:20<2:59:17,  1.28s/it] 83%|████████▎ | 40414/48845 [14:19:21<2:58:40,  1.27s/it] 83%|████████▎ | 40415/48845 [14:19:22<2:58:21,  1.27s/it]                                                          {'loss': 2.0221, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40415/48845 [14:19:22<2:58:21,  1.27s/it] 83%|████████▎ | 40416/48845 [14:19:23<2:58:29,  1.27s/it] 83%|████████▎ | 40417/48845 [14:19:25<2:58:15,  1.27s/it] 83%|████████▎ | 40418/48845 [14:19:26<2:57:57,  1.27s/it] 83%|████████▎ | 40419/48845 [14:19:27<2:57:46,  1.27s/it] 83%|████████▎ | 40420/48845 [14:19:28<2:57:56,  1.27s/it]                                                          {'loss': 2.1117, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40420/48845 [14:19:28<2:57:56,  1.27s/it] 83%|████████▎ | 40421/48845 [14:19:30<2:57:43,  1.27s/it] 83%|████████▎ | 40422/48845 [14:19:31<2:57:35,  1.27s/it] 83%|████████▎ | 40423/48845 [14:19:32<2:57:31,  1.26s/it] 83%|████████▎ | 40424/48845 [14:19:33<2:57:35,  1.27s/it] 83%|████████▎ | 40425/48845 [14:19:35<2:57:26,  1.26s/it]                                                          {'loss': 2.0476, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40425/48845 [14:19:35<2:57:26,  1.26s/it] 83%|████████▎ | 40426/48845 [14:19:36<2:57:27,  1.26s/it] 83%|████████▎ | 40427/48845 [14:19:37<2:57:12,  1.26s/it] 83%|████████▎ | 40428/48845 [14:19:39<2:58:12,  1.27s/it] 83%|████████▎ | 40429/48845 [14:19:40<2:57:59,  1.27s/it] 83%|████████▎ | 40430/48845 [14:19:41<2:57:35,  1.27s/it]                                                          {'loss': 1.9936, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40430/48845 [14:19:41<2:57:35,  1.27s/it] 83%|████████▎ | 40431/48845 [14:19:42<2:57:26,  1.27s/it] 83%|████████▎ | 40432/48845 [14:19:44<2:57:16,  1.26s/it] 83%|████████▎ | 40433/48845 [14:19:45<2:57:23,  1.27s/it] 83%|████████▎ | 40434/48845 [14:19:46<2:57:18,  1.26s/it] 83%|████████▎ | 40435/48845 [14:19:47<2:57:19,  1.27s/it]                                                          {'loss': 2.09, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40435/48845 [14:19:47<2:57:19,  1.27s/it] 83%|████████▎ | 40436/48845 [14:19:49<2:57:36,  1.27s/it] 83%|████████▎ | 40437/48845 [14:19:50<2:57:25,  1.27s/it] 83%|████████▎ | 40438/48845 [14:19:51<2:57:21,  1.27s/it] 83%|████████▎ | 40439/48845 [14:19:52<2:57:07,  1.26s/it] 83%|████████▎ | 40440/48845 [14:19:54<2:57:05,  1.26s/it]                                                          {'loss': 1.8097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40440/48845 [14:19:54<2:57:05,  1.26s/it] 83%|████████▎ | 40441/48845 [14:19:55<2:57:07,  1.26s/it] 83%|████████▎ | 40442/48845 [14:19:56<2:57:05,  1.26s/it] 83%|████████▎ | 40443/48845 [14:19:57<2:57:10,  1.27s/it] 83%|████████▎ | 40444/48845 [14:19:59<2:57:20,  1.27s/it] 83%|████████▎ | 40445/48845 [14:20:00<2:57:07,  1.27s/it]                                                          {'loss': 1.9696, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40445/48845 [14:20:00<2:57:07,  1.27s/it] 83%|████████▎ | 40446/48845 [14:20:01<2:57:15,  1.27s/it] 83%|████████▎ | 40447/48845 [14:20:03<2:57:20,  1.27s/it] 83%|████████▎ | 40448/48845 [14:20:04<3:00:02,  1.29s/it] 83%|████████▎ | 40449/48845 [14:20:05<2:59:07,  1.28s/it] 83%|████████▎ | 40450/48845 [14:20:06<2:58:22,  1.27s/it]                                                          {'loss': 2.0968, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40450/48845 [14:20:06<2:58:22,  1.27s/it] 83%|████████▎ | 40451/48845 [14:20:08<2:57:58,  1.27s/it] 83%|████████▎ | 40452/48845 [14:20:09<2:57:25,  1.27s/it] 83%|████████▎ | 40453/48845 [14:20:10<2:57:13,  1.27s/it] 83%|████████▎ | 40454/48845 [14:20:11<2:57:11,  1.27s/it] 83%|████████▎ | 40455/48845 [14:20:13<2:57:04,  1.27s/it]                                                          {'loss': 2.2388, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40455/48845 [14:20:13<2:57:04,  1.27s/it] 83%|████████▎ | 40456/48845 [14:20:14<3:04:58,  1.32s/it] 83%|████████▎ | 40457/48845 [14:20:15<3:02:30,  1.31s/it] 83%|████████▎ | 40458/48845 [14:20:17<3:00:43,  1.29s/it] 83%|████████▎ | 40459/48845 [14:20:18<2:59:28,  1.28s/it] 83%|████████▎ | 40460/48845 [14:20:19<2:58:40,  1.28s/it]                                                          {'loss': 2.0916, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40460/48845 [14:20:19<2:58:40,  1.28s/it] 83%|████████▎ | 40461/48845 [14:20:21<2:58:14,  1.28s/it] 83%|████████▎ | 40462/48845 [14:20:22<2:57:44,  1.27s/it] 83%|████████▎ | 40463/48845 [14:20:23<2:57:22,  1.27s/it] 83%|████████▎ | 40464/48845 [14:20:24<2:57:16,  1.27s/it] 83%|████████▎ | 40465/48845 [14:20:26<2:57:06,  1.27s/it]                                                          {'loss': 2.1224, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40465/48845 [14:20:26<2:57:06,  1.27s/it] 83%|████████▎ | 40466/48845 [14:20:27<2:57:05,  1.27s/it] 83%|████████▎ | 40467/48845 [14:20:28<2:56:44,  1.27s/it] 83%|████████▎ | 40468/48845 [14:20:29<2:58:03,  1.28s/it] 83%|████████▎ | 40469/48845 [14:20:31<2:57:33,  1.27s/it] 83%|████████▎ | 40470/48845 [14:20:32<2:57:09,  1.27s/it]                                                          {'loss': 2.0318, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40470/48845 [14:20:32<2:57:09,  1.27s/it] 83%|████████▎ | 40471/48845 [14:20:33<2:56:56,  1.27s/it] 83%|████████▎ | 40472/48845 [14:20:34<2:56:50,  1.27s/it] 83%|████████▎ | 40473/48845 [14:20:36<2:56:39,  1.27s/it] 83%|████████▎ | 40474/48845 [14:20:37<2:56:37,  1.27s/it] 83%|████████▎ | 40475/48845 [14:20:38<2:56:42,  1.27s/it]                                                          {'loss': 2.1099, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40475/48845 [14:20:38<2:56:42,  1.27s/it] 83%|████████▎ | 40476/48845 [14:20:40<2:56:58,  1.27s/it] 83%|████████▎ | 40477/48845 [14:20:41<2:56:41,  1.27s/it] 83%|████████▎ | 40478/48845 [14:20:42<2:56:34,  1.27s/it] 83%|████████▎ | 40479/48845 [14:20:43<2:56:30,  1.27s/it] 83%|████████▎ | 40480/48845 [14:20:45<2:56:21,  1.26s/it]                                                          {'loss': 2.241, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40480/48845 [14:20:45<2:56:21,  1.26s/it] 83%|████████▎ | 40481/48845 [14:20:46<2:56:37,  1.27s/it] 83%|████████▎ | 40482/48845 [14:20:47<2:56:33,  1.27s/it] 83%|████████▎ | 40483/48845 [14:20:48<2:56:24,  1.27s/it] 83%|████████▎ | 40484/48845 [14:20:50<2:56:27,  1.27s/it] 83%|████████▎ | 40485/48845 [14:20:51<2:56:17,  1.27s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40485/48845 [14:20:51<2:56:17,  1.27s/it] 83%|████████▎ | 40486/48845 [14:20:52<2:56:30,  1.27s/it] 83%|████████▎ | 40487/48845 [14:20:53<2:56:22,  1.27s/it] 83%|████████▎ | 40488/48845 [14:20:55<2:59:24,  1.29s/it] 83%|████████▎ | 40489/48845 [14:20:56<2:58:22,  1.28s/it] 83%|████████▎ | 40490/48845 [14:20:57<2:57:44,  1.28s/it]                                                          {'loss': 2.1926, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.14}
+ 83%|████████▎ | 40490/48845 [14:20:57<2:57:44,  1.28s/it] 83%|████████▎ | 40491/48845 [14:20:59<2:57:28,  1.27s/it] 83%|████████▎ | 40492/48845 [14:21:00<2:57:11,  1.27s/it] 83%|████████▎ | 40493/48845 [14:21:01<2:56:45,  1.27s/it] 83%|████████▎ | 40494/48845 [14:21:02<2:56:31,  1.27s/it] 83%|████████▎ | 40495/48845 [14:21:04<2:56:19,  1.27s/it]                                                          {'loss': 2.0441, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40495/48845 [14:21:04<2:56:19,  1.27s/it] 83%|████████▎ | 40496/48845 [14:21:05<2:56:45,  1.27s/it] 83%|████████▎ | 40497/48845 [14:21:06<2:56:26,  1.27s/it] 83%|████████▎ | 40498/48845 [14:21:07<2:56:16,  1.27s/it] 83%|████████▎ | 40499/48845 [14:21:09<2:56:04,  1.27s/it] 83%|████████▎ | 40500/48845 [14:21:10<2:56:08,  1.27s/it]                                                          {'loss': 1.9323, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40500/48845 [14:21:10<2:56:08,  1.27s/it] 83%|████████▎ | 40501/48845 [14:21:11<2:56:12,  1.27s/it] 83%|████████▎ | 40502/48845 [14:21:13<2:56:06,  1.27s/it] 83%|████████▎ | 40503/48845 [14:21:14<2:55:54,  1.27s/it] 83%|████████▎ | 40504/48845 [14:21:15<2:56:05,  1.27s/it] 83%|████████▎ | 40505/48845 [14:21:16<2:55:49,  1.26s/it]                                                          {'loss': 1.9977, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40505/48845 [14:21:16<2:55:49,  1.26s/it] 83%|████████▎ | 40506/48845 [14:21:18<2:55:41,  1.26s/it] 83%|████████▎ | 40507/48845 [14:21:19<2:55:41,  1.26s/it] 83%|████████▎ | 40508/48845 [14:21:20<2:55:40,  1.26s/it] 83%|████████▎ | 40509/48845 [14:21:21<2:55:37,  1.26s/it] 83%|████████▎ | 40510/48845 [14:21:23<2:55:34,  1.26s/it]                                                          {'loss': 1.9601, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40510/48845 [14:21:23<2:55:34,  1.26s/it] 83%|████████▎ | 40511/48845 [14:21:24<2:55:41,  1.26s/it] 83%|████████▎ | 40512/48845 [14:21:25<2:55:37,  1.26s/it] 83%|████████▎ | 40513/48845 [14:21:26<2:55:26,  1.26s/it] 83%|████████▎ | 40514/48845 [14:21:28<2:55:28,  1.26s/it] 83%|████████▎ | 40515/48845 [14:21:29<2:55:25,  1.26s/it]                                                          {'loss': 2.1135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40515/48845 [14:21:29<2:55:25,  1.26s/it] 83%|████████▎ | 40516/48845 [14:21:30<2:55:42,  1.27s/it] 83%|████████▎ | 40517/48845 [14:21:31<2:55:37,  1.27s/it] 83%|████████▎ | 40518/48845 [14:21:33<2:55:36,  1.27s/it] 83%|████████▎ | 40519/48845 [14:21:34<2:55:27,  1.26s/it] 83%|████████▎ | 40520/48845 [14:21:35<2:55:27,  1.26s/it]                                                          {'loss': 2.1077, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40520/48845 [14:21:35<2:55:27,  1.26s/it] 83%|████████▎ | 40521/48845 [14:21:37<2:55:41,  1.27s/it] 83%|████████▎ | 40522/48845 [14:21:38<2:55:43,  1.27s/it] 83%|████████▎ | 40523/48845 [14:21:39<2:55:40,  1.27s/it] 83%|████████▎ | 40524/48845 [14:21:40<2:55:30,  1.27s/it] 83%|████████▎ | 40525/48845 [14:21:42<2:55:10,  1.26s/it]                                                          {'loss': 2.0137, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40525/48845 [14:21:42<2:55:10,  1.26s/it] 83%|████████▎ | 40526/48845 [14:21:43<2:55:09,  1.26s/it] 83%|████████▎ | 40527/48845 [14:21:44<2:55:06,  1.26s/it] 83%|████████▎ | 40528/48845 [14:21:45<2:55:08,  1.26s/it] 83%|████████▎ | 40529/48845 [14:21:47<2:55:14,  1.26s/it] 83%|████████▎ | 40530/48845 [14:21:48<2:55:12,  1.26s/it]                                                          {'loss': 2.2055, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40530/48845 [14:21:48<2:55:12,  1.26s/it] 83%|████████▎ | 40531/48845 [14:21:49<2:55:16,  1.26s/it] 83%|████████▎ | 40532/48845 [14:21:50<2:55:19,  1.27s/it] 83%|████████▎ | 40533/48845 [14:21:52<2:55:17,  1.27s/it] 83%|████████▎ | 40534/48845 [14:21:53<2:55:01,  1.26s/it] 83%|████████▎ | 40535/48845 [14:21:54<2:55:04,  1.26s/it]                                                          {'loss': 1.9293, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40535/48845 [14:21:54<2:55:04,  1.26s/it] 83%|████████▎ | 40536/48845 [14:21:56<2:55:25,  1.27s/it] 83%|████████▎ | 40537/48845 [14:21:57<2:55:05,  1.26s/it] 83%|████████▎ | 40538/48845 [14:21:58<2:55:10,  1.27s/it] 83%|████████▎ | 40539/48845 [14:21:59<2:55:04,  1.26s/it] 83%|████████▎ | 40540/48845 [14:22:01<2:55:09,  1.27s/it]                                                          {'loss': 2.0132, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40540/48845 [14:22:01<2:55:09,  1.27s/it] 83%|████████▎ | 40541/48845 [14:22:02<2:55:22,  1.27s/it] 83%|████████▎ | 40542/48845 [14:22:03<2:55:04,  1.27s/it] 83%|████████▎ | 40543/48845 [14:22:04<2:54:54,  1.26s/it] 83%|████████▎ | 40544/48845 [14:22:06<2:54:54,  1.26s/it] 83%|████████▎ | 40545/48845 [14:22:07<2:54:46,  1.26s/it]                                                          {'loss': 2.1255, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40545/48845 [14:22:07<2:54:46,  1.26s/it] 83%|████████▎ | 40546/48845 [14:22:08<2:55:01,  1.27s/it] 83%|████████▎ | 40547/48845 [14:22:09<2:54:53,  1.26s/it] 83%|████████▎ | 40548/48845 [14:22:11<2:54:44,  1.26s/it] 83%|████████▎ | 40549/48845 [14:22:12<2:54:43,  1.26s/it] 83%|████████▎ | 40550/48845 [14:22:13<2:54:42,  1.26s/it]                                                          {'loss': 2.0355, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40550/48845 [14:22:13<2:54:42,  1.26s/it] 83%|████████▎ | 40551/48845 [14:22:14<2:54:52,  1.27s/it] 83%|████████▎ | 40552/48845 [14:22:16<2:54:51,  1.27s/it] 83%|████████▎ | 40553/48845 [14:22:17<2:54:41,  1.26s/it] 83%|████████▎ | 40554/48845 [14:22:18<2:54:40,  1.26s/it] 83%|████████▎ | 40555/48845 [14:22:20<2:54:39,  1.26s/it]                                                          {'loss': 1.997, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40555/48845 [14:22:20<2:54:39,  1.26s/it] 83%|████████▎ | 40556/48845 [14:22:21<2:58:38,  1.29s/it] 83%|████████▎ | 40557/48845 [14:22:22<2:57:21,  1.28s/it] 83%|████████▎ | 40558/48845 [14:22:23<2:56:26,  1.28s/it] 83%|████████▎ | 40559/48845 [14:22:25<2:55:50,  1.27s/it] 83%|████████▎ | 40560/48845 [14:22:26<2:55:17,  1.27s/it]                                                          {'loss': 1.9974, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40560/48845 [14:22:26<2:55:17,  1.27s/it] 83%|████████▎ | 40561/48845 [14:22:27<2:55:17,  1.27s/it] 83%|████████▎ | 40562/48845 [14:22:28<2:54:56,  1.27s/it] 83%|████████▎ | 40563/48845 [14:22:30<2:54:48,  1.27s/it] 83%|████████▎ | 40564/48845 [14:22:31<2:54:31,  1.26s/it] 83%|████████▎ | 40565/48845 [14:22:32<2:54:17,  1.26s/it]                                                          {'loss': 2.1453, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40565/48845 [14:22:32<2:54:17,  1.26s/it] 83%|████████▎ | 40566/48845 [14:22:34<2:54:28,  1.26s/it] 83%|████████▎ | 40567/48845 [14:22:35<2:54:29,  1.26s/it] 83%|████████▎ | 40568/48845 [14:22:36<2:54:25,  1.26s/it] 83%|████████▎ | 40569/48845 [14:22:37<2:54:44,  1.27s/it] 83%|████████▎ | 40570/48845 [14:22:39<2:54:42,  1.27s/it]                                                          {'loss': 2.0346, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40570/48845 [14:22:39<2:54:42,  1.27s/it] 83%|████████▎ | 40571/48845 [14:22:40<2:54:33,  1.27s/it] 83%|████████▎ | 40572/48845 [14:22:41<2:54:23,  1.26s/it] 83%|████████▎ | 40573/48845 [14:22:42<2:54:13,  1.26s/it] 83%|████████▎ | 40574/48845 [14:22:44<2:54:18,  1.26s/it] 83%|████████▎ | 40575/48845 [14:22:45<2:54:11,  1.26s/it]                                                          {'loss': 2.0217, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40575/48845 [14:22:45<2:54:11,  1.26s/it] 83%|████████▎ | 40576/48845 [14:22:46<2:54:03,  1.26s/it] 83%|████████▎ | 40577/48845 [14:22:47<2:54:08,  1.26s/it] 83%|████████▎ | 40578/48845 [14:22:49<2:54:28,  1.27s/it] 83%|████████▎ | 40579/48845 [14:22:50<2:54:17,  1.27s/it] 83%|████████▎ | 40580/48845 [14:22:51<2:54:11,  1.26s/it]                                                          {'loss': 2.0546, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40580/48845 [14:22:51<2:54:11,  1.26s/it] 83%|████████▎ | 40581/48845 [14:22:53<2:54:26,  1.27s/it] 83%|████████▎ | 40582/48845 [14:22:54<3:00:37,  1.31s/it] 83%|��███████▎ | 40583/48845 [14:22:55<2:58:35,  1.30s/it] 83%|████████▎ | 40584/48845 [14:22:56<2:57:04,  1.29s/it] 83%|████████▎ | 40585/48845 [14:22:58<2:56:01,  1.28s/it]                                                          {'loss': 2.0488, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40585/48845 [14:22:58<2:56:01,  1.28s/it] 83%|████████▎ | 40586/48845 [14:22:59<2:55:47,  1.28s/it] 83%|████████▎ | 40587/48845 [14:23:00<2:55:22,  1.27s/it] 83%|████████▎ | 40588/48845 [14:23:02<2:55:01,  1.27s/it] 83%|████████▎ | 40589/48845 [14:23:03<2:54:53,  1.27s/it] 83%|████████▎ | 40590/48845 [14:23:04<2:54:40,  1.27s/it]                                                          {'loss': 2.0031, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.15}
+ 83%|████████▎ | 40590/48845 [14:23:04<2:54:40,  1.27s/it] 83%|████████▎ | 40591/48845 [14:23:05<2:54:34,  1.27s/it] 83%|████████▎ | 40592/48845 [14:23:07<2:54:16,  1.27s/it] 83%|████████▎ | 40593/48845 [14:23:08<2:54:09,  1.27s/it] 83%|████████▎ | 40594/48845 [14:23:09<2:54:04,  1.27s/it] 83%|████████▎ | 40595/48845 [14:23:10<2:54:04,  1.27s/it]                                                          {'loss': 1.9904, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40595/48845 [14:23:10<2:54:04,  1.27s/it] 83%|████████▎ | 40596/48845 [14:23:12<2:53:56,  1.27s/it] 83%|████████▎ | 40597/48845 [14:23:13<2:53:56,  1.27s/it] 83%|████████▎ | 40598/48845 [14:23:14<2:53:52,  1.26s/it] 83%|████████▎ | 40599/48845 [14:23:15<2:53:31,  1.26s/it] 83%|████████▎ | 40600/48845 [14:23:17<2:53:36,  1.26s/it]                                                          {'loss': 2.1447, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40600/48845 [14:23:17<2:53:36,  1.26s/it] 83%|████████▎ | 40601/48845 [14:23:21<4:38:29,  2.03s/it] 83%|████████▎ | 40602/48845 [14:23:22<4:06:42,  1.80s/it] 83%|████████▎ | 40603/48845 [14:23:23<3:44:40,  1.64s/it] 83%|████████▎ | 40604/48845 [14:23:24<3:29:16,  1.52s/it] 83%|████████▎ | 40605/48845 [14:23:26<3:18:32,  1.45s/it]                                                          {'loss': 2.0363, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40605/48845 [14:23:26<3:18:32,  1.45s/it] 83%|████████▎ | 40606/48845 [14:23:27<3:11:15,  1.39s/it] 83%|████████▎ | 40607/48845 [14:23:28<3:05:53,  1.35s/it] 83%|████████▎ | 40608/48845 [14:23:29<3:02:42,  1.33s/it] 83%|████████▎ | 40609/48845 [14:23:31<2:59:45,  1.31s/it] 83%|████████▎ | 40610/48845 [14:23:32<2:57:41,  1.29s/it]                                                          {'loss': 2.0546, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40610/48845 [14:23:32<2:57:41,  1.29s/it] 83%|████████▎ | 40611/48845 [14:23:33<2:56:21,  1.29s/it] 83%|████████▎ | 40612/48845 [14:23:34<2:55:33,  1.28s/it] 83%|████████▎ | 40613/48845 [14:23:36<2:54:45,  1.27s/it] 83%|████████▎ | 40614/48845 [14:23:37<2:54:23,  1.27s/it] 83%|████████▎ | 40615/48845 [14:23:38<2:54:05,  1.27s/it]                                                          {'loss': 2.062, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40615/48845 [14:23:38<2:54:05,  1.27s/it] 83%|████████▎ | 40616/48845 [14:23:39<2:53:58,  1.27s/it] 83%|████████▎ | 40617/48845 [14:23:41<2:53:48,  1.27s/it] 83%|████████▎ | 40618/48845 [14:23:42<2:53:34,  1.27s/it] 83%|████████▎ | 40619/48845 [14:23:43<2:53:25,  1.26s/it] 83%|████████▎ | 40620/48845 [14:23:45<2:54:53,  1.28s/it]                                                          {'loss': 2.1192, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40620/48845 [14:23:45<2:54:53,  1.28s/it] 83%|████████▎ | 40621/48845 [14:23:46<2:54:11,  1.27s/it] 83%|████████▎ | 40622/48845 [14:23:47<2:53:43,  1.27s/it] 83%|████████▎ | 40623/48845 [14:23:48<2:53:29,  1.27s/it] 83%|████████▎ | 40624/48845 [14:23:50<2:56:55,  1.29s/it] 83%|████████▎ | 40625/48845 [14:23:51<2:55:39,  1.28s/it]                                                          {'loss': 2.0044, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40625/48845 [14:23:51<2:55:39,  1.28s/it] 83%|████████▎ | 40626/48845 [14:23:52<2:54:57,  1.28s/it] 83%|████████▎ | 40627/48845 [14:23:53<2:54:07,  1.27s/it] 83%|████████▎ | 40628/48845 [14:23:55<2:56:47,  1.29s/it] 83%|████████▎ | 40629/48845 [14:23:56<2:55:34,  1.28s/it] 83%|████████▎ | 40630/48845 [14:23:57<2:54:44,  1.28s/it]                                                          {'loss': 2.0677, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40630/48845 [14:23:57<2:54:44,  1.28s/it] 83%|████████▎ | 40631/48845 [14:23:59<2:54:15,  1.27s/it] 83%|████████▎ | 40632/48845 [14:24:00<2:54:52,  1.28s/it] 83%|████████▎ | 40633/48845 [14:24:01<2:54:16,  1.27s/it] 83%|████████▎ | 40634/48845 [14:24:02<2:53:54,  1.27s/it] 83%|████████▎ | 40635/48845 [14:24:04<2:53:38,  1.27s/it]                                                          {'loss': 2.0357, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40635/48845 [14:24:04<2:53:38,  1.27s/it] 83%|████████▎ | 40636/48845 [14:24:05<2:53:31,  1.27s/it] 83%|████████▎ | 40637/48845 [14:24:06<2:53:15,  1.27s/it] 83%|████████▎ | 40638/48845 [14:24:07<2:53:05,  1.27s/it] 83%|████████▎ | 40639/48845 [14:24:09<2:52:52,  1.26s/it] 83%|████████▎ | 40640/48845 [14:24:10<2:52:45,  1.26s/it]                                                          {'loss': 2.0907, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40640/48845 [14:24:10<2:52:45,  1.26s/it] 83%|████████▎ | 40641/48845 [14:24:11<2:52:48,  1.26s/it] 83%|████████▎ | 40642/48845 [14:24:13<2:52:51,  1.26s/it] 83%|████████▎ | 40643/48845 [14:24:14<2:52:35,  1.26s/it] 83%|████████▎ | 40644/48845 [14:24:15<2:52:24,  1.26s/it] 83%|████████▎ | 40645/48845 [14:24:16<2:52:29,  1.26s/it]                                                          {'loss': 2.1439, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40645/48845 [14:24:16<2:52:29,  1.26s/it] 83%|████████▎ | 40646/48845 [14:24:18<2:52:32,  1.26s/it] 83%|████████▎ | 40647/48845 [14:24:19<2:52:32,  1.26s/it] 83%|████████▎ | 40648/48845 [14:24:20<2:52:43,  1.26s/it] 83%|████████▎ | 40649/48845 [14:24:21<2:52:34,  1.26s/it] 83%|████████▎ | 40650/48845 [14:24:23<2:52:55,  1.27s/it]                                                          {'loss': 2.1859, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40650/48845 [14:24:23<2:52:55,  1.27s/it] 83%|████████▎ | 40651/48845 [14:24:24<2:52:52,  1.27s/it] 83%|████████▎ | 40652/48845 [14:24:25<2:52:50,  1.27s/it] 83%|████████▎ | 40653/48845 [14:24:26<2:52:46,  1.27s/it] 83%|████████▎ | 40654/48845 [14:24:28<2:52:37,  1.26s/it] 83%|████████▎ | 40655/48845 [14:24:29<2:52:44,  1.27s/it]                                                          {'loss': 2.2138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40655/48845 [14:24:29<2:52:44,  1.27s/it] 83%|████████▎ | 40656/48845 [14:24:30<2:52:48,  1.27s/it] 83%|████████▎ | 40657/48845 [14:24:31<2:52:37,  1.26s/it] 83%|████████▎ | 40658/48845 [14:24:33<2:52:39,  1.27s/it] 83%|████████▎ | 40659/48845 [14:24:34<2:52:31,  1.26s/it] 83%|████████▎ | 40660/48845 [14:24:35<2:52:32,  1.26s/it]                                                          {'loss': 2.0442, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40660/48845 [14:24:35<2:52:32,  1.26s/it] 83%|████████▎ | 40661/48845 [14:24:37<2:52:30,  1.26s/it] 83%|████████▎ | 40662/48845 [14:24:38<2:52:36,  1.27s/it] 83%|████████▎ | 40663/48845 [14:24:39<2:52:43,  1.27s/it] 83%|████████▎ | 40664/48845 [14:24:40<2:52:36,  1.27s/it] 83%|████████▎ | 40665/48845 [14:24:42<2:52:33,  1.27s/it]                                                          {'loss': 2.1141, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40665/48845 [14:24:42<2:52:33,  1.27s/it] 83%|████████▎ | 40666/48845 [14:24:43<2:52:28,  1.27s/it] 83%|████████▎ | 40667/48845 [14:24:44<2:52:13,  1.26s/it] 83%|████████▎ | 40668/48845 [14:24:45<2:52:20,  1.26s/it] 83%|████████▎ | 40669/48845 [14:24:47<2:52:29,  1.27s/it] 83%|████████▎ | 40670/48845 [14:24:48<2:52:20,  1.26s/it]                                                          {'loss': 2.0064, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40670/48845 [14:24:48<2:52:20,  1.26s/it] 83%|████████▎ | 40671/48845 [14:24:49<2:52:18,  1.26s/it] 83%|████████▎ | 40672/48845 [14:24:50<2:52:30,  1.27s/it] 83%|████████▎ | 40673/48845 [14:24:52<2:52:19,  1.27s/it] 83%|████████▎ | 40674/48845 [14:24:53<2:52:16,  1.26s/it] 83%|████████▎ | 40675/48845 [14:24:54<2:52:20,  1.27s/it]                                                          {'loss': 2.2816, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40675/48845 [14:24:54<2:52:20,  1.27s/it] 83%|████████▎ | 40676/48845 [14:24:56<2:52:22,  1.27s/it] 83%|████████▎ | 40677/48845 [14:24:57<2:52:09,  1.26s/it] 83%|████████▎ | 40678/48845 [14:24:58<2:51:58,  1.26s/it] 83%|████████▎ | 40679/48845 [14:24:59<2:51:48,  1.26s/it] 83%|████████▎ | 40680/48845 [14:25:01<2:52:01,  1.26s/it]                                                          {'loss': 2.0587, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40680/48845 [14:25:01<2:52:01,  1.26s/it] 83%|████████▎ | 40681/48845 [14:25:02<2:52:03,  1.26s/it] 83%|████████▎ | 40682/48845 [14:25:03<2:51:50,  1.26s/it] 83%|████████▎ | 40683/48845 [14:25:04<2:51:47,  1.26s/it] 83%|████████▎ | 40684/48845 [14:25:06<2:51:51,  1.26s/it] 83%|████████▎ | 40685/48845 [14:25:07<2:51:57,  1.26s/it]                                                          {'loss': 1.9796, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.16}
+ 83%|████████▎ | 40685/48845 [14:25:07<2:51:57,  1.26s/it] 83%|████████▎ | 40686/48845 [14:25:08<2:52:01,  1.27s/it] 83%|████████▎ | 40687/48845 [14:25:09<2:52:03,  1.27s/it] 83%|████████▎ | 40688/48845 [14:25:11<2:51:55,  1.26s/it] 83%|████████▎ | 40689/48845 [14:25:12<2:51:59,  1.27s/it] 83%|████████▎ | 40690/48845 [14:25:13<2:52:07,  1.27s/it]                                                          {'loss': 2.2045, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40690/48845 [14:25:13<2:52:07,  1.27s/it] 83%|████████▎ | 40691/48845 [14:25:15<2:52:01,  1.27s/it] 83%|████████▎ | 40692/48845 [14:25:16<2:52:02,  1.27s/it] 83%|████████▎ | 40693/48845 [14:25:17<2:51:55,  1.27s/it] 83%|████████▎ | 40694/48845 [14:25:18<2:51:42,  1.26s/it] 83%|████████▎ | 40695/48845 [14:25:20<2:51:34,  1.26s/it]                                                          {'loss': 1.9342, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40695/48845 [14:25:20<2:51:34,  1.26s/it] 83%|████████▎ | 40696/48845 [14:25:21<2:57:48,  1.31s/it] 83%|████████▎ | 40697/48845 [14:25:22<2:55:55,  1.30s/it] 83%|████████▎ | 40698/48845 [14:25:23<2:54:29,  1.29s/it] 83%|████████▎ | 40699/48845 [14:25:25<2:53:35,  1.28s/it] 83%|████████▎ | 40700/48845 [14:25:26<2:53:04,  1.27s/it]                                                          {'loss': 1.9667, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40700/48845 [14:25:26<2:53:04,  1.27s/it] 83%|████████▎ | 40701/48845 [14:25:27<2:52:36,  1.27s/it] 83%|████████▎ | 40702/48845 [14:25:29<2:52:22,  1.27s/it] 83%|████████▎ | 40703/48845 [14:25:30<2:52:06,  1.27s/it] 83%|████████▎ | 40704/48845 [14:25:31<2:52:06,  1.27s/it] 83%|████████▎ | 40705/48845 [14:25:32<2:51:48,  1.27s/it]                                                          {'loss': 2.2252, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40705/48845 [14:25:32<2:51:48,  1.27s/it] 83%|████████▎ | 40706/48845 [14:25:34<2:52:02,  1.27s/it] 83%|████████▎ | 40707/48845 [14:25:35<2:51:55,  1.27s/it] 83%|████████▎ | 40708/48845 [14:25:36<2:51:58,  1.27s/it] 83%|████████▎ | 40709/48845 [14:25:37<2:51:40,  1.27s/it] 83%|████████▎ | 40710/48845 [14:25:39<2:51:34,  1.27s/it]                                                          {'loss': 2.2173, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40710/48845 [14:25:39<2:51:34,  1.27s/it] 83%|████████▎ | 40711/48845 [14:25:40<2:51:27,  1.26s/it] 83%|████████▎ | 40712/48845 [14:25:41<2:51:17,  1.26s/it] 83%|████████▎ | 40713/48845 [14:25:42<2:51:15,  1.26s/it] 83%|████████▎ | 40714/48845 [14:25:44<2:51:15,  1.26s/it] 83%|████████▎ | 40715/48845 [14:25:45<2:51:16,  1.26s/it]                                                          {'loss': 2.3639, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40715/48845 [14:25:45<2:51:16,  1.26s/it] 83%|████████▎ | 40716/48845 [14:25:46<2:51:27,  1.27s/it] 83%|████████▎ | 40717/48845 [14:25:48<2:51:23,  1.27s/it] 83%|████████▎ | 40718/48845 [14:25:49<2:51:15,  1.26s/it] 83%|████████▎ | 40719/48845 [14:25:50<2:51:13,  1.26s/it] 83%|████████▎ | 40720/48845 [14:25:51<2:51:17,  1.26s/it]                                                          {'loss': 1.9493, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40720/48845 [14:25:51<2:51:17,  1.26s/it] 83%|████████▎ | 40721/48845 [14:25:53<2:51:15,  1.26s/it] 83%|████████▎ | 40722/48845 [14:25:54<2:51:19,  1.27s/it] 83%|████████▎ | 40723/48845 [14:25:55<2:51:17,  1.27s/it] 83%|████████▎ | 40724/48845 [14:25:56<2:51:12,  1.26s/it] 83%|████████▎ | 40725/48845 [14:25:58<2:51:15,  1.27s/it]                                                          {'loss': 1.9909, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40725/48845 [14:25:58<2:51:15,  1.27s/it] 83%|████████▎ | 40726/48845 [14:25:59<2:51:46,  1.27s/it] 83%|████████▎ | 40727/48845 [14:26:00<2:51:32,  1.27s/it] 83%|████████▎ | 40728/48845 [14:26:01<2:52:34,  1.28s/it] 83%|████████▎ | 40729/48845 [14:26:03<2:52:04,  1.27s/it] 83%|████████▎ | 40730/48845 [14:26:04<2:51:35,  1.27s/it]                                                          {'loss': 2.1532, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40730/48845 [14:26:04<2:51:35,  1.27s/it] 83%|████████▎ | 40731/48845 [14:26:05<2:51:23,  1.27s/it] 83%|████████▎ | 40732/48845 [14:26:07<2:51:30,  1.27s/it] 83%|████████▎ | 40733/48845 [14:26:08<2:51:19,  1.27s/it] 83%|████████▎ | 40734/48845 [14:26:09<2:51:07,  1.27s/it] 83%|████████▎ | 40735/48845 [14:26:10<2:50:52,  1.26s/it]                                                          {'loss': 1.9962, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40735/48845 [14:26:10<2:50:52,  1.26s/it] 83%|████████▎ | 40736/48845 [14:26:12<2:50:55,  1.26s/it] 83%|████████▎ | 40737/48845 [14:26:13<2:50:47,  1.26s/it] 83%|████████▎ | 40738/48845 [14:26:14<2:50:40,  1.26s/it] 83%|████████▎ | 40739/48845 [14:26:15<2:50:45,  1.26s/it] 83%|████████▎ | 40740/48845 [14:26:17<2:50:56,  1.27s/it]                                                          {'loss': 2.0153, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40740/48845 [14:26:17<2:50:56,  1.27s/it] 83%|████████▎ | 40741/48845 [14:26:18<2:50:51,  1.27s/it] 83%|████████▎ | 40742/48845 [14:26:19<2:50:49,  1.26s/it] 83%|████████▎ | 40743/48845 [14:26:20<2:50:40,  1.26s/it] 83%|████████▎ | 40744/48845 [14:26:22<2:55:06,  1.30s/it] 83%|████████▎ | 40745/48845 [14:26:23<2:53:52,  1.29s/it]                                                          {'loss': 2.213, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40745/48845 [14:26:23<2:53:52,  1.29s/it] 83%|████████▎ | 40746/48845 [14:26:24<2:52:56,  1.28s/it] 83%|████████▎ | 40747/48845 [14:26:26<2:52:02,  1.27s/it] 83%|████████▎ | 40748/48845 [14:26:27<2:51:40,  1.27s/it] 83%|████████▎ | 40749/48845 [14:26:28<2:52:59,  1.28s/it] 83%|████████▎ | 40750/48845 [14:26:29<2:52:13,  1.28s/it]                                                          {'loss': 1.9849, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40750/48845 [14:26:29<2:52:13,  1.28s/it] 83%|████████▎ | 40751/48845 [14:26:31<2:51:43,  1.27s/it] 83%|████████▎ | 40752/48845 [14:26:32<2:51:24,  1.27s/it] 83%|████████▎ | 40753/48845 [14:26:33<2:51:09,  1.27s/it] 83%|████████▎ | 40754/48845 [14:26:35<2:51:02,  1.27s/it] 83%|████████▎ | 40755/48845 [14:26:36<2:50:51,  1.27s/it]                                                          {'loss': 2.1401, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40755/48845 [14:26:36<2:50:51,  1.27s/it] 83%|████████▎ | 40756/48845 [14:26:37<2:50:57,  1.27s/it] 83%|████████▎ | 40757/48845 [14:26:38<2:50:48,  1.27s/it] 83%|████████▎ | 40758/48845 [14:26:40<2:50:30,  1.27s/it] 83%|████████▎ | 40759/48845 [14:26:41<2:50:38,  1.27s/it] 83%|████████▎ | 40760/48845 [14:26:42<2:50:35,  1.27s/it]                                                          {'loss': 2.0058, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40760/48845 [14:26:42<2:50:35,  1.27s/it] 83%|████████▎ | 40761/48845 [14:26:43<2:50:27,  1.27s/it] 83%|████████▎ | 40762/48845 [14:26:45<2:50:26,  1.27s/it] 83%|████████▎ | 40763/48845 [14:26:46<2:50:20,  1.26s/it] 83%|████████▎ | 40764/48845 [14:26:47<2:50:22,  1.27s/it] 83%|████████▎ | 40765/48845 [14:26:48<2:50:12,  1.26s/it]                                                          {'loss': 2.1928, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40765/48845 [14:26:48<2:50:12,  1.26s/it] 83%|████████▎ | 40766/48845 [14:26:50<2:50:19,  1.26s/it] 83%|████████▎ | 40767/48845 [14:26:51<2:50:12,  1.26s/it] 83%|████████▎ | 40768/48845 [14:26:52<2:50:10,  1.26s/it] 83%|████████▎ | 40769/48845 [14:26:53<2:50:15,  1.26s/it] 83%|████████▎ | 40770/48845 [14:26:55<2:50:17,  1.27s/it]                                                          {'loss': 2.0594, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40770/48845 [14:26:55<2:50:17,  1.27s/it] 83%|████████▎ | 40771/48845 [14:26:56<2:50:12,  1.26s/it] 83%|████████▎ | 40772/48845 [14:26:57<2:50:13,  1.27s/it] 83%|████████▎ | 40773/48845 [14:26:59<2:50:02,  1.26s/it] 83%|████████▎ | 40774/48845 [14:27:00<2:50:15,  1.27s/it] 83%|████████▎ | 40775/48845 [14:27:01<2:50:07,  1.26s/it]                                                          {'loss': 2.0832, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40775/48845 [14:27:01<2:50:07,  1.26s/it] 83%|████████▎ | 40776/48845 [14:27:02<2:50:17,  1.27s/it] 83%|████████▎ | 40777/48845 [14:27:04<2:50:04,  1.26s/it] 83%|████████▎ | 40778/48845 [14:27:05<2:49:59,  1.26s/it] 83%|████████▎ | 40779/48845 [14:27:06<2:50:03,  1.26s/it] 83%|████████▎ | 40780/48845 [14:27:08<2:55:33,  1.31s/it]                                                          {'loss': 2.0169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40780/48845 [14:27:08<2:55:33,  1.31s/it] 83%|████████▎ | 40781/48845 [14:27:09<2:53:55,  1.29s/it] 83%|████████▎ | 40782/48845 [14:27:10<2:52:41,  1.29s/it] 83%|████████▎ | 40783/48845 [14:27:11<2:51:45,  1.28s/it] 83%|████████▎ | 40784/48845 [14:27:13<2:51:16,  1.27s/it] 83%|████████▎ | 40785/48845 [14:27:14<2:50:36,  1.27s/it]                                                          {'loss': 2.0866, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.17}
+ 83%|████████▎ | 40785/48845 [14:27:14<2:50:36,  1.27s/it] 84%|████████▎ | 40786/48845 [14:27:15<2:50:22,  1.27s/it] 84%|████████▎ | 40787/48845 [14:27:16<2:50:14,  1.27s/it] 84%|████████▎ | 40788/48845 [14:27:18<2:50:05,  1.27s/it] 84%|████████▎ | 40789/48845 [14:27:19<2:49:50,  1.26s/it] 84%|████████▎ | 40790/48845 [14:27:20<2:49:50,  1.27s/it]                                                          {'loss': 1.9787, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40790/48845 [14:27:20<2:49:50,  1.27s/it] 84%|████████▎ | 40791/48845 [14:27:21<2:49:45,  1.26s/it] 84%|████████▎ | 40792/48845 [14:27:23<2:49:44,  1.26s/it] 84%|████████▎ | 40793/48845 [14:27:24<2:49:32,  1.26s/it] 84%|████████▎ | 40794/48845 [14:27:25<2:49:40,  1.26s/it] 84%|████████▎ | 40795/48845 [14:27:26<2:49:30,  1.26s/it]                                                          {'loss': 2.0665, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40795/48845 [14:27:26<2:49:30,  1.26s/it] 84%|████████▎ | 40796/48845 [14:27:28<2:49:39,  1.26s/it] 84%|████████▎ | 40797/48845 [14:27:29<2:49:40,  1.26s/it] 84%|████████▎ | 40798/48845 [14:27:30<2:49:34,  1.26s/it] 84%|████████▎ | 40799/48845 [14:27:32<2:49:26,  1.26s/it] 84%|████████▎ | 40800/48845 [14:27:33<2:49:37,  1.27s/it]                                                          {'loss': 2.1656, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40800/48845 [14:27:33<2:49:37,  1.27s/it] 84%|████████▎ | 40801/48845 [14:27:37<4:32:34,  2.03s/it] 84%|████████▎ | 40802/48845 [14:27:38<4:01:51,  1.80s/it] 84%|████████▎ | 40803/48845 [14:27:39<3:40:06,  1.64s/it] 84%|████████▎ | 40804/48845 [14:27:40<3:24:40,  1.53s/it] 84%|████████▎ | 40805/48845 [14:27:42<3:13:57,  1.45s/it]                                                          {'loss': 2.1573, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40805/48845 [14:27:42<3:13:57,  1.45s/it] 84%|████████▎ | 40806/48845 [14:27:43<3:06:48,  1.39s/it] 84%|████████▎ | 40807/48845 [14:27:44<3:01:37,  1.36s/it] 84%|████████▎ | 40808/48845 [14:27:46<2:58:12,  1.33s/it] 84%|████████▎ | 40809/48845 [14:27:47<2:55:38,  1.31s/it] 84%|████████▎ | 40810/48845 [14:27:48<2:58:34,  1.33s/it]                                                          {'loss': 2.0926, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40810/48845 [14:27:48<2:58:34,  1.33s/it] 84%|████████▎ | 40811/48845 [14:27:49<2:55:47,  1.31s/it] 84%|████████▎ | 40812/48845 [14:27:51<2:53:41,  1.30s/it] 84%|████████▎ | 40813/48845 [14:27:52<2:52:16,  1.29s/it] 84%|████████▎ | 40814/48845 [14:27:53<2:51:29,  1.28s/it] 84%|████████▎ | 40815/48845 [14:27:54<2:50:35,  1.27s/it]                                                          {'loss': 2.0226, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40815/48845 [14:27:54<2:50:35,  1.27s/it] 84%|████████▎ | 40816/48845 [14:27:56<2:50:20,  1.27s/it] 84%|████████▎ | 40817/48845 [14:27:57<2:49:55,  1.27s/it] 84%|████████▎ | 40818/48845 [14:27:58<2:49:41,  1.27s/it] 84%|████████▎ | 40819/48845 [14:28:00<2:49:22,  1.27s/it] 84%|████████▎ | 40820/48845 [14:28:01<2:49:13,  1.27s/it]                                                          {'loss': 2.0817, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40820/48845 [14:28:01<2:49:13,  1.27s/it] 84%|████████▎ | 40821/48845 [14:28:02<2:49:03,  1.26s/it] 84%|████████▎ | 40822/48845 [14:28:03<2:49:26,  1.27s/it] 84%|████████▎ | 40823/48845 [14:28:05<2:49:15,  1.27s/it] 84%|████████▎ | 40824/48845 [14:28:06<2:49:07,  1.27s/it] 84%|████████▎ | 40825/48845 [14:28:07<2:49:03,  1.26s/it]                                                          {'loss': 2.1816, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40825/48845 [14:28:07<2:49:03,  1.26s/it] 84%|████████▎ | 40826/48845 [14:28:08<2:49:09,  1.27s/it] 84%|████████▎ | 40827/48845 [14:28:10<2:49:10,  1.27s/it] 84%|████████▎ | 40828/48845 [14:28:11<2:49:03,  1.27s/it] 84%|████████▎ | 40829/48845 [14:28:12<2:48:53,  1.26s/it] 84%|████████▎ | 40830/48845 [14:28:13<2:49:01,  1.27s/it]                                                          {'loss': 1.9912, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40830/48845 [14:28:13<2:49:01,  1.27s/it] 84%|████████▎ | 40831/48845 [14:28:15<2:49:11,  1.27s/it] 84%|████████▎ | 40832/48845 [14:28:16<2:49:02,  1.27s/it] 84%|████████▎ | 40833/48845 [14:28:17<2:49:00,  1.27s/it] 84%|████████▎ | 40834/48845 [14:28:19<2:49:00,  1.27s/it] 84%|████████▎ | 40835/48845 [14:28:20<2:48:49,  1.26s/it]                                                          {'loss': 2.2018, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40835/48845 [14:28:20<2:48:49,  1.26s/it] 84%|████████▎ | 40836/48845 [14:28:21<2:48:43,  1.26s/it] 84%|████████▎ | 40837/48845 [14:28:22<2:48:52,  1.27s/it] 84%|████████▎ | 40838/48845 [14:28:24<2:48:44,  1.26s/it] 84%|████████▎ | 40839/48845 [14:28:25<2:48:49,  1.27s/it] 84%|████████▎ | 40840/48845 [14:28:26<2:48:55,  1.27s/it]                                                          {'loss': 2.1598, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40840/48845 [14:28:26<2:48:55,  1.27s/it] 84%|████████▎ | 40841/48845 [14:28:27<2:48:58,  1.27s/it] 84%|████████▎ | 40842/48845 [14:28:29<2:48:58,  1.27s/it] 84%|████████▎ | 40843/48845 [14:28:30<2:48:52,  1.27s/it] 84%|████████▎ | 40844/48845 [14:28:31<2:48:51,  1.27s/it] 84%|████████▎ | 40845/48845 [14:28:32<2:48:38,  1.26s/it]                                                          {'loss': 2.0992, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40845/48845 [14:28:32<2:48:38,  1.26s/it] 84%|████████▎ | 40846/48845 [14:28:34<2:48:24,  1.26s/it] 84%|████████▎ | 40847/48845 [14:28:35<2:48:35,  1.26s/it] 84%|████████▎ | 40848/48845 [14:28:36<2:48:43,  1.27s/it] 84%|████████▎ | 40849/48845 [14:28:37<2:48:37,  1.27s/it] 84%|████████▎ | 40850/48845 [14:28:39<2:48:35,  1.27s/it]                                                          {'loss': 2.117, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40850/48845 [14:28:39<2:48:35,  1.27s/it] 84%|████████▎ | 40851/48845 [14:28:40<2:48:31,  1.26s/it] 84%|████████▎ | 40852/48845 [14:28:41<2:48:21,  1.26s/it] 84%|████████▎ | 40853/48845 [14:28:43<2:48:18,  1.26s/it] 84%|████████▎ | 40854/48845 [14:28:44<2:48:15,  1.26s/it] 84%|████████▎ | 40855/48845 [14:28:45<2:48:12,  1.26s/it]                                                          {'loss': 1.9324, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40855/48845 [14:28:45<2:48:12,  1.26s/it] 84%|████████▎ | 40856/48845 [14:28:46<2:48:20,  1.26s/it] 84%|████████▎ | 40857/48845 [14:28:48<2:48:16,  1.26s/it] 84%|████████▎ | 40858/48845 [14:28:49<2:48:20,  1.26s/it] 84%|████████▎ | 40859/48845 [14:28:50<2:48:14,  1.26s/it] 84%|████████▎ | 40860/48845 [14:28:51<2:48:13,  1.26s/it]                                                          {'loss': 2.1545, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40860/48845 [14:28:51<2:48:13,  1.26s/it] 84%|████████▎ | 40861/48845 [14:28:53<2:48:06,  1.26s/it] 84%|████████▎ | 40862/48845 [14:28:54<2:53:27,  1.30s/it] 84%|████████▎ | 40863/48845 [14:28:55<2:51:48,  1.29s/it] 84%|████████▎ | 40864/48845 [14:28:57<2:50:39,  1.28s/it] 84%|████████▎ | 40865/48845 [14:28:58<2:50:01,  1.28s/it]                                                          {'loss': 2.0216, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40865/48845 [14:28:58<2:50:01,  1.28s/it] 84%|████████▎ | 40866/48845 [14:28:59<2:49:35,  1.28s/it] 84%|████████▎ | 40867/48845 [14:29:00<2:48:59,  1.27s/it] 84%|████████▎ | 40868/48845 [14:29:02<2:48:36,  1.27s/it] 84%|████████▎ | 40869/48845 [14:29:03<2:48:21,  1.27s/it] 84%|████████▎ | 40870/48845 [14:29:04<2:48:15,  1.27s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40870/48845 [14:29:04<2:48:15,  1.27s/it] 84%|████████▎ | 40871/48845 [14:29:05<2:48:15,  1.27s/it] 84%|████████▎ | 40872/48845 [14:29:07<2:48:14,  1.27s/it] 84%|████████▎ | 40873/48845 [14:29:08<2:48:20,  1.27s/it] 84%|████████▎ | 40874/48845 [14:29:09<2:54:47,  1.32s/it] 84%|████████▎ | 40875/48845 [14:29:11<2:52:46,  1.30s/it]                                                          {'loss': 2.129, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40875/48845 [14:29:11<2:52:46,  1.30s/it] 84%|████████▎ | 40876/48845 [14:29:12<2:51:13,  1.29s/it] 84%|████████▎ | 40877/48845 [14:29:13<2:50:19,  1.28s/it] 84%|████████▎ | 40878/48845 [14:29:14<2:49:51,  1.28s/it] 84%|████████▎ | 40879/48845 [14:29:16<2:49:11,  1.27s/it] 84%|████████▎ | 40880/48845 [14:29:17<2:48:46,  1.27s/it]                                                          {'loss': 2.0388, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.18}
+ 84%|████████▎ | 40880/48845 [14:29:17<2:48:46,  1.27s/it] 84%|████████▎ | 40881/48845 [14:29:18<2:48:29,  1.27s/it] 84%|████████▎ | 40882/48845 [14:29:20<2:48:15,  1.27s/it] 84%|████████▎ | 40883/48845 [14:29:21<2:48:07,  1.27s/it] 84%|████████▎ | 40884/48845 [14:29:22<2:48:02,  1.27s/it] 84%|████████▎ | 40885/48845 [14:29:23<2:47:56,  1.27s/it]                                                          {'loss': 2.1122, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▎ | 40885/48845 [14:29:23<2:47:56,  1.27s/it] 84%|████████▎ | 40886/48845 [14:29:25<2:47:47,  1.26s/it] 84%|████████▎ | 40887/48845 [14:29:26<2:47:37,  1.26s/it] 84%|████████▎ | 40888/48845 [14:29:27<2:47:36,  1.26s/it] 84%|████████▎ | 40889/48845 [14:29:28<2:47:39,  1.26s/it] 84%|████████▎ | 40890/48845 [14:29:30<2:47:24,  1.26s/it]                                                          {'loss': 2.2926, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▎ | 40890/48845 [14:29:30<2:47:24,  1.26s/it] 84%|████████▎ | 40891/48845 [14:29:31<2:47:30,  1.26s/it] 84%|████████▎ | 40892/48845 [14:29:32<2:47:39,  1.26s/it] 84%|████████▎ | 40893/48845 [14:29:33<2:47:36,  1.26s/it] 84%|████████▎ | 40894/48845 [14:29:35<2:53:19,  1.31s/it] 84%|████████▎ | 40895/48845 [14:29:36<2:51:42,  1.30s/it]                                                          {'loss': 2.2093, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▎ | 40895/48845 [14:29:36<2:51:42,  1.30s/it] 84%|████████▎ | 40896/48845 [14:29:37<2:50:30,  1.29s/it] 84%|████████▎ | 40897/48845 [14:29:39<2:49:28,  1.28s/it] 84%|████████▎ | 40898/48845 [14:29:40<2:48:59,  1.28s/it] 84%|████████▎ | 40899/48845 [14:29:41<2:48:27,  1.27s/it] 84%|████████▎ | 40900/48845 [14:29:42<2:48:04,  1.27s/it]                                                          {'loss': 2.0729, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▎ | 40900/48845 [14:29:42<2:48:04,  1.27s/it] 84%|████████▎ | 40901/48845 [14:29:44<2:47:55,  1.27s/it] 84%|████████▎ | 40902/48845 [14:29:45<2:47:41,  1.27s/it] 84%|████████▎ | 40903/48845 [14:29:46<2:47:32,  1.27s/it] 84%|████████▎ | 40904/48845 [14:29:47<2:47:26,  1.27s/it] 84%|████████▎ | 40905/48845 [14:29:49<2:47:22,  1.26s/it]                                                          {'loss': 2.1183, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▎ | 40905/48845 [14:29:49<2:47:22,  1.26s/it] 84%|████████▎ | 40906/48845 [14:29:50<2:47:24,  1.27s/it] 84%|████████▎ | 40907/48845 [14:29:51<2:47:17,  1.26s/it] 84%|████████▍ | 40908/48845 [14:29:53<2:47:16,  1.26s/it] 84%|████████▍ | 40909/48845 [14:29:54<2:47:27,  1.27s/it] 84%|████████▍ | 40910/48845 [14:29:55<2:47:25,  1.27s/it]                                                          {'loss': 1.988, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40910/48845 [14:29:55<2:47:25,  1.27s/it] 84%|████████▍ | 40911/48845 [14:29:56<2:47:23,  1.27s/it] 84%|████████▍ | 40912/48845 [14:29:58<2:47:10,  1.26s/it] 84%|████████▍ | 40913/48845 [14:29:59<2:47:17,  1.27s/it] 84%|████████▍ | 40914/48845 [14:30:00<2:47:23,  1.27s/it] 84%|████████▍ | 40915/48845 [14:30:01<2:47:27,  1.27s/it]                                                          {'loss': 2.1564, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40915/48845 [14:30:01<2:47:27,  1.27s/it] 84%|████████▍ | 40916/48845 [14:30:03<2:47:25,  1.27s/it] 84%|████████▍ | 40917/48845 [14:30:04<2:47:06,  1.26s/it] 84%|████████▍ | 40918/48845 [14:30:05<2:47:17,  1.27s/it] 84%|████████▍ | 40919/48845 [14:30:06<2:47:10,  1.27s/it] 84%|████████▍ | 40920/48845 [14:30:08<2:46:58,  1.26s/it]                                                          {'loss': 2.0359, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40920/48845 [14:30:08<2:46:58,  1.26s/it] 84%|████████▍ | 40921/48845 [14:30:09<2:47:10,  1.27s/it] 84%|████████▍ | 40922/48845 [14:30:10<2:47:09,  1.27s/it] 84%|████████▍ | 40923/48845 [14:30:12<2:46:53,  1.26s/it] 84%|████████▍ | 40924/48845 [14:30:13<2:46:58,  1.26s/it] 84%|████████▍ | 40925/48845 [14:30:14<2:46:50,  1.26s/it]                                                          {'loss': 2.1236, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40925/48845 [14:30:14<2:46:50,  1.26s/it] 84%|████████▍ | 40926/48845 [14:30:15<2:46:56,  1.26s/it] 84%|████████▍ | 40927/48845 [14:30:17<2:46:56,  1.26s/it] 84%|████████▍ | 40928/48845 [14:30:18<2:47:01,  1.27s/it] 84%|████████▍ | 40929/48845 [14:30:19<2:46:56,  1.27s/it] 84%|████████▍ | 40930/48845 [14:30:20<2:46:52,  1.27s/it]                                                          {'loss': 2.0806, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40930/48845 [14:30:20<2:46:52,  1.27s/it] 84%|████████▍ | 40931/48845 [14:30:22<2:46:51,  1.27s/it] 84%|████████▍ | 40932/48845 [14:30:23<2:46:49,  1.26s/it] 84%|████████▍ | 40933/48845 [14:30:24<2:46:45,  1.26s/it] 84%|████████▍ | 40934/48845 [14:30:25<2:46:46,  1.26s/it] 84%|████████▍ | 40935/48845 [14:30:27<2:46:37,  1.26s/it]                                                          {'loss': 2.0414, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40935/48845 [14:30:27<2:46:37,  1.26s/it] 84%|████████▍ | 40936/48845 [14:30:28<2:46:49,  1.27s/it] 84%|████████▍ | 40937/48845 [14:30:29<2:46:35,  1.26s/it] 84%|████████▍ | 40938/48845 [14:30:30<2:46:40,  1.26s/it] 84%|████████▍ | 40939/48845 [14:30:32<2:46:33,  1.26s/it] 84%|████████▍ | 40940/48845 [14:30:33<2:46:34,  1.26s/it]                                                          {'loss': 1.998, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40940/48845 [14:30:33<2:46:34,  1.26s/it] 84%|████████▍ | 40941/48845 [14:30:34<2:46:32,  1.26s/it] 84%|████████▍ | 40942/48845 [14:30:36<2:46:31,  1.26s/it] 84%|████████▍ | 40943/48845 [14:30:37<2:46:27,  1.26s/it] 84%|████████▍ | 40944/48845 [14:30:38<2:46:20,  1.26s/it] 84%|████████▍ | 40945/48845 [14:30:39<2:46:14,  1.26s/it]                                                          {'loss': 1.9616, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40945/48845 [14:30:39<2:46:14,  1.26s/it] 84%|████████▍ | 40946/48845 [14:30:41<2:46:29,  1.26s/it] 84%|████████▍ | 40947/48845 [14:30:42<2:46:16,  1.26s/it] 84%|████████▍ | 40948/48845 [14:30:43<2:46:16,  1.26s/it] 84%|████████▍ | 40949/48845 [14:30:44<2:46:11,  1.26s/it] 84%|████████▍ | 40950/48845 [14:30:46<2:46:25,  1.26s/it]                                                          {'loss': 2.1, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40950/48845 [14:30:46<2:46:25,  1.26s/it] 84%|████████▍ | 40951/48845 [14:30:47<2:46:28,  1.27s/it] 84%|████████▍ | 40952/48845 [14:30:48<2:46:27,  1.27s/it] 84%|████████▍ | 40953/48845 [14:30:49<2:46:18,  1.26s/it] 84%|████████▍ | 40954/48845 [14:30:51<2:46:23,  1.27s/it] 84%|████████▍ | 40955/48845 [14:30:52<2:46:17,  1.26s/it]                                                          {'loss': 1.9545, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40955/48845 [14:30:52<2:46:17,  1.26s/it] 84%|████████▍ | 40956/48845 [14:30:53<2:46:13,  1.26s/it] 84%|████████▍ | 40957/48845 [14:30:55<2:46:13,  1.26s/it] 84%|████████▍ | 40958/48845 [14:30:56<2:46:15,  1.26s/it] 84%|████████▍ | 40959/48845 [14:30:57<2:46:10,  1.26s/it] 84%|████████▍ | 40960/48845 [14:30:58<2:46:09,  1.26s/it]                                                          {'loss': 2.1823, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40960/48845 [14:30:58<2:46:09,  1.26s/it] 84%|████████▍ | 40961/48845 [14:31:00<2:46:14,  1.27s/it] 84%|████████▍ | 40962/48845 [14:31:01<2:46:12,  1.27s/it] 84%|████████▍ | 40963/48845 [14:31:02<2:45:59,  1.26s/it] 84%|████████▍ | 40964/48845 [14:31:03<2:46:27,  1.27s/it] 84%|████████▍ | 40965/48845 [14:31:05<2:46:19,  1.27s/it]                                                          {'loss': 1.9279, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40965/48845 [14:31:05<2:46:19,  1.27s/it] 84%|████████▍ | 40966/48845 [14:31:06<2:46:07,  1.27s/it] 84%|████████▍ | 40967/48845 [14:31:07<2:46:04,  1.26s/it] 84%|████████▍ | 40968/48845 [14:31:09<2:49:09,  1.29s/it] 84%|████████▍ | 40969/48845 [14:31:10<2:48:18,  1.28s/it] 84%|████████▍ | 40970/48845 [14:31:11<2:47:28,  1.28s/it]                                                          {'loss': 2.0439, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40970/48845 [14:31:11<2:47:28,  1.28s/it] 84%|████████▍ | 40971/48845 [14:31:12<2:46:56,  1.27s/it] 84%|████████▍ | 40972/48845 [14:31:14<2:46:35,  1.27s/it] 84%|████████▍ | 40973/48845 [14:31:15<2:46:46,  1.27s/it] 84%|████████▍ | 40974/48845 [14:31:16<2:46:27,  1.27s/it] 84%|████████▍ | 40975/48845 [14:31:17<2:46:15,  1.27s/it]                                                          {'loss': 1.9647, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40975/48845 [14:31:17<2:46:15,  1.27s/it] 84%|████████▍ | 40976/48845 [14:31:19<2:46:28,  1.27s/it] 84%|████████▍ | 40977/48845 [14:31:20<2:46:06,  1.27s/it] 84%|████████▍ | 40978/48845 [14:31:21<2:46:06,  1.27s/it] 84%|████████▍ | 40979/48845 [14:31:22<2:46:02,  1.27s/it] 84%|████████▍ | 40980/48845 [14:31:24<2:45:55,  1.27s/it]                                                          {'loss': 1.9467, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.19}
+ 84%|████████▍ | 40980/48845 [14:31:24<2:45:55,  1.27s/it] 84%|████████▍ | 40981/48845 [14:31:25<2:45:47,  1.26s/it] 84%|████████▍ | 40982/48845 [14:31:26<2:45:52,  1.27s/it] 84%|████████▍ | 40983/48845 [14:31:27<2:45:47,  1.27s/it] 84%|████████▍ | 40984/48845 [14:31:29<2:46:02,  1.27s/it] 84%|████████▍ | 40985/48845 [14:31:30<2:45:50,  1.27s/it]                                                          {'loss': 1.8571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 40985/48845 [14:31:30<2:45:50,  1.27s/it] 84%|████████▍ | 40986/48845 [14:31:31<2:45:40,  1.26s/it] 84%|████████▍ | 40987/48845 [14:31:33<2:45:39,  1.26s/it] 84%|████████▍ | 40988/48845 [14:31:34<2:46:46,  1.27s/it] 84%|████████▍ | 40989/48845 [14:31:35<2:46:19,  1.27s/it] 84%|████████▍ | 40990/48845 [14:31:36<2:46:03,  1.27s/it]                                                          {'loss': 1.9596, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 40990/48845 [14:31:36<2:46:03,  1.27s/it] 84%|████████▍ | 40991/48845 [14:31:38<2:46:01,  1.27s/it] 84%|████████▍ | 40992/48845 [14:31:39<2:47:28,  1.28s/it] 84%|████████▍ | 40993/48845 [14:31:40<2:46:53,  1.28s/it] 84%|████████▍ | 40994/48845 [14:31:41<2:46:28,  1.27s/it] 84%|████████▍ | 40995/48845 [14:31:43<2:46:27,  1.27s/it]                                                          {'loss': 1.971, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 40995/48845 [14:31:43<2:46:27,  1.27s/it] 84%|████████▍ | 40996/48845 [14:31:44<2:46:16,  1.27s/it] 84%|████████▍ | 40997/48845 [14:31:45<2:45:54,  1.27s/it] 84%|████████▍ | 40998/48845 [14:31:47<2:45:37,  1.27s/it] 84%|████████▍ | 40999/48845 [14:31:48<2:45:37,  1.27s/it] 84%|████████▍ | 41000/48845 [14:31:49<2:47:41,  1.28s/it]                                                          {'loss': 2.0801, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41000/48845 [14:31:49<2:47:41,  1.28s/it] 84%|████████▍ | 41001/48845 [14:31:53<4:27:24,  2.05s/it] 84%|████████▍ | 41002/48845 [14:31:54<3:56:53,  1.81s/it] 84%|████████▍ | 41003/48845 [14:31:55<3:35:14,  1.65s/it] 84%|████████▍ | 41004/48845 [14:31:57<3:20:09,  1.53s/it] 84%|████████▍ | 41005/48845 [14:31:58<3:09:30,  1.45s/it]                                                          {'loss': 1.88, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41005/48845 [14:31:58<3:09:30,  1.45s/it] 84%|████████▍ | 41006/48845 [14:31:59<3:04:35,  1.41s/it] 84%|████████▍ | 41007/48845 [14:32:01<2:58:34,  1.37s/it] 84%|████████▍ | 41008/48845 [14:32:02<2:54:24,  1.34s/it] 84%|████████▍ | 41009/48845 [14:32:03<2:51:31,  1.31s/it] 84%|████████▍ | 41010/48845 [14:32:04<2:49:31,  1.30s/it]                                                          {'loss': 1.9035, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41010/48845 [14:32:04<2:49:31,  1.30s/it] 84%|████████▍ | 41011/48845 [14:32:06<2:48:12,  1.29s/it] 84%|████████▍ | 41012/48845 [14:32:07<2:47:17,  1.28s/it] 84%|████████▍ | 41013/48845 [14:32:08<2:46:33,  1.28s/it] 84%|████████▍ | 41014/48845 [14:32:09<2:45:59,  1.27s/it] 84%|████████▍ | 41015/48845 [14:32:11<2:45:42,  1.27s/it]                                                          {'loss': 2.1867, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41015/48845 [14:32:11<2:45:42,  1.27s/it] 84%|████████▍ | 41016/48845 [14:32:12<2:45:22,  1.27s/it] 84%|████████▍ | 41017/48845 [14:32:13<2:44:59,  1.26s/it] 84%|████████▍ | 41018/48845 [14:32:14<2:45:04,  1.27s/it] 84%|████████▍ | 41019/48845 [14:32:16<2:45:00,  1.27s/it] 84%|████████▍ | 41020/48845 [14:32:17<2:44:49,  1.26s/it]                                                          {'loss': 2.0462, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41020/48845 [14:32:17<2:44:49,  1.26s/it] 84%|████████▍ | 41021/48845 [14:32:18<2:44:47,  1.26s/it] 84%|████████▍ | 41022/48845 [14:32:20<2:45:01,  1.27s/it] 84%|████████▍ | 41023/48845 [14:32:21<2:44:53,  1.26s/it] 84%|████████▍ | 41024/48845 [14:32:22<2:44:39,  1.26s/it] 84%|████████▍ | 41025/48845 [14:32:23<2:44:41,  1.26s/it]                                                          {'loss': 1.9555, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41025/48845 [14:32:23<2:44:41,  1.26s/it] 84%|████████▍ | 41026/48845 [14:32:25<2:44:33,  1.26s/it] 84%|████████▍ | 41027/48845 [14:32:26<2:44:24,  1.26s/it] 84%|████████▍ | 41028/48845 [14:32:27<2:44:25,  1.26s/it] 84%|████████▍ | 41029/48845 [14:32:28<2:44:21,  1.26s/it] 84%|████████▍ | 41030/48845 [14:32:30<2:44:25,  1.26s/it]                                                          {'loss': 2.052, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41030/48845 [14:32:30<2:44:25,  1.26s/it] 84%|████████▍ | 41031/48845 [14:32:31<2:44:33,  1.26s/it] 84%|████████▍ | 41032/48845 [14:32:32<2:44:23,  1.26s/it] 84%|████████▍ | 41033/48845 [14:32:33<2:44:22,  1.26s/it] 84%|████████▍ | 41034/48845 [14:32:35<2:51:05,  1.31s/it] 84%|████████▍ | 41035/48845 [14:32:36<2:48:55,  1.30s/it]                                                          {'loss': 1.9413, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41035/48845 [14:32:36<2:48:55,  1.30s/it] 84%|████████▍ | 41036/48845 [14:32:37<2:47:40,  1.29s/it] 84%|████████▍ | 41037/48845 [14:32:39<2:46:47,  1.28s/it] 84%|████████▍ | 41038/48845 [14:32:40<2:46:10,  1.28s/it] 84%|████████▍ | 41039/48845 [14:32:41<2:45:37,  1.27s/it] 84%|████████▍ | 41040/48845 [14:32:42<2:45:16,  1.27s/it]                                                          {'loss': 1.9951, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41040/48845 [14:32:42<2:45:16,  1.27s/it] 84%|████████▍ | 41041/48845 [14:32:44<2:45:04,  1.27s/it] 84%|████████▍ | 41042/48845 [14:32:45<2:44:57,  1.27s/it] 84%|████████▍ | 41043/48845 [14:32:46<2:44:53,  1.27s/it] 84%|████████▍ | 41044/48845 [14:32:48<2:44:51,  1.27s/it] 84%|████████▍ | 41045/48845 [14:32:49<2:44:33,  1.27s/it]                                                          {'loss': 2.1126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41045/48845 [14:32:49<2:44:33,  1.27s/it] 84%|████████▍ | 41046/48845 [14:32:50<2:44:30,  1.27s/it] 84%|████████▍ | 41047/48845 [14:32:51<2:44:28,  1.27s/it] 84%|████████▍ | 41048/48845 [14:32:53<2:44:16,  1.26s/it] 84%|████████▍ | 41049/48845 [14:32:54<2:44:17,  1.26s/it] 84%|████████▍ | 41050/48845 [14:32:55<2:44:12,  1.26s/it]                                                          {'loss': 2.0676, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41050/48845 [14:32:55<2:44:12,  1.26s/it] 84%|████████▍ | 41051/48845 [14:32:56<2:44:17,  1.26s/it] 84%|████████▍ | 41052/48845 [14:32:58<2:44:10,  1.26s/it] 84%|████████▍ | 41053/48845 [14:32:59<2:44:18,  1.27s/it] 84%|████████▍ | 41054/48845 [14:33:00<2:44:11,  1.26s/it] 84%|████████▍ | 41055/48845 [14:33:01<2:44:06,  1.26s/it]                                                          {'loss': 2.0228, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41055/48845 [14:33:01<2:44:06,  1.26s/it] 84%|████████▍ | 41056/48845 [14:33:03<2:44:05,  1.26s/it] 84%|████████▍ | 41057/48845 [14:33:04<2:44:13,  1.27s/it] 84%|████████▍ | 41058/48845 [14:33:05<2:44:06,  1.26s/it] 84%|████████▍ | 41059/48845 [14:33:06<2:43:59,  1.26s/it] 84%|████████▍ | 41060/48845 [14:33:08<2:43:53,  1.26s/it]                                                          {'loss': 1.966, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41060/48845 [14:33:08<2:43:53,  1.26s/it] 84%|████████▍ | 41061/48845 [14:33:09<2:43:52,  1.26s/it] 84%|████████▍ | 41062/48845 [14:33:10<2:44:06,  1.27s/it] 84%|████████▍ | 41063/48845 [14:33:12<2:44:10,  1.27s/it] 84%|████████▍ | 41064/48845 [14:33:13<2:44:00,  1.26s/it] 84%|████████▍ | 41065/48845 [14:33:14<2:43:59,  1.26s/it]                                                          {'loss': 1.9752, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41065/48845 [14:33:14<2:43:59,  1.26s/it] 84%|████████▍ | 41066/48845 [14:33:15<2:44:06,  1.27s/it] 84%|████████▍ | 41067/48845 [14:33:17<2:43:50,  1.26s/it] 84%|████████▍ | 41068/48845 [14:33:18<2:43:48,  1.26s/it] 84%|████████▍ | 41069/48845 [14:33:19<2:43:38,  1.26s/it] 84%|████████▍ | 41070/48845 [14:33:20<2:45:26,  1.28s/it]                                                          {'loss': 2.2283, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41070/48845 [14:33:20<2:45:26,  1.28s/it] 84%|████████▍ | 41071/48845 [14:33:22<2:44:52,  1.27s/it] 84%|████████▍ | 41072/48845 [14:33:23<2:44:28,  1.27s/it] 84%|████████▍ | 41073/48845 [14:33:24<2:44:09,  1.27s/it] 84%|████████▍ | 41074/48845 [14:33:25<2:44:12,  1.27s/it] 84%|████████▍ | 41075/48845 [14:33:27<2:44:09,  1.27s/it]                                                          {'loss': 2.0115, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.2}
+ 84%|████████▍ | 41075/48845 [14:33:27<2:44:09,  1.27s/it] 84%|████████▍ | 41076/48845 [14:33:28<2:44:07,  1.27s/it] 84%|████████▍ | 41077/48845 [14:33:29<2:43:56,  1.27s/it] 84%|████████▍ | 41078/48845 [14:33:31<2:44:08,  1.27s/it] 84%|████████▍ | 41079/48845 [14:33:32<2:44:00,  1.27s/it] 84%|████████▍ | 41080/48845 [14:33:33<2:43:58,  1.27s/it]                                                          {'loss': 2.0831, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41080/48845 [14:33:33<2:43:58,  1.27s/it] 84%|████████▍ | 41081/48845 [14:33:34<2:43:51,  1.27s/it] 84%|████████▍ | 41082/48845 [14:33:36<2:43:43,  1.27s/it] 84%|████████▍ | 41083/48845 [14:33:37<2:43:35,  1.26s/it] 84%|████████▍ | 41084/48845 [14:33:38<2:43:36,  1.26s/it] 84%|████████▍ | 41085/48845 [14:33:39<2:43:34,  1.26s/it]                                                          {'loss': 2.1233, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41085/48845 [14:33:39<2:43:34,  1.26s/it] 84%|████████▍ | 41086/48845 [14:33:41<2:43:29,  1.26s/it] 84%|████████▍ | 41087/48845 [14:33:42<2:43:26,  1.26s/it] 84%|████████▍ | 41088/48845 [14:33:43<2:43:27,  1.26s/it] 84%|████████▍ | 41089/48845 [14:33:44<2:43:23,  1.26s/it] 84%|████████▍ | 41090/48845 [14:33:46<2:47:27,  1.30s/it]                                                          {'loss': 2.1615, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41090/48845 [14:33:46<2:47:27,  1.30s/it] 84%|████████▍ | 41091/48845 [14:33:47<2:46:14,  1.29s/it] 84%|████████▍ | 41092/48845 [14:33:48<2:45:23,  1.28s/it] 84%|████████▍ | 41093/48845 [14:33:50<2:44:37,  1.27s/it] 84%|████████▍ | 41094/48845 [14:33:51<2:49:21,  1.31s/it] 84%|████████▍ | 41095/48845 [14:33:52<2:47:22,  1.30s/it]                                                          {'loss': 1.9768, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41095/48845 [14:33:52<2:47:22,  1.30s/it] 84%|████████▍ | 41096/48845 [14:33:54<2:46:12,  1.29s/it] 84%|████████▍ | 41097/48845 [14:33:55<2:45:18,  1.28s/it] 84%|████████▍ | 41098/48845 [14:33:56<2:44:47,  1.28s/it] 84%|███���████▍ | 41099/48845 [14:33:57<2:44:17,  1.27s/it] 84%|████████▍ | 41100/48845 [14:33:59<2:43:49,  1.27s/it]                                                          {'loss': 2.2039, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41100/48845 [14:33:59<2:43:49,  1.27s/it] 84%|████████▍ | 41101/48845 [14:34:00<2:43:33,  1.27s/it] 84%|████████▍ | 41102/48845 [14:34:01<2:43:38,  1.27s/it] 84%|████████▍ | 41103/48845 [14:34:02<2:43:26,  1.27s/it] 84%|████████▍ | 41104/48845 [14:34:04<2:43:12,  1.26s/it] 84%|████████▍ | 41105/48845 [14:34:05<2:43:15,  1.27s/it]                                                          {'loss': 2.0496, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41105/48845 [14:34:05<2:43:15,  1.27s/it] 84%|████████▍ | 41106/48845 [14:34:06<2:43:22,  1.27s/it] 84%|████████▍ | 41107/48845 [14:34:07<2:43:08,  1.27s/it] 84%|████████▍ | 41108/48845 [14:34:09<2:43:07,  1.27s/it] 84%|████████▍ | 41109/48845 [14:34:10<2:43:03,  1.26s/it] 84%|████████▍ | 41110/48845 [14:34:11<2:43:09,  1.27s/it]                                                          {'loss': 2.0641, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41110/48845 [14:34:11<2:43:09,  1.27s/it] 84%|████████▍ | 41111/48845 [14:34:13<2:43:08,  1.27s/it] 84%|████████▍ | 41112/48845 [14:34:14<2:43:09,  1.27s/it] 84%|████████▍ | 41113/48845 [14:34:15<2:43:01,  1.27s/it] 84%|████████▍ | 41114/48845 [14:34:16<2:43:14,  1.27s/it] 84%|████████▍ | 41115/48845 [14:34:18<2:43:04,  1.27s/it]                                                          {'loss': 2.0675, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41115/48845 [14:34:18<2:43:04,  1.27s/it] 84%|████████▍ | 41116/48845 [14:34:19<2:42:56,  1.26s/it] 84%|████████▍ | 41117/48845 [14:34:20<2:42:54,  1.26s/it] 84%|████████▍ | 41118/48845 [14:34:21<2:42:55,  1.27s/it] 84%|████████▍ | 41119/48845 [14:34:23<2:42:47,  1.26s/it] 84%|████████▍ | 41120/48845 [14:34:24<2:42:41,  1.26s/it]                                                          {'loss': 2.0617, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41120/48845 [14:34:24<2:42:41,  1.26s/it] 84%|████████▍ | 41121/48845 [14:34:25<2:42:38,  1.26s/it] 84%|████████▍ | 41122/48845 [14:34:26<2:42:43,  1.26s/it] 84%|████████▍ | 41123/48845 [14:34:28<2:42:39,  1.26s/it] 84%|████████▍ | 41124/48845 [14:34:29<2:42:33,  1.26s/it] 84%|████████▍ | 41125/48845 [14:34:30<2:42:29,  1.26s/it]                                                          {'loss': 2.1828, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41125/48845 [14:34:30<2:42:29,  1.26s/it] 84%|████████▍ | 41126/48845 [14:34:31<2:42:44,  1.27s/it] 84%|████████▍ | 41127/48845 [14:34:33<2:42:36,  1.26s/it] 84%|████████▍ | 41128/48845 [14:34:34<2:42:42,  1.27s/it] 84%|████████▍ | 41129/48845 [14:34:35<2:42:42,  1.27s/it] 84%|████████▍ | 41130/48845 [14:34:37<2:42:40,  1.27s/it]                                                          {'loss': 2.0792, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41130/48845 [14:34:37<2:42:40,  1.27s/it] 84%|████████▍ | 41131/48845 [14:34:38<2:42:45,  1.27s/it] 84%|████████▍ | 41132/48845 [14:34:39<2:42:35,  1.26s/it] 84%|████████▍ | 41133/48845 [14:34:40<2:42:39,  1.27s/it] 84%|████████▍ | 41134/48845 [14:34:42<2:45:27,  1.29s/it] 84%|████████▍ | 41135/48845 [14:34:43<2:44:30,  1.28s/it]                                                          {'loss': 2.1724, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41135/48845 [14:34:43<2:44:30,  1.28s/it] 84%|████████▍ | 41136/48845 [14:34:44<2:44:04,  1.28s/it] 84%|████████▍ | 41137/48845 [14:34:45<2:43:38,  1.27s/it] 84%|████████▍ | 41138/48845 [14:34:47<2:43:09,  1.27s/it] 84%|████████▍ | 41139/48845 [14:34:48<2:42:48,  1.27s/it] 84%|████████▍ | 41140/48845 [14:34:49<2:42:31,  1.27s/it]                                                          {'loss': 2.1093, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41140/48845 [14:34:49<2:42:31,  1.27s/it] 84%|████████▍ | 41141/48845 [14:34:51<2:42:27,  1.27s/it] 84%|████████▍ | 41142/48845 [14:34:52<2:45:45,  1.29s/it] 84%|████████▍ | 41143/48845 [14:34:53<2:44:37,  1.28s/it] 84%|████████▍ | 41144/48845 [14:34:54<2:43:57,  1.28s/it] 84%|████████▍ | 41145/48845 [14:34:56<2:43:26,  1.27s/it]                                                          {'loss': 2.0972, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41145/48845 [14:34:56<2:43:26,  1.27s/it] 84%|████████▍ | 41146/48845 [14:34:57<2:43:27,  1.27s/it] 84%|████████▍ | 41147/48845 [14:34:58<2:43:06,  1.27s/it] 84%|████████▍ | 41148/48845 [14:34:59<2:42:54,  1.27s/it] 84%|████████▍ | 41149/48845 [14:35:01<2:42:37,  1.27s/it] 84%|████████▍ | 41150/48845 [14:35:02<2:42:28,  1.27s/it]                                                          {'loss': 2.0766, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41150/48845 [14:35:02<2:42:28,  1.27s/it] 84%|████████▍ | 41151/48845 [14:35:03<2:42:29,  1.27s/it] 84%|████████▍ | 41152/48845 [14:35:05<2:42:14,  1.27s/it] 84%|████████▍ | 41153/48845 [14:35:06<2:42:21,  1.27s/it] 84%|████████▍ | 41154/48845 [14:35:07<2:42:24,  1.27s/it] 84%|████████▍ | 41155/48845 [14:35:08<2:42:21,  1.27s/it]                                                          {'loss': 2.1571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41155/48845 [14:35:08<2:42:21,  1.27s/it] 84%|████████▍ | 41156/48845 [14:35:10<2:42:19,  1.27s/it] 84%|████████▍ | 41157/48845 [14:35:11<2:42:22,  1.27s/it] 84%|████████▍ | 41158/48845 [14:35:12<2:42:22,  1.27s/it] 84%|████████▍ | 41159/48845 [14:35:13<2:42:11,  1.27s/it] 84%|████████▍ | 41160/48845 [14:35:15<2:42:08,  1.27s/it]                                                          {'loss': 1.9885, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41160/48845 [14:35:15<2:42:08,  1.27s/it] 84%|████████▍ | 41161/48845 [14:35:16<2:42:01,  1.27s/it] 84%|████████▍ | 41162/48845 [14:35:17<2:42:07,  1.27s/it] 84%|████████▍ | 41163/48845 [14:35:18<2:42:10,  1.27s/it] 84%|████████▍ | 41164/48845 [14:35:20<2:41:56,  1.26s/it] 84%|████████▍ | 41165/48845 [14:35:21<2:41:50,  1.26s/it]                                                          {'loss': 2.1297, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41165/48845 [14:35:21<2:41:50,  1.26s/it] 84%|████████▍ | 41166/48845 [14:35:22<2:42:04,  1.27s/it] 84%|████████▍ | 41167/48845 [14:35:24<2:41:56,  1.27s/it] 84%|████████▍ | 41168/48845 [14:35:25<2:41:50,  1.26s/it] 84%|████████▍ | 41169/48845 [14:35:26<2:41:46,  1.26s/it] 84%|████████▍ | 41170/48845 [14:35:27<2:42:00,  1.27s/it]                                                          {'loss': 2.0097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41170/48845 [14:35:27<2:42:00,  1.27s/it] 84%|████████▍ | 41171/48845 [14:35:29<2:41:51,  1.27s/it] 84%|████████▍ | 41172/48845 [14:35:30<2:41:39,  1.26s/it] 84%|████████▍ | 41173/48845 [14:35:31<2:41:35,  1.26s/it] 84%|████████▍ | 41174/48845 [14:35:32<2:41:40,  1.26s/it] 84%|████████▍ | 41175/48845 [14:35:34<2:41:37,  1.26s/it]                                                          {'loss': 2.0635, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.21}
+ 84%|████████▍ | 41175/48845 [14:35:34<2:41:37,  1.26s/it] 84%|████████▍ | 41176/48845 [14:35:35<2:41:37,  1.26s/it] 84%|████████▍ | 41177/48845 [14:35:36<2:41:31,  1.26s/it] 84%|████████▍ | 41178/48845 [14:35:37<2:41:28,  1.26s/it] 84%|████████▍ | 41179/48845 [14:35:39<2:41:25,  1.26s/it] 84%|████████▍ | 41180/48845 [14:35:40<2:41:34,  1.26s/it]                                                          {'loss': 1.9946, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41180/48845 [14:35:40<2:41:34,  1.26s/it] 84%|████████▍ | 41181/48845 [14:35:41<2:41:35,  1.27s/it] 84%|████████▍ | 41182/48845 [14:35:43<2:41:34,  1.27s/it] 84%|████████▍ | 41183/48845 [14:35:44<2:41:33,  1.27s/it] 84%|████████▍ | 41184/48845 [14:35:45<2:41:30,  1.26s/it] 84%|████████▍ | 41185/48845 [14:35:46<2:41:31,  1.27s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41185/48845 [14:35:46<2:41:31,  1.27s/it] 84%|████████▍ | 41186/48845 [14:35:48<2:41:42,  1.27s/it] 84%|████████▍ | 41187/48845 [14:35:49<2:41:30,  1.27s/it] 84%|████████▍ | 41188/48845 [14:35:50<2:41:30,  1.27s/it] 84%|████████▍ | 41189/48845 [14:35:51<2:41:22,  1.26s/it] 84%|████████▍ | 41190/48845 [14:35:53<2:41:22,  1.26s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41190/48845 [14:35:53<2:41:22,  1.26s/it] 84%|████████▍ | 41191/48845 [14:35:54<2:41:24,  1.27s/it] 84%|████████▍ | 41192/48845 [14:35:55<2:41:12,  1.26s/it] 84%|████████▍ | 41193/48845 [14:35:56<2:41:15,  1.26s/it] 84%|████████▍ | 41194/48845 [14:35:58<2:41:23,  1.27s/it] 84%|████████▍ | 41195/48845 [14:35:59<2:41:17,  1.27s/it]                                                          {'loss': 2.0356, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41195/48845 [14:35:59<2:41:17,  1.27s/it] 84%|████████▍ | 41196/48845 [14:36:00<2:41:09,  1.26s/it] 84%|████████▍ | 41197/48845 [14:36:01<2:41:03,  1.26s/it] 84%|████████▍ | 41198/48845 [14:36:03<2:41:16,  1.27s/it] 84%|████████▍ | 41199/48845 [14:36:04<2:41:07,  1.26s/it] 84%|████████▍ | 41200/48845 [14:36:05<2:41:11,  1.27s/it]                                                          {'loss': 2.1973, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41200/48845 [14:36:05<2:41:11,  1.27s/it] 84%|████████▍ | 41201/48845 [14:36:09<4:17:13,  2.02s/it] 84%|████████▍ | 41202/48845 [14:36:10<3:48:11,  1.79s/it] 84%|████████▍ | 41203/48845 [14:36:12<3:27:49,  1.63s/it] 84%|████████▍ | 41204/48845 [14:36:13<3:13:43,  1.52s/it] 84%|████████▍ | 41205/48845 [14:36:14<3:03:48,  1.44s/it]                                                          {'loss': 2.1617, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41205/48845 [14:36:14<3:03:48,  1.44s/it] 84%|████████▍ | 41206/48845 [14:36:15<2:57:17,  1.39s/it] 84%|████████▍ | 41207/48845 [14:36:17<2:52:32,  1.36s/it] 84%|████████▍ | 41208/48845 [14:36:18<2:48:54,  1.33s/it] 84%|████████▍ | 41209/48845 [14:36:19<2:46:21,  1.31s/it] 84%|████████▍ | 41210/48845 [14:36:20<2:44:31,  1.29s/it]                                                          {'loss': 1.9781, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41210/48845 [14:36:20<2:44:31,  1.29s/it] 84%|████████▍ | 41211/48845 [14:36:22<2:43:16,  1.28s/it] 84%|████████▍ | 41212/48845 [14:36:23<2:42:28,  1.28s/it] 84%|████████▍ | 41213/48845 [14:36:24<2:41:47,  1.27s/it] 84%|████████▍ | 41214/48845 [14:36:25<2:41:27,  1.27s/it] 84%|████████▍ | 41215/48845 [14:36:27<2:41:05,  1.27s/it]                                                          {'loss': 2.0669, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41215/48845 [14:36:27<2:41:05,  1.27s/it] 84%|████████▍ | 41216/48845 [14:36:28<2:41:05,  1.27s/it] 84%|████████▍ | 41217/48845 [14:36:29<2:40:52,  1.27s/it] 84%|████████▍ | 41218/48845 [14:36:31<2:40:46,  1.26s/it] 84%|████████▍ | 41219/48845 [14:36:32<2:40:42,  1.26s/it] 84%|████████▍ | 41220/48845 [14:36:33<2:40:41,  1.26s/it]                                                          {'loss': 2.1991, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41220/48845 [14:36:33<2:40:41,  1.26s/it] 84%|████████▍ | 41221/48845 [14:36:34<2:40:39,  1.26s/it] 84%|████████▍ | 41222/48845 [14:36:36<2:40:33,  1.26s/it] 84%|████████▍ | 41223/48845 [14:36:37<2:40:25,  1.26s/it] 84%|████████▍ | 41224/48845 [14:36:38<2:40:18,  1.26s/it] 84%|████████▍ | 41225/48845 [14:36:39<2:40:19,  1.26s/it]                                                          {'loss': 2.0249, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41225/48845 [14:36:39<2:40:19,  1.26s/it] 84%|████████▍ | 41226/48845 [14:36:41<2:40:20,  1.26s/it] 84%|████████▍ | 41227/48845 [14:36:42<2:40:14,  1.26s/it] 84%|████████▍ | 41228/48845 [14:36:43<2:40:21,  1.26s/it] 84%|████████▍ | 41229/48845 [14:36:44<2:40:21,  1.26s/it] 84%|████████▍ | 41230/48845 [14:36:46<2:40:24,  1.26s/it]                                                          {'loss': 2.0686, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41230/48845 [14:36:46<2:40:24,  1.26s/it] 84%|████████▍ | 41231/48845 [14:36:47<2:40:32,  1.27s/it] 84%|████████▍ | 41232/48845 [14:36:48<2:40:23,  1.26s/it] 84%|████████▍ | 41233/48845 [14:36:49<2:40:22,  1.26s/it] 84%|████████▍ | 41234/48845 [14:36:51<2:40:22,  1.26s/it] 84%|████████▍ | 41235/48845 [14:36:52<2:40:17,  1.26s/it]                                                          {'loss': 1.9829, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41235/48845 [14:36:52<2:40:17,  1.26s/it] 84%|████████▍ | 41236/48845 [14:36:53<2:40:14,  1.26s/it] 84%|████████▍ | 41237/48845 [14:36:55<2:40:07,  1.26s/it] 84%|████████▍ | 41238/48845 [14:36:56<2:40:13,  1.26s/it] 84%|████████▍ | 41239/48845 [14:36:57<2:40:12,  1.26s/it] 84%|████████▍ | 41240/48845 [14:36:58<2:40:13,  1.26s/it]                                                          {'loss': 2.0876, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41240/48845 [14:36:58<2:40:13,  1.26s/it] 84%|████████▍ | 41241/48845 [14:37:00<2:40:16,  1.26s/it] 84%|████████▍ | 41242/48845 [14:37:01<2:45:40,  1.31s/it] 84%|████████▍ | 41243/48845 [14:37:02<2:44:03,  1.29s/it] 84%|████████▍ | 41244/48845 [14:37:04<2:42:46,  1.28s/it] 84%|████████▍ | 41245/48845 [14:37:05<2:41:54,  1.28s/it]                                                          {'loss': 2.1546, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41245/48845 [14:37:05<2:41:54,  1.28s/it] 84%|████████▍ | 41246/48845 [14:37:06<2:41:31,  1.28s/it] 84%|████████▍ | 41247/48845 [14:37:07<2:40:57,  1.27s/it] 84%|████████▍ | 41248/48845 [14:37:09<2:40:30,  1.27s/it] 84%|████████▍ | 41249/48845 [14:37:10<2:40:16,  1.27s/it] 84%|████████▍ | 41250/48845 [14:37:11<2:40:14,  1.27s/it]                                                          {'loss': 1.9259, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41250/48845 [14:37:11<2:40:14,  1.27s/it] 84%|████████▍ | 41251/48845 [14:37:12<2:40:07,  1.27s/it] 84%|████████▍ | 41252/48845 [14:37:14<2:39:58,  1.26s/it] 84%|████████▍ | 41253/48845 [14:37:15<2:39:44,  1.26s/it] 84%|████████▍ | 41254/48845 [14:37:16<2:39:50,  1.26s/it] 84%|████████▍ | 41255/48845 [14:37:17<2:39:49,  1.26s/it]                                                          {'loss': 2.0261, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41255/48845 [14:37:17<2:39:49,  1.26s/it] 84%|████████▍ | 41256/48845 [14:37:19<2:40:01,  1.27s/it] 84%|████████▍ | 41257/48845 [14:37:20<2:39:55,  1.26s/it] 84%|████████▍ | 41258/48845 [14:37:21<2:39:56,  1.26s/it] 84%|████████▍ | 41259/48845 [14:37:22<2:39:48,  1.26s/it] 84%|████████▍ | 41260/48845 [14:37:24<2:39:46,  1.26s/it]                                                          {'loss': 2.1119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41260/48845 [14:37:24<2:39:46,  1.26s/it] 84%|████████▍ | 41261/48845 [14:37:25<2:39:39,  1.26s/it] 84%|████████▍ | 41262/48845 [14:37:26<2:39:39,  1.26s/it] 84%|████████▍ | 41263/48845 [14:37:28<2:39:40,  1.26s/it] 84%|████████▍ | 41264/48845 [14:37:29<2:39:30,  1.26s/it] 84%|████████▍ | 41265/48845 [14:37:30<2:39:35,  1.26s/it]                                                          {'loss': 2.1237, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41265/48845 [14:37:30<2:39:35,  1.26s/it] 84%|████████▍ | 41266/48845 [14:37:31<2:39:48,  1.27s/it] 84%|████████▍ | 41267/48845 [14:37:33<2:39:41,  1.26s/it] 84%|████████▍ | 41268/48845 [14:37:34<2:39:37,  1.26s/it] 84%|████████▍ | 41269/48845 [14:37:35<2:39:29,  1.26s/it] 84%|████████▍ | 41270/48845 [14:37:36<2:39:43,  1.27s/it]                                                          {'loss': 1.957, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.22}
+ 84%|████████▍ | 41270/48845 [14:37:36<2:39:43,  1.27s/it] 84%|████████▍ | 41271/48845 [14:37:38<2:39:45,  1.27s/it] 84%|████████▍ | 41272/48845 [14:37:39<2:39:28,  1.26s/it] 84%|████████▍ | 41273/48845 [14:37:40<2:39:26,  1.26s/it] 84%|████████▍ | 41274/48845 [14:37:41<2:39:36,  1.26s/it] 85%|████████▍ | 41275/48845 [14:37:43<2:39:34,  1.26s/it]                                                          {'loss': 2.1116, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41275/48845 [14:37:43<2:39:34,  1.26s/it] 85%|████████▍ | 41276/48845 [14:37:44<2:39:33,  1.26s/it] 85%|████████▍ | 41277/48845 [14:37:45<2:39:25,  1.26s/it] 85%|████████▍ | 41278/48845 [14:37:46<2:39:35,  1.27s/it] 85%|████████▍ | 41279/48845 [14:37:48<2:39:31,  1.27s/it] 85%|████████▍ | 41280/48845 [14:37:49<2:39:20,  1.26s/it]                                                          {'loss': 2.0757, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41280/48845 [14:37:49<2:39:20,  1.26s/it] 85%|████████▍ | 41281/48845 [14:37:50<2:39:22,  1.26s/it] 85%|████████▍ | 41282/48845 [14:37:52<2:39:27,  1.27s/it] 85%|████████▍ | 41283/48845 [14:37:53<2:39:17,  1.26s/it] 85%|████████▍ | 41284/48845 [14:37:54<2:39:25,  1.27s/it] 85%|████████▍ | 41285/48845 [14:37:55<2:39:14,  1.26s/it]                                                          {'loss': 2.049, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41285/48845 [14:37:55<2:39:14,  1.26s/it] 85%|████████▍ | 41286/48845 [14:37:57<2:39:23,  1.27s/it] 85%|████████▍ | 41287/48845 [14:37:58<2:39:14,  1.26s/it] 85%|████████▍ | 41288/48845 [14:37:59<2:39:15,  1.26s/it] 85%|████████▍ | 41289/48845 [14:38:00<2:39:13,  1.26s/it] 85%|████████▍ | 41290/48845 [14:38:02<2:39:14,  1.26s/it]                                                          {'loss': 2.0001, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41290/48845 [14:38:02<2:39:14,  1.26s/it] 85%|████████▍ | 41291/48845 [14:38:03<2:39:09,  1.26s/it] 85%|████████▍ | 41292/48845 [14:38:04<2:39:06,  1.26s/it] 85%|████████▍ | 41293/48845 [14:38:05<2:39:01,  1.26s/it] 85%|████████▍ | 41294/48845 [14:38:07<2:39:02,  1.26s/it] 85%|████████▍ | 41295/48845 [14:38:08<2:38:54,  1.26s/it]                                                          {'loss': 2.1818, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41295/48845 [14:38:08<2:38:54,  1.26s/it] 85%|████████▍ | 41296/48845 [14:38:09<2:39:00,  1.26s/it] 85%|████████▍ | 41297/48845 [14:38:11<2:38:59,  1.26s/it] 85%|████████▍ | 41298/48845 [14:38:12<2:43:09,  1.30s/it] 85%|████████▍ | 41299/48845 [14:38:13<2:41:50,  1.29s/it] 85%|████████▍ | 41300/48845 [14:38:14<2:40:56,  1.28s/it]                                                          {'loss': 2.1189, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41300/48845 [14:38:14<2:40:56,  1.28s/it] 85%|████████▍ | 41301/48845 [14:38:16<2:40:21,  1.28s/it] 85%|████████▍ | 41302/48845 [14:38:17<2:40:00,  1.27s/it] 85%|████████▍ | 41303/48845 [14:38:18<2:39:38,  1.27s/it] 85%|████████▍ | 41304/48845 [14:38:19<2:39:18,  1.27s/it] 85%|████████▍ | 41305/48845 [14:38:21<2:39:12,  1.27s/it]                                                          {'loss': 2.0573, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41305/48845 [14:38:21<2:39:12,  1.27s/it] 85%|████████▍ | 41306/48845 [14:38:22<2:39:26,  1.27s/it] 85%|████████▍ | 41307/48845 [14:38:23<2:39:15,  1.27s/it] 85%|████████▍ | 41308/48845 [14:38:25<2:39:02,  1.27s/it] 85%|████████▍ | 41309/48845 [14:38:26<2:38:47,  1.26s/it] 85%|████████▍ | 41310/48845 [14:38:27<2:38:48,  1.26s/it]                                                          {'loss': 2.1005, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41310/48845 [14:38:27<2:38:48,  1.26s/it] 85%|████████▍ | 41311/48845 [14:38:28<2:38:46,  1.26s/it] 85%|████████▍ | 41312/48845 [14:38:30<2:38:43,  1.26s/it] 85%|████████▍ | 41313/48845 [14:38:31<2:38:36,  1.26s/it] 85%|████████▍ | 41314/48845 [14:38:32<2:38:44,  1.26s/it] 85%|████████▍ | 41315/48845 [14:38:33<2:38:41,  1.26s/it]                                                          {'loss': 2.0133, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41315/48845 [14:38:33<2:38:41,  1.26s/it] 85%|████████▍ | 41316/48845 [14:38:35<2:38:49,  1.27s/it] 85%|████████▍ | 41317/48845 [14:38:36<2:38:38,  1.26s/it] 85%|████████▍ | 41318/48845 [14:38:37<2:38:43,  1.27s/it] 85%|████████▍ | 41319/48845 [14:38:38<2:38:32,  1.26s/it] 85%|████████▍ | 41320/48845 [14:38:40<2:38:36,  1.26s/it]                                                          {'loss': 2.2542, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41320/48845 [14:38:40<2:38:36,  1.26s/it] 85%|████████▍ | 41321/48845 [14:38:41<2:38:38,  1.27s/it] 85%|████████▍ | 41322/48845 [14:38:42<2:38:39,  1.27s/it] 85%|████████▍ | 41323/48845 [14:38:43<2:38:33,  1.26s/it] 85%|████████▍ | 41324/48845 [14:38:45<2:38:26,  1.26s/it] 85%|████████▍ | 41325/48845 [14:38:46<2:38:23,  1.26s/it]                                                          {'loss': 2.0974, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41325/48845 [14:38:46<2:38:23,  1.26s/it] 85%|████████▍ | 41326/48845 [14:38:47<2:38:32,  1.27s/it] 85%|████████▍ | 41327/48845 [14:38:49<2:38:33,  1.27s/it] 85%|████████▍ | 41328/48845 [14:38:50<2:38:29,  1.27s/it] 85%|████████▍ | 41329/48845 [14:38:51<2:38:45,  1.27s/it] 85%|████████▍ | 41330/48845 [14:38:52<2:38:39,  1.27s/it]                                                          {'loss': 2.1113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41330/48845 [14:38:52<2:38:39,  1.27s/it] 85%|████████▍ | 41331/48845 [14:38:54<2:38:52,  1.27s/it] 85%|████████▍ | 41332/48845 [14:38:55<2:38:38,  1.27s/it] 85%|████████▍ | 41333/48845 [14:38:56<2:38:24,  1.27s/it] 85%|████████▍ | 41334/48845 [14:38:57<2:38:33,  1.27s/it] 85%|████████▍ | 41335/48845 [14:38:59<2:38:27,  1.27s/it]                                                          {'loss': 2.0994, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41335/48845 [14:38:59<2:38:27,  1.27s/it] 85%|████████▍ | 41336/48845 [14:39:00<2:38:23,  1.27s/it] 85%|████████▍ | 41337/48845 [14:39:01<2:38:15,  1.26s/it] 85%|████████▍ | 41338/48845 [14:39:02<2:38:18,  1.27s/it] 85%|████████▍ | 41339/48845 [14:39:04<2:38:06,  1.26s/it] 85%|████████▍ | 41340/48845 [14:39:05<2:37:57,  1.26s/it]                                                          {'loss': 1.9672, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41340/48845 [14:39:05<2:37:57,  1.26s/it] 85%|████████▍ | 41341/48845 [14:39:06<2:37:58,  1.26s/it] 85%|████████▍ | 41342/48845 [14:39:08<2:38:01,  1.26s/it] 85%|████████▍ | 41343/48845 [14:39:09<2:38:03,  1.26s/it] 85%|████████▍ | 41344/48845 [14:39:10<2:37:58,  1.26s/it] 85%|████████▍ | 41345/48845 [14:39:11<2:38:09,  1.27s/it]                                                          {'loss': 2.0532, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41345/48845 [14:39:11<2:38:09,  1.27s/it] 85%|████████▍ | 41346/48845 [14:39:13<2:38:20,  1.27s/it] 85%|████████▍ | 41347/48845 [14:39:14<2:38:07,  1.27s/it] 85%|████████▍ | 41348/48845 [14:39:15<2:38:06,  1.27s/it] 85%|████████▍ | 41349/48845 [14:39:16<2:38:02,  1.26s/it] 85%|████████▍ | 41350/48845 [14:39:18<2:38:09,  1.27s/it]                                                          {'loss': 1.9657, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41350/48845 [14:39:18<2:38:09,  1.27s/it] 85%|████████▍ | 41351/48845 [14:39:19<2:38:07,  1.27s/it] 85%|████████▍ | 41352/48845 [14:39:20<2:37:56,  1.26s/it] 85%|████████▍ | 41353/48845 [14:39:21<2:37:45,  1.26s/it] 85%|████████▍ | 41354/48845 [14:39:23<2:37:57,  1.27s/it] 85%|████████▍ | 41355/48845 [14:39:24<2:37:53,  1.26s/it]                                                          {'loss': 1.9802, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41355/48845 [14:39:24<2:37:53,  1.26s/it] 85%|████████▍ | 41356/48845 [14:39:25<2:37:52,  1.26s/it] 85%|████████▍ | 41357/48845 [14:39:27<2:37:49,  1.26s/it] 85%|████████▍ | 41358/48845 [14:39:28<2:37:51,  1.27s/it] 85%|████████▍ | 41359/48845 [14:39:29<2:37:49,  1.26s/it] 85%|████████▍ | 41360/48845 [14:39:30<2:37:47,  1.26s/it]                                                          {'loss': 2.0446, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41360/48845 [14:39:30<2:37:47,  1.26s/it] 85%|████████▍ | 41361/48845 [14:39:32<2:37:46,  1.26s/it] 85%|████████▍ | 41362/48845 [14:39:33<2:37:47,  1.27s/it] 85%|████████▍ | 41363/48845 [14:39:34<2:37:46,  1.27s/it] 85%|████████▍ | 41364/48845 [14:39:35<2:37:36,  1.26s/it] 85%|████████▍ | 41365/48845 [14:39:37<2:37:31,  1.26s/it]                                                          {'loss': 2.0947, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41365/48845 [14:39:37<2:37:31,  1.26s/it] 85%|████████▍ | 41366/48845 [14:39:38<2:37:42,  1.27s/it] 85%|████████▍ | 41367/48845 [14:39:39<2:37:37,  1.26s/it] 85%|████████▍ | 41368/48845 [14:39:40<2:37:29,  1.26s/it] 85%|████████▍ | 41369/48845 [14:39:42<2:37:27,  1.26s/it] 85%|████████▍ | 41370/48845 [14:39:43<2:37:32,  1.26s/it]                                                          {'loss': 2.2177, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.23}
+ 85%|████████▍ | 41370/48845 [14:39:43<2:37:32,  1.26s/it] 85%|████████▍ | 41371/48845 [14:39:44<2:37:24,  1.26s/it] 85%|████████▍ | 41372/48845 [14:39:45<2:37:12,  1.26s/it] 85%|████████▍ | 41373/48845 [14:39:47<2:37:08,  1.26s/it] 85%|████████▍ | 41374/48845 [14:39:48<2:37:17,  1.26s/it] 85%|████████▍ | 41375/48845 [14:39:49<2:37:33,  1.27s/it]                                                          {'loss': 1.9474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41375/48845 [14:39:49<2:37:33,  1.27s/it] 85%|████████▍ | 41376/48845 [14:39:51<2:37:34,  1.27s/it] 85%|████████▍ | 41377/48845 [14:39:52<2:37:29,  1.27s/it] 85%|████████▍ | 41378/48845 [14:39:53<2:37:32,  1.27s/it] 85%|████████▍ | 41379/48845 [14:39:54<2:37:37,  1.27s/it] 85%|████████▍ | 41380/48845 [14:39:56<2:37:21,  1.26s/it]                                                          {'loss': 2.0762, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41380/48845 [14:39:56<2:37:21,  1.26s/it] 85%|████████▍ | 41381/48845 [14:39:57<2:37:25,  1.27s/it] 85%|████████▍ | 41382/48845 [14:39:58<2:43:49,  1.32s/it] 85%|████████▍ | 41383/48845 [14:40:00<2:41:50,  1.30s/it] 85%|████████▍ | 41384/48845 [14:40:01<2:40:28,  1.29s/it] 85%|████████▍ | 41385/48845 [14:40:02<2:39:24,  1.28s/it]                                                          {'loss': 1.9834, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41385/48845 [14:40:02<2:39:24,  1.28s/it] 85%|████████▍ | 41386/48845 [14:40:04<2:44:14,  1.32s/it] 85%|████████▍ | 41387/48845 [14:40:05<2:41:54,  1.30s/it] 85%|████████▍ | 41388/48845 [14:40:06<2:40:25,  1.29s/it] 85%|████████▍ | 41389/48845 [14:40:07<2:39:31,  1.28s/it] 85%|████████▍ | 41390/48845 [14:40:09<2:38:53,  1.28s/it]                                                          {'loss': 2.1338, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41390/48845 [14:40:09<2:38:53,  1.28s/it] 85%|████████▍ | 41391/48845 [14:40:10<2:38:17,  1.27s/it] 85%|████████▍ | 41392/48845 [14:40:11<2:37:54,  1.27s/it] 85%|████████▍ | 41393/48845 [14:40:12<2:37:34,  1.27s/it] 85%|████████▍ | 41394/48845 [14:40:14<2:37:24,  1.27s/it] 85%|████████▍ | 41395/48845 [14:40:15<2:37:16,  1.27s/it]                                                          {'loss': 2.1583, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41395/48845 [14:40:15<2:37:16,  1.27s/it] 85%|████████▍ | 41396/48845 [14:40:16<2:37:08,  1.27s/it] 85%|████████▍ | 41397/48845 [14:40:17<2:37:06,  1.27s/it] 85%|████████▍ | 41398/48845 [14:40:19<2:37:12,  1.27s/it] 85%|████████▍ | 41399/48845 [14:40:20<2:37:06,  1.27s/it] 85%|████████▍ | 41400/48845 [14:40:21<2:36:57,  1.26s/it]                                                          {'loss': 2.2323, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41400/48845 [14:40:21<2:36:57,  1.26s/it] 85%|████████▍ | 41401/48845 [14:40:25<4:11:40,  2.03s/it] 85%|████████▍ | 41402/48845 [14:40:26<3:43:04,  1.80s/it] 85%|████████▍ | 41403/48845 [14:40:28<3:23:06,  1.64s/it] 85%|████████▍ | 41404/48845 [14:40:29<3:09:06,  1.52s/it] 85%|████████▍ | 41405/48845 [14:40:30<2:59:17,  1.45s/it]                                                          {'loss': 2.0537, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41405/48845 [14:40:30<2:59:17,  1.45s/it] 85%|████████▍ | 41406/48845 [14:40:31<2:52:16,  1.39s/it] 85%|████████▍ | 41407/48845 [14:40:33<2:47:32,  1.35s/it] 85%|████████▍ | 41408/48845 [14:40:34<2:45:55,  1.34s/it] 85%|████████▍ | 41409/48845 [14:40:35<2:42:59,  1.32s/it] 85%|████████▍ | 41410/48845 [14:40:36<2:41:01,  1.30s/it]                                                          {'loss': 2.1005, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41410/48845 [14:40:36<2:41:01,  1.30s/it] 85%|████████▍ | 41411/48845 [14:40:38<2:39:42,  1.29s/it] 85%|████████▍ | 41412/48845 [14:40:39<2:38:41,  1.28s/it] 85%|████████▍ | 41413/48845 [14:40:40<2:38:02,  1.28s/it] 85%|████████▍ | 41414/48845 [14:40:41<2:37:40,  1.27s/it] 85%|████████▍ | 41415/48845 [14:40:43<2:37:19,  1.27s/it]                                                          {'loss': 1.9846, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41415/48845 [14:40:43<2:37:19,  1.27s/it] 85%|████████▍ | 41416/48845 [14:40:44<2:37:01,  1.27s/it] 85%|████████▍ | 41417/48845 [14:40:45<2:36:50,  1.27s/it] 85%|████████▍ | 41418/48845 [14:40:47<2:36:44,  1.27s/it] 85%|████████▍ | 41419/48845 [14:40:48<2:36:33,  1.26s/it] 85%|████████▍ | 41420/48845 [14:40:49<2:36:41,  1.27s/it]                                                          {'loss': 2.2842, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41420/48845 [14:40:49<2:36:41,  1.27s/it] 85%|████████▍ | 41421/48845 [14:40:50<2:36:30,  1.26s/it] 85%|████████▍ | 41422/48845 [14:40:52<2:36:16,  1.26s/it] 85%|████████▍ | 41423/48845 [14:40:53<2:36:25,  1.26s/it] 85%|████████▍ | 41424/48845 [14:40:54<2:36:23,  1.26s/it] 85%|████████▍ | 41425/48845 [14:40:55<2:36:21,  1.26s/it]                                                          {'loss': 2.2958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41425/48845 [14:40:55<2:36:21,  1.26s/it] 85%|████████▍ | 41426/48845 [14:40:57<2:36:22,  1.26s/it] 85%|████████▍ | 41427/48845 [14:40:58<2:36:18,  1.26s/it] 85%|████████▍ | 41428/48845 [14:40:59<2:42:48,  1.32s/it] 85%|████████▍ | 41429/48845 [14:41:01<2:40:52,  1.30s/it] 85%|████████▍ | 41430/48845 [14:41:02<2:39:28,  1.29s/it]                                                          {'loss': 2.1351, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41430/48845 [14:41:02<2:39:28,  1.29s/it] 85%|████████▍ | 41431/48845 [14:41:03<2:38:26,  1.28s/it] 85%|████████▍ | 41432/48845 [14:41:04<2:39:17,  1.29s/it] 85%|████████▍ | 41433/48845 [14:41:06<2:38:08,  1.28s/it] 85%|████████▍ | 41434/48845 [14:41:07<2:37:29,  1.28s/it] 85%|████████▍ | 41435/48845 [14:41:08<2:37:00,  1.27s/it]                                                          {'loss': 2.0197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41435/48845 [14:41:08<2:37:00,  1.27s/it] 85%|████████▍ | 41436/48845 [14:41:10<2:37:14,  1.27s/it] 85%|████████▍ | 41437/48845 [14:41:11<2:36:51,  1.27s/it] 85%|████████▍ | 41438/48845 [14:41:12<2:36:22,  1.27s/it] 85%|████████▍ | 41439/48845 [14:41:13<2:36:10,  1.27s/it] 85%|████████▍ | 41440/48845 [14:41:15<2:36:05,  1.26s/it]                                                          {'loss': 2.0895, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41440/48845 [14:41:15<2:36:05,  1.26s/it] 85%|████████▍ | 41441/48845 [14:41:16<2:36:03,  1.26s/it] 85%|��███████▍ | 41442/48845 [14:41:17<2:36:11,  1.27s/it] 85%|████████▍ | 41443/48845 [14:41:18<2:36:00,  1.26s/it] 85%|████████▍ | 41444/48845 [14:41:20<2:35:54,  1.26s/it] 85%|████████▍ | 41445/48845 [14:41:21<2:35:53,  1.26s/it]                                                          {'loss': 2.1604, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41445/48845 [14:41:21<2:35:53,  1.26s/it] 85%|████████▍ | 41446/48845 [14:41:22<2:35:53,  1.26s/it] 85%|████████▍ | 41447/48845 [14:41:23<2:35:50,  1.26s/it] 85%|████████▍ | 41448/48845 [14:41:25<2:35:45,  1.26s/it] 85%|████████▍ | 41449/48845 [14:41:26<2:35:44,  1.26s/it] 85%|████████▍ | 41450/48845 [14:41:27<2:35:48,  1.26s/it]                                                          {'loss': 1.905, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41450/48845 [14:41:27<2:35:48,  1.26s/it] 85%|████████▍ | 41451/48845 [14:41:28<2:35:42,  1.26s/it] 85%|████████▍ | 41452/48845 [14:41:30<2:35:42,  1.26s/it] 85%|████████▍ | 41453/48845 [14:41:31<2:38:53,  1.29s/it] 85%|████████▍ | 41454/48845 [14:41:32<2:37:57,  1.28s/it] 85%|████████▍ | 41455/48845 [14:41:34<2:37:00,  1.27s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41455/48845 [14:41:34<2:37:00,  1.27s/it] 85%|████████▍ | 41456/48845 [14:41:35<2:36:35,  1.27s/it] 85%|████████▍ | 41457/48845 [14:41:36<2:36:16,  1.27s/it] 85%|████████▍ | 41458/48845 [14:41:37<2:35:58,  1.27s/it] 85%|████████▍ | 41459/48845 [14:41:39<2:35:51,  1.27s/it] 85%|████████▍ | 41460/48845 [14:41:40<2:35:48,  1.27s/it]                                                          {'loss': 2.0893, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41460/48845 [14:41:40<2:35:48,  1.27s/it] 85%|████████▍ | 41461/48845 [14:41:41<2:35:53,  1.27s/it] 85%|████████▍ | 41462/48845 [14:41:42<2:35:42,  1.27s/it] 85%|████████▍ | 41463/48845 [14:41:44<2:35:36,  1.26s/it] 85%|████████▍ | 41464/48845 [14:41:45<2:35:38,  1.27s/it] 85%|████████▍ | 41465/48845 [14:41:46<2:35:42,  1.27s/it]                                                          {'loss': 2.0696, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.24}
+ 85%|████████▍ | 41465/48845 [14:41:46<2:35:42,  1.27s/it] 85%|████████▍ | 41466/48845 [14:41:48<2:35:27,  1.26s/it] 85%|████████▍ | 41467/48845 [14:41:49<2:35:16,  1.26s/it] 85%|████████▍ | 41468/48845 [14:41:50<2:35:23,  1.26s/it] 85%|████████▍ | 41469/48845 [14:41:51<2:35:32,  1.27s/it] 85%|████████▍ | 41470/48845 [14:41:53<2:35:15,  1.26s/it]                                                          {'loss': 2.2098, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41470/48845 [14:41:53<2:35:15,  1.26s/it] 85%|████████▍ | 41471/48845 [14:41:54<2:35:18,  1.26s/it] 85%|████████▍ | 41472/48845 [14:41:55<2:35:07,  1.26s/it] 85%|████████▍ | 41473/48845 [14:41:56<2:35:18,  1.26s/it] 85%|████████▍ | 41474/48845 [14:41:58<2:35:14,  1.26s/it] 85%|████████▍ | 41475/48845 [14:41:59<2:35:05,  1.26s/it]                                                          {'loss': 2.0947, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41475/48845 [14:41:59<2:35:05,  1.26s/it] 85%|████████▍ | 41476/48845 [14:42:00<2:35:02,  1.26s/it] 85%|████████▍ | 41477/48845 [14:42:01<2:35:05,  1.26s/it] 85%|████████▍ | 41478/48845 [14:42:03<2:35:05,  1.26s/it] 85%|████████▍ | 41479/48845 [14:42:04<2:35:16,  1.26s/it] 85%|████████▍ | 41480/48845 [14:42:05<2:35:10,  1.26s/it]                                                          {'loss': 2.0134, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41480/48845 [14:42:05<2:35:10,  1.26s/it] 85%|████████▍ | 41481/48845 [14:42:06<2:35:15,  1.26s/it] 85%|████████▍ | 41482/48845 [14:42:08<2:35:03,  1.26s/it] 85%|████████▍ | 41483/48845 [14:42:09<2:34:56,  1.26s/it] 85%|████████▍ | 41484/48845 [14:42:10<2:35:05,  1.26s/it] 85%|████████▍ | 41485/48845 [14:42:12<2:35:17,  1.27s/it]                                                          {'loss': 2.0644, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41485/48845 [14:42:12<2:35:17,  1.27s/it] 85%|████████▍ | 41486/48845 [14:42:13<2:35:19,  1.27s/it] 85%|████████▍ | 41487/48845 [14:42:14<2:35:19,  1.27s/it] 85%|████████▍ | 41488/48845 [14:42:15<2:35:16,  1.27s/it] 85%|████████▍ | 41489/48845 [14:42:17<2:35:16,  1.27s/it] 85%|████████▍ | 41490/48845 [14:42:18<2:35:12,  1.27s/it]                                                          {'loss': 2.1456, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41490/48845 [14:42:18<2:35:12,  1.27s/it] 85%|████████▍ | 41491/48845 [14:42:19<2:35:00,  1.26s/it] 85%|████████▍ | 41492/48845 [14:42:20<2:34:54,  1.26s/it] 85%|████████▍ | 41493/48845 [14:42:22<2:35:00,  1.27s/it] 85%|████████▍ | 41494/48845 [14:42:23<2:34:57,  1.26s/it] 85%|████████▍ | 41495/48845 [14:42:24<2:34:51,  1.26s/it]                                                          {'loss': 1.8898, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41495/48845 [14:42:24<2:34:51,  1.26s/it] 85%|████████▍ | 41496/48845 [14:42:25<2:34:47,  1.26s/it] 85%|████████▍ | 41497/48845 [14:42:27<2:40:08,  1.31s/it] 85%|████████▍ | 41498/48845 [14:42:28<2:38:24,  1.29s/it] 85%|████████▍ | 41499/48845 [14:42:29<2:37:08,  1.28s/it] 85%|████████▍ | 41500/48845 [14:42:31<2:36:15,  1.28s/it]                                                          {'loss': 2.1722, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41500/48845 [14:42:31<2:36:15,  1.28s/it] 85%|████████▍ | 41501/48845 [14:42:32<2:35:49,  1.27s/it] 85%|████████▍ | 41502/48845 [14:42:33<2:35:23,  1.27s/it] 85%|████████▍ | 41503/48845 [14:42:34<2:35:15,  1.27s/it] 85%|████████▍ | 41504/48845 [14:42:36<2:34:53,  1.27s/it] 85%|████████▍ | 41505/48845 [14:42:37<2:34:49,  1.27s/it]                                                          {'loss': 2.189, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41505/48845 [14:42:37<2:34:49,  1.27s/it] 85%|████████▍ | 41506/48845 [14:42:38<2:34:43,  1.26s/it] 85%|████████▍ | 41507/48845 [14:42:39<2:34:39,  1.26s/it] 85%|████████▍ | 41508/48845 [14:42:41<2:34:42,  1.27s/it] 85%|████████▍ | 41509/48845 [14:42:42<2:34:38,  1.26s/it] 85%|████████▍ | 41510/48845 [14:42:43<2:34:38,  1.26s/it]                                                          {'loss': 2.0835, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41510/48845 [14:42:43<2:34:38,  1.26s/it] 85%|████████▍ | 41511/48845 [14:42:45<2:34:30,  1.26s/it] 85%|████████▍ | 41512/48845 [14:42:46<2:34:18,  1.26s/it] 85%|████████▍ | 41513/48845 [14:42:47<2:34:27,  1.26s/it] 85%|████████▍ | 41514/48845 [14:42:48<2:34:22,  1.26s/it] 85%|████████▍ | 41515/48845 [14:42:50<2:34:17,  1.26s/it]                                                          {'loss': 2.1139, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▍ | 41515/48845 [14:42:50<2:34:17,  1.26s/it] 85%|████████▍ | 41516/48845 [14:42:51<2:34:28,  1.26s/it] 85%|████████▍ | 41517/48845 [14:42:52<2:34:24,  1.26s/it] 85%|████████▍ | 41518/48845 [14:42:53<2:34:19,  1.26s/it] 85%|████████▌ | 41519/48845 [14:42:55<2:34:29,  1.27s/it] 85%|████████▌ | 41520/48845 [14:42:56<2:34:20,  1.26s/it]                                                          {'loss': 1.9906, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41520/48845 [14:42:56<2:34:20,  1.26s/it] 85%|████████▌ | 41521/48845 [14:42:57<2:34:47,  1.27s/it] 85%|████████▌ | 41522/48845 [14:42:58<2:34:35,  1.27s/it] 85%|████████▌ | 41523/48845 [14:43:00<2:34:28,  1.27s/it] 85%|████████▌ | 41524/48845 [14:43:01<2:34:23,  1.27s/it] 85%|████████▌ | 41525/48845 [14:43:02<2:34:34,  1.27s/it]                                                          {'loss': 2.1774, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41525/48845 [14:43:02<2:34:34,  1.27s/it] 85%|████████▌ | 41526/48845 [14:43:04<2:34:32,  1.27s/it] 85%|████████▌ | 41527/48845 [14:43:05<2:34:19,  1.27s/it] 85%|████████▌ | 41528/48845 [14:43:06<2:34:20,  1.27s/it] 85%|████████▌ | 41529/48845 [14:43:07<2:34:11,  1.26s/it] 85%|████████▌ | 41530/48845 [14:43:09<2:34:04,  1.26s/it]                                                          {'loss': 1.9422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41530/48845 [14:43:09<2:34:04,  1.26s/it] 85%|████████▌ | 41531/48845 [14:43:10<2:34:13,  1.27s/it] 85%|████████▌ | 41532/48845 [14:43:11<2:34:03,  1.26s/it] 85%|████████▌ | 41533/48845 [14:43:12<2:34:08,  1.26s/it] 85%|████████▌ | 41534/48845 [14:43:14<2:34:20,  1.27s/it] 85%|████████▌ | 41535/48845 [14:43:15<2:34:03,  1.26s/it]                                                          {'loss': 2.1671, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41535/48845 [14:43:15<2:34:03,  1.26s/it] 85%|████████▌ | 41536/48845 [14:43:16<2:33:57,  1.26s/it] 85%|████████▌ | 41537/48845 [14:43:17<2:34:03,  1.26s/it] 85%|████████▌ | 41538/48845 [14:43:19<2:34:08,  1.27s/it] 85%|████████▌ | 41539/48845 [14:43:20<2:34:13,  1.27s/it] 85%|████████▌ | 41540/48845 [14:43:21<2:34:06,  1.27s/it]                                                          {'loss': 2.1419, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41540/48845 [14:43:21<2:34:06,  1.27s/it] 85%|████████▌ | 41541/48845 [14:43:22<2:34:12,  1.27s/it] 85%|████████▌ | 41542/48845 [14:43:24<2:33:57,  1.26s/it] 85%|████████▌ | 41543/48845 [14:43:25<2:33:52,  1.26s/it] 85%|████████▌ | 41544/48845 [14:43:26<2:33:49,  1.26s/it] 85%|████████▌ | 41545/48845 [14:43:28<2:33:59,  1.27s/it]                                                          {'loss': 2.0663, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41545/48845 [14:43:28<2:33:59,  1.27s/it] 85%|████████▌ | 41546/48845 [14:43:29<2:33:59,  1.27s/it] 85%|████████▌ | 41547/48845 [14:43:30<2:33:54,  1.27s/it] 85%|████████▌ | 41548/48845 [14:43:31<2:33:55,  1.27s/it] 85%|████████▌ | 41549/48845 [14:43:33<2:33:41,  1.26s/it] 85%|████████▌ | 41550/48845 [14:43:34<2:36:08,  1.28s/it]                                                          {'loss': 1.9571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41550/48845 [14:43:34<2:36:08,  1.28s/it] 85%|████████▌ | 41551/48845 [14:43:35<2:35:14,  1.28s/it] 85%|████████▌ | 41552/48845 [14:43:36<2:34:41,  1.27s/it] 85%|████████▌ | 41553/48845 [14:43:38<2:34:23,  1.27s/it] 85%|████████▌ | 41554/48845 [14:43:39<2:34:11,  1.27s/it] 85%|████████▌ | 41555/48845 [14:43:40<2:33:57,  1.27s/it]                                                          {'loss': 2.002, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41555/48845 [14:43:40<2:33:57,  1.27s/it] 85%|████████▌ | 41556/48845 [14:43:42<2:33:48,  1.27s/it] 85%|████████▌ | 41557/48845 [14:43:43<2:33:44,  1.27s/it] 85%|████████▌ | 41558/48845 [14:43:44<2:33:35,  1.26s/it] 85%|████████▌ | 41559/48845 [14:43:45<2:33:26,  1.26s/it] 85%|████████▌ | 41560/48845 [14:43:47<2:33:20,  1.26s/it]                                                          {'loss': 1.9, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41560/48845 [14:43:47<2:33:20,  1.26s/it] 85%|████████▌ | 41561/48845 [14:43:48<2:33:21,  1.26s/it] 85%|████████▌ | 41562/48845 [14:43:49<2:33:21,  1.26s/it] 85%|████████▌ | 41563/48845 [14:43:50<2:33:30,  1.26s/it] 85%|████████▌ | 41564/48845 [14:43:52<2:33:22,  1.26s/it] 85%|████████▌ | 41565/48845 [14:43:53<2:33:21,  1.26s/it]                                                          {'loss': 1.9104, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.25}
+ 85%|████████▌ | 41565/48845 [14:43:53<2:33:21,  1.26s/it] 85%|████████▌ | 41566/48845 [14:43:54<2:33:27,  1.26s/it] 85%|████████▌ | 41567/48845 [14:43:55<2:33:20,  1.26s/it] 85%|████████▌ | 41568/48845 [14:43:57<2:33:20,  1.26s/it] 85%|████████▌ | 41569/48845 [14:43:58<2:33:19,  1.26s/it] 85%|████████▌ | 41570/48845 [14:43:59<2:33:31,  1.27s/it]                                                          {'loss': 1.9685, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████�� | 41570/48845 [14:43:59<2:33:31,  1.27s/it] 85%|████████▌ | 41571/48845 [14:44:00<2:33:16,  1.26s/it] 85%|████████▌ | 41572/48845 [14:44:02<2:33:12,  1.26s/it] 85%|████████▌ | 41573/48845 [14:44:03<2:33:09,  1.26s/it] 85%|████████▌ | 41574/48845 [14:44:04<2:33:10,  1.26s/it] 85%|████████▌ | 41575/48845 [14:44:06<2:33:13,  1.26s/it]                                                          {'loss': 2.0866, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41575/48845 [14:44:06<2:33:13,  1.26s/it] 85%|████████▌ | 41576/48845 [14:44:07<2:33:33,  1.27s/it] 85%|████████▌ | 41577/48845 [14:44:08<2:33:36,  1.27s/it] 85%|████████▌ | 41578/48845 [14:44:09<2:39:10,  1.31s/it] 85%|████████▌ | 41579/48845 [14:44:11<2:37:11,  1.30s/it] 85%|████████▌ | 41580/48845 [14:44:12<2:35:50,  1.29s/it]                                                          {'loss': 2.0269, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41580/48845 [14:44:12<2:35:50,  1.29s/it] 85%|████████▌ | 41581/48845 [14:44:13<2:35:05,  1.28s/it] 85%|████████▌ | 41582/48845 [14:44:15<2:34:39,  1.28s/it] 85%|████████▌ | 41583/48845 [14:44:16<2:34:05,  1.27s/it] 85%|████████▌ | 41584/48845 [14:44:17<2:33:44,  1.27s/it] 85%|████████▌ | 41585/48845 [14:44:18<2:33:38,  1.27s/it]                                                          {'loss': 2.0348, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41585/48845 [14:44:18<2:33:38,  1.27s/it] 85%|████████▌ | 41586/48845 [14:44:20<2:33:39,  1.27s/it] 85%|████████▌ | 41587/48845 [14:44:21<2:33:28,  1.27s/it] 85%|████████▌ | 41588/48845 [14:44:22<2:33:19,  1.27s/it] 85%|████████▌ | 41589/48845 [14:44:23<2:33:13,  1.27s/it] 85%|████████▌ | 41590/48845 [14:44:25<2:39:31,  1.32s/it]                                                          {'loss': 2.0564, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41590/48845 [14:44:25<2:39:31,  1.32s/it] 85%|████████▌ | 41591/48845 [14:44:26<2:37:38,  1.30s/it] 85%|████████▌ | 41592/48845 [14:44:27<2:36:11,  1.29s/it] 85%|████████▌ | 41593/48845 [14:44:29<2:34:58,  1.28s/it] 85%|████████▌ | 41594/48845 [14:44:30<2:34:25,  1.28s/it] 85%|████████▌ | 41595/48845 [14:44:31<2:34:02,  1.27s/it]                                                          {'loss': 2.0404, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41595/48845 [14:44:31<2:34:02,  1.27s/it] 85%|████████▌ | 41596/48845 [14:44:32<2:33:34,  1.27s/it] 85%|████████▌ | 41597/48845 [14:44:34<2:33:27,  1.27s/it] 85%|████████▌ | 41598/48845 [14:44:35<2:33:21,  1.27s/it] 85%|████████▌ | 41599/48845 [14:44:36<2:33:45,  1.27s/it] 85%|████████▌ | 41600/48845 [14:44:38<2:33:25,  1.27s/it]                                                          {'loss': 2.1481, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41600/48845 [14:44:38<2:33:25,  1.27s/it] 85%|████████▌ | 41601/48845 [14:44:41<4:05:37,  2.03s/it] 85%|████████▌ | 41602/48845 [14:44:43<3:37:45,  1.80s/it] 85%|████████▌ | 41603/48845 [14:44:44<3:18:04,  1.64s/it] 85%|████████▌ | 41604/48845 [14:44:45<3:04:27,  1.53s/it] 85%|████████▌ | 41605/48845 [14:44:46<2:55:06,  1.45s/it]                                                          {'loss': 2.0258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41605/48845 [14:44:46<2:55:06,  1.45s/it] 85%|████████▌ | 41606/48845 [14:44:48<2:48:21,  1.40s/it] 85%|████████▌ | 41607/48845 [14:44:49<2:43:32,  1.36s/it] 85%|████████▌ | 41608/48845 [14:44:50<2:40:24,  1.33s/it] 85%|████████▌ | 41609/48845 [14:44:51<2:37:54,  1.31s/it] 85%|████████▌ | 41610/48845 [14:44:53<2:36:06,  1.29s/it]                                                          {'loss': 2.0692, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41610/48845 [14:44:53<2:36:06,  1.29s/it] 85%|████████▌ | 41611/48845 [14:44:54<2:35:08,  1.29s/it] 85%|████████▌ | 41612/48845 [14:44:55<2:34:14,  1.28s/it] 85%|████████▌ | 41613/48845 [14:44:57<2:33:37,  1.27s/it] 85%|████████▌ | 41614/48845 [14:44:58<2:33:30,  1.27s/it] 85%|████████▌ | 41615/48845 [14:44:59<2:33:07,  1.27s/it]                                                          {'loss': 2.1175, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41615/48845 [14:44:59<2:33:07,  1.27s/it] 85%|████████▌ | 41616/48845 [14:45:00<2:32:52,  1.27s/it] 85%|████████▌ | 41617/48845 [14:45:02<2:32:36,  1.27s/it] 85%|████████▌ | 41618/48845 [14:45:03<2:32:20,  1.26s/it] 85%|████████▌ | 41619/48845 [14:45:04<2:32:18,  1.26s/it] 85%|████████▌ | 41620/48845 [14:45:05<2:32:18,  1.26s/it]                                                          {'loss': 2.0684, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41620/48845 [14:45:05<2:32:18,  1.26s/it] 85%|████████▌ | 41621/48845 [14:45:07<2:32:19,  1.27s/it] 85%|████████▌ | 41622/48845 [14:45:08<2:32:14,  1.26s/it] 85%|████████▌ | 41623/48845 [14:45:09<2:32:08,  1.26s/it] 85%|████████▌ | 41624/48845 [14:45:10<2:32:16,  1.27s/it] 85%|████████▌ | 41625/48845 [14:45:12<2:32:07,  1.26s/it]                                                          {'loss': 1.9396, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41625/48845 [14:45:12<2:32:07,  1.26s/it] 85%|████████▌ | 41626/48845 [14:45:13<2:32:04,  1.26s/it] 85%|████████▌ | 41627/48845 [14:45:14<2:32:13,  1.27s/it] 85%|████████▌ | 41628/48845 [14:45:15<2:32:21,  1.27s/it] 85%|████████▌ | 41629/48845 [14:45:17<2:32:10,  1.27s/it] 85%|████████▌ | 41630/48845 [14:45:18<2:32:03,  1.26s/it]                                                          {'loss': 2.1152, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41630/48845 [14:45:18<2:32:03,  1.26s/it] 85%|████████▌ | 41631/48845 [14:45:19<2:32:03,  1.26s/it] 85%|████████▌ | 41632/48845 [14:45:21<2:32:19,  1.27s/it] 85%|████████▌ | 41633/48845 [14:45:22<2:32:07,  1.27s/it] 85%|████████▌ | 41634/48845 [14:45:23<2:32:02,  1.27s/it] 85%|████████▌ | 41635/48845 [14:45:24<2:31:53,  1.26s/it]                                                          {'loss': 2.0894, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41635/48845 [14:45:24<2:31:53,  1.26s/it] 85%|████████▌ | 41636/48845 [14:45:26<2:31:51,  1.26s/it] 85%|████████▌ | 41637/48845 [14:45:27<2:31:49,  1.26s/it] 85%|████████▌ | 41638/48845 [14:45:28<2:31:42,  1.26s/it] 85%|████████▌ | 41639/48845 [14:45:29<2:31:55,  1.27s/it] 85%|████████▌ | 41640/48845 [14:45:31<2:32:06,  1.27s/it]                                                          {'loss': 2.1038, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41640/48845 [14:45:31<2:32:06,  1.27s/it] 85%|████████▌ | 41641/48845 [14:45:32<2:31:46,  1.26s/it] 85%|████████▌ | 41642/48845 [14:45:33<2:31:38,  1.26s/it] 85%|████████▌ | 41643/48845 [14:45:34<2:31:34,  1.26s/it] 85%|████████▌ | 41644/48845 [14:45:36<2:31:41,  1.26s/it] 85%|████████▌ | 41645/48845 [14:45:37<2:31:30,  1.26s/it]                                                          {'loss': 2.1858, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41645/48845 [14:45:37<2:31:30,  1.26s/it] 85%|████████▌ | 41646/48845 [14:45:38<2:31:23,  1.26s/it] 85%|████████▌ | 41647/48845 [14:45:40<2:31:16,  1.26s/it] 85%|████████▌ | 41648/48845 [14:45:41<2:36:42,  1.31s/it] 85%|████████▌ | 41649/48845 [14:45:42<2:35:03,  1.29s/it] 85%|████████▌ | 41650/48845 [14:45:43<2:33:55,  1.28s/it]                                                          {'loss': 2.1198, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41650/48845 [14:45:43<2:33:55,  1.28s/it] 85%|████████▌ | 41651/48845 [14:45:45<2:33:08,  1.28s/it] 85%|████████▌ | 41652/48845 [14:45:46<2:32:27,  1.27s/it] 85%|████████▌ | 41653/48845 [14:45:47<2:32:00,  1.27s/it] 85%|████████▌ | 41654/48845 [14:45:48<2:31:49,  1.27s/it] 85%|████████▌ | 41655/48845 [14:45:50<2:31:43,  1.27s/it]                                                          {'loss': 2.0127, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41655/48845 [14:45:50<2:31:43,  1.27s/it] 85%|████████▌ | 41656/48845 [14:45:51<2:34:16,  1.29s/it] 85%|████████▌ | 41657/48845 [14:45:52<2:33:09,  1.28s/it] 85%|████████▌ | 41658/48845 [14:45:54<2:32:28,  1.27s/it] 85%|████████▌ | 41659/48845 [14:45:55<2:32:02,  1.27s/it] 85%|████████▌ | 41660/48845 [14:45:56<2:31:42,  1.27s/it]                                                          {'loss': 1.9743, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.26}
+ 85%|████████▌ | 41660/48845 [14:45:56<2:31:42,  1.27s/it] 85%|████████▌ | 41661/48845 [14:45:57<2:31:33,  1.27s/it] 85%|████████▌ | 41662/48845 [14:45:59<2:31:18,  1.26s/it] 85%|████████▌ | 41663/48845 [14:46:00<2:31:07,  1.26s/it] 85%|████████▌ | 41664/48845 [14:46:01<2:31:12,  1.26s/it] 85%|████████▌ | 41665/48845 [14:46:02<2:31:07,  1.26s/it]                                                          {'loss': 2.0845, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41665/48845 [14:46:02<2:31:07,  1.26s/it] 85%|████████▌ | 41666/48845 [14:46:04<2:31:01,  1.26s/it] 85%|████████▌ | 41667/48845 [14:46:05<2:30:57,  1.26s/it] 85%|████████▌ | 41668/48845 [14:46:06<2:31:27,  1.27s/it] 85%|████████▌ | 41669/48845 [14:46:07<2:31:14,  1.26s/it] 85%|████████▌ | 41670/48845 [14:46:09<2:31:06,  1.26s/it]                                                          {'loss': 2.0784, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41670/48845 [14:46:09<2:31:06,  1.26s/it] 85%|████████▌ | 41671/48845 [14:46:10<2:31:01,  1.26s/it] 85%|████████▌ | 41672/48845 [14:46:11<2:31:05,  1.26s/it] 85%|████████▌ | 41673/48845 [14:46:13<2:31:14,  1.27s/it] 85%|████████▌ | 41674/48845 [14:46:14<2:31:03,  1.26s/it] 85%|████████▌ | 41675/48845 [14:46:15<2:30:52,  1.26s/it]                                                          {'loss': 2.1138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41675/48845 [14:46:15<2:30:52,  1.26s/it] 85%|████████▌ | 41676/48845 [14:46:16<2:31:00,  1.26s/it] 85%|████████▌ | 41677/48845 [14:46:18<2:31:00,  1.26s/it] 85%|████████▌ | 41678/48845 [14:46:19<2:31:05,  1.26s/it] 85%|████████▌ | 41679/48845 [14:46:20<2:30:55,  1.26s/it] 85%|████████▌ | 41680/48845 [14:46:21<2:31:00,  1.26s/it]                                                          {'loss': 2.1629, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41680/48845 [14:46:21<2:31:00,  1.26s/it] 85%|████████▌ | 41681/48845 [14:46:23<2:30:47,  1.26s/it] 85%|████████▌ | 41682/48845 [14:46:24<2:30:40,  1.26s/it] 85%|████████▌ | 41683/48845 [14:46:25<2:30:38,  1.26s/it] 85%|████████▌ | 41684/48845 [14:46:26<2:30:44,  1.26s/it] 85%|████████▌ | 41685/48845 [14:46:28<2:30:43,  1.26s/it]                                                          {'loss': 2.095, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41685/48845 [14:46:28<2:30:43,  1.26s/it] 85%|████████▌ | 41686/48845 [14:46:29<2:30:40,  1.26s/it] 85%|████████▌ | 41687/48845 [14:46:30<2:30:32,  1.26s/it] 85%|████████▌ | 41688/48845 [14:46:31<2:30:34,  1.26s/it] 85%|████████▌ | 41689/48845 [14:46:33<2:30:32,  1.26s/it] 85%|████████▌ | 41690/48845 [14:46:34<2:30:29,  1.26s/it]                                                          {'loss': 2.0478, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41690/48845 [14:46:34<2:30:29,  1.26s/it] 85%|████████▌ | 41691/48845 [14:46:35<2:30:26,  1.26s/it] 85%|████████▌ | 41692/48845 [14:46:37<2:30:40,  1.26s/it] 85%|████████▌ | 41693/48845 [14:46:38<2:30:36,  1.26s/it] 85%|████████▌ | 41694/48845 [14:46:39<2:30:34,  1.26s/it] 85%|████████▌ | 41695/48845 [14:46:40<2:30:27,  1.26s/it]                                                          {'loss': 2.0215, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41695/48845 [14:46:40<2:30:27,  1.26s/it] 85%|████████▌ | 41696/48845 [14:46:42<2:30:41,  1.26s/it] 85%|████████▌ | 41697/48845 [14:46:43<2:30:36,  1.26s/it] 85%|████████▌ | 41698/48845 [14:46:44<2:30:30,  1.26s/it] 85%|████████▌ | 41699/48845 [14:46:45<2:30:24,  1.26s/it] 85%|████████▌ | 41700/48845 [14:46:47<2:30:27,  1.26s/it]                                                          {'loss': 2.1842, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41700/48845 [14:46:47<2:30:27,  1.26s/it] 85%|████████▌ | 41701/48845 [14:46:48<2:30:22,  1.26s/it] 85%|████████▌ | 41702/48845 [14:46:49<2:30:25,  1.26s/it] 85%|████████▌ | 41703/48845 [14:46:50<2:30:19,  1.26s/it] 85%|████████▌ | 41704/48845 [14:46:52<2:30:12,  1.26s/it] 85%|████████▌ | 41705/48845 [14:46:53<2:30:30,  1.26s/it]                                                          {'loss': 2.0487, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41705/48845 [14:46:53<2:30:30,  1.26s/it] 85%|████████▌ | 41706/48845 [14:46:54<2:30:32,  1.27s/it] 85%|████████▌ | 41707/48845 [14:46:55<2:30:20,  1.26s/it] 85%|████████▌ | 41708/48845 [14:46:57<2:30:18,  1.26s/it] 85%|████████▌ | 41709/48845 [14:46:58<2:30:16,  1.26s/it] 85%|████████▌ | 41710/48845 [14:46:59<2:30:18,  1.26s/it]                                                          {'loss': 2.1818, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41710/48845 [14:46:59<2:30:18,  1.26s/it] 85%|████████▌ | 41711/48845 [14:47:01<2:30:25,  1.27s/it] 85%|████████▌ | 41712/48845 [14:47:02<2:30:36,  1.27s/it] 85%|████████▌ | 41713/48845 [14:47:03<2:30:25,  1.27s/it] 85%|████████▌ | 41714/48845 [14:47:04<2:30:22,  1.27s/it] 85%|████████▌ | 41715/48845 [14:47:06<2:30:23,  1.27s/it]                                                          {'loss': 2.0226, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41715/48845 [14:47:06<2:30:23,  1.27s/it] 85%|████████▌ | 41716/48845 [14:47:07<2:30:36,  1.27s/it] 85%|████████▌ | 41717/48845 [14:47:08<2:30:21,  1.27s/it] 85%|████████▌ | 41718/48845 [14:47:09<2:30:12,  1.26s/it] 85%|████████▌ | 41719/48845 [14:47:11<2:30:20,  1.27s/it] 85%|████████▌ | 41720/48845 [14:47:12<2:30:08,  1.26s/it]                                                          {'loss': 2.0736, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41720/48845 [14:47:12<2:30:08,  1.26s/it] 85%|████████▌ | 41721/48845 [14:47:13<2:30:12,  1.27s/it] 85%|████████▌ | 41722/48845 [14:47:14<2:30:02,  1.26s/it] 85%|████████▌ | 41723/48845 [14:47:16<2:29:54,  1.26s/it] 85%|████████▌ | 41724/48845 [14:47:17<2:30:23,  1.27s/it] 85%|████████▌ | 41725/48845 [14:47:18<2:30:24,  1.27s/it]                                                          {'loss': 2.0011, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41725/48845 [14:47:18<2:30:24,  1.27s/it] 85%|████████▌ | 41726/48845 [14:47:20<2:30:33,  1.27s/it] 85%|████████▌ | 41727/48845 [14:47:21<2:30:18,  1.27s/it] 85%|████████▌ | 41728/48845 [14:47:22<2:30:20,  1.27s/it] 85%|████████▌ | 41729/48845 [14:47:23<2:30:04,  1.27s/it] 85%|████████▌ | 41730/48845 [14:47:25<2:30:03,  1.27s/it]                                                          {'loss': 2.1436, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41730/48845 [14:47:25<2:30:03,  1.27s/it] 85%|████████▌ | 41731/48845 [14:47:26<2:29:53,  1.26s/it] 85%|████████▌ | 41732/48845 [14:47:27<2:30:02,  1.27s/it] 85%|████████▌ | 41733/48845 [14:47:28<2:30:01,  1.27s/it] 85%|████████▌ | 41734/48845 [14:47:30<2:29:50,  1.26s/it] 85%|████████▌ | 41735/48845 [14:47:31<2:29:40,  1.26s/it]                                                          {'loss': 1.864, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41735/48845 [14:47:31<2:29:40,  1.26s/it] 85%|████████▌ | 41736/48845 [14:47:32<2:29:31,  1.26s/it] 85%|████████▌ | 41737/48845 [14:47:33<2:29:25,  1.26s/it] 85%|████████▌ | 41738/48845 [14:47:35<2:29:26,  1.26s/it] 85%|████████▌ | 41739/48845 [14:47:36<2:29:45,  1.26s/it] 85%|████████▌ | 41740/48845 [14:47:37<2:29:52,  1.27s/it]                                                          {'loss': 2.3059, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41740/48845 [14:47:37<2:29:52,  1.27s/it] 85%|████████▌ | 41741/48845 [14:47:39<2:29:47,  1.27s/it] 85%|████████▌ | 41742/48845 [14:47:40<2:29:37,  1.26s/it] 85%|████���███▌ | 41743/48845 [14:47:41<2:29:30,  1.26s/it] 85%|████████▌ | 41744/48845 [14:47:42<2:29:43,  1.27s/it] 85%|████████▌ | 41745/48845 [14:47:44<2:29:33,  1.26s/it]                                                          {'loss': 2.1501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41745/48845 [14:47:44<2:29:33,  1.26s/it] 85%|████████▌ | 41746/48845 [14:47:45<2:29:34,  1.26s/it] 85%|████████▌ | 41747/48845 [14:47:46<2:29:21,  1.26s/it] 85%|████████▌ | 41748/48845 [14:47:47<2:29:32,  1.26s/it] 85%|████████▌ | 41749/48845 [14:47:49<2:29:28,  1.26s/it] 85%|████████▌ | 41750/48845 [14:47:50<2:29:20,  1.26s/it]                                                          {'loss': 2.0444, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41750/48845 [14:47:50<2:29:20,  1.26s/it] 85%|████████▌ | 41751/48845 [14:47:51<2:29:12,  1.26s/it] 85%|████████▌ | 41752/48845 [14:47:52<2:29:16,  1.26s/it] 85%|████████▌ | 41753/48845 [14:47:54<2:29:20,  1.26s/it] 85%|████████▌ | 41754/48845 [14:47:55<2:29:12,  1.26s/it] 85%|████████▌ | 41755/48845 [14:47:56<2:29:01,  1.26s/it]                                                          {'loss': 2.2577, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41755/48845 [14:47:56<2:29:01,  1.26s/it] 85%|████████▌ | 41756/48845 [14:47:57<2:29:17,  1.26s/it] 85%|████████▌ | 41757/48845 [14:47:59<2:29:08,  1.26s/it] 85%|████████▌ | 41758/48845 [14:48:00<2:29:01,  1.26s/it] 85%|████████▌ | 41759/48845 [14:48:01<2:28:55,  1.26s/it] 85%|████████▌ | 41760/48845 [14:48:02<2:28:59,  1.26s/it]                                                          {'loss': 2.0858, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.27}
+ 85%|████████▌ | 41760/48845 [14:48:02<2:28:59,  1.26s/it] 85%|████████▌ | 41761/48845 [14:48:04<2:29:06,  1.26s/it] 85%|████████▌ | 41762/48845 [14:48:05<2:29:11,  1.26s/it] 86%|████████▌ | 41763/48845 [14:48:06<2:29:10,  1.26s/it] 86%|████████▌ | 41764/48845 [14:48:08<2:29:19,  1.27s/it] 86%|████████▌ | 41765/48845 [14:48:09<2:30:10,  1.27s/it]                                                          {'loss': 2.2385, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41765/48845 [14:48:09<2:30:10,  1.27s/it] 86%|████████▌ | 41766/48845 [14:48:10<2:29:43,  1.27s/it] 86%|████████▌ | 41767/48845 [14:48:11<2:29:21,  1.27s/it] 86%|████████▌ | 41768/48845 [14:48:13<2:29:15,  1.27s/it] 86%|████████▌ | 41769/48845 [14:48:14<2:29:21,  1.27s/it] 86%|████████▌ | 41770/48845 [14:48:15<2:29:07,  1.26s/it]                                                          {'loss': 2.1713, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41770/48845 [14:48:15<2:29:07,  1.26s/it] 86%|████████▌ | 41771/48845 [14:48:16<2:29:03,  1.26s/it] 86%|████████▌ | 41772/48845 [14:48:18<2:28:58,  1.26s/it] 86%|████████▌ | 41773/48845 [14:48:19<2:29:02,  1.26s/it] 86%|████████▌ | 41774/48845 [14:48:20<2:28:59,  1.26s/it] 86%|████████▌ | 41775/48845 [14:48:21<2:28:58,  1.26s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41775/48845 [14:48:21<2:28:58,  1.26s/it] 86%|████████▌ | 41776/48845 [14:48:23<2:28:55,  1.26s/it] 86%|████████▌ | 41777/48845 [14:48:24<2:28:57,  1.26s/it] 86%|████████▌ | 41778/48845 [14:48:25<2:28:47,  1.26s/it] 86%|████████▌ | 41779/48845 [14:48:27<2:28:42,  1.26s/it] 86%|████████▌ | 41780/48845 [14:48:28<2:28:41,  1.26s/it]                                                          {'loss': 2.0529, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41780/48845 [14:48:28<2:28:41,  1.26s/it] 86%|████████▌ | 41781/48845 [14:48:29<2:28:52,  1.26s/it] 86%|████████▌ | 41782/48845 [14:48:30<2:28:44,  1.26s/it] 86%|████████▌ | 41783/48845 [14:48:32<2:28:35,  1.26s/it] 86%|████████▌ | 41784/48845 [14:48:33<2:28:38,  1.26s/it] 86%|████████▌ | 41785/48845 [14:48:34<2:33:32,  1.30s/it]                                                          {'loss': 2.1514, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41785/48845 [14:48:34<2:33:32,  1.30s/it] 86%|████████▌ | 41786/48845 [14:48:36<2:32:03,  1.29s/it] 86%|████████▌ | 41787/48845 [14:48:37<2:31:01,  1.28s/it] 86%|████████▌ | 41788/48845 [14:48:38<2:30:15,  1.28s/it] 86%|████████▌ | 41789/48845 [14:48:39<2:29:41,  1.27s/it] 86%|████████▌ | 41790/48845 [14:48:41<2:29:10,  1.27s/it]                                                          {'loss': 2.0535, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41790/48845 [14:48:41<2:29:10,  1.27s/it] 86%|████████▌ | 41791/48845 [14:48:42<2:28:57,  1.27s/it] 86%|████████▌ | 41792/48845 [14:48:43<2:28:41,  1.26s/it] 86%|████████▌ | 41793/48845 [14:48:45<2:34:30,  1.31s/it] 86%|████████▌ | 41794/48845 [14:48:46<2:32:40,  1.30s/it] 86%|████████▌ | 41795/48845 [14:48:47<2:31:23,  1.29s/it]                                                          {'loss': 2.149, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41795/48845 [14:48:47<2:31:23,  1.29s/it] 86%|████████▌ | 41796/48845 [14:48:48<2:30:23,  1.28s/it] 86%|████████▌ | 41797/48845 [14:48:50<2:29:45,  1.27s/it] 86%|████████▌ | 41798/48845 [14:48:51<2:29:13,  1.27s/it] 86%|████████▌ | 41799/48845 [14:48:52<2:29:00,  1.27s/it] 86%|████████▌ | 41800/48845 [14:48:53<2:28:43,  1.27s/it]                                                          {'loss': 2.0988, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41800/48845 [14:48:53<2:28:43,  1.27s/it] 86%|████████▌ | 41801/48845 [14:48:57<3:57:52,  2.03s/it] 86%|████████▌ | 41802/48845 [14:48:58<3:30:52,  1.80s/it] 86%|████████▌ | 41803/48845 [14:49:00<3:11:57,  1.64s/it] 86%|████████▌ | 41804/48845 [14:49:01<2:58:41,  1.52s/it] 86%|████████▌ | 41805/48845 [14:49:02<2:49:37,  1.45s/it]                                                          {'loss': 2.0292, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41805/48845 [14:49:02<2:49:37,  1.45s/it] 86%|████████▌ | 41806/48845 [14:49:03<2:43:05,  1.39s/it] 86%|████████▌ | 41807/48845 [14:49:05<2:38:51,  1.35s/it] 86%|████████▌ | 41808/48845 [14:49:06<2:35:31,  1.33s/it] 86%|████████▌ | 41809/48845 [14:49:07<2:33:15,  1.31s/it] 86%|████████▌ | 41810/48845 [14:49:09<2:31:35,  1.29s/it]                                                          {'loss': 2.1698, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41810/48845 [14:49:09<2:31:35,  1.29s/it] 86%|████████▌ | 41811/48845 [14:49:10<2:30:33,  1.28s/it] 86%|████████▌ | 41812/48845 [14:49:11<2:29:40,  1.28s/it] 86%|████████▌ | 41813/48845 [14:49:12<2:29:10,  1.27s/it] 86%|████████▌ | 41814/48845 [14:49:14<2:28:48,  1.27s/it] 86%|████████▌ | 41815/48845 [14:49:15<2:32:38,  1.30s/it]                                                          {'loss': 2.0498, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41815/48845 [14:49:15<2:32:38,  1.30s/it] 86%|████████▌ | 41816/48845 [14:49:16<2:31:10,  1.29s/it] 86%|████████▌ | 41817/48845 [14:49:17<2:30:05,  1.28s/it] 86%|████████▌ | 41818/48845 [14:49:19<2:29:25,  1.28s/it] 86%|████████▌ | 41819/48845 [14:49:20<2:29:05,  1.27s/it] 86%|████████▌ | 41820/48845 [14:49:21<2:28:35,  1.27s/it]                                                          {'loss': 2.0752, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41820/48845 [14:49:21<2:28:35,  1.27s/it] 86%|████████▌ | 41821/48845 [14:49:23<2:28:17,  1.27s/it] 86%|████████▌ | 41822/48845 [14:49:24<2:28:19,  1.27s/it] 86%|████████▌ | 41823/48845 [14:49:25<2:28:12,  1.27s/it] 86%|████████▌ | 41824/48845 [14:49:26<2:27:56,  1.26s/it] 86%|████████▌ | 41825/48845 [14:49:28<2:27:43,  1.26s/it]                                                          {'loss': 1.9877, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41825/48845 [14:49:28<2:27:43,  1.26s/it] 86%|████████▌ | 41826/48845 [14:49:29<2:27:45,  1.26s/it] 86%|████████▌ | 41827/48845 [14:49:30<2:27:54,  1.26s/it] 86%|████████▌ | 41828/48845 [14:49:31<2:27:44,  1.26s/it] 86%|████████▌ | 41829/48845 [14:49:33<2:27:45,  1.26s/it] 86%|████████▌ | 41830/48845 [14:49:34<2:28:01,  1.27s/it]                                                          {'loss': 2.0787, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41830/48845 [14:49:34<2:28:01,  1.27s/it] 86%|████████▌ | 41831/48845 [14:49:35<2:28:04,  1.27s/it] 86%|████████▌ | 41832/48845 [14:49:36<2:27:51,  1.27s/it] 86%|████████▌ | 41833/48845 [14:49:38<2:27:50,  1.27s/it] 86%|████████▌ | 41834/48845 [14:49:39<2:27:41,  1.26s/it] 86%|████████▌ | 41835/48845 [14:49:40<2:27:56,  1.27s/it]                                                          {'loss': 2.0485, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41835/48845 [14:49:40<2:27:56,  1.27s/it] 86%|████████▌ | 41836/48845 [14:49:41<2:27:45,  1.26s/it] 86%|████████▌ | 41837/48845 [14:49:43<2:27:32,  1.26s/it] 86%|████████▌ | 41838/48845 [14:49:44<2:27:25,  1.26s/it] 86%|████████▌ | 41839/48845 [14:49:45<2:27:21,  1.26s/it] 86%|████████▌ | 41840/48845 [14:49:47<2:27:21,  1.26s/it]                                                          {'loss': 2.1437, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41840/48845 [14:49:47<2:27:21,  1.26s/it] 86%|████████▌ | 41841/48845 [14:49:48<2:27:27,  1.26s/it] 86%|████████▌ | 41842/48845 [14:49:49<2:27:25,  1.26s/it] 86%|████████▌ | 41843/48845 [14:49:50<2:27:22,  1.26s/it] 86%|████████▌ | 41844/48845 [14:49:52<2:27:14,  1.26s/it] 86%|████████▌ | 41845/48845 [14:49:53<2:27:08,  1.26s/it]                                                          {'loss': 2.1671, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41845/48845 [14:49:53<2:27:08,  1.26s/it] 86%|████████▌ | 41846/48845 [14:49:54<2:27:04,  1.26s/it] 86%|████████▌ | 41847/48845 [14:49:55<2:27:17,  1.26s/it] 86%|████████▌ | 41848/48845 [14:49:57<2:27:11,  1.26s/it] 86%|████████▌ | 41849/48845 [14:49:58<2:27:04,  1.26s/it] 86%|████████▌ | 41850/48845 [14:49:59<2:27:01,  1.26s/it]                                                          {'loss': 2.0514, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41850/48845 [14:49:59<2:27:01,  1.26s/it] 86%|████████▌ | 41851/48845 [14:50:00<2:27:17,  1.26s/it] 86%|████████▌ | 41852/48845 [14:50:02<2:27:09,  1.26s/it] 86%|████████▌ | 41853/48845 [14:50:03<2:27:04,  1.26s/it] 86%|████████▌ | 41854/48845 [14:50:04<2:26:55,  1.26s/it] 86%|████████▌ | 41855/48845 [14:50:05<2:27:06,  1.26s/it]                                                          {'loss': 1.9551, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41855/48845 [14:50:05<2:27:06,  1.26s/it] 86%|████████▌ | 41856/48845 [14:50:07<2:27:05,  1.26s/it] 86%|████████▌ | 41857/48845 [14:50:08<2:27:11,  1.26s/it] 86%|████████▌ | 41858/48845 [14:50:09<2:27:06,  1.26s/it] 86%|████████▌ | 41859/48845 [14:50:11<2:27:22,  1.27s/it] 86%|████████▌ | 41860/48845 [14:50:12<2:27:17,  1.27s/it]                                                          {'loss': 2.0025, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.28}
+ 86%|████████▌ | 41860/48845 [14:50:12<2:27:17,  1.27s/it] 86%|████████▌ | 41861/48845 [14:50:13<2:27:22,  1.27s/it] 86%|████████▌ | 41862/48845 [14:50:14<2:27:17,  1.27s/it] 86%|████████▌ | 41863/48845 [14:50:16<2:27:19,  1.27s/it] 86%|████████▌ | 41864/48845 [14:50:17<2:27:08,  1.26s/it] 86%|████████▌ | 41865/48845 [14:50:18<2:27:10,  1.27s/it]                                                          {'loss': 2.1271, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41865/48845 [14:50:18<2:27:10,  1.27s/it] 86%|████████▌ | 41866/48845 [14:50:19<2:27:10,  1.27s/it] 86%|████████▌ | 41867/48845 [14:50:21<2:27:10,  1.27s/it] 86%|████████▌ | 41868/48845 [14:50:22<2:27:02,  1.26s/it] 86%|████████▌ | 41869/48845 [14:50:23<2:26:57,  1.26s/it] 86%|████████▌ | 41870/48845 [14:50:24<2:26:47,  1.26s/it]                                                          {'loss': 2.0661, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41870/48845 [14:50:24<2:26:47,  1.26s/it] 86%|████████▌ | 41871/48845 [14:50:26<2:27:10,  1.27s/it] 86%|████████▌ | 41872/48845 [14:50:27<2:26:53,  1.26s/it] 86%|████████▌ | 41873/48845 [14:50:28<2:26:45,  1.26s/it] 86%|████████▌ | 41874/48845 [14:50:29<2:26:46,  1.26s/it] 86%|████████▌ | 41875/48845 [14:50:31<2:28:34,  1.28s/it]                                                          {'loss': 2.1836, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41875/48845 [14:50:31<2:28:34,  1.28s/it] 86%|████████▌ | 41876/48845 [14:50:32<2:28:11,  1.28s/it] 86%|████████▌ | 41877/48845 [14:50:33<2:27:51,  1.27s/it] 86%|████████▌ | 41878/48845 [14:50:35<2:27:29,  1.27s/it] 86%|████████▌ | 41879/48845 [14:50:36<2:30:08,  1.29s/it] 86%|████████▌ | 41880/48845 [14:50:37<2:29:02,  1.28s/it]                                                          {'loss': 2.0847, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41880/48845 [14:50:37<2:29:02,  1.28s/it] 86%|████████▌ | 41881/48845 [14:50:38<2:28:29,  1.28s/it] 86%|████████▌ | 41882/48845 [14:50:40<2:27:48,  1.27s/it] 86%|████████▌ | 41883/48845 [14:50:41<2:31:10,  1.30s/it] 86%|████████▌ | 41884/48845 [14:50:42<2:29:46,  1.29s/it] 86%|████████▌ | 41885/48845 [14:50:44<2:28:49,  1.28s/it]                                                          {'loss': 2.2139, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41885/48845 [14:50:44<2:28:49,  1.28s/it] 86%|████████▌ | 41886/48845 [14:50:45<2:28:08,  1.28s/it] 86%|████████▌ | 41887/48845 [14:50:46<2:27:41,  1.27s/it] 86%|████████▌ | 41888/48845 [14:50:47<2:27:13,  1.27s/it] 86%|████████▌ | 41889/48845 [14:50:49<2:27:05,  1.27s/it] 86%|████████▌ | 41890/48845 [14:50:50<2:26:49,  1.27s/it]                                                          {'loss': 1.9998, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41890/48845 [14:50:50<2:26:49,  1.27s/it] 86%|████████▌ | 41891/48845 [14:50:51<2:26:46,  1.27s/it] 86%|████████▌ | 41892/48845 [14:50:52<2:26:34,  1.26s/it] 86%|████████▌ | 41893/48845 [14:50:54<2:26:19,  1.26s/it] 86%|████████▌ | 41894/48845 [14:50:55<2:26:23,  1.26s/it] 86%|████████▌ | 41895/48845 [14:50:56<2:26:30,  1.26s/it]                                                          {'loss': 2.1197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41895/48845 [14:50:56<2:26:30,  1.26s/it] 86%|████████▌ | 41896/48845 [14:50:58<2:26:19,  1.26s/it] 86%|████████▌ | 41897/48845 [14:50:59<2:26:10,  1.26s/it] 86%|████████▌ | 41898/48845 [14:51:00<2:26:03,  1.26s/it] 86%|████████▌ | 41899/48845 [14:51:01<2:26:06,  1.26s/it] 86%|████████▌ | 41900/48845 [14:51:03<2:26:09,  1.26s/it]                                                          {'loss': 1.9825, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41900/48845 [14:51:03<2:26:09,  1.26s/it] 86%|████████▌ | 41901/48845 [14:51:04<2:26:20,  1.26s/it] 86%|████████▌ | 41902/48845 [14:51:05<2:26:12,  1.26s/it] 86%|████████▌ | 41903/48845 [14:51:07<2:31:08,  1.31s/it] 86%|████████▌ | 41904/48845 [14:51:08<2:29:36,  1.29s/it] 86%|████████▌ | 41905/48845 [14:51:09<2:28:30,  1.28s/it]                                                          {'loss': 2.1689, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41905/48845 [14:51:09<2:28:30,  1.28s/it] 86%|████████▌ | 41906/48845 [14:51:10<2:27:38,  1.28s/it] 86%|████████▌ | 41907/48845 [14:51:12<2:27:10,  1.27s/it] 86%|████████▌ | 41908/48845 [14:51:13<2:26:46,  1.27s/it] 86%|████████▌ | 41909/48845 [14:51:14<2:26:27,  1.27s/it] 86%|████████▌ | 41910/48845 [14:51:15<2:26:11,  1.26s/it]                                                          {'loss': 2.2953, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41910/48845 [14:51:15<2:26:11,  1.26s/it] 86%|████████▌ | 41911/48845 [14:51:17<2:26:17,  1.27s/it] 86%|████████▌ | 41912/48845 [14:51:18<2:26:08,  1.26s/it] 86%|████████▌ | 41913/48845 [14:51:19<2:25:54,  1.26s/it] 86%|████████▌ | 41914/48845 [14:51:20<2:25:50,  1.26s/it] 86%|████████▌ | 41915/48845 [14:51:22<2:25:56,  1.26s/it]                                                          {'loss': 1.8846, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41915/48845 [14:51:22<2:25:56,  1.26s/it] 86%|████████▌ | 41916/48845 [14:51:23<2:25:47,  1.26s/it] 86%|████████▌ | 41917/48845 [14:51:24<2:25:42,  1.26s/it] 86%|████████▌ | 41918/48845 [14:51:25<2:25:37,  1.26s/it] 86%|████████▌ | 41919/48845 [14:51:27<2:25:42,  1.26s/it] 86%|████████▌ | 41920/48845 [14:51:28<2:25:43,  1.26s/it]                                                          {'loss': 1.999, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41920/48845 [14:51:28<2:25:43,  1.26s/it] 86%|████████▌ | 41921/48845 [14:51:29<2:25:50,  1.26s/it] 86%|████████▌ | 41922/48845 [14:51:31<2:25:44,  1.26s/it] 86%|████████▌ | 41923/48845 [14:51:32<2:25:55,  1.26s/it] 86%|████████▌ | 41924/48845 [14:51:33<2:25:44,  1.26s/it] 86%|████████▌ | 41925/48845 [14:51:34<2:25:37,  1.26s/it]                                                          {'loss': 1.9993, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41925/48845 [14:51:34<2:25:37,  1.26s/it] 86%|████████▌ | 41926/48845 [14:51:36<2:25:37,  1.26s/it] 86%|████████▌ | 41927/48845 [14:51:37<2:25:36,  1.26s/it] 86%|████████▌ | 41928/48845 [14:51:38<2:25:38,  1.26s/it] 86%|████████▌ | 41929/48845 [14:51:39<2:25:27,  1.26s/it] 86%|████████▌ | 41930/48845 [14:51:41<2:25:23,  1.26s/it]                                                          {'loss': 2.0458, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41930/48845 [14:51:41<2:25:23,  1.26s/it] 86%|████████▌ | 41931/48845 [14:51:42<2:28:22,  1.29s/it] 86%|████████▌ | 41932/48845 [14:51:43<2:27:29,  1.28s/it] 86%|████████▌ | 41933/48845 [14:51:44<2:26:54,  1.28s/it] 86%|████████▌ | 41934/48845 [14:51:46<2:26:27,  1.27s/it] 86%|████████▌ | 41935/48845 [14:51:47<2:26:15,  1.27s/it]                                                          {'loss': 2.2175, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41935/48845 [14:51:47<2:26:15,  1.27s/it] 86%|████████▌ | 41936/48845 [14:51:48<2:26:01,  1.27s/it] 86%|████████▌ | 41937/48845 [14:51:50<2:25:54,  1.27s/it] 86%|████████▌ | 41938/48845 [14:51:51<2:25:53,  1.27s/it] 86%|████████▌ | 41939/48845 [14:51:52<2:25:46,  1.27s/it] 86%|████████▌ | 41940/48845 [14:51:53<2:25:35,  1.27s/it]                                                          {'loss': 2.0595, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41940/48845 [14:51:53<2:25:35,  1.27s/it] 86%|████████▌ | 41941/48845 [14:51:55<2:25:26,  1.26s/it] 86%|████████▌ | 41942/48845 [14:51:56<2:25:27,  1.26s/it] 86%|████████▌ | 41943/48845 [14:51:57<2:25:34,  1.27s/it] 86%|████████▌ | 41944/48845 [14:51:58<2:25:21,  1.26s/it] 86%|████████▌ | 41945/48845 [14:52:00<2:25:12,  1.26s/it]                                                          {'loss': 2.024, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41945/48845 [14:52:00<2:25:12,  1.26s/it] 86%|████████▌ | 41946/48845 [14:52:01<2:25:16,  1.26s/it] 86%|████████▌ | 41947/48845 [14:52:02<2:25:15,  1.26s/it] 86%|████████▌ | 41948/48845 [14:52:03<2:25:09,  1.26s/it] 86%|████████▌ | 41949/48845 [14:52:05<2:25:01,  1.26s/it] 86%|████████▌ | 41950/48845 [14:52:06<2:24:58,  1.26s/it]                                                          {'loss': 1.987, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41950/48845 [14:52:06<2:24:58,  1.26s/it] 86%|████████▌ | 41951/48845 [14:52:07<2:25:00,  1.26s/it] 86%|████████▌ | 41952/48845 [14:52:08<2:24:59,  1.26s/it] 86%|████████▌ | 41953/48845 [14:52:10<2:24:57,  1.26s/it] 86%|████████▌ | 41954/48845 [14:52:11<2:24:50,  1.26s/it] 86%|████████▌ | 41955/48845 [14:52:12<2:24:53,  1.26s/it]                                                          {'loss': 2.0927, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.29}
+ 86%|████████▌ | 41955/48845 [14:52:12<2:24:53,  1.26s/it] 86%|████████▌ | 41956/48845 [14:52:14<2:25:02,  1.26s/it] 86%|████████▌ | 41957/48845 [14:52:15<2:24:53,  1.26s/it] 86%|████████▌ | 41958/48845 [14:52:16<2:24:48,  1.26s/it] 86%|████████▌ | 41959/48845 [14:52:17<2:25:01,  1.26s/it] 86%|████████▌ | 41960/48845 [14:52:19<2:24:53,  1.26s/it]                                                          {'loss': 2.0634, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41960/48845 [14:52:19<2:24:53,  1.26s/it] 86%|████████▌ | 41961/48845 [14:52:20<2:24:46,  1.26s/it] 86%|████████▌ | 41962/48845 [14:52:21<2:24:47,  1.26s/it] 86%|████████▌ | 41963/48845 [14:52:22<2:24:52,  1.26s/it] 86%|████████▌ | 41964/48845 [14:52:24<2:24:48,  1.26s/it] 86%|████████▌ | 41965/48845 [14:52:25<2:24:41,  1.26s/it]                                                          {'loss': 1.8914, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41965/48845 [14:52:25<2:24:41,  1.26s/it] 86%|████████▌ | 41966/48845 [14:52:26<2:24:39,  1.26s/it] 86%|████████▌ | 41967/48845 [14:52:27<2:24:41,  1.26s/it] 86%|████████▌ | 41968/48845 [14:52:29<2:24:34,  1.26s/it] 86%|████████▌ | 41969/48845 [14:52:30<2:24:48,  1.26s/it] 86%|████████▌ | 41970/48845 [14:52:31<2:24:45,  1.26s/it]                                                          {'loss': 2.1648, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41970/48845 [14:52:31<2:24:45,  1.26s/it] 86%|████████▌ | 41971/48845 [14:52:32<2:24:53,  1.26s/it] 86%|████████▌ | 41972/48845 [14:52:34<2:24:43,  1.26s/it] 86%|████████▌ | 41973/48845 [14:52:35<2:24:34,  1.26s/it] 86%|████████▌ | 41974/48845 [14:52:36<2:24:27,  1.26s/it] 86%|████████▌ | 41975/48845 [14:52:38<2:24:43,  1.26s/it]                                                          {'loss': 2.0397, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41975/48845 [14:52:38<2:24:43,  1.26s/it] 86%|████████▌ | 41976/48845 [14:52:39<2:24:37,  1.26s/it] 86%|████████▌ | 41977/48845 [14:52:40<2:24:33,  1.26s/it] 86%|████████▌ | 41978/48845 [14:52:41<2:24:34,  1.26s/it] 86%|████████▌ | 41979/48845 [14:52:43<2:24:40,  1.26s/it] 86%|████████▌ | 41980/48845 [14:52:44<2:24:38,  1.26s/it]                                                          {'loss': 2.0678, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41980/48845 [14:52:44<2:24:38,  1.26s/it] 86%|████████▌ | 41981/48845 [14:52:45<2:24:30,  1.26s/it] 86%|████████▌ | 41982/48845 [14:52:46<2:24:34,  1.26s/it] 86%|████████▌ | 41983/48845 [14:52:48<2:24:51,  1.27s/it] 86%|████████▌ | 41984/48845 [14:52:49<2:24:38,  1.26s/it] 86%|████████▌ | 41985/48845 [14:52:50<2:24:39,  1.27s/it]                                                          {'loss': 2.0642, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41985/48845 [14:52:50<2:24:39,  1.27s/it] 86%|████████▌ | 41986/48845 [14:52:51<2:24:39,  1.27s/it] 86%|████████▌ | 41987/48845 [14:52:53<2:24:37,  1.27s/it] 86%|████████▌ | 41988/48845 [14:52:54<2:24:28,  1.26s/it] 86%|████████▌ | 41989/48845 [14:52:55<2:24:22,  1.26s/it] 86%|████████▌ | 41990/48845 [14:52:56<2:24:20,  1.26s/it]                                                          {'loss': 2.0501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41990/48845 [14:52:56<2:24:20,  1.26s/it] 86%|████████▌ | 41991/48845 [14:52:58<2:24:28,  1.26s/it] 86%|████████▌ | 41992/48845 [14:52:59<2:24:25,  1.26s/it] 86%|████████▌ | 41993/48845 [14:53:00<2:24:15,  1.26s/it] 86%|████████▌ | 41994/48845 [14:53:02<2:24:05,  1.26s/it] 86%|████████▌ | 41995/48845 [14:53:03<2:24:11,  1.26s/it]                                                          {'loss': 2.1525, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 41995/48845 [14:53:03<2:24:11,  1.26s/it] 86%|████████▌ | 41996/48845 [14:53:04<2:24:07,  1.26s/it] 86%|████████▌ | 41997/48845 [14:53:05<2:24:01,  1.26s/it] 86%|████████▌ | 41998/48845 [14:53:07<2:23:53,  1.26s/it] 86%|████████▌ | 41999/48845 [14:53:08<2:24:00,  1.26s/it] 86%|████████▌ | 42000/48845 [14:53:09<2:24:05,  1.26s/it]                                                          {'loss': 2.0708, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42000/48845 [14:53:09<2:24:05,  1.26s/it] 86%|████████▌ | 42001/48845 [14:53:13<3:51:00,  2.03s/it] 86%|████████▌ | 42002/48845 [14:53:14<3:25:05,  1.80s/it] 86%|████████▌ | 42003/48845 [14:53:15<3:06:38,  1.64s/it] 86%|████████▌ | 42004/48845 [14:53:17<2:53:45,  1.52s/it] 86%|████████▌ | 42005/48845 [14:53:18<2:44:37,  1.44s/it]                                                          {'loss': 2.1152, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42005/48845 [14:53:18<2:44:37,  1.44s/it] 86%|████████▌ | 42006/48845 [14:53:19<2:38:32,  1.39s/it] 86%|████████▌ | 42007/48845 [14:53:20<2:34:05,  1.35s/it] 86%|████████▌ | 42008/48845 [14:53:22<2:30:52,  1.32s/it] 86%|████████▌ | 42009/48845 [14:53:23<2:28:41,  1.31s/it] 86%|████████▌ | 42010/48845 [14:53:24<2:27:08,  1.29s/it]                                                          {'loss': 1.9959, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42010/48845 [14:53:24<2:27:08,  1.29s/it] 86%|████████▌ | 42011/48845 [14:53:26<2:26:07,  1.28s/it] 86%|████████▌ | 42012/48845 [14:53:27<2:25:14,  1.28s/it] 86%|████████▌ | 42013/48845 [14:53:28<2:24:40,  1.27s/it] 86%|████████▌ | 42014/48845 [14:53:29<2:24:14,  1.27s/it] 86%|████████▌ | 42015/48845 [14:53:31<2:24:11,  1.27s/it]                                                          {'loss': 1.9771, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42015/48845 [14:53:31<2:24:11,  1.27s/it] 86%|████████▌ | 42016/48845 [14:53:32<2:23:58,  1.26s/it] 86%|████████▌ | 42017/48845 [14:53:33<2:23:50,  1.26s/it] 86%|████████▌ | 42018/48845 [14:53:34<2:23:40,  1.26s/it] 86%|████████▌ | 42019/48845 [14:53:36<2:28:35,  1.31s/it] 86%|████████▌ | 42020/48845 [14:53:37<2:27:02,  1.29s/it]                                                          {'loss': 2.07, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42020/48845 [14:53:37<2:27:02,  1.29s/it] 86%|████████▌ | 42021/48845 [14:53:38<2:25:53,  1.28s/it] 86%|████████▌ | 42022/48845 [14:53:40<2:25:17,  1.28s/it] 86%|████████▌ | 42023/48845 [14:53:41<2:24:46,  1.27s/it] 86%|████████▌ | 42024/48845 [14:53:42<2:24:17,  1.27s/it] 86%|████████▌ | 42025/48845 [14:53:43<2:24:13,  1.27s/it]                                                          {'loss': 2.058, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42025/48845 [14:53:43<2:24:13,  1.27s/it] 86%|████████▌ | 42026/48845 [14:53:45<2:23:55,  1.27s/it] 86%|████████▌ | 42027/48845 [14:53:46<2:23:43,  1.26s/it] 86%|████████▌ | 42028/48845 [14:53:47<2:23:35,  1.26s/it] 86%|████████▌ | 42029/48845 [14:53:48<2:23:23,  1.26s/it] 86%|████████▌ | 42030/48845 [14:53:50<2:23:21,  1.26s/it]                                                          {'loss': 1.9827, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42030/48845 [14:53:50<2:23:21,  1.26s/it] 86%|████████▌ | 42031/48845 [14:53:51<2:24:52,  1.28s/it] 86%|████████▌ | 42032/48845 [14:53:52<2:24:25,  1.27s/it] 86%|████████▌ | 42033/48845 [14:53:53<2:24:03,  1.27s/it] 86%|████████▌ | 42034/48845 [14:53:55<2:23:48,  1.27s/it] 86%|████████▌ | 42035/48845 [14:53:56<2:24:04,  1.27s/it]                                                          {'loss': 2.2702, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42035/48845 [14:53:56<2:24:04,  1.27s/it] 86%|████████▌ | 42036/48845 [14:53:57<2:23:51,  1.27s/it] 86%|████████▌ | 42037/48845 [14:53:59<2:23:39,  1.27s/it] 86%|████████▌ | 42038/48845 [14:54:00<2:23:29,  1.26s/it] 86%|████████▌ | 42039/48845 [14:54:01<2:23:24,  1.26s/it] 86%|████████▌ | 42040/48845 [14:54:02<2:23:12,  1.26s/it]                                                          {'loss': 2.202, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42040/48845 [14:54:02<2:23:12,  1.26s/it] 86%|████████▌ | 42041/48845 [14:54:04<2:23:11,  1.26s/it] 86%|████████▌ | 42042/48845 [14:54:05<2:23:04,  1.26s/it] 86%|████████▌ | 42043/48845 [14:54:06<2:23:56,  1.27s/it] 86%|████████▌ | 42044/48845 [14:54:07<2:23:44,  1.27s/it] 86%|████████▌ | 42045/48845 [14:54:09<2:23:24,  1.27s/it]                                                          {'loss': 2.2337, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42045/48845 [14:54:09<2:23:24,  1.27s/it] 86%|████████▌ | 42046/48845 [14:54:10<2:23:21,  1.27s/it] 86%|████████▌ | 42047/48845 [14:54:11<2:23:30,  1.27s/it] 86%|████████▌ | 42048/48845 [14:54:12<2:23:17,  1.26s/it] 86%|████████▌ | 42049/48845 [14:54:14<2:23:34,  1.27s/it] 86%|████████▌ | 42050/48845 [14:54:15<2:23:26,  1.27s/it]                                                          {'loss': 2.1961, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42050/48845 [14:54:15<2:23:26,  1.27s/it] 86%|████████▌ | 42051/48845 [14:54:16<2:23:26,  1.27s/it] 86%|████████▌ | 42052/48845 [14:54:18<2:23:14,  1.27s/it] 86%|████████▌ | 42053/48845 [14:54:19<2:23:19,  1.27s/it] 86%|████████▌ | 42054/48845 [14:54:20<2:23:08,  1.26s/it] 86%|████████▌ | 42055/48845 [14:54:21<2:23:18,  1.27s/it]                                                          {'loss': 1.8874, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.3}
+ 86%|████████▌ | 42055/48845 [14:54:21<2:23:18,  1.27s/it] 86%|████████▌ | 42056/48845 [14:54:23<2:23:10,  1.27s/it] 86%|████████▌ | 42057/48845 [14:54:24<2:23:06,  1.26s/it] 86%|████████▌ | 42058/48845 [14:54:25<2:23:02,  1.26s/it] 86%|████████▌ | 42059/48845 [14:54:26<2:23:01,  1.26s/it] 86%|████████▌ | 42060/48845 [14:54:28<2:23:14,  1.27s/it]                                                          {'loss': 2.2408, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42060/48845 [14:54:28<2:23:14,  1.27s/it] 86%|████████▌ | 42061/48845 [14:54:29<2:23:06,  1.27s/it] 86%|████████▌ | 42062/48845 [14:54:30<2:22:58,  1.26s/it] 86%|████████▌ | 42063/48845 [14:54:31<2:22:52,  1.26s/it] 86%|████████▌ | 42064/48845 [14:54:33<2:22:48,  1.26s/it] 86%|████████▌ | 42065/48845 [14:54:34<2:22:40,  1.26s/it]                                                          {'loss': 2.0864, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42065/48845 [14:54:34<2:22:40,  1.26s/it] 86%|████████▌ | 42066/48845 [14:54:35<2:22:42,  1.26s/it] 86%|████████▌ | 42067/48845 [14:54:36<2:22:45,  1.26s/it] 86%|████████▌ | 42068/48845 [14:54:38<2:22:35,  1.26s/it] 86%|████████▌ | 42069/48845 [14:54:39<2:22:30,  1.26s/it] 86%|████████▌ | 42070/48845 [14:54:40<2:22:33,  1.26s/it]                                                          {'loss': 1.9862, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42070/48845 [14:54:40<2:22:33,  1.26s/it] 86%|████████▌ | 42071/48845 [14:54:42<2:22:40,  1.26s/it] 86%|████████▌ | 42072/48845 [14:54:43<2:22:36,  1.26s/it] 86%|████████▌ | 42073/48845 [14:54:44<2:22:32,  1.26s/it] 86%|████████▌ | 42074/48845 [14:54:45<2:22:25,  1.26s/it] 86%|████████▌ | 42075/48845 [14:54:47<2:23:35,  1.27s/it]                                                          {'loss': 2.0736, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42075/48845 [14:54:47<2:23:35,  1.27s/it] 86%|████████▌ | 42076/48845 [14:54:48<2:23:10,  1.27s/it] 86%|████████▌ | 42077/48845 [14:54:49<2:22:51,  1.27s/it] 86%|████████▌ | 42078/48845 [14:54:50<2:22:41,  1.27s/it] 86%|████████▌ | 42079/48845 [14:54:52<2:22:29,  1.26s/it] 86%|████████▌ | 42080/48845 [14:54:53<2:22:23,  1.26s/it]                                                          {'loss': 2.0258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42080/48845 [14:54:53<2:22:23,  1.26s/it] 86%|████████▌ | 42081/48845 [14:54:54<2:22:17,  1.26s/it] 86%|████████▌ | 42082/48845 [14:54:55<2:22:09,  1.26s/it] 86%|████████▌ | 42083/48845 [14:54:57<2:22:16,  1.26s/it] 86%|████████▌ | 42084/48845 [14:54:58<2:22:11,  1.26s/it] 86%|████████▌ | 42085/48845 [14:54:59<2:22:20,  1.26s/it]                                                          {'loss': 2.0439, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42085/48845 [14:54:59<2:22:20,  1.26s/it] 86%|████████▌ | 42086/48845 [14:55:01<2:22:24,  1.26s/it] 86%|████████▌ | 42087/48845 [14:55:02<2:22:32,  1.27s/it] 86%|████████▌ | 42088/48845 [14:55:03<2:22:21,  1.26s/it] 86%|████████▌ | 42089/48845 [14:55:04<2:22:19,  1.26s/it] 86%|████████▌ | 42090/48845 [14:55:06<2:22:14,  1.26s/it]                                                          {'loss': 2.1155, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42090/48845 [14:55:06<2:22:14,  1.26s/it] 86%|████████▌ | 42091/48845 [14:55:07<2:27:46,  1.31s/it] 86%|████████▌ | 42092/48845 [14:55:08<2:25:56,  1.30s/it] 86%|████████▌ | 42093/48845 [14:55:10<2:24:44,  1.29s/it] 86%|████████▌ | 42094/48845 [14:55:11<2:24:25,  1.28s/it] 86%|████████▌ | 42095/48845 [14:55:12<2:23:34,  1.28s/it]                                                          {'loss': 2.2124, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42095/48845 [14:55:12<2:23:34,  1.28s/it] 86%|████████▌ | 42096/48845 [14:55:13<2:23:08,  1.27s/it] 86%|████████▌ | 42097/48845 [14:55:15<2:22:55,  1.27s/it] 86%|████████▌ | 42098/48845 [14:55:16<2:22:39,  1.27s/it] 86%|████████▌ | 42099/48845 [14:55:17<2:22:31,  1.27s/it] 86%|████████▌ | 42100/48845 [14:55:18<2:22:19,  1.27s/it]                                                          {'loss': 2.2425, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42100/48845 [14:55:18<2:22:19,  1.27s/it] 86%|████████▌ | 42101/48845 [14:55:20<2:22:59,  1.27s/it] 86%|████████▌ | 42102/48845 [14:55:21<2:22:33,  1.27s/it] 86%|████████▌ | 42103/48845 [14:55:22<2:22:22,  1.27s/it] 86%|████████▌ | 42104/48845 [14:55:23<2:22:06,  1.26s/it] 86%|████████▌ | 42105/48845 [14:55:25<2:21:59,  1.26s/it]                                                          {'loss': 2.1232, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42105/48845 [14:55:25<2:21:59,  1.26s/it] 86%|████████▌ | 42106/48845 [14:55:26<2:21:57,  1.26s/it] 86%|████████▌ | 42107/48845 [14:55:27<2:22:07,  1.27s/it] 86%|████████▌ | 42108/48845 [14:55:28<2:21:56,  1.26s/it] 86%|████████▌ | 42109/48845 [14:55:30<2:21:47,  1.26s/it] 86%|████████▌ | 42110/48845 [14:55:31<2:21:49,  1.26s/it]                                                          {'loss': 2.0065, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42110/48845 [14:55:31<2:21:49,  1.26s/it] 86%|████████▌ | 42111/48845 [14:55:32<2:22:03,  1.27s/it] 86%|████████▌ | 42112/48845 [14:55:34<2:22:05,  1.27s/it] 86%|████████▌ | 42113/48845 [14:55:35<2:21:54,  1.26s/it] 86%|████████▌ | 42114/48845 [14:55:36<2:21:45,  1.26s/it] 86%|████████▌ | 42115/48845 [14:55:37<2:21:43,  1.26s/it]                                                          {'loss': 2.0636, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42115/48845 [14:55:37<2:21:43,  1.26s/it] 86%|████████▌ | 42116/48845 [14:55:39<2:21:42,  1.26s/it] 86%|████████▌ | 42117/48845 [14:55:40<2:21:38,  1.26s/it] 86%|████████▌ | 42118/48845 [14:55:41<2:21:26,  1.26s/it] 86%|████████▌ | 42119/48845 [14:55:42<2:21:37,  1.26s/it] 86%|████████▌ | 42120/48845 [14:55:44<2:21:33,  1.26s/it]                                                          {'loss': 2.1303, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42120/48845 [14:55:44<2:21:33,  1.26s/it] 86%|████████▌ | 42121/48845 [14:55:45<2:21:30,  1.26s/it] 86%|████████▌ | 42122/48845 [14:55:46<2:21:38,  1.26s/it] 86%|████████▌ | 42123/48845 [14:55:47<2:21:37,  1.26s/it] 86%|████████▌ | 42124/48845 [14:55:49<2:21:33,  1.26s/it] 86%|████████▌ | 42125/48845 [14:55:50<2:21:26,  1.26s/it]                                                          {'loss': 1.9552, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▌ | 42125/48845 [14:55:50<2:21:26,  1.26s/it] 86%|████████▌ | 42126/48845 [14:55:51<2:21:22,  1.26s/it] 86%|████████▌ | 42127/48845 [14:55:53<2:21:37,  1.26s/it] 86%|████████▌ | 42128/48845 [14:55:54<2:21:26,  1.26s/it] 86%|████████▋ | 42129/48845 [14:55:55<2:21:30,  1.26s/it] 86%|████████▋ | 42130/48845 [14:55:56<2:21:22,  1.26s/it]                                                          {'loss': 1.9495, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▋ | 42130/48845 [14:55:56<2:21:22,  1.26s/it] 86%|████████▋ | 42131/48845 [14:55:58<2:21:34,  1.27s/it] 86%|████████▋ | 42132/48845 [14:55:59<2:21:26,  1.26s/it] 86%|████████▋ | 42133/48845 [14:56:00<2:21:30,  1.26s/it] 86%|████████▋ | 42134/48845 [14:56:01<2:21:27,  1.26s/it] 86%|████████▋ | 42135/48845 [14:56:03<2:21:27,  1.26s/it]                                                          {'loss': 2.1819, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▋ | 42135/48845 [14:56:03<2:21:27,  1.26s/it] 86%|████████▋ | 42136/48845 [14:56:04<2:21:19,  1.26s/it] 86%|████████▋ | 42137/48845 [14:56:05<2:21:13,  1.26s/it] 86%|████████▋ | 42138/48845 [14:56:06<2:21:15,  1.26s/it] 86%|████████▋ | 42139/48845 [14:56:08<2:21:22,  1.26s/it] 86%|████████▋ | 42140/48845 [14:56:09<2:21:21,  1.26s/it]                                                          {'loss': 2.0606, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▋ | 42140/48845 [14:56:09<2:21:21,  1.26s/it] 86%|████████▋ | 42141/48845 [14:56:10<2:21:21,  1.27s/it] 86%|████████▋ | 42142/48845 [14:56:11<2:21:31,  1.27s/it] 86%|████████▋ | 42143/48845 [14:56:13<2:21:22,  1.27s/it] 86%|████████▋ | 42144/48845 [14:56:14<2:21:13,  1.26s/it] 86%|████████▋ | 42145/48845 [14:56:15<2:21:13,  1.26s/it]                                                          {'loss': 2.2028, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▋ | 42145/48845 [14:56:15<2:21:13,  1.26s/it] 86%|████████▋ | 42146/48845 [14:56:17<2:21:16,  1.27s/it] 86%|████████▋ | 42147/48845 [14:56:18<2:21:19,  1.27s/it] 86%|████████▋ | 42148/48845 [14:56:19<2:21:09,  1.26s/it] 86%|████████▋ | 42149/48845 [14:56:20<2:21:00,  1.26s/it] 86%|████████▋ | 42150/48845 [14:56:22<2:21:01,  1.26s/it]                                                          {'loss': 1.9427, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.31}
+ 86%|████████▋ | 42150/48845 [14:56:22<2:21:01,  1.26s/it] 86%|████████▋ | 42151/48845 [14:56:23<2:21:04,  1.26s/it] 86%|████████▋ | 42152/48845 [14:56:24<2:20:51,  1.26s/it] 86%|████████▋ | 42153/48845 [14:56:25<2:20:50,  1.26s/it] 86%|████████▋ | 42154/48845 [14:56:27<2:20:51,  1.26s/it] 86%|████████▋ | 42155/48845 [14:56:28<2:21:03,  1.27s/it]                                                          {'loss': 2.1452, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42155/48845 [14:56:28<2:21:03,  1.27s/it] 86%|████████▋ | 42156/48845 [14:56:29<2:20:56,  1.26s/it] 86%|████████▋ | 42157/48845 [14:56:30<2:20:46,  1.26s/it] 86%|████████▋ | 42158/48845 [14:56:32<2:20:36,  1.26s/it] 86%|████████▋ | 42159/48845 [14:56:33<2:20:42,  1.26s/it] 86%|████████▋ | 42160/48845 [14:56:34<2:20:40,  1.26s/it]                                                          {'loss': 2.0578, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42160/48845 [14:56:34<2:20:40,  1.26s/it] 86%|████████▋ | 42161/48845 [14:56:35<2:20:40,  1.26s/it] 86%|████████▋ | 42162/48845 [14:56:37<2:20:45,  1.26s/it] 86%|████████▋ | 42163/48845 [14:56:38<2:20:49,  1.26s/it] 86%|████████▋ | 42164/48845 [14:56:39<2:20:45,  1.26s/it] 86%|████████▋ | 42165/48845 [14:56:41<2:20:47,  1.26s/it]                                                          {'loss': 2.1488, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42165/48845 [14:56:41<2:20:47,  1.26s/it] 86%|████████▋ | 42166/48845 [14:56:42<2:20:53,  1.27s/it] 86%|████████▋ | 42167/48845 [14:56:43<2:20:49,  1.27s/it] 86%|████████▋ | 42168/48845 [14:56:44<2:20:37,  1.26s/it] 86%|████████▋ | 42169/48845 [14:56:46<2:20:34,  1.26s/it] 86%|████████▋ | 42170/48845 [14:56:47<2:20:30,  1.26s/it]                                                          {'loss': 2.1958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42170/48845 [14:56:47<2:20:30,  1.26s/it] 86%|████████▋ | 42171/48845 [14:56:48<2:20:40,  1.26s/it] 86%|████████▋ | 42172/48845 [14:56:49<2:20:39,  1.26s/it] 86%|████████▋ | 42173/48845 [14:56:51<2:20:49,  1.27s/it] 86%|████████▋ | 42174/48845 [14:56:52<2:20:38,  1.26s/it] 86%|████████▋ | 42175/48845 [14:56:53<2:20:43,  1.27s/it]                                                          {'loss': 2.057, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42175/48845 [14:56:53<2:20:43,  1.27s/it] 86%|████████▋ | 42176/48845 [14:56:54<2:20:44,  1.27s/it] 86%|████████▋ | 42177/48845 [14:56:56<2:20:38,  1.27s/it] 86%|████████▋ | 42178/48845 [14:56:57<2:20:24,  1.26s/it] 86%|████████▋ | 42179/48845 [14:56:58<2:20:31,  1.26s/it] 86%|████████▋ | 42180/48845 [14:57:00<2:20:16,  1.26s/it]                                                          {'loss': 2.1313, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42180/48845 [14:57:00<2:20:16,  1.26s/it] 86%|████████▋ | 42181/48845 [14:57:01<2:20:15,  1.26s/it] 86%|████████▋ | 42182/48845 [14:57:02<2:20:06,  1.26s/it] 86%|████████▋ | 42183/48845 [14:57:03<2:23:03,  1.29s/it] 86%|████████▋ | 42184/48845 [14:57:05<2:22:04,  1.28s/it] 86%|████████▋ | 42185/48845 [14:57:06<2:21:29,  1.27s/it]                                                          {'loss': 1.9085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42185/48845 [14:57:06<2:21:29,  1.27s/it] 86%|████████▋ | 42186/48845 [14:57:07<2:21:03,  1.27s/it] 86%|████████▋ | 42187/48845 [14:57:08<2:20:47,  1.27s/it] 86%|████████▋ | 42188/48845 [14:57:10<2:20:41,  1.27s/it] 86%|████████▋ | 42189/48845 [14:57:11<2:20:36,  1.27s/it] 86%|████████▋ | 42190/48845 [14:57:12<2:20:29,  1.27s/it]                                                          {'loss': 1.9834, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42190/48845 [14:57:12<2:20:29,  1.27s/it] 86%|████████▋ | 42191/48845 [14:57:14<2:20:33,  1.27s/it] 86%|████████▋ | 42192/48845 [14:57:15<2:20:27,  1.27s/it] 86%|████████▋ | 42193/48845 [14:57:16<2:20:19,  1.27s/it] 86%|████████▋ | 42194/48845 [14:57:17<2:20:11,  1.26s/it] 86%|████████▋ | 42195/48845 [14:57:19<2:20:17,  1.27s/it]                                                          {'loss': 2.0941, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42195/48845 [14:57:19<2:20:17,  1.27s/it] 86%|████████▋ | 42196/48845 [14:57:20<2:20:07,  1.26s/it] 86%|████████▋ | 42197/48845 [14:57:21<2:19:59,  1.26s/it] 86%|████████▋ | 42198/48845 [14:57:22<2:19:54,  1.26s/it] 86%|████████▋ | 42199/48845 [14:57:24<2:19:53,  1.26s/it] 86%|████████▋ | 42200/48845 [14:57:25<2:19:49,  1.26s/it]                                                          {'loss': 2.0017, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42200/48845 [14:57:25<2:19:49,  1.26s/it] 86%|████████▋ | 42201/48845 [14:57:29<3:44:32,  2.03s/it] 86%|████████▋ | 42202/48845 [14:57:30<3:19:05,  1.80s/it] 86%|████████▋ | 42203/48845 [14:57:31<3:01:22,  1.64s/it] 86%|████████▋ | 42204/48845 [14:57:32<2:49:00,  1.53s/it] 86%|████████▋ | 42205/48845 [14:57:34<2:40:03,  1.45s/it]                                                          {'loss': 2.3186, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42205/48845 [14:57:34<2:40:03,  1.45s/it] 86%|████████▋ | 42206/48845 [14:57:35<2:33:54,  1.39s/it] 86%|████████▋ | 42207/48845 [14:57:36<2:29:33,  1.35s/it] 86%|████████▋ | 42208/48845 [14:57:38<2:26:30,  1.32s/it] 86%|████████▋ | 42209/48845 [14:57:39<2:26:07,  1.32s/it] 86%|████████▋ | 42210/48845 [14:57:40<2:24:06,  1.30s/it]                                                          {'loss': 2.0402, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42210/48845 [14:57:40<2:24:06,  1.30s/it] 86%|████████▋ | 42211/48845 [14:57:41<2:22:48,  1.29s/it] 86%|████████▋ | 42212/48845 [14:57:43<2:21:50,  1.28s/it] 86%|████████▋ | 42213/48845 [14:57:44<2:25:00,  1.31s/it] 86%|████████▋ | 42214/48845 [14:57:45<2:23:23,  1.30s/it] 86%|████████▋ | 42215/48845 [14:57:47<2:22:07,  1.29s/it]                                                          {'loss': 2.1021, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42215/48845 [14:57:47<2:22:07,  1.29s/it] 86%|████████▋ | 42216/48845 [14:57:48<2:21:17,  1.28s/it] 86%|████████▋ | 42217/48845 [14:57:49<2:20:46,  1.27s/it] 86%|████████▋ | 42218/48845 [14:57:50<2:20:17,  1.27s/it] 86%|████████▋ | 42219/48845 [14:57:52<2:19:56,  1.27s/it] 86%|████████▋ | 42220/48845 [14:57:53<2:19:41,  1.27s/it]                                                          {'loss': 2.1749, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42220/48845 [14:57:53<2:19:41,  1.27s/it] 86%|████████▋ | 42221/48845 [14:57:54<2:19:38,  1.26s/it] 86%|████████▋ | 42222/48845 [14:57:55<2:19:32,  1.26s/it] 86%|████████▋ | 42223/48845 [14:57:57<2:19:26,  1.26s/it] 86%|████████▋ | 42224/48845 [14:57:58<2:19:12,  1.26s/it] 86%|████████▋ | 42225/48845 [14:57:59<2:20:46,  1.28s/it]                                                          {'loss': 2.1336, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42225/48845 [14:57:59<2:20:46,  1.28s/it] 86%|████████▋ | 42226/48845 [14:58:00<2:20:20,  1.27s/it] 86%|████████▋ | 42227/48845 [14:58:02<2:19:51,  1.27s/it] 86%|████████▋ | 42228/48845 [14:58:03<2:19:33,  1.27s/it] 86%|████████▋ | 42229/48845 [14:58:04<2:19:23,  1.26s/it] 86%|████████▋ | 42230/48845 [14:58:05<2:19:16,  1.26s/it]                                                          {'loss': 2.1398, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42230/48845 [14:58:05<2:19:16,  1.26s/it] 86%|████████▋ | 42231/48845 [14:58:07<2:19:14,  1.26s/it] 86%|████████▋ | 42232/48845 [14:58:08<2:19:14,  1.26s/it] 86%|████████▋ | 42233/48845 [14:58:09<2:19:15,  1.26s/it] 86%|████████▋ | 42234/48845 [14:58:11<2:19:16,  1.26s/it] 86%|████████▋ | 42235/48845 [14:58:12<2:19:04,  1.26s/it]                                                          {'loss': 2.1425, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42235/48845 [14:58:12<2:19:04,  1.26s/it] 86%|████████▋ | 42236/48845 [14:58:13<2:19:13,  1.26s/it] 86%|████████▋ | 42237/48845 [14:58:14<2:19:22,  1.27s/it] 86%|████████▋ | 42238/48845 [14:58:16<2:25:50,  1.32s/it] 86%|████████▋ | 42239/48845 [14:58:17<2:23:43,  1.31s/it] 86%|████████▋ | 42240/48845 [14:58:18<2:22:16,  1.29s/it]                                                          {'loss': 2.1454, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42240/48845 [14:58:18<2:22:16,  1.29s/it] 86%|████████▋ | 42241/48845 [14:58:20<2:21:13,  1.28s/it] 86%|████████▋ | 42242/48845 [14:58:21<2:20:38,  1.28s/it] 86%|████████▋ | 42243/48845 [14:58:22<2:20:13,  1.27s/it] 86%|████████▋ | 42244/48845 [14:58:23<2:19:53,  1.27s/it] 86%|████████▋ | 42245/48845 [14:58:25<2:19:31,  1.27s/it]                                                          {'loss': 2.1511, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42245/48845 [14:58:25<2:19:31,  1.27s/it] 86%|████████▋ | 42246/48845 [14:58:26<2:19:25,  1.27s/it] 86%|████████▋ | 42247/48845 [14:58:27<2:19:13,  1.27s/it] 86%|████████▋ | 42248/48845 [14:58:28<2:19:04,  1.26s/it] 86%|████████▋ | 42249/48845 [14:58:30<2:19:00,  1.26s/it] 86%|████████▋ | 42250/48845 [14:58:31<2:18:51,  1.26s/it]                                                          {'loss': 2.2001, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.32}
+ 86%|████████▋ | 42250/48845 [14:58:31<2:18:51,  1.26s/it] 87%|████████▋ | 42251/48845 [14:58:32<2:18:41,  1.26s/it] 87%|████████▋ | 42252/48845 [14:58:33<2:18:41,  1.26s/it] 87%|████████▋ | 42253/48845 [14:58:35<2:18:40,  1.26s/it] 87%|████████▋ | 42254/48845 [14:58:36<2:18:48,  1.26s/it] 87%|████████▋ | 42255/48845 [14:58:37<2:18:43,  1.26s/it]                                                          {'loss': 2.0975, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42255/48845 [14:58:37<2:18:43,  1.26s/it] 87%|████████▋ | 42256/48845 [14:58:39<2:18:48,  1.26s/it] 87%|████████▋ | 42257/48845 [14:58:40<2:18:45,  1.26s/it] 87%|████████▋ | 42258/48845 [14:58:41<2:18:40,  1.26s/it] 87%|█████��██▋ | 42259/48845 [14:58:42<2:18:41,  1.26s/it] 87%|████████▋ | 42260/48845 [14:58:44<2:18:39,  1.26s/it]                                                          {'loss': 2.1622, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42260/48845 [14:58:44<2:18:39,  1.26s/it] 87%|████████▋ | 42261/48845 [14:58:45<2:18:37,  1.26s/it] 87%|████████▋ | 42262/48845 [14:58:46<2:18:41,  1.26s/it] 87%|████████▋ | 42263/48845 [14:58:47<2:18:34,  1.26s/it] 87%|████████▋ | 42264/48845 [14:58:49<2:18:35,  1.26s/it] 87%|████████▋ | 42265/48845 [14:58:50<2:18:43,  1.26s/it]                                                          {'loss': 1.9794, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42265/48845 [14:58:50<2:18:43,  1.26s/it] 87%|████████▋ | 42266/48845 [14:58:51<2:18:34,  1.26s/it] 87%|████████▋ | 42267/48845 [14:58:52<2:18:36,  1.26s/it] 87%|████████▋ | 42268/48845 [14:58:54<2:18:26,  1.26s/it] 87%|████████▋ | 42269/48845 [14:58:55<2:18:17,  1.26s/it] 87%|████████▋ | 42270/48845 [14:58:56<2:18:18,  1.26s/it]                                                          {'loss': 2.2352, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42270/48845 [14:58:56<2:18:18,  1.26s/it] 87%|████████▋ | 42271/48845 [14:58:57<2:18:22,  1.26s/it] 87%|████████▋ | 42272/48845 [14:58:59<2:18:20,  1.26s/it] 87%|████████▋ | 42273/48845 [14:59:00<2:18:12,  1.26s/it] 87%|████████▋ | 42274/48845 [14:59:01<2:18:11,  1.26s/it] 87%|████████▋ | 42275/48845 [14:59:03<2:18:11,  1.26s/it]                                                          {'loss': 1.9258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42275/48845 [14:59:03<2:18:11,  1.26s/it] 87%|████████▋ | 42276/48845 [14:59:04<2:18:12,  1.26s/it] 87%|████████▋ | 42277/48845 [14:59:05<2:18:23,  1.26s/it] 87%|████████▋ | 42278/48845 [14:59:06<2:18:17,  1.26s/it] 87%|████████▋ | 42279/48845 [14:59:08<2:18:13,  1.26s/it] 87%|████████▋ | 42280/48845 [14:59:09<2:18:08,  1.26s/it]                                                          {'loss': 2.0328, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42280/48845 [14:59:09<2:18:08,  1.26s/it] 87%|████████▋ | 42281/48845 [14:59:10<2:18:07,  1.26s/it] 87%|████████▋ | 42282/48845 [14:59:11<2:20:59,  1.29s/it] 87%|████████▋ | 42283/48845 [14:59:13<2:20:02,  1.28s/it] 87%|████████▋ | 42284/48845 [14:59:14<2:19:17,  1.27s/it] 87%|████████▋ | 42285/48845 [14:59:15<2:19:03,  1.27s/it]                                                          {'loss': 2.145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42285/48845 [14:59:15<2:19:03,  1.27s/it] 87%|████████▋ | 42286/48845 [14:59:17<2:18:59,  1.27s/it] 87%|████████▋ | 42287/48845 [14:59:18<2:18:43,  1.27s/it] 87%|████████▋ | 42288/48845 [14:59:19<2:18:21,  1.27s/it] 87%|████████▋ | 42289/48845 [14:59:20<2:18:06,  1.26s/it] 87%|████████▋ | 42290/48845 [14:59:22<2:21:46,  1.30s/it]                                                          {'loss': 2.1239, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42290/48845 [14:59:22<2:21:46,  1.30s/it] 87%|████████▋ | 42291/48845 [14:59:23<2:20:35,  1.29s/it] 87%|████████▋ | 42292/48845 [14:59:24<2:19:41,  1.28s/it] 87%|████████▋ | 42293/48845 [14:59:25<2:19:01,  1.27s/it] 87%|████████▋ | 42294/48845 [14:59:27<2:24:26,  1.32s/it] 87%|████████▋ | 42295/48845 [14:59:28<2:22:21,  1.30s/it]                                                          {'loss': 2.1305, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42295/48845 [14:59:28<2:22:21,  1.30s/it] 87%|████████▋ | 42296/48845 [14:59:29<2:20:54,  1.29s/it] 87%|████████▋ | 42297/48845 [14:59:31<2:19:53,  1.28s/it] 87%|████████▋ | 42298/48845 [14:59:32<2:19:18,  1.28s/it] 87%|████████▋ | 42299/48845 [14:59:33<2:18:50,  1.27s/it] 87%|████████▋ | 42300/48845 [14:59:34<2:18:24,  1.27s/it]                                                          {'loss': 1.921, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42300/48845 [14:59:34<2:18:24,  1.27s/it] 87%|████████▋ | 42301/48845 [14:59:36<2:18:06,  1.27s/it] 87%|████████▋ | 42302/48845 [14:59:37<2:18:10,  1.27s/it] 87%|████████▋ | 42303/48845 [14:59:38<2:17:54,  1.26s/it] 87%|████████▋ | 42304/48845 [14:59:40<2:17:50,  1.26s/it] 87%|████████▋ | 42305/48845 [14:59:41<2:17:47,  1.26s/it]                                                          {'loss': 2.0699, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42305/48845 [14:59:41<2:17:47,  1.26s/it] 87%|████████▋ | 42306/48845 [14:59:42<2:17:59,  1.27s/it] 87%|████████▋ | 42307/48845 [14:59:43<2:17:53,  1.27s/it] 87%|████████▋ | 42308/48845 [14:59:45<2:17:40,  1.26s/it] 87%|████████▋ | 42309/48845 [14:59:46<2:17:25,  1.26s/it] 87%|████████▋ | 42310/48845 [14:59:47<2:17:25,  1.26s/it]                                                          {'loss': 2.2416, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42310/48845 [14:59:47<2:17:25,  1.26s/it] 87%|████████▋ | 42311/48845 [14:59:48<2:17:26,  1.26s/it] 87%|████████▋ | 42312/48845 [14:59:50<2:17:25,  1.26s/it] 87%|████████▋ | 42313/48845 [14:59:51<2:17:17,  1.26s/it] 87%|████████▋ | 42314/48845 [14:59:52<2:17:15,  1.26s/it] 87%|████████▋ | 42315/48845 [14:59:53<2:17:15,  1.26s/it]                                                          {'loss': 2.0225, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42315/48845 [14:59:53<2:17:15,  1.26s/it] 87%|████████▋ | 42316/48845 [14:59:55<2:17:25,  1.26s/it] 87%|████████▋ | 42317/48845 [14:59:56<2:17:18,  1.26s/it] 87%|████████▋ | 42318/48845 [14:59:57<2:17:16,  1.26s/it] 87%|████████▋ | 42319/48845 [14:59:58<2:17:17,  1.26s/it] 87%|████████▋ | 42320/48845 [15:00:00<2:17:18,  1.26s/it]                                                          {'loss': 1.9463, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42320/48845 [15:00:00<2:17:18,  1.26s/it] 87%|████████▋ | 42321/48845 [15:00:01<2:17:13,  1.26s/it] 87%|████████▋ | 42322/48845 [15:00:02<2:17:11,  1.26s/it] 87%|████████▋ | 42323/48845 [15:00:04<2:17:10,  1.26s/it] 87%|████████▋ | 42324/48845 [15:00:05<2:17:10,  1.26s/it] 87%|████████▋ | 42325/48845 [15:00:06<2:17:09,  1.26s/it]                                                          {'loss': 2.0181, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42325/48845 [15:00:06<2:17:09,  1.26s/it] 87%|████████▋ | 42326/48845 [15:00:07<2:17:12,  1.26s/it] 87%|████████▋ | 42327/48845 [15:00:09<2:17:11,  1.26s/it] 87%|████████▋ | 42328/48845 [15:00:10<2:17:21,  1.26s/it] 87%|████████▋ | 42329/48845 [15:00:11<2:17:21,  1.26s/it] 87%|████████▋ | 42330/48845 [15:00:12<2:17:20,  1.26s/it]                                                          {'loss': 2.0605, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42330/48845 [15:00:12<2:17:20,  1.26s/it] 87%|████████▋ | 42331/48845 [15:00:14<2:17:12,  1.26s/it] 87%|████████▋ | 42332/48845 [15:00:15<2:17:04,  1.26s/it] 87%|████████▋ | 42333/48845 [15:00:16<2:17:09,  1.26s/it] 87%|████████▋ | 42334/48845 [15:00:17<2:18:30,  1.28s/it] 87%|████████▋ | 42335/48845 [15:00:19<2:17:57,  1.27s/it]                                                          {'loss': 2.0341, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42335/48845 [15:00:19<2:17:57,  1.27s/it] 87%|████████▋ | 42336/48845 [15:00:20<2:17:36,  1.27s/it] 87%|████████▋ | 42337/48845 [15:00:21<2:17:25,  1.27s/it] 87%|████████▋ | 42338/48845 [15:00:22<2:17:23,  1.27s/it] 87%|████████▋ | 42339/48845 [15:00:24<2:17:12,  1.27s/it] 87%|████████▋ | 42340/48845 [15:00:25<2:17:01,  1.26s/it]                                                          {'loss': 2.1097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42340/48845 [15:00:25<2:17:01,  1.26s/it] 87%|████████▋ | 42341/48845 [15:00:26<2:16:50,  1.26s/it] 87%|████████▋ | 42342/48845 [15:00:28<2:16:47,  1.26s/it] 87%|████████▋ | 42343/48845 [15:00:29<2:16:46,  1.26s/it] 87%|████████▋ | 42344/48845 [15:00:30<2:16:34,  1.26s/it] 87%|████████▋ | 42345/48845 [15:00:31<2:16:30,  1.26s/it]                                                          {'loss': 2.1252, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.33}
+ 87%|████████▋ | 42345/48845 [15:00:31<2:16:30,  1.26s/it] 87%|████████▋ | 42346/48845 [15:00:33<2:17:12,  1.27s/it] 87%|████████▋ | 42347/48845 [15:00:34<2:17:01,  1.27s/it] 87%|████████▋ | 42348/48845 [15:00:35<2:16:55,  1.26s/it] 87%|████████▋ | 42349/48845 [15:00:36<2:16:51,  1.26s/it] 87%|████████▋ | 42350/48845 [15:00:38<2:16:54,  1.26s/it]                                                          {'loss': 2.2144, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42350/48845 [15:00:38<2:16:54,  1.26s/it] 87%|████████▋ | 42351/48845 [15:00:39<2:17:00,  1.27s/it] 87%|████████▋ | 42352/48845 [15:00:40<2:16:46,  1.26s/it] 87%|████████▋ | 42353/48845 [15:00:41<2:16:43,  1.26s/it] 87%|████████▋ | 42354/48845 [15:00:43<2:16:52,  1.27s/it] 87%|████████▋ | 42355/48845 [15:00:44<2:16:42,  1.26s/it]                                                          {'loss': 2.0662, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42355/48845 [15:00:44<2:16:42,  1.26s/it] 87%|████████▋ | 42356/48845 [15:00:45<2:16:36,  1.26s/it] 87%|████████▋ | 42357/48845 [15:00:46<2:16:30,  1.26s/it] 87%|████████▋ | 42358/48845 [15:00:48<2:16:58,  1.27s/it] 87%|████████▋ | 42359/48845 [15:00:49<2:16:47,  1.27s/it] 87%|████████▋ | 42360/48845 [15:00:50<2:16:34,  1.26s/it]                                                          {'loss': 1.9848, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42360/48845 [15:00:50<2:16:34,  1.26s/it] 87%|████████▋ | 42361/48845 [15:00:52<2:16:33,  1.26s/it] 87%|████████▋ | 42362/48845 [15:00:53<2:16:40,  1.26s/it] 87%|████████▋ | 42363/48845 [15:00:54<2:16:46,  1.27s/it] 87%|████████▋ | 42364/48845 [15:00:55<2:16:43,  1.27s/it] 87%|████████▋ | 42365/48845 [15:00:57<2:16:41,  1.27s/it]                                                          {'loss': 2.0936, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42365/48845 [15:00:57<2:16:41,  1.27s/it] 87%|████████▋ | 42366/48845 [15:00:58<2:16:50,  1.27s/it] 87%|████████▋ | 42367/48845 [15:00:59<2:16:37,  1.27s/it] 87%|████████▋ | 42368/48845 [15:01:00<2:16:43,  1.27s/it] 87%|████████▋ | 42369/48845 [15:01:02<2:16:38,  1.27s/it] 87%|████████▋ | 42370/48845 [15:01:03<2:16:27,  1.26s/it]                                                          {'loss': 2.1186, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42370/48845 [15:01:03<2:16:27,  1.26s/it] 87%|████████▋ | 42371/48845 [15:01:04<2:16:25,  1.26s/it] 87%|████████▋ | 42372/48845 [15:01:05<2:16:17,  1.26s/it] 87%|████████▋ | 42373/48845 [15:01:07<2:16:18,  1.26s/it] 87%|████████▋ | 42374/48845 [15:01:08<2:16:20,  1.26s/it] 87%|████████▋ | 42375/48845 [15:01:09<2:16:19,  1.26s/it]                                                          {'loss': 2.1756, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42375/48845 [15:01:09<2:16:19,  1.26s/it] 87%|████████▋ | 42376/48845 [15:01:11<2:16:11,  1.26s/it] 87%|████████▋ | 42377/48845 [15:01:12<2:16:02,  1.26s/it] 87%|████████▋ | 42378/48845 [15:01:13<2:15:54,  1.26s/it] 87%|████████▋ | 42379/48845 [15:01:14<2:15:55,  1.26s/it] 87%|████████▋ | 42380/48845 [15:01:16<2:15:53,  1.26s/it]                                                          {'loss': 2.1254, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42380/48845 [15:01:16<2:15:53,  1.26s/it] 87%|████████▋ | 42381/48845 [15:01:17<2:15:55,  1.26s/it] 87%|████████▋ | 42382/48845 [15:01:18<2:15:57,  1.26s/it] 87%|████████▋ | 42383/48845 [15:01:19<2:15:58,  1.26s/it] 87%|████████▋ | 42384/48845 [15:01:21<2:15:53,  1.26s/it] 87%|████████▋ | 42385/48845 [15:01:22<2:15:50,  1.26s/it]                                                          {'loss': 1.9959, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42385/48845 [15:01:22<2:15:50,  1.26s/it] 87%|████████▋ | 42386/48845 [15:01:23<2:16:10,  1.27s/it] 87%|████████▋ | 42387/48845 [15:01:24<2:16:08,  1.26s/it] 87%|████████▋ | 42388/48845 [15:01:26<2:15:58,  1.26s/it] 87%|████████▋ | 42389/48845 [15:01:27<2:15:51,  1.26s/it] 87%|████████▋ | 42390/48845 [15:01:28<2:15:51,  1.26s/it]                                                          {'loss': 1.9522, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42390/48845 [15:01:28<2:15:51,  1.26s/it] 87%|████████▋ | 42391/48845 [15:01:29<2:16:06,  1.27s/it] 87%|████████▋ | 42392/48845 [15:01:31<2:16:06,  1.27s/it] 87%|████████▋ | 42393/48845 [15:01:32<2:16:04,  1.27s/it] 87%|████████▋ | 42394/48845 [15:01:33<2:16:28,  1.27s/it] 87%|████████▋ | 42395/48845 [15:01:35<2:16:14,  1.27s/it]                                                          {'loss': 2.165, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42395/48845 [15:01:35<2:16:14,  1.27s/it] 87%|████████▋ | 42396/48845 [15:01:36<2:16:12,  1.27s/it] 87%|████████▋ | 42397/48845 [15:01:37<2:16:07,  1.27s/it] 87%|████████▋ | 42398/48845 [15:01:38<2:15:58,  1.27s/it] 87%|████████▋ | 42399/48845 [15:01:40<2:15:51,  1.26s/it] 87%|████████▋ | 42400/48845 [15:01:41<2:15:49,  1.26s/it]                                                          {'loss': 1.9969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42400/48845 [15:01:41<2:15:49,  1.26s/it] 87%|████████▋ | 42401/48845 [15:01:45<3:39:00,  2.04s/it] 87%|████████▋ | 42402/48845 [15:01:46<3:13:49,  1.80s/it] 87%|████████▋ | 42403/48845 [15:01:47<2:56:14,  1.64s/it] 87%|████████▋ | 42404/48845 [15:01:48<2:43:58,  1.53s/it] 87%|████████▋ | 42405/48845 [15:01:50<2:35:21,  1.45s/it]                                                          {'loss': 2.0228, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42405/48845 [15:01:50<2:35:21,  1.45s/it] 87%|████████▋ | 42406/48845 [15:01:51<2:29:23,  1.39s/it] 87%|████████▋ | 42407/48845 [15:01:52<2:25:18,  1.35s/it] 87%|████████▋ | 42408/48845 [15:01:54<2:22:18,  1.33s/it] 87%|████████▋ | 42409/48845 [15:01:55<2:20:14,  1.31s/it] 87%|████████▋ | 42410/48845 [15:01:56<2:18:45,  1.29s/it]                                                          {'loss': 2.194, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42410/48845 [15:01:56<2:18:45,  1.29s/it] 87%|████████▋ | 42411/48845 [15:01:57<2:17:44,  1.28s/it] 87%|████████▋ | 42412/48845 [15:01:59<2:18:38,  1.29s/it] 87%|████████▋ | 42413/48845 [15:02:00<2:17:37,  1.28s/it] 87%|████████▋ | 42414/48845 [15:02:01<2:16:57,  1.28s/it] 87%|████████▋ | 42415/48845 [15:02:02<2:16:24,  1.27s/it]                                                          {'loss': 2.0389, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42415/48845 [15:02:02<2:16:24,  1.27s/it] 87%|████████▋ | 42416/48845 [15:02:04<2:16:04,  1.27s/it] 87%|████████▋ | 42417/48845 [15:02:05<2:15:34,  1.27s/it] 87%|████████▋ | 42418/48845 [15:02:06<2:15:21,  1.26s/it] 87%|████████▋ | 42419/48845 [15:02:07<2:15:16,  1.26s/it] 87%|████████▋ | 42420/48845 [15:02:09<2:15:27,  1.27s/it]                                                          {'loss': 2.242, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42420/48845 [15:02:09<2:15:27,  1.27s/it] 87%|████████▋ | 42421/48845 [15:02:10<2:15:37,  1.27s/it] 87%|████████▋ | 42422/48845 [15:02:11<2:15:24,  1.26s/it] 87%|████████▋ | 42423/48845 [15:02:13<2:15:26,  1.27s/it] 87%|████████▋ | 42424/48845 [15:02:14<2:15:19,  1.26s/it] 87%|████████▋ | 42425/48845 [15:02:15<2:15:17,  1.26s/it]                                                          {'loss': 2.141, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42425/48845 [15:02:15<2:15:17,  1.26s/it] 87%|████████▋ | 42426/48845 [15:02:16<2:15:12,  1.26s/it] 87%|████████▋ | 42427/48845 [15:02:18<2:15:08,  1.26s/it] 87%|████████▋ | 42428/48845 [15:02:19<2:15:20,  1.27s/it] 87%|████████▋ | 42429/48845 [15:02:20<2:15:36,  1.27s/it] 87%|████████▋ | 42430/48845 [15:02:21<2:15:24,  1.27s/it]                                                          {'loss': 2.0614, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42430/48845 [15:02:21<2:15:24,  1.27s/it] 87%|████████▋ | 42431/48845 [15:02:23<2:15:20,  1.27s/it] 87%|████████▋ | 42432/48845 [15:02:24<2:15:18,  1.27s/it] 87%|████████▋ | 42433/48845 [15:02:25<2:15:22,  1.27s/it] 87%|████████▋ | 42434/48845 [15:02:26<2:15:09,  1.26s/it] 87%|████████▋ | 42435/48845 [15:02:28<2:15:01,  1.26s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42435/48845 [15:02:28<2:15:01,  1.26s/it] 87%|████████▋ | 42436/48845 [15:02:29<2:15:04,  1.26s/it] 87%|████████▋ | 42437/48845 [15:02:30<2:15:06,  1.27s/it] 87%|████████▋ | 42438/48845 [15:02:32<2:15:00,  1.26s/it] 87%|████████▋ | 42439/48845 [15:02:33<2:14:52,  1.26s/it] 87%|████████▋ | 42440/48845 [15:02:34<2:14:51,  1.26s/it]                                                          {'loss': 1.862, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42440/48845 [15:02:34<2:14:51,  1.26s/it] 87%|████████▋ | 42441/48845 [15:02:35<2:15:06,  1.27s/it] 87%|████████▋ | 42442/48845 [15:02:37<2:14:59,  1.26s/it] 87%|████████▋ | 42443/48845 [15:02:38<2:14:53,  1.26s/it] 87%|████████▋ | 42444/48845 [15:02:39<2:14:59,  1.27s/it] 87%|████████▋ | 42445/48845 [15:02:40<2:14:55,  1.26s/it]                                                          {'loss': 1.9501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.34}
+ 87%|████████▋ | 42445/48845 [15:02:40<2:14:55,  1.26s/it] 87%|████████▋ | 42446/48845 [15:02:42<2:14:50,  1.26s/it] 87%|████████▋ | 42447/48845 [15:02:43<2:14:42,  1.26s/it] 87%|████████▋ | 42448/48845 [15:02:44<2:14:54,  1.27s/it] 87%|████████▋ | 42449/48845 [15:02:45<2:14:42,  1.26s/it] 87%|████████▋ | 42450/48845 [15:02:47<2:14:34,  1.26s/it]                                                          {'loss': 2.05, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42450/48845 [15:02:47<2:14:34,  1.26s/it] 87%|████████▋ | 42451/48845 [15:02:48<2:14:45,  1.26s/it] 87%|████████▋ | 42452/48845 [15:02:49<2:14:48,  1.27s/it] 87%|████████▋ | 42453/48845 [15:02:50<2:14:40,  1.26s/it] 87%|████████▋ | 42454/48845 [15:02:52<2:14:30,  1.26s/it] 87%|████████▋ | 42455/48845 [15:02:53<2:14:29,  1.26s/it]                                                          {'loss': 1.9861, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42455/48845 [15:02:53<2:14:29,  1.26s/it] 87%|████████▋ | 42456/48845 [15:02:54<2:14:50,  1.27s/it] 87%|████████▋ | 42457/48845 [15:02:56<2:14:55,  1.27s/it] 87%|████████▋ | 42458/48845 [15:02:57<2:14:46,  1.27s/it] 87%|████████▋ | 42459/48845 [15:02:58<2:22:06,  1.34s/it] 87%|████████▋ | 42460/48845 [15:03:00<2:19:45,  1.31s/it]                                                          {'loss': 2.0881, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42460/48845 [15:03:00<2:19:45,  1.31s/it] 87%|████████▋ | 42461/48845 [15:03:01<2:18:12,  1.30s/it] 87%|████████▋ | 42462/48845 [15:03:02<2:17:02,  1.29s/it] 87%|████████▋ | 42463/48845 [15:03:03<2:16:22,  1.28s/it] 87%|████████▋ | 42464/48845 [15:03:05<2:21:14,  1.33s/it] 87%|████████▋ | 42465/48845 [15:03:06<2:19:12,  1.31s/it]                                                          {'loss': 2.1312, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42465/48845 [15:03:06<2:19:12,  1.31s/it] 87%|████████▋ | 42466/48845 [15:03:07<2:17:50,  1.30s/it] 87%|████████▋ | 42467/48845 [15:03:09<2:16:40,  1.29s/it] 87%|████████▋ | 42468/48845 [15:03:10<2:16:05,  1.28s/it] 87%|████████▋ | 42469/48845 [15:03:11<2:15:41,  1.28s/it] 87%|████████▋ | 42470/48845 [15:03:12<2:15:10,  1.27s/it]                                                          {'loss': 1.9639, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42470/48845 [15:03:12<2:15:10,  1.27s/it] 87%|████████▋ | 42471/48845 [15:03:14<2:15:12,  1.27s/it] 87%|████████▋ | 42472/48845 [15:03:15<2:14:58,  1.27s/it] 87%|████████▋ | 42473/48845 [15:03:16<2:15:00,  1.27s/it] 87%|████████▋ | 42474/48845 [15:03:17<2:14:42,  1.27s/it] 87%|████████▋ | 42475/48845 [15:03:19<2:14:28,  1.27s/it]                                                          {'loss': 2.0443, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42475/48845 [15:03:19<2:14:28,  1.27s/it] 87%|████████▋ | 42476/48845 [15:03:20<2:15:55,  1.28s/it] 87%|████████▋ | 42477/48845 [15:03:21<2:15:17,  1.27s/it] 87%|████████▋ | 42478/48845 [15:03:23<2:15:05,  1.27s/it] 87%|████████▋ | 42479/48845 [15:03:24<2:14:45,  1.27s/it] 87%|████████▋ | 42480/48845 [15:03:25<2:18:33,  1.31s/it]                                                          {'loss': 2.1548, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42480/48845 [15:03:25<2:18:33,  1.31s/it] 87%|████████▋ | 42481/48845 [15:03:26<2:17:20,  1.29s/it] 87%|████████▋ | 42482/48845 [15:03:28<2:16:23,  1.29s/it] 87%|████████▋ | 42483/48845 [15:03:29<2:15:31,  1.28s/it] 87%|████████▋ | 42484/48845 [15:03:30<2:15:04,  1.27s/it] 87%|████████▋ | 42485/48845 [15:03:32<2:14:41,  1.27s/it]                                                          {'loss': 1.9884, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42485/48845 [15:03:32<2:14:41,  1.27s/it] 87%|████████▋ | 42486/48845 [15:03:33<2:14:41,  1.27s/it] 87%|████████▋ | 42487/48845 [15:03:34<2:14:20,  1.27s/it] 87%|████████▋ | 42488/48845 [15:03:35<2:14:00,  1.26s/it] 87%|████████▋ | 42489/48845 [15:03:37<2:13:51,  1.26s/it] 87%|████████▋ | 42490/48845 [15:03:38<2:13:50,  1.26s/it]                                                          {'loss': 1.9309, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42490/48845 [15:03:38<2:13:50,  1.26s/it] 87%|████████▋ | 42491/48845 [15:03:39<2:14:06,  1.27s/it] 87%|████████▋ | 42492/48845 [15:03:40<2:13:54,  1.26s/it] 87%|████████▋ | 42493/48845 [15:03:42<2:13:50,  1.26s/it] 87%|████████▋ | 42494/48845 [15:03:43<2:13:45,  1.26s/it] 87%|████████▋ | 42495/48845 [15:03:44<2:13:44,  1.26s/it]                                                          {'loss': 1.955, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42495/48845 [15:03:44<2:13:44,  1.26s/it] 87%|████████▋ | 42496/48845 [15:03:45<2:13:59,  1.27s/it] 87%|████████▋ | 42497/48845 [15:03:47<2:13:51,  1.27s/it] 87%|████████▋ | 42498/48845 [15:03:48<2:13:46,  1.26s/it] 87%|████████▋ | 42499/48845 [15:03:49<2:14:00,  1.27s/it] 87%|████████▋ | 42500/48845 [15:03:51<2:13:59,  1.27s/it]                                                          {'loss': 2.0406, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42500/48845 [15:03:51<2:13:59,  1.27s/it] 87%|████████▋ | 42501/48845 [15:03:52<2:14:06,  1.27s/it] 87%|████████▋ | 42502/48845 [15:03:53<2:14:02,  1.27s/it] 87%|████████▋ | 42503/48845 [15:03:54<2:14:09,  1.27s/it] 87%|████████▋ | 42504/48845 [15:03:56<2:13:49,  1.27s/it] 87%|████████▋ | 42505/48845 [15:03:57<2:13:36,  1.26s/it]                                                          {'loss': 2.0461, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42505/48845 [15:03:57<2:13:36,  1.26s/it] 87%|████████▋ | 42506/48845 [15:03:58<2:13:44,  1.27s/it] 87%|████████▋ | 42507/48845 [15:03:59<2:14:01,  1.27s/it] 87%|████████▋ | 42508/48845 [15:04:01<2:13:49,  1.27s/it] 87%|████████▋ | 42509/48845 [15:04:02<2:13:37,  1.27s/it] 87%|████████▋ | 42510/48845 [15:04:03<2:13:39,  1.27s/it]                                                          {'loss': 2.1142, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42510/48845 [15:04:03<2:13:39,  1.27s/it] 87%|████████▋ | 42511/48845 [15:04:04<2:13:49,  1.27s/it] 87%|████████▋ | 42512/48845 [15:04:06<2:13:46,  1.27s/it] 87%|████████▋ | 42513/48845 [15:04:07<2:13:32,  1.27s/it] 87%|████████▋ | 42514/48845 [15:04:08<2:13:27,  1.26s/it] 87%|████████▋ | 42515/48845 [15:04:10<2:13:48,  1.27s/it]                                                          {'loss': 1.9181, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42515/48845 [15:04:10<2:13:48,  1.27s/it] 87%|████████▋ | 42516/48845 [15:04:11<2:13:41,  1.27s/it] 87%|████████▋ | 42517/48845 [15:04:12<2:13:27,  1.27s/it] 87%|████████▋ | 42518/48845 [15:04:13<2:13:22,  1.26s/it] 87%|████████▋ | 42519/48845 [15:04:15<2:19:09,  1.32s/it] 87%|████████▋ | 42520/48845 [15:04:16<2:17:14,  1.30s/it]                                                          {'loss': 2.047, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42520/48845 [15:04:16<2:17:14,  1.30s/it] 87%|████████▋ | 42521/48845 [15:04:17<2:16:04,  1.29s/it] 87%|████████▋ | 42522/48845 [15:04:19<2:15:14,  1.28s/it] 87%|████████▋ | 42523/48845 [15:04:20<2:15:01,  1.28s/it] 87%|████████▋ | 42524/48845 [15:04:21<2:14:38,  1.28s/it] 87%|████████▋ | 42525/48845 [15:04:22<2:14:13,  1.27s/it]                                                          {'loss': 2.019, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42525/48845 [15:04:22<2:14:13,  1.27s/it] 87%|████████▋ | 42526/48845 [15:04:24<2:13:59,  1.27s/it] 87%|████████▋ | 42527/48845 [15:04:25<2:13:45,  1.27s/it] 87%|████████▋ | 42528/48845 [15:04:26<2:13:24,  1.27s/it] 87%|████████▋ | 42529/48845 [15:04:27<2:13:12,  1.27s/it] 87%|████████▋ | 42530/48845 [15:04:29<2:13:07,  1.26s/it]                                                          {'loss': 2.1816, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42530/48845 [15:04:29<2:13:07,  1.26s/it] 87%|████████▋ | 42531/48845 [15:04:30<2:13:26,  1.27s/it] 87%|████████▋ | 42532/48845 [15:04:31<2:13:10,  1.27s/it] 87%|████████▋ | 42533/48845 [15:04:32<2:13:03,  1.26s/it] 87%|████████▋ | 42534/48845 [15:04:34<2:12:57,  1.26s/it] 87%|████████▋ | 42535/48845 [15:04:35<2:15:05,  1.28s/it]                                                          {'loss': 2.0095, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42535/48845 [15:04:35<2:15:05,  1.28s/it] 87%|████████▋ | 42536/48845 [15:04:36<2:14:35,  1.28s/it] 87%|████████▋ | 42537/48845 [15:04:38<2:13:56,  1.27s/it] 87%|████████▋ | 42538/48845 [15:04:39<2:13:42,  1.27s/it] 87%|████████▋ | 42539/48845 [15:04:40<2:13:33,  1.27s/it] 87%|████████▋ | 42540/48845 [15:04:41<2:13:12,  1.27s/it]                                                          {'loss': 2.1439, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.35}
+ 87%|████████▋ | 42540/48845 [15:04:41<2:13:12,  1.27s/it] 87%|████████▋ | 42541/48845 [15:04:43<2:13:19,  1.27s/it] 87%|████████▋ | 42542/48845 [15:04:44<2:13:15,  1.27s/it] 87%|████████▋ | 42543/48845 [15:04:45<2:13:20,  1.27s/it] 87%|████████▋ | 42544/48845 [15:04:46<2:13:01,  1.27s/it] 87%|████████▋ | 42545/48845 [15:04:48<2:12:47,  1.26s/it]                                                          {'loss': 2.138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42545/48845 [15:04:48<2:12:47,  1.26s/it] 87%|████████▋ | 42546/48845 [15:04:49<2:12:46,  1.26s/it] 87%|████████▋ | 42547/48845 [15:04:50<2:13:02,  1.27s/it] 87%|████████▋ | 42548/48845 [15:04:52<2:12:51,  1.27s/it] 87%|████████▋ | 42549/48845 [15:04:53<2:12:41,  1.26s/it] 87%|████████▋ | 42550/48845 [15:04:54<2:12:33,  1.26s/it]                                                          {'loss': 2.0562, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42550/48845 [15:04:54<2:12:33,  1.26s/it] 87%|████████▋ | 42551/48845 [15:04:55<2:12:53,  1.27s/it] 87%|████████▋ | 42552/48845 [15:04:57<2:12:39,  1.26s/it] 87%|████████▋ | 42553/48845 [15:04:58<2:12:31,  1.26s/it] 87%|████████▋ | 42554/48845 [15:04:59<2:12:27,  1.26s/it] 87%|████████▋ | 42555/48845 [15:05:01<2:16:48,  1.31s/it]                                                          {'loss': 2.0197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42555/48845 [15:05:01<2:16:48,  1.31s/it] 87%|████████▋ | 42556/48845 [15:05:02<2:15:40,  1.29s/it] 87%|████████▋ | 42557/48845 [15:05:03<2:14:46,  1.29s/it] 87%|████████▋ | 42558/48845 [15:05:04<2:14:06,  1.28s/it] 87%|████████▋ | 42559/48845 [15:05:06<2:16:50,  1.31s/it] 87%|████████▋ | 42560/48845 [15:05:07<2:15:23,  1.29s/it]                                                          {'loss': 2.0619, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42560/48845 [15:05:07<2:15:23,  1.29s/it] 87%|████████▋ | 42561/48845 [15:05:08<2:14:46,  1.29s/it] 87%|████████▋ | 42562/48845 [15:05:09<2:14:10,  1.28s/it] 87%|████████▋ | 42563/48845 [15:05:11<2:13:56,  1.28s/it] 87%|████████▋ | 42564/48845 [15:05:12<2:13:19,  1.27s/it] 87%|████████▋ | 42565/48845 [15:05:13<2:12:52,  1.27s/it]                                                          {'loss': 2.0224, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42565/48845 [15:05:13<2:12:52,  1.27s/it] 87%|████████▋ | 42566/48845 [15:05:15<2:12:49,  1.27s/it] 87%|████████▋ | 42567/48845 [15:05:16<2:12:49,  1.27s/it] 87%|████████▋ | 42568/48845 [15:05:17<2:12:30,  1.27s/it] 87%|████████▋ | 42569/48845 [15:05:18<2:12:32,  1.27s/it] 87%|████████▋ | 42570/48845 [15:05:20<2:12:22,  1.27s/it]                                                          {'loss': 2.1982, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42570/48845 [15:05:20<2:12:22,  1.27s/it] 87%|████████▋ | 42571/48845 [15:05:21<2:16:12,  1.30s/it] 87%|████████▋ | 42572/48845 [15:05:22<2:14:52,  1.29s/it] 87%|████████▋ | 42573/48845 [15:05:24<2:14:11,  1.28s/it] 87%|████████▋ | 42574/48845 [15:05:25<2:13:47,  1.28s/it] 87%|████████▋ | 42575/48845 [15:05:26<2:14:36,  1.29s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42575/48845 [15:05:26<2:14:36,  1.29s/it] 87%|████████▋ | 42576/48845 [15:05:27<2:13:59,  1.28s/it] 87%|████████▋ | 42577/48845 [15:05:29<2:13:30,  1.28s/it] 87%|████████▋ | 42578/48845 [15:05:30<2:13:05,  1.27s/it] 87%|████████▋ | 42579/48845 [15:05:31<2:14:45,  1.29s/it] 87%|████████▋ | 42580/48845 [15:05:33<2:13:55,  1.28s/it]                                                          {'loss': 1.9938, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42580/48845 [15:05:33<2:13:55,  1.28s/it] 87%|████████▋ | 42581/48845 [15:05:34<2:13:36,  1.28s/it] 87%|████████▋ | 42582/48845 [15:05:35<2:12:55,  1.27s/it] 87%|████████▋ | 42583/48845 [15:05:36<2:14:19,  1.29s/it] 87%|████████▋ | 42584/48845 [15:05:38<2:13:28,  1.28s/it] 87%|████████▋ | 42585/48845 [15:05:39<2:12:49,  1.27s/it]                                                          {'loss': 1.9616, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42585/48845 [15:05:39<2:12:49,  1.27s/it] 87%|████████▋ | 42586/48845 [15:05:40<2:12:40,  1.27s/it] 87%|████████▋ | 42587/48845 [15:05:42<2:16:55,  1.31s/it] 87%|████████▋ | 42588/48845 [15:05:43<2:15:20,  1.30s/it] 87%|████████▋ | 42589/48845 [15:05:44<2:14:07,  1.29s/it] 87%|████████▋ | 42590/48845 [15:05:45<2:13:24,  1.28s/it]                                                          {'loss': 2.2295, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42590/48845 [15:05:45<2:13:24,  1.28s/it] 87%|████████▋ | 42591/48845 [15:05:47<2:13:14,  1.28s/it] 87%|████████▋ | 42592/48845 [15:05:48<2:12:48,  1.27s/it] 87%|████████▋ | 42593/48845 [15:05:49<2:12:21,  1.27s/it] 87%|████████▋ | 42594/48845 [15:05:50<2:12:11,  1.27s/it] 87%|████████▋ | 42595/48845 [15:05:52<2:13:21,  1.28s/it]                                                          {'loss': 2.073, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42595/48845 [15:05:52<2:13:21,  1.28s/it] 87%|████████▋ | 42596/48845 [15:05:53<2:13:01,  1.28s/it] 87%|████████▋ | 42597/48845 [15:05:54<2:12:39,  1.27s/it] 87%|████████▋ | 42598/48845 [15:05:56<2:12:16,  1.27s/it] 87%|████████▋ | 42599/48845 [15:05:57<2:13:54,  1.29s/it] 87%|████████▋ | 42600/48845 [15:05:58<2:13:11,  1.28s/it]                                                          {'loss': 1.9766, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42600/48845 [15:05:58<2:13:11,  1.28s/it] 87%|████████▋ | 42601/48845 [15:06:02<3:33:31,  2.05s/it] 87%|████████▋ | 42602/48845 [15:06:03<3:08:54,  1.82s/it] 87%|████████▋ | 42603/48845 [15:06:04<2:51:31,  1.65s/it] 87%|████████▋ | 42604/48845 [15:06:06<2:39:25,  1.53s/it] 87%|████████▋ | 42605/48845 [15:06:07<2:33:14,  1.47s/it]                                                          {'loss': 1.9657, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42605/48845 [15:06:07<2:33:14,  1.47s/it] 87%|████████▋ | 42606/48845 [15:06:08<2:26:31,  1.41s/it] 87%|████████▋ | 42607/48845 [15:06:10<2:21:47,  1.36s/it] 87%|████████▋ | 42608/48845 [15:06:11<2:18:25,  1.33s/it] 87%|████████▋ | 42609/48845 [15:06:12<2:16:17,  1.31s/it] 87%|████████▋ | 42610/48845 [15:06:13<2:14:37,  1.30s/it]                                                          {'loss': 1.9607, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42610/48845 [15:06:13<2:14:37,  1.30s/it] 87%|████████▋ | 42611/48845 [15:06:15<2:13:25,  1.28s/it] 87%|████████▋ | 42612/48845 [15:06:16<2:12:44,  1.28s/it] 87%|████████▋ | 42613/48845 [15:06:17<2:12:18,  1.27s/it] 87%|████████▋ | 42614/48845 [15:06:18<2:11:55,  1.27s/it] 87%|████████▋ | 42615/48845 [15:06:20<2:11:41,  1.27s/it]                                                          {'loss': 1.9305, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42615/48845 [15:06:20<2:11:41,  1.27s/it] 87%|████████▋ | 42616/48845 [15:06:21<2:11:27,  1.27s/it] 87%|████████▋ | 42617/48845 [15:06:22<2:12:04,  1.27s/it] 87%|████████▋ | 42618/48845 [15:06:23<2:11:41,  1.27s/it] 87%|████████▋ | 42619/48845 [15:06:25<2:11:19,  1.27s/it] 87%|████████▋ | 42620/48845 [15:06:26<2:11:08,  1.26s/it]                                                          {'loss': 2.1109, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42620/48845 [15:06:26<2:11:08,  1.26s/it] 87%|████████▋ | 42621/48845 [15:06:27<2:15:43,  1.31s/it] 87%|████████▋ | 42622/48845 [15:06:29<2:14:11,  1.29s/it] 87%|████████▋ | 42623/48845 [15:06:30<2:13:07,  1.28s/it] 87%|████████▋ | 42624/48845 [15:06:31<2:12:21,  1.28s/it] 87%|████████▋ | 42625/48845 [15:06:32<2:11:54,  1.27s/it]                                                          {'loss': 2.2011, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42625/48845 [15:06:32<2:11:54,  1.27s/it] 87%|████████▋ | 42626/48845 [15:06:34<2:11:29,  1.27s/it] 87%|████████▋ | 42627/48845 [15:06:35<2:11:09,  1.27s/it] 87%|████████▋ | 42628/48845 [15:06:36<2:10:53,  1.26s/it] 87%|████████▋ | 42629/48845 [15:06:38<2:12:01,  1.27s/it] 87%|████████▋ | 42630/48845 [15:06:39<2:11:36,  1.27s/it]                                                          {'loss': 2.1138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42630/48845 [15:06:39<2:11:36,  1.27s/it] 87%|████████▋ | 42631/48845 [15:06:40<2:11:15,  1.27s/it] 87%|████████▋ | 42632/48845 [15:06:41<2:11:21,  1.27s/it] 87%|████████▋ | 42633/48845 [15:06:43<2:11:12,  1.27s/it] 87%|████████▋ | 42634/48845 [15:06:44<2:11:07,  1.27s/it] 87%|████████▋ | 42635/48845 [15:06:45<2:10:55,  1.26s/it]                                                          {'loss': 2.2006, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42635/48845 [15:06:45<2:10:55,  1.26s/it] 87%|████████▋ | 42636/48845 [15:06:46<2:10:47,  1.26s/it] 87%|████████▋ | 42637/48845 [15:06:48<2:10:41,  1.26s/it] 87%|████████▋ | 42638/48845 [15:06:49<2:10:41,  1.26s/it] 87%|████████▋ | 42639/48845 [15:06:50<2:10:43,  1.26s/it] 87%|████████▋ | 42640/48845 [15:06:51<2:10:30,  1.26s/it]                                                          {'loss': 2.2899, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.36}
+ 87%|████████▋ | 42640/48845 [15:06:51<2:10:30,  1.26s/it] 87%|████████▋ | 42641/48845 [15:06:53<2:10:39,  1.26s/it] 87%|████████▋ | 42642/48845 [15:06:54<2:10:34,  1.26s/it] 87%|████████▋ | 42643/48845 [15:06:55<2:10:27,  1.26s/it] 87%|████████▋ | 42644/48845 [15:06:56<2:10:24,  1.26s/it] 87%|████████▋ | 42645/48845 [15:06:58<2:10:27,  1.26s/it]                                                          {'loss': 2.1808, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42645/48845 [15:06:58<2:10:27,  1.26s/it] 87%|████████▋ | 42646/48845 [15:06:59<2:10:28,  1.26s/it] 87%|████████▋ | 42647/48845 [15:07:00<2:10:22,  1.26s/it] 87%|████████▋ | 42648/48845 [15:07:02<2:10:30,  1.26s/it] 87%|████████▋ | 42649/48845 [15:07:03<2:14:25,  1.30s/it] 87%|████████▋ | 42650/48845 [15:07:04<2:13:09,  1.29s/it]                                                          {'loss': 2.0263, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42650/48845 [15:07:04<2:13:09,  1.29s/it] 87%|████████▋ | 42651/48845 [15:07:05<2:12:23,  1.28s/it] 87%|████████▋ | 42652/48845 [15:07:07<2:13:48,  1.30s/it] 87%|████████▋ | 42653/48845 [15:07:08<2:12:39,  1.29s/it] 87%|████████▋ | 42654/48845 [15:07:09<2:11:58,  1.28s/it] 87%|████████▋ | 42655/48845 [15:07:11<2:11:28,  1.27s/it]                                                          {'loss': 2.1532, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42655/48845 [15:07:11<2:11:28,  1.27s/it] 87%|████████▋ | 42656/48845 [15:07:12<2:11:11,  1.27s/it] 87%|████████▋ | 42657/48845 [15:07:13<2:11:01,  1.27s/it] 87%|████████▋ | 42658/48845 [15:07:14<2:10:48,  1.27s/it] 87%|████████▋ | 42659/48845 [15:07:16<2:10:34,  1.27s/it] 87%|████████▋ | 42660/48845 [15:07:17<2:10:26,  1.27s/it]                                                          {'loss': 1.9523, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42660/48845 [15:07:17<2:10:26,  1.27s/it] 87%|████████▋ | 42661/48845 [15:07:18<2:10:33,  1.27s/it] 87%|████████▋ | 42662/48845 [15:07:19<2:10:19,  1.26s/it] 87%|████████▋ | 42663/48845 [15:07:21<2:10:12,  1.26s/it] 87%|████████▋ | 42664/48845 [15:07:22<2:10:04,  1.26s/it] 87%|████████▋ | 42665/48845 [15:07:23<2:10:02,  1.26s/it]                                                          {'loss': 2.0706, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42665/48845 [15:07:23<2:10:02,  1.26s/it] 87%|████████▋ | 42666/48845 [15:07:24<2:10:06,  1.26s/it] 87%|████████▋ | 42667/48845 [15:07:26<2:09:57,  1.26s/it] 87%|████████▋ | 42668/48845 [15:07:27<2:09:52,  1.26s/it] 87%|████████▋ | 42669/48845 [15:07:28<2:10:02,  1.26s/it] 87%|████████▋ | 42670/48845 [15:07:30<2:09:59,  1.26s/it]                                                          {'loss': 2.0815, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42670/48845 [15:07:30<2:09:59,  1.26s/it] 87%|████████▋ | 42671/48845 [15:07:31<2:09:58,  1.26s/it] 87%|████████▋ | 42672/48845 [15:07:32<2:09:51,  1.26s/it] 87%|████████▋ | 42673/48845 [15:07:33<2:09:50,  1.26s/it] 87%|████████▋ | 42674/48845 [15:07:35<2:09:50,  1.26s/it] 87%|████████▋ | 42675/48845 [15:07:36<2:09:51,  1.26s/it]                                                          {'loss': 1.9326, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42675/48845 [15:07:36<2:09:51,  1.26s/it] 87%|████████▋ | 42676/48845 [15:07:37<2:09:52,  1.26s/it] 87%|████████▋ | 42677/48845 [15:07:38<2:09:59,  1.26s/it] 87%|████████▋ | 42678/48845 [15:07:40<2:09:57,  1.26s/it] 87%|████████▋ | 42679/48845 [15:07:41<2:10:00,  1.27s/it] 87%|████████▋ | 42680/48845 [15:07:42<2:09:54,  1.26s/it]                                                          {'loss': 2.0658, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42680/48845 [15:07:42<2:09:54,  1.26s/it] 87%|████████▋ | 42681/48845 [15:07:43<2:09:48,  1.26s/it] 87%|████████▋ | 42682/48845 [15:07:45<2:09:41,  1.26s/it] 87%|████████▋ | 42683/48845 [15:07:46<2:09:38,  1.26s/it] 87%|████████▋ | 42684/48845 [15:07:47<2:09:37,  1.26s/it] 87%|████████▋ | 42685/48845 [15:07:48<2:09:47,  1.26s/it]                                                          {'loss': 2.0423, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42685/48845 [15:07:48<2:09:47,  1.26s/it] 87%|████████▋ | 42686/48845 [15:07:50<2:09:40,  1.26s/it] 87%|████████▋ | 42687/48845 [15:07:51<2:09:42,  1.26s/it] 87%|████████▋ | 42688/48845 [15:07:52<2:09:36,  1.26s/it] 87%|████████▋ | 42689/48845 [15:07:54<2:09:38,  1.26s/it] 87%|████████▋ | 42690/48845 [15:07:55<2:09:37,  1.26s/it]                                                          {'loss': 2.2274, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42690/48845 [15:07:55<2:09:37,  1.26s/it] 87%|████████▋ | 42691/48845 [15:07:56<2:09:32,  1.26s/it] 87%|████████▋ | 42692/48845 [15:07:57<2:09:54,  1.27s/it] 87%|████████▋ | 42693/48845 [15:07:59<2:09:53,  1.27s/it] 87%|████████▋ | 42694/48845 [15:08:00<2:09:49,  1.27s/it] 87%|████████▋ | 42695/48845 [15:08:01<2:09:37,  1.26s/it]                                                          {'loss': 2.3609, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42695/48845 [15:08:01<2:09:37,  1.26s/it] 87%|████████▋ | 42696/48845 [15:08:02<2:09:29,  1.26s/it] 87%|████████▋ | 42697/48845 [15:08:04<2:09:35,  1.26s/it] 87%|████████▋ | 42698/48845 [15:08:05<2:09:32,  1.26s/it] 87%|████████▋ | 42699/48845 [15:08:06<2:09:31,  1.26s/it] 87%|████████▋ | 42700/48845 [15:08:07<2:09:22,  1.26s/it]                                                          {'loss': 2.0588, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42700/48845 [15:08:07<2:09:22,  1.26s/it] 87%|████████▋ | 42701/48845 [15:08:09<2:09:16,  1.26s/it] 87%|████████▋ | 42702/48845 [15:08:10<2:09:15,  1.26s/it] 87%|████████▋ | 42703/48845 [15:08:11<2:09:15,  1.26s/it] 87%|████████▋ | 42704/48845 [15:08:12<2:09:16,  1.26s/it] 87%|████████▋ | 42705/48845 [15:08:14<2:09:20,  1.26s/it]                                                          {'loss': 2.0748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42705/48845 [15:08:14<2:09:20,  1.26s/it] 87%|████████▋ | 42706/48845 [15:08:15<2:09:14,  1.26s/it] 87%|████████▋ | 42707/48845 [15:08:16<2:09:09,  1.26s/it] 87%|████████▋ | 42708/48845 [15:08:18<2:09:20,  1.26s/it] 87%|████████▋ | 42709/48845 [15:08:19<2:09:14,  1.26s/it] 87%|████████▋ | 42710/48845 [15:08:20<2:09:03,  1.26s/it]                                                          {'loss': 2.061, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42710/48845 [15:08:20<2:09:03,  1.26s/it] 87%|████████▋ | 42711/48845 [15:08:21<2:09:00,  1.26s/it] 87%|████████▋ | 42712/48845 [15:08:23<2:08:54,  1.26s/it] 87%|████████▋ | 42713/48845 [15:08:24<2:09:04,  1.26s/it] 87%|████████▋ | 42714/48845 [15:08:25<2:09:08,  1.26s/it] 87%|████████▋ | 42715/48845 [15:08:26<2:09:06,  1.26s/it]                                                          {'loss': 2.1425, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42715/48845 [15:08:26<2:09:06,  1.26s/it] 87%|████████▋ | 42716/48845 [15:08:28<2:09:14,  1.27s/it] 87%|████████▋ | 42717/48845 [15:08:29<2:09:25,  1.27s/it] 87%|████████▋ | 42718/48845 [15:08:30<2:09:13,  1.27s/it] 87%|████████▋ | 42719/48845 [15:08:31<2:09:04,  1.26s/it] 87%|████████▋ | 42720/48845 [15:08:33<2:08:54,  1.26s/it]                                                          {'loss': 2.1543, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42720/48845 [15:08:33<2:08:54,  1.26s/it] 87%|████████▋ | 42721/48845 [15:08:34<2:08:59,  1.26s/it] 87%|████████▋ | 42722/48845 [15:08:35<2:08:50,  1.26s/it] 87%|████████▋ | 42723/48845 [15:08:36<2:08:47,  1.26s/it] 87%|████████▋ | 42724/48845 [15:08:38<2:08:55,  1.26s/it] 87%|████████▋ | 42725/48845 [15:08:39<2:08:46,  1.26s/it]                                                          {'loss': 2.3854, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42725/48845 [15:08:39<2:08:46,  1.26s/it] 87%|████████▋ | 42726/48845 [15:08:40<2:08:49,  1.26s/it] 87%|████████▋ | 42727/48845 [15:08:42<2:08:50,  1.26s/it] 87%|████████▋ | 42728/48845 [15:08:43<2:08:46,  1.26s/it] 87%|████████▋ | 42729/48845 [15:08:44<2:08:39,  1.26s/it] 87%|████████▋ | 42730/48845 [15:08:46<2:13:35,  1.31s/it]                                                          {'loss': 1.9551, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42730/48845 [15:08:46<2:13:35,  1.31s/it] 87%|████████▋ | 42731/48845 [15:08:47<2:12:05,  1.30s/it] 87%|████████▋ | 42732/48845 [15:08:48<2:11:07,  1.29s/it] 87%|████████▋ | 42733/48845 [15:08:49<2:10:21,  1.28s/it] 87%|████████▋ | 42734/48845 [15:08:51<2:10:00,  1.28s/it] 87%|████████▋ | 42735/48845 [15:08:52<2:09:30,  1.27s/it]                                                          {'loss': 2.1884, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.37}
+ 87%|████████▋ | 42735/48845 [15:08:52<2:09:30,  1.27s/it] 87%|████████▋ | 42736/48845 [15:08:53<2:09:12,  1.27s/it] 87%|████████▋ | 42737/48845 [15:08:54<2:09:00,  1.27s/it] 87%|████████▋ | 42738/48845 [15:08:56<2:08:52,  1.27s/it] 87%|████████▋ | 42739/48845 [15:08:57<2:08:47,  1.27s/it] 88%|████████▊ | 42740/48845 [15:08:58<2:08:43,  1.27s/it]                                                          {'loss': 2.059, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42740/48845 [15:08:58<2:08:43,  1.27s/it] 88%|████████▊ | 42741/48845 [15:08:59<2:08:51,  1.27s/it] 88%|████████▊ | 42742/48845 [15:09:01<2:08:47,  1.27s/it] 88%|████████▊ | 42743/48845 [15:09:02<2:08:42,  1.27s/it] 88%|████████▊ | 42744/48845 [15:09:03<2:08:31,  1.26s/it] 88%|████████▊ | 42745/48845 [15:09:04<2:08:29,  1.26s/it]                                                          {'loss': 2.0455, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42745/48845 [15:09:04<2:08:29,  1.26s/it] 88%|████████▊ | 42746/48845 [15:09:06<2:08:32,  1.26s/it] 88%|████████▊ | 42747/48845 [15:09:07<2:08:32,  1.26s/it] 88%|████████▊ | 42748/48845 [15:09:08<2:08:28,  1.26s/it] 88%|████████▊ | 42749/48845 [15:09:10<2:08:21,  1.26s/it] 88%|████████▊ | 42750/48845 [15:09:11<2:08:26,  1.26s/it]                                                          {'loss': 1.958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42750/48845 [15:09:11<2:08:26,  1.26s/it] 88%|████████▊ | 42751/48845 [15:09:12<2:08:20,  1.26s/it] 88%|████████▊ | 42752/48845 [15:09:13<2:08:19,  1.26s/it] 88%|████████▊ | 42753/48845 [15:09:15<2:08:16,  1.26s/it] 88%|████████▊ | 42754/48845 [15:09:16<2:08:27,  1.27s/it] 88%|████████▊ | 42755/48845 [15:09:17<2:08:26,  1.27s/it]                                                          {'loss': 2.0469, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42755/48845 [15:09:17<2:08:26,  1.27s/it] 88%|████████▊ | 42756/48845 [15:09:18<2:08:24,  1.27s/it] 88%|████████▊ | 42757/48845 [15:09:20<2:08:23,  1.27s/it] 88%|████████▊ | 42758/48845 [15:09:21<2:08:23,  1.27s/it] 88%|████████▊ | 42759/48845 [15:09:22<2:08:24,  1.27s/it] 88%|████████▊ | 42760/48845 [15:09:23<2:08:13,  1.26s/it]                                                          {'loss': 2.0823, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42760/48845 [15:09:23<2:08:13,  1.26s/it] 88%|████████▊ | 42761/48845 [15:09:25<2:08:08,  1.26s/it] 88%|████████▊ | 42762/48845 [15:09:26<2:08:09,  1.26s/it] 88%|████████▊ | 42763/48845 [15:09:27<2:08:07,  1.26s/it] 88%|████████▊ | 42764/48845 [15:09:28<2:08:14,  1.27s/it] 88%|████████▊ | 42765/48845 [15:09:30<2:08:03,  1.26s/it]                                                          {'loss': 2.1351, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42765/48845 [15:09:30<2:08:03,  1.26s/it] 88%|████████▊ | 42766/48845 [15:09:31<2:08:02,  1.26s/it] 88%|████████▊ | 42767/48845 [15:09:32<2:07:54,  1.26s/it] 88%|████████▊ | 42768/48845 [15:09:34<2:07:49,  1.26s/it] 88%|████████▊ | 42769/48845 [15:09:35<2:07:47,  1.26s/it] 88%|████████▊ | 42770/48845 [15:09:36<2:07:53,  1.26s/it]                                                          {'loss': 2.1697, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42770/48845 [15:09:36<2:07:53,  1.26s/it] 88%|████████▊ | 42771/48845 [15:09:37<2:07:54,  1.26s/it] 88%|████████▊ | 42772/48845 [15:09:39<2:07:45,  1.26s/it] 88%|████████▊ | 42773/48845 [15:09:40<2:07:46,  1.26s/it] 88%|████████▊ | 42774/48845 [15:09:41<2:11:46,  1.30s/it] 88%|████████▊ | 42775/48845 [15:09:43<2:10:34,  1.29s/it]                                                          {'loss': 2.0574, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42775/48845 [15:09:43<2:10:34,  1.29s/it] 88%|████████▊ | 42776/48845 [15:09:44<2:09:40,  1.28s/it] 88%|████████▊ | 42777/48845 [15:09:45<2:09:08,  1.28s/it] 88%|████████▊ | 42778/48845 [15:09:46<2:08:49,  1.27s/it] 88%|████████▊ | 42779/48845 [15:09:48<2:08:24,  1.27s/it] 88%|████████▊ | 42780/48845 [15:09:49<2:08:06,  1.27s/it]                                                          {'loss': 2.001, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42780/48845 [15:09:49<2:08:06,  1.27s/it] 88%|████████▊ | 42781/48845 [15:09:50<2:08:02,  1.27s/it] 88%|████████▊ | 42782/48845 [15:09:51<2:08:02,  1.27s/it] 88%|████████▊ | 42783/48845 [15:09:53<2:07:58,  1.27s/it] 88%|████████▊ | 42784/48845 [15:09:54<2:07:54,  1.27s/it] 88%|████████▊ | 42785/48845 [15:09:55<2:07:44,  1.26s/it]                                                          {'loss': 2.2292, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42785/48845 [15:09:55<2:07:44,  1.26s/it] 88%|████████▊ | 42786/48845 [15:09:56<2:07:50,  1.27s/it] 88%|████████▊ | 42787/48845 [15:09:58<2:07:46,  1.27s/it] 88%|████████▊ | 42788/48845 [15:09:59<2:07:39,  1.26s/it] 88%|████████▊ | 42789/48845 [15:10:00<2:07:28,  1.26s/it] 88%|████████▊ | 42790/48845 [15:10:01<2:07:24,  1.26s/it]                                                          {'loss': 2.0928, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42790/48845 [15:10:01<2:07:24,  1.26s/it] 88%|████████▊ | 42791/48845 [15:10:03<2:07:23,  1.26s/it] 88%|████████▊ | 42792/48845 [15:10:04<2:07:15,  1.26s/it] 88%|████████▊ | 42793/48845 [15:10:05<2:07:09,  1.26s/it] 88%|████████▊ | 42794/48845 [15:10:07<2:07:23,  1.26s/it] 88%|████████▊ | 42795/48845 [15:10:08<2:07:24,  1.26s/it]                                                          {'loss': 2.033, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42795/48845 [15:10:08<2:07:24,  1.26s/it] 88%|████████▊ | 42796/48845 [15:10:09<2:07:29,  1.26s/it] 88%|████████▊ | 42797/48845 [15:10:10<2:07:30,  1.26s/it] 88%|████████▊ | 42798/48845 [15:10:12<2:07:25,  1.26s/it] 88%|████████▊ | 42799/48845 [15:10:13<2:07:21,  1.26s/it] 88%|████████▊ | 42800/48845 [15:10:14<2:07:18,  1.26s/it]                                                          {'loss': 1.9242, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42800/48845 [15:10:14<2:07:18,  1.26s/it] 88%|████████▊ | 42801/48845 [15:10:18<3:24:43,  2.03s/it] 88%|████████▊ | 42802/48845 [15:10:19<3:01:21,  1.80s/it] 88%|████████▊ | 42803/48845 [15:10:20<2:45:00,  1.64s/it] 88%|████████▊ | 42804/48845 [15:10:22<2:33:46,  1.53s/it] 88%|████████▊ | 42805/48845 [15:10:23<2:25:35,  1.45s/it]                                                          {'loss': 2.1795, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42805/48845 [15:10:23<2:25:35,  1.45s/it] 88%|████████▊ | 42806/48845 [15:10:24<2:20:01,  1.39s/it] 88%|████████▊ | 42807/48845 [15:10:25<2:16:02,  1.35s/it] 88%|████████▊ | 42808/48845 [15:10:27<2:13:14,  1.32s/it] 88%|████████▊ | 42809/48845 [15:10:28<2:11:16,  1.30s/it] 88%|████████▊ | 42810/48845 [15:10:29<2:09:55,  1.29s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42810/48845 [15:10:29<2:09:55,  1.29s/it] 88%|████████▊ | 42811/48845 [15:10:31<2:08:58,  1.28s/it] 88%|████████▊ | 42812/48845 [15:10:32<2:08:20,  1.28s/it] 88%|████████▊ | 42813/48845 [15:10:33<2:07:46,  1.27s/it] 88%|████████▊ | 42814/48845 [15:10:34<2:07:32,  1.27s/it] 88%|████████▊ | 42815/48845 [15:10:36<2:07:21,  1.27s/it]                                                          {'loss': 1.9784, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42815/48845 [15:10:36<2:07:21,  1.27s/it] 88%|████████▊ | 42816/48845 [15:10:37<2:07:13,  1.27s/it] 88%|████████▊ | 42817/48845 [15:10:38<2:07:03,  1.26s/it] 88%|████████▊ | 42818/48845 [15:10:39<2:06:55,  1.26s/it] 88%|████████▊ | 42819/48845 [15:10:41<2:06:49,  1.26s/it] 88%|████████▊ | 42820/48845 [15:10:42<2:06:40,  1.26s/it]                                                          {'loss': 2.0623, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42820/48845 [15:10:42<2:06:40,  1.26s/it] 88%|████████▊ | 42821/48845 [15:10:43<2:06:42,  1.26s/it] 88%|████████▊ | 42822/48845 [15:10:44<2:06:31,  1.26s/it] 88%|████████▊ | 42823/48845 [15:10:46<2:06:32,  1.26s/it] 88%|████████▊ | 42824/48845 [15:10:47<2:06:44,  1.26s/it] 88%|████████▊ | 42825/48845 [15:10:48<2:06:48,  1.26s/it]                                                          {'loss': 2.0464, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42825/48845 [15:10:48<2:06:48,  1.26s/it] 88%|████████▊ | 42826/48845 [15:10:49<2:06:44,  1.26s/it] 88%|████████▊ | 42827/48845 [15:10:51<2:09:25,  1.29s/it] 88%|████████▊ | 42828/48845 [15:10:52<2:08:37,  1.28s/it] 88%|████████▊ | 42829/48845 [15:10:53<2:07:59,  1.28s/it] 88%|████████▊ | 42830/48845 [15:10:55<2:07:33,  1.27s/it]                                                          {'loss': 2.0849, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42830/48845 [15:10:55<2:07:33,  1.27s/it] 88%|████████▊ | 42831/48845 [15:10:56<2:07:19,  1.27s/it] 88%|████████▊ | 42832/48845 [15:10:57<2:07:06,  1.27s/it] 88%|████████▊ | 42833/48845 [15:10:58<2:06:52,  1.27s/it] 88%|████████▊ | 42834/48845 [15:11:00<2:06:39,  1.26s/it] 88%|████████▊ | 42835/48845 [15:11:01<2:06:32,  1.26s/it]                                                          {'loss': 2.0531, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.38}
+ 88%|████████▊ | 42835/48845 [15:11:01<2:06:32,  1.26s/it] 88%|████████▊ | 42836/48845 [15:11:02<2:06:48,  1.27s/it] 88%|████████▊ | 42837/48845 [15:11:03<2:06:37,  1.26s/it] 88%|████████▊ | 42838/48845 [15:11:05<2:06:31,  1.26s/it] 88%|████████▊ | 42839/48845 [15:11:06<2:06:23,  1.26s/it] 88%|████████▊ | 42840/48845 [15:11:07<2:06:38,  1.27s/it]                                                          {'loss': 2.0197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42840/48845 [15:11:07<2:06:38,  1.27s/it] 88%|████████▊ | 42841/48845 [15:11:09<2:06:31,  1.26s/it] 88%|████████▊ | 42842/48845 [15:11:10<2:06:25,  1.26s/it] 88%|████████▊ | 42843/48845 [15:11:11<2:06:24,  1.26s/it] 88%|████████▊ | 42844/48845 [15:11:12<2:06:24,  1.26s/it] 88%|████████▊ | 42845/48845 [15:11:14<2:06:16,  1.26s/it]                                                          {'loss': 2.1917, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42845/48845 [15:11:14<2:06:16,  1.26s/it] 88%|████████▊ | 42846/48845 [15:11:15<2:06:15,  1.26s/it] 88%|████████▊ | 42847/48845 [15:11:16<2:06:09,  1.26s/it] 88%|████████▊ | 42848/48845 [15:11:17<2:06:32,  1.27s/it] 88%|████████▊ | 42849/48845 [15:11:19<2:06:25,  1.27s/it] 88%|████████▊ | 42850/48845 [15:11:20<2:06:20,  1.26s/it]                                                          {'loss': 2.0747, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42850/48845 [15:11:20<2:06:20,  1.26s/it] 88%|████████▊ | 42851/48845 [15:11:21<2:06:16,  1.26s/it] 88%|████████▊ | 42852/48845 [15:11:22<2:06:24,  1.27s/it] 88%|████████▊ | 42853/48845 [15:11:24<2:06:10,  1.26s/it] 88%|████████▊ | 42854/48845 [15:11:25<2:06:04,  1.26s/it] 88%|████████▊ | 42855/48845 [15:11:26<2:06:03,  1.26s/it]                                                          {'loss': 1.9738, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42855/48845 [15:11:26<2:06:03,  1.26s/it] 88%|████████▊ | 42856/48845 [15:11:27<2:06:05,  1.26s/it] 88%|████████▊ | 42857/48845 [15:11:29<2:06:04,  1.26s/it] 88%|████████▊ | 42858/48845 [15:11:30<2:05:57,  1.26s/it] 88%|████████▊ | 42859/48845 [15:11:31<2:06:07,  1.26s/it] 88%|████████▊ | 42860/48845 [15:11:33<2:06:13,  1.27s/it]                                                          {'loss': 2.0731, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42860/48845 [15:11:33<2:06:13,  1.27s/it] 88%|████████▊ | 42861/48845 [15:11:34<2:06:07,  1.26s/it] 88%|████████▊ | 42862/48845 [15:11:35<2:05:57,  1.26s/it] 88%|████████▊ | 42863/48845 [15:11:36<2:05:49,  1.26s/it] 88%|████████▊ | 42864/48845 [15:11:38<2:08:43,  1.29s/it] 88%|████████▊ | 42865/48845 [15:11:39<2:07:53,  1.28s/it]                                                          {'loss': 2.2798, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42865/48845 [15:11:39<2:07:53,  1.28s/it] 88%|████████▊ | 42866/48845 [15:11:40<2:07:13,  1.28s/it] 88%|████████▊ | 42867/48845 [15:11:41<2:06:39,  1.27s/it] 88%|████████▊ | 42868/48845 [15:11:43<2:06:56,  1.27s/it] 88%|████████▊ | 42869/48845 [15:11:44<2:06:30,  1.27s/it] 88%|████████▊ | 42870/48845 [15:11:45<2:06:13,  1.27s/it]                                                          {'loss': 2.1397, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42870/48845 [15:11:45<2:06:13,  1.27s/it] 88%|████████▊ | 42871/48845 [15:11:47<2:06:06,  1.27s/it] 88%|████████▊ | 42872/48845 [15:11:48<2:06:08,  1.27s/it] 88%|████████▊ | 42873/48845 [15:11:49<2:05:57,  1.27s/it] 88%|████████▊ | 42874/48845 [15:11:50<2:05:51,  1.26s/it] 88%|████████▊ | 42875/48845 [15:11:52<2:05:45,  1.26s/it]                                                          {'loss': 2.1177, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42875/48845 [15:11:52<2:05:45,  1.26s/it] 88%|████████▊ | 42876/48845 [15:11:53<2:05:51,  1.27s/it] 88%|████████▊ | 42877/48845 [15:11:54<2:05:58,  1.27s/it] 88%|████████▊ | 42878/48845 [15:11:55<2:05:48,  1.26s/it] 88%|████████▊ | 42879/48845 [15:11:57<2:05:49,  1.27s/it] 88%|████████▊ | 42880/48845 [15:11:58<2:11:06,  1.32s/it]                                                          {'loss': 2.0171, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42880/48845 [15:11:58<2:11:06,  1.32s/it] 88%|████████▊ | 42881/48845 [15:11:59<2:09:25,  1.30s/it] 88%|████████▊ | 42882/48845 [15:12:01<2:08:14,  1.29s/it] 88%|████████▊ | 42883/48845 [15:12:02<2:07:29,  1.28s/it] 88%|████████▊ | 42884/48845 [15:12:03<2:06:54,  1.28s/it] 88%|████████▊ | 42885/48845 [15:12:04<2:06:20,  1.27s/it]                                                          {'loss': 2.0031, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42885/48845 [15:12:04<2:06:20,  1.27s/it] 88%|████████▊ | 42886/48845 [15:12:06<2:05:58,  1.27s/it] 88%|████████▊ | 42887/48845 [15:12:07<2:05:42,  1.27s/it] 88%|████████▊ | 42888/48845 [15:12:08<2:05:41,  1.27s/it] 88%|████████▊ | 42889/48845 [15:12:09<2:05:32,  1.26s/it] 88%|████████▊ | 42890/48845 [15:12:11<2:05:30,  1.26s/it]                                                          {'loss': 2.3172, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42890/48845 [15:12:11<2:05:30,  1.26s/it] 88%|████████▊ | 42891/48845 [15:12:12<2:05:24,  1.26s/it] 88%|████████▊ | 42892/48845 [15:12:13<2:05:26,  1.26s/it] 88%|████████▊ | 42893/48845 [15:12:14<2:05:14,  1.26s/it] 88%|████████▊ | 42894/48845 [15:12:16<2:05:11,  1.26s/it] 88%|████████▊ | 42895/48845 [15:12:17<2:05:05,  1.26s/it]                                                          {'loss': 2.035, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42895/48845 [15:12:17<2:05:05,  1.26s/it] 88%|████████▊ | 42896/48845 [15:12:18<2:05:17,  1.26s/it] 88%|████████▊ | 42897/48845 [15:12:20<2:05:07,  1.26s/it] 88%|████████▊ | 42898/48845 [15:12:21<2:05:05,  1.26s/it] 88%|████████▊ | 42899/48845 [15:12:22<2:05:05,  1.26s/it] 88%|████████▊ | 42900/48845 [15:12:23<2:05:04,  1.26s/it]                                                          {'loss': 2.2209, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42900/48845 [15:12:23<2:05:04,  1.26s/it] 88%|████████▊ | 42901/48845 [15:12:25<2:05:02,  1.26s/it] 88%|████████▊ | 42902/48845 [15:12:26<2:04:58,  1.26s/it] 88%|████████▊ | 42903/48845 [15:12:27<2:04:54,  1.26s/it] 88%|████████▊ | 42904/48845 [15:12:28<2:04:59,  1.26s/it] 88%|████████▊ | 42905/48845 [15:12:30<2:04:53,  1.26s/it]                                                          {'loss': 2.0718, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42905/48845 [15:12:30<2:04:53,  1.26s/it] 88%|████████▊ | 42906/48845 [15:12:31<2:04:49,  1.26s/it] 88%|████████▊ | 42907/48845 [15:12:32<2:04:57,  1.26s/it] 88%|████████▊ | 42908/48845 [15:12:33<2:04:58,  1.26s/it] 88%|████████▊ | 42909/48845 [15:12:35<2:04:51,  1.26s/it] 88%|████████▊ | 42910/48845 [15:12:36<2:04:51,  1.26s/it]                                                          {'loss': 2.0637, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42910/48845 [15:12:36<2:04:51,  1.26s/it] 88%|████████▊ | 42911/48845 [15:12:37<2:04:49,  1.26s/it] 88%|████████▊ | 42912/48845 [15:12:38<2:04:51,  1.26s/it] 88%|████████▊ | 42913/48845 [15:12:40<2:04:44,  1.26s/it] 88%|████████▊ | 42914/48845 [15:12:41<2:04:38,  1.26s/it] 88%|████████▊ | 42915/48845 [15:12:42<2:04:32,  1.26s/it]                                                          {'loss': 1.7978, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42915/48845 [15:12:42<2:04:32,  1.26s/it] 88%|████████▊ | 42916/48845 [15:12:44<2:04:41,  1.26s/it] 88%|████████▊ | 42917/48845 [15:12:45<2:04:42,  1.26s/it] 88%|████████▊ | 42918/48845 [15:12:46<2:04:42,  1.26s/it] 88%|████████▊ | 42919/48845 [15:12:47<2:04:45,  1.26s/it] 88%|████████▊ | 42920/48845 [15:12:49<2:05:02,  1.27s/it]                                                          {'loss': 2.0679, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42920/48845 [15:12:49<2:05:02,  1.27s/it] 88%|████████▊ | 42921/48845 [15:12:50<2:04:52,  1.26s/it] 88%|████████▊ | 42922/48845 [15:12:51<2:04:43,  1.26s/it] 88%|████████▊ | 42923/48845 [15:12:52<2:04:35,  1.26s/it] 88%|████████▊ | 42924/48845 [15:12:54<2:04:34,  1.26s/it] 88%|████████▊ | 42925/48845 [15:12:55<2:04:30,  1.26s/it]                                                          {'loss': 1.9556, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42925/48845 [15:12:55<2:04:30,  1.26s/it] 88%|████████▊ | 42926/48845 [15:12:56<2:04:40,  1.26s/it] 88%|████████▊ | 42927/48845 [15:12:57<2:04:41,  1.26s/it] 88%|████████▊ | 42928/48845 [15:12:59<2:04:49,  1.27s/it] 88%|████████▊ | 42929/48845 [15:13:00<2:04:42,  1.26s/it] 88%|████████▊ | 42930/48845 [15:13:01<2:04:36,  1.26s/it]                                                          {'loss': 2.1541, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.39}
+ 88%|████████▊ | 42930/48845 [15:13:01<2:04:36,  1.26s/it] 88%|████████▊ | 42931/48845 [15:13:02<2:04:37,  1.26s/it] 88%|████████▊ | 42932/48845 [15:13:04<2:04:35,  1.26s/it] 88%|████████▊ | 42933/48845 [15:13:05<2:04:32,  1.26s/it] 88%|████████▊ | 42934/48845 [15:13:06<2:04:31,  1.26s/it] 88%|████████▊ | 42935/48845 [15:13:08<2:04:29,  1.26s/it]                                                          {'loss': 2.0825, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42935/48845 [15:13:08<2:04:29,  1.26s/it] 88%|████████▊ | 42936/48845 [15:13:09<2:04:28,  1.26s/it] 88%|████████▊ | 42937/48845 [15:13:10<2:04:21,  1.26s/it] 88%|████████▊ | 42938/48845 [15:13:11<2:04:21,  1.26s/it] 88%|████████▊ | 42939/48845 [15:13:13<2:04:19,  1.26s/it] 88%|████████▊ | 42940/48845 [15:13:14<2:04:27,  1.26s/it]                                                          {'loss': 1.97, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42940/48845 [15:13:14<2:04:27,  1.26s/it] 88%|████████▊ | 42941/48845 [15:13:15<2:04:27,  1.26s/it] 88%|████████▊ | 42942/48845 [15:13:16<2:04:24,  1.26s/it] 88%|████████▊ | 42943/48845 [15:13:18<2:04:23,  1.26s/it] 88%|████████▊ | 42944/48845 [15:13:19<2:04:22,  1.26s/it] 88%|████████▊ | 42945/48845 [15:13:20<2:04:22,  1.26s/it]                                                          {'loss': 2.1406, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|███████���▊ | 42945/48845 [15:13:20<2:04:22,  1.26s/it] 88%|████████▊ | 42946/48845 [15:13:21<2:04:18,  1.26s/it] 88%|████████▊ | 42947/48845 [15:13:23<2:04:11,  1.26s/it] 88%|████████▊ | 42948/48845 [15:13:24<2:04:17,  1.26s/it] 88%|████████▊ | 42949/48845 [15:13:25<2:04:11,  1.26s/it] 88%|████████▊ | 42950/48845 [15:13:27<2:04:13,  1.26s/it]                                                          {'loss': 2.008, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42950/48845 [15:13:27<2:04:13,  1.26s/it] 88%|████████▊ | 42951/48845 [15:13:28<2:04:06,  1.26s/it] 88%|████████▊ | 42952/48845 [15:13:29<2:04:07,  1.26s/it] 88%|████████▊ | 42953/48845 [15:13:30<2:04:12,  1.26s/it] 88%|████████▊ | 42954/48845 [15:13:32<2:04:09,  1.26s/it] 88%|████████▊ | 42955/48845 [15:13:33<2:04:11,  1.27s/it]                                                          {'loss': 1.9723, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42955/48845 [15:13:33<2:04:11,  1.27s/it] 88%|████████▊ | 42956/48845 [15:13:34<2:04:15,  1.27s/it] 88%|████████▊ | 42957/48845 [15:13:35<2:04:08,  1.26s/it] 88%|████████▊ | 42958/48845 [15:13:37<2:04:01,  1.26s/it] 88%|████████▊ | 42959/48845 [15:13:38<2:03:58,  1.26s/it] 88%|████████▊ | 42960/48845 [15:13:39<2:03:58,  1.26s/it]                                                          {'loss': 1.8888, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42960/48845 [15:13:39<2:03:58,  1.26s/it] 88%|████████▊ | 42961/48845 [15:13:40<2:03:59,  1.26s/it] 88%|████████▊ | 42962/48845 [15:13:42<2:03:56,  1.26s/it] 88%|████████▊ | 42963/48845 [15:13:43<2:03:44,  1.26s/it] 88%|████████▊ | 42964/48845 [15:13:44<2:03:46,  1.26s/it] 88%|████████▊ | 42965/48845 [15:13:45<2:03:44,  1.26s/it]                                                          {'loss': 2.1002, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42965/48845 [15:13:45<2:03:44,  1.26s/it] 88%|████████▊ | 42966/48845 [15:13:47<2:03:37,  1.26s/it] 88%|████████▊ | 42967/48845 [15:13:48<2:03:33,  1.26s/it] 88%|████████▊ | 42968/48845 [15:13:49<2:03:41,  1.26s/it] 88%|████████▊ | 42969/48845 [15:13:51<2:03:42,  1.26s/it] 88%|████████▊ | 42970/48845 [15:13:52<2:03:34,  1.26s/it]                                                          {'loss': 2.36, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42970/48845 [15:13:52<2:03:34,  1.26s/it] 88%|████████▊ | 42971/48845 [15:13:53<2:03:37,  1.26s/it] 88%|████████▊ | 42972/48845 [15:13:54<2:03:34,  1.26s/it] 88%|████████▊ | 42973/48845 [15:13:56<2:03:31,  1.26s/it] 88%|████████▊ | 42974/48845 [15:13:57<2:03:30,  1.26s/it] 88%|████████▊ | 42975/48845 [15:13:58<2:03:31,  1.26s/it]                                                          {'loss': 1.9466, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42975/48845 [15:13:58<2:03:31,  1.26s/it] 88%|████████▊ | 42976/48845 [15:13:59<2:03:33,  1.26s/it] 88%|████████▊ | 42977/48845 [15:14:01<2:03:39,  1.26s/it] 88%|████████▊ | 42978/48845 [15:14:02<2:03:34,  1.26s/it] 88%|████████▊ | 42979/48845 [15:14:03<2:03:30,  1.26s/it] 88%|████████▊ | 42980/48845 [15:14:04<2:03:29,  1.26s/it]                                                          {'loss': 1.9454, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42980/48845 [15:14:04<2:03:29,  1.26s/it] 88%|████████▊ | 42981/48845 [15:14:06<2:03:35,  1.26s/it] 88%|████████▊ | 42982/48845 [15:14:07<2:03:26,  1.26s/it] 88%|████████▊ | 42983/48845 [15:14:08<2:03:22,  1.26s/it] 88%|████████▊ | 42984/48845 [15:14:09<2:03:14,  1.26s/it] 88%|████████▊ | 42985/48845 [15:14:11<2:04:14,  1.27s/it]                                                          {'loss': 2.1015, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42985/48845 [15:14:11<2:04:14,  1.27s/it] 88%|████████▊ | 42986/48845 [15:14:12<2:03:54,  1.27s/it] 88%|████████▊ | 42987/48845 [15:14:13<2:03:38,  1.27s/it] 88%|████████▊ | 42988/48845 [15:14:15<2:03:30,  1.27s/it] 88%|████████▊ | 42989/48845 [15:14:16<2:03:29,  1.27s/it] 88%|████████▊ | 42990/48845 [15:14:17<2:03:23,  1.26s/it]                                                          {'loss': 2.0365, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42990/48845 [15:14:17<2:03:23,  1.26s/it] 88%|████████▊ | 42991/48845 [15:14:18<2:03:32,  1.27s/it] 88%|████████▊ | 42992/48845 [15:14:20<2:03:29,  1.27s/it] 88%|████████▊ | 42993/48845 [15:14:21<2:03:23,  1.27s/it] 88%|████████▊ | 42994/48845 [15:14:22<2:03:13,  1.26s/it] 88%|████████▊ | 42995/48845 [15:14:23<2:03:10,  1.26s/it]                                                          {'loss': 2.1502, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 42995/48845 [15:14:23<2:03:10,  1.26s/it] 88%|████████▊ | 42996/48845 [15:14:25<2:03:08,  1.26s/it] 88%|████████▊ | 42997/48845 [15:14:26<2:03:01,  1.26s/it] 88%|████████▊ | 42998/48845 [15:14:27<2:03:04,  1.26s/it] 88%|████████▊ | 42999/48845 [15:14:28<2:03:06,  1.26s/it] 88%|████████▊ | 43000/48845 [15:14:30<2:03:01,  1.26s/it]                                                          {'loss': 2.1033, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43000/48845 [15:14:30<2:03:01,  1.26s/it] 88%|████████▊ | 43001/48845 [15:14:34<3:22:07,  2.08s/it] 88%|████████▊ | 43002/48845 [15:14:35<2:58:09,  1.83s/it] 88%|████████▊ | 43003/48845 [15:14:36<2:41:32,  1.66s/it] 88%|████████▊ | 43004/48845 [15:14:37<2:29:45,  1.54s/it] 88%|████████▊ | 43005/48845 [15:14:39<2:21:43,  1.46s/it]                                                          {'loss': 1.956, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43005/48845 [15:14:39<2:21:43,  1.46s/it] 88%|████████▊ | 43006/48845 [15:14:40<2:16:12,  1.40s/it] 88%|████████▊ | 43007/48845 [15:14:41<2:14:44,  1.38s/it] 88%|████████▊ | 43008/48845 [15:14:43<2:11:04,  1.35s/it] 88%|████████▊ | 43009/48845 [15:14:44<2:08:31,  1.32s/it] 88%|████████▊ | 43010/48845 [15:14:45<2:06:42,  1.30s/it]                                                          {'loss': 1.9405, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43010/48845 [15:14:45<2:06:42,  1.30s/it] 88%|████████▊ | 43011/48845 [15:14:46<2:05:38,  1.29s/it] 88%|████████▊ | 43012/48845 [15:14:48<2:04:49,  1.28s/it] 88%|████████▊ | 43013/48845 [15:14:49<2:04:02,  1.28s/it] 88%|████████▊ | 43014/48845 [15:14:50<2:03:37,  1.27s/it] 88%|████████▊ | 43015/48845 [15:14:51<2:03:24,  1.27s/it]                                                          {'loss': 2.0203, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43015/48845 [15:14:51<2:03:24,  1.27s/it] 88%|████████▊ | 43016/48845 [15:14:53<2:03:14,  1.27s/it] 88%|████████▊ | 43017/48845 [15:14:54<2:03:01,  1.27s/it] 88%|████████▊ | 43018/48845 [15:14:55<2:02:50,  1.26s/it] 88%|████████▊ | 43019/48845 [15:14:56<2:02:47,  1.26s/it] 88%|████████▊ | 43020/48845 [15:14:58<2:02:37,  1.26s/it]                                                          {'loss': 1.9836, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43020/48845 [15:14:58<2:02:37,  1.26s/it] 88%|████████▊ | 43021/48845 [15:14:59<2:02:38,  1.26s/it] 88%|████████▊ | 43022/48845 [15:15:00<2:02:29,  1.26s/it] 88%|████████▊ | 43023/48845 [15:15:02<2:02:39,  1.26s/it] 88%|████████▊ | 43024/48845 [15:15:03<2:02:37,  1.26s/it] 88%|████████▊ | 43025/48845 [15:15:04<2:02:34,  1.26s/it]                                                          {'loss': 2.3518, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43025/48845 [15:15:04<2:02:34,  1.26s/it] 88%|████████▊ | 43026/48845 [15:15:05<2:02:36,  1.26s/it] 88%|████████▊ | 43027/48845 [15:15:07<2:02:42,  1.27s/it] 88%|████████▊ | 43028/48845 [15:15:08<2:02:38,  1.26s/it] 88%|████████▊ | 43029/48845 [15:15:09<2:02:27,  1.26s/it] 88%|████████▊ | 43030/48845 [15:15:10<2:02:26,  1.26s/it]                                                          {'loss': 2.0369, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.4}
+ 88%|████████▊ | 43030/48845 [15:15:10<2:02:26,  1.26s/it] 88%|████████▊ | 43031/48845 [15:15:12<2:02:40,  1.27s/it] 88%|████████▊ | 43032/48845 [15:15:13<2:02:33,  1.26s/it] 88%|████████▊ | 43033/48845 [15:15:14<2:02:23,  1.26s/it] 88%|████████▊ | 43034/48845 [15:15:15<2:02:23,  1.26s/it] 88%|████████▊ | 43035/48845 [15:15:17<2:02:19,  1.26s/it]                                                          {'loss': 1.9694, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43035/48845 [15:15:17<2:02:19,  1.26s/it] 88%|████████▊ | 43036/48845 [15:15:18<2:02:13,  1.26s/it] 88%|████████▊ | 43037/48845 [15:15:19<2:02:06,  1.26s/it] 88%|████████▊ | 43038/48845 [15:15:20<2:01:59,  1.26s/it] 88%|████████▊ | 43039/48845 [15:15:22<2:02:12,  1.26s/it] 88%|████████▊ | 43040/48845 [15:15:23<2:02:08,  1.26s/it]                                                          {'loss': 2.073, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43040/48845 [15:15:23<2:02:08,  1.26s/it] 88%|████████▊ | 43041/48845 [15:15:24<2:02:05,  1.26s/it] 88%|████████▊ | 43042/48845 [15:15:26<2:01:57,  1.26s/it] 88%|████████▊ | 43043/48845 [15:15:27<2:02:03,  1.26s/it] 88%|████████▊ | 43044/48845 [15:15:28<2:02:02,  1.26s/it] 88%|████████▊ | 43045/48845 [15:15:29<2:02:04,  1.26s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43045/48845 [15:15:29<2:02:04,  1.26s/it] 88%|████████▊ | 43046/48845 [15:15:31<2:02:08,  1.26s/it] 88%|████████▊ | 43047/48845 [15:15:32<2:05:47,  1.30s/it] 88%|████████▊ | 43048/48845 [15:15:33<2:04:36,  1.29s/it] 88%|████████▊ | 43049/48845 [15:15:34<2:03:49,  1.28s/it] 88%|████████▊ | 43050/48845 [15:15:36<2:03:11,  1.28s/it]                                                          {'loss': 1.9812, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43050/48845 [15:15:36<2:03:11,  1.28s/it] 88%|████████▊ | 43051/48845 [15:15:37<2:02:56,  1.27s/it] 88%|████████▊ | 43052/48845 [15:15:38<2:02:35,  1.27s/it] 88%|████████▊ | 43053/48845 [15:15:40<2:02:13,  1.27s/it] 88%|████████▊ | 43054/48845 [15:15:41<2:02:01,  1.26s/it] 88%|████████▊ | 43055/48845 [15:15:42<2:02:56,  1.27s/it]                                                          {'loss': 2.0839, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43055/48845 [15:15:42<2:02:56,  1.27s/it] 88%|████████▊ | 43056/48845 [15:15:43<2:02:34,  1.27s/it] 88%|████████▊ | 43057/48845 [15:15:45<2:02:22,  1.27s/it] 88%|████████▊ | 43058/48845 [15:15:46<2:02:07,  1.27s/it] 88%|████████▊ | 43059/48845 [15:15:47<2:02:02,  1.27s/it] 88%|████████▊ | 43060/48845 [15:15:48<2:01:54,  1.26s/it]                                                          {'loss': 2.0057, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43060/48845 [15:15:48<2:01:54,  1.26s/it] 88%|████████▊ | 43061/48845 [15:15:50<2:01:46,  1.26s/it] 88%|████████▊ | 43062/48845 [15:15:51<2:01:38,  1.26s/it] 88%|████████▊ | 43063/48845 [15:15:52<2:01:33,  1.26s/it] 88%|████████▊ | 43064/48845 [15:15:53<2:01:40,  1.26s/it] 88%|████████▊ | 43065/48845 [15:15:55<2:01:36,  1.26s/it]                                                          {'loss': 2.2184, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43065/48845 [15:15:55<2:01:36,  1.26s/it] 88%|████████▊ | 43066/48845 [15:15:56<2:01:38,  1.26s/it] 88%|████████▊ | 43067/48845 [15:15:57<2:01:43,  1.26s/it] 88%|████████▊ | 43068/48845 [15:15:59<2:01:48,  1.27s/it] 88%|████████▊ | 43069/48845 [15:16:00<2:01:33,  1.26s/it] 88%|████████▊ | 43070/48845 [15:16:01<2:01:31,  1.26s/it]                                                          {'loss': 2.0988, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43070/48845 [15:16:01<2:01:31,  1.26s/it] 88%|████████▊ | 43071/48845 [15:16:02<2:01:29,  1.26s/it] 88%|████████▊ | 43072/48845 [15:16:04<2:01:22,  1.26s/it] 88%|████████▊ | 43073/48845 [15:16:05<2:01:18,  1.26s/it] 88%|████████▊ | 43074/48845 [15:16:06<2:01:14,  1.26s/it] 88%|████████▊ | 43075/48845 [15:16:07<2:01:21,  1.26s/it]                                                          {'loss': 2.1631, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43075/48845 [15:16:07<2:01:21,  1.26s/it] 88%|████████▊ | 43076/48845 [15:16:09<2:01:21,  1.26s/it] 88%|████████▊ | 43077/48845 [15:16:10<2:01:16,  1.26s/it] 88%|████████▊ | 43078/48845 [15:16:11<2:01:25,  1.26s/it] 88%|████████▊ | 43079/48845 [15:16:12<2:01:32,  1.26s/it] 88%|████████▊ | 43080/48845 [15:16:14<2:01:29,  1.26s/it]                                                          {'loss': 2.1995, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43080/48845 [15:16:14<2:01:29,  1.26s/it] 88%|████████▊ | 43081/48845 [15:16:15<2:01:24,  1.26s/it] 88%|████████▊ | 43082/48845 [15:16:16<2:01:22,  1.26s/it] 88%|████████▊ | 43083/48845 [15:16:18<2:03:45,  1.29s/it] 88%|████████▊ | 43084/48845 [15:16:19<2:03:03,  1.28s/it] 88%|████████▊ | 43085/48845 [15:16:20<2:02:27,  1.28s/it]                                                          {'loss': 2.1099, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43085/48845 [15:16:20<2:02:27,  1.28s/it] 88%|████████▊ | 43086/48845 [15:16:21<2:02:06,  1.27s/it] 88%|████████▊ | 43087/48845 [15:16:23<2:01:52,  1.27s/it] 88%|████████▊ | 43088/48845 [15:16:24<2:01:35,  1.27s/it] 88%|████████▊ | 43089/48845 [15:16:25<2:01:29,  1.27s/it] 88%|████████▊ | 43090/48845 [15:16:26<2:01:20,  1.27s/it]                                                          {'loss': 2.0919, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43090/48845 [15:16:26<2:01:20,  1.27s/it] 88%|████████▊ | 43091/48845 [15:16:28<2:01:25,  1.27s/it] 88%|████████▊ | 43092/48845 [15:16:29<2:01:16,  1.26s/it] 88%|████████▊ | 43093/48845 [15:16:30<2:01:06,  1.26s/it] 88%|████████▊ | 43094/48845 [15:16:31<2:00:55,  1.26s/it] 88%|████████▊ | 43095/48845 [15:16:33<2:01:05,  1.26s/it]                                                          {'loss': 2.1604, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43095/48845 [15:16:33<2:01:05,  1.26s/it] 88%|████████▊ | 43096/48845 [15:16:34<2:01:01,  1.26s/it] 88%|████████▊ | 43097/48845 [15:16:35<2:00:57,  1.26s/it] 88%|████████▊ | 43098/48845 [15:16:36<2:00:54,  1.26s/it] 88%|████████▊ | 43099/48845 [15:16:38<2:00:58,  1.26s/it] 88%|████████▊ | 43100/48845 [15:16:39<2:00:51,  1.26s/it]                                                          {'loss': 2.052, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43100/48845 [15:16:39<2:00:51,  1.26s/it] 88%|████████▊ | 43101/48845 [15:16:40<2:01:01,  1.26s/it] 88%|████████▊ | 43102/48845 [15:16:42<2:00:51,  1.26s/it] 88%|████████▊ | 43103/48845 [15:16:43<2:00:57,  1.26s/it] 88%|████████▊ | 43104/48845 [15:16:44<2:00:53,  1.26s/it] 88%|████████▊ | 43105/48845 [15:16:45<2:00:49,  1.26s/it]                                                          {'loss': 2.2069, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43105/48845 [15:16:45<2:00:49,  1.26s/it] 88%|████████▊ | 43106/48845 [15:16:47<2:00:55,  1.26s/it] 88%|████████▊ | 43107/48845 [15:16:48<2:00:53,  1.26s/it] 88%|████████▊ | 43108/48845 [15:16:49<2:00:46,  1.26s/it] 88%|████████▊ | 43109/48845 [15:16:50<2:00:43,  1.26s/it] 88%|████████▊ | 43110/48845 [15:16:52<2:00:39,  1.26s/it]                                                          {'loss': 2.1093, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43110/48845 [15:16:52<2:00:39,  1.26s/it] 88%|████████▊ | 43111/48845 [15:16:53<2:00:50,  1.26s/it] 88%|████████▊ | 43112/48845 [15:16:54<2:00:44,  1.26s/it] 88%|████████▊ | 43113/48845 [15:16:55<2:00:55,  1.27s/it] 88%|████████▊ | 43114/48845 [15:16:57<2:00:44,  1.26s/it] 88%|████████▊ | 43115/48845 [15:16:58<2:04:58,  1.31s/it]                                                          {'loss': 1.9614, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43115/48845 [15:16:58<2:04:58,  1.31s/it] 88%|████████▊ | 43116/48845 [15:16:59<2:03:38,  1.29s/it] 88%|████████▊ | 43117/48845 [15:17:01<2:02:42,  1.29s/it] 88%|████████▊ | 43118/48845 [15:17:02<2:02:09,  1.28s/it] 88%|████████▊ | 43119/48845 [15:17:03<2:01:39,  1.27s/it] 88%|████████▊ | 43120/48845 [15:17:04<2:01:18,  1.27s/it]                                                          {'loss': 2.0949, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43120/48845 [15:17:04<2:01:18,  1.27s/it] 88%|████████▊ | 43121/48845 [15:17:06<2:01:00,  1.27s/it] 88%|████████▊ | 43122/48845 [15:17:07<2:00:43,  1.27s/it] 88%|████████▊ | 43123/48845 [15:17:08<2:00:42,  1.27s/it] 88%|████████▊ | 43124/48845 [15:17:09<2:00:42,  1.27s/it] 88%|████████▊ | 43125/48845 [15:17:11<2:00:28,  1.26s/it]                                                          {'loss': 1.977, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43125/48845 [15:17:11<2:00:28,  1.26s/it] 88%|████████▊ | 43126/48845 [15:17:12<2:00:23,  1.26s/it] 88%|████████▊ | 43127/48845 [15:17:13<2:00:20,  1.26s/it] 88%|████████▊ | 43128/48845 [15:17:15<2:00:16,  1.26s/it] 88%|████████▊ | 43129/48845 [15:17:16<2:00:14,  1.26s/it] 88%|████████▊ | 43130/48845 [15:17:17<2:00:08,  1.26s/it]                                                          {'loss': 2.1768, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.41}
+ 88%|████████▊ | 43130/48845 [15:17:17<2:00:08,  1.26s/it] 88%|████████▊ | 43131/48845 [15:17:18<2:00:24,  1.26s/it] 88%|████████▊ | 43132/48845 [15:17:20<2:00:18,  1.26s/it] 88%|████████▊ | 43133/48845 [15:17:21<2:00:09,  1.26s/it] 88%|████████▊ | 43134/48845 [15:17:22<2:00:06,  1.26s/it] 88%|████████▊ | 43135/48845 [15:17:23<2:00:10,  1.26s/it]                                                          {'loss': 2.0466, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43135/48845 [15:17:23<2:00:10,  1.26s/it] 88%|████████▊ | 43136/48845 [15:17:25<2:00:24,  1.27s/it] 88%|████████▊ | 43137/48845 [15:17:26<2:00:20,  1.26s/it] 88%|████████▊ | 43138/48845 [15:17:27<2:00:16,  1.26s/it] 88%|████████▊ | 43139/48845 [15:17:28<2:00:12,  1.26s/it] 88%|████████▊ | 43140/48845 [15:17:30<2:00:09,  1.26s/it]                                                          {'loss': 2.177, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43140/48845 [15:17:30<2:00:09,  1.26s/it] 88%|████████▊ | 43141/48845 [15:17:31<2:00:11,  1.26s/it] 88%|████████▊ | 43142/48845 [15:17:32<2:00:14,  1.26s/it] 88%|████████▊ | 43143/48845 [15:17:33<2:00:18,  1.27s/it] 88%|████████▊ | 43144/48845 [15:17:35<2:00:12,  1.27s/it] 88%|████████▊ | 43145/48845 [15:17:36<2:00:06,  1.26s/it]                                                          {'loss': 1.9941, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43145/48845 [15:17:36<2:00:06,  1.26s/it] 88%|████████▊ | 43146/48845 [15:17:37<2:00:03,  1.26s/it] 88%|████████▊ | 43147/48845 [15:17:39<2:02:30,  1.29s/it] 88%|████████▊ | 43148/48845 [15:17:40<2:01:47,  1.28s/it] 88%|████████▊ | 43149/48845 [15:17:41<2:01:15,  1.28s/it] 88%|████████▊ | 43150/48845 [15:17:42<2:00:58,  1.27s/it]                                                          {'loss': 2.0533, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43150/48845 [15:17:42<2:00:58,  1.27s/it] 88%|████████▊ | 43151/48845 [15:17:44<2:00:44,  1.27s/it] 88%|████████▊ | 43152/48845 [15:17:45<2:00:25,  1.27s/it] 88%|████████▊ | 43153/48845 [15:17:46<2:00:12,  1.27s/it] 88%|████████▊ | 43154/48845 [15:17:47<2:00:08,  1.27s/it] 88%|████████▊ | 43155/48845 [15:17:49<2:02:41,  1.29s/it]                                                          {'loss': 1.994, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43155/48845 [15:17:49<2:02:41,  1.29s/it] 88%|████████▊ | 43156/48845 [15:17:50<2:01:56,  1.29s/it] 88%|████████▊ | 43157/48845 [15:17:51<2:01:11,  1.28s/it] 88%|████████▊ | 43158/48845 [15:17:53<2:00:39,  1.27s/it] 88%|████████▊ | 43159/48845 [15:17:54<2:00:29,  1.27s/it] 88%|████████▊ | 43160/48845 [15:17:55<2:00:22,  1.27s/it]                                                          {'loss': 1.9812, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|██████��█▊ | 43160/48845 [15:17:55<2:00:22,  1.27s/it] 88%|████████▊ | 43161/48845 [15:17:56<2:00:13,  1.27s/it] 88%|████████▊ | 43162/48845 [15:17:58<2:00:01,  1.27s/it] 88%|████████▊ | 43163/48845 [15:17:59<2:00:01,  1.27s/it] 88%|████████▊ | 43164/48845 [15:18:00<1:59:53,  1.27s/it] 88%|████████▊ | 43165/48845 [15:18:01<1:59:45,  1.27s/it]                                                          {'loss': 2.1084, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43165/48845 [15:18:01<1:59:45,  1.27s/it] 88%|████████▊ | 43166/48845 [15:18:03<1:59:42,  1.26s/it] 88%|████████▊ | 43167/48845 [15:18:04<1:59:47,  1.27s/it] 88%|████████▊ | 43168/48845 [15:18:05<1:59:44,  1.27s/it] 88%|████████▊ | 43169/48845 [15:18:07<1:59:37,  1.26s/it] 88%|████████▊ | 43170/48845 [15:18:08<1:59:31,  1.26s/it]                                                          {'loss': 2.0102, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43170/48845 [15:18:08<1:59:31,  1.26s/it] 88%|████████▊ | 43171/48845 [15:18:09<1:59:45,  1.27s/it] 88%|████████▊ | 43172/48845 [15:18:10<1:59:44,  1.27s/it] 88%|████████▊ | 43173/48845 [15:18:12<1:59:37,  1.27s/it] 88%|████████▊ | 43174/48845 [15:18:13<1:59:39,  1.27s/it] 88%|████████▊ | 43175/48845 [15:18:14<1:59:35,  1.27s/it]                                                          {'loss': 2.2686, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43175/48845 [15:18:14<1:59:35,  1.27s/it] 88%|████████▊ | 43176/48845 [15:18:15<1:59:35,  1.27s/it] 88%|████████▊ | 43177/48845 [15:18:17<1:59:36,  1.27s/it] 88%|████████▊ | 43178/48845 [15:18:18<1:59:31,  1.27s/it] 88%|████████▊ | 43179/48845 [15:18:19<1:59:42,  1.27s/it] 88%|████████▊ | 43180/48845 [15:18:20<1:59:40,  1.27s/it]                                                          {'loss': 2.1953, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43180/48845 [15:18:20<1:59:40,  1.27s/it] 88%|████████▊ | 43181/48845 [15:18:22<1:59:38,  1.27s/it] 88%|████████▊ | 43182/48845 [15:18:23<1:59:36,  1.27s/it] 88%|████████▊ | 43183/48845 [15:18:24<1:59:42,  1.27s/it] 88%|████████▊ | 43184/48845 [15:18:26<1:59:45,  1.27s/it] 88%|████████▊ | 43185/48845 [15:18:27<1:59:41,  1.27s/it]                                                          {'loss': 2.2775, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43185/48845 [15:18:27<1:59:41,  1.27s/it] 88%|████████▊ | 43186/48845 [15:18:28<1:59:29,  1.27s/it] 88%|████████▊ | 43187/48845 [15:18:29<2:01:27,  1.29s/it] 88%|████████▊ | 43188/48845 [15:18:31<2:00:43,  1.28s/it] 88%|████████▊ | 43189/48845 [15:18:32<2:00:18,  1.28s/it] 88%|████████▊ | 43190/48845 [15:18:33<1:59:51,  1.27s/it]                                                          {'loss': 1.9526, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43190/48845 [15:18:33<1:59:51,  1.27s/it] 88%|████████▊ | 43191/48845 [15:18:34<2:00:03,  1.27s/it] 88%|████████▊ | 43192/48845 [15:18:36<1:59:45,  1.27s/it] 88%|████████▊ | 43193/48845 [15:18:37<1:59:29,  1.27s/it] 88%|████████▊ | 43194/48845 [15:18:38<1:59:19,  1.27s/it] 88%|████████▊ | 43195/48845 [15:18:40<1:59:22,  1.27s/it]                                                          {'loss': 2.0393, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43195/48845 [15:18:40<1:59:22,  1.27s/it] 88%|████████▊ | 43196/48845 [15:18:41<1:59:17,  1.27s/it] 88%|████████▊ | 43197/48845 [15:18:42<1:59:10,  1.27s/it] 88%|████████▊ | 43198/48845 [15:18:43<1:59:08,  1.27s/it] 88%|████████▊ | 43199/48845 [15:18:45<1:59:06,  1.27s/it] 88%|████████▊ | 43200/48845 [15:18:46<1:59:05,  1.27s/it]                                                          {'loss': 2.0973, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43200/48845 [15:18:46<1:59:05,  1.27s/it] 88%|████████▊ | 43201/48845 [15:18:50<3:11:23,  2.03s/it] 88%|████████▊ | 43202/48845 [15:18:51<2:49:35,  1.80s/it] 88%|████████▊ | 43203/48845 [15:18:52<2:34:18,  1.64s/it] 88%|████████▊ | 43204/48845 [15:18:53<2:23:27,  1.53s/it] 88%|████████▊ | 43205/48845 [15:18:55<2:16:00,  1.45s/it]                                                          {'loss': 2.174, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43205/48845 [15:18:55<2:16:00,  1.45s/it] 88%|████████▊ | 43206/48845 [15:18:56<2:10:48,  1.39s/it] 88%|████████▊ | 43207/48845 [15:18:57<2:07:06,  1.35s/it] 88%|████████▊ | 43208/48845 [15:18:59<2:04:35,  1.33s/it] 88%|████████▊ | 43209/48845 [15:19:00<2:02:50,  1.31s/it] 88%|████████▊ | 43210/48845 [15:19:01<2:01:27,  1.29s/it]                                                          {'loss': 2.0722, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43210/48845 [15:19:01<2:01:27,  1.29s/it] 88%|████████▊ | 43211/48845 [15:19:02<2:00:27,  1.28s/it] 88%|████████▊ | 43212/48845 [15:19:04<1:59:55,  1.28s/it] 88%|████████▊ | 43213/48845 [15:19:05<1:59:28,  1.27s/it] 88%|████████▊ | 43214/48845 [15:19:06<1:59:18,  1.27s/it] 88%|████████▊ | 43215/48845 [15:19:07<1:59:03,  1.27s/it]                                                          {'loss': 2.0618, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43215/48845 [15:19:07<1:59:03,  1.27s/it] 88%|████████▊ | 43216/48845 [15:19:09<1:58:57,  1.27s/it] 88%|████████▊ | 43217/48845 [15:19:10<1:58:49,  1.27s/it] 88%|████████▊ | 43218/48845 [15:19:11<1:58:37,  1.26s/it] 88%|████████▊ | 43219/48845 [15:19:12<1:58:36,  1.26s/it] 88%|████████▊ | 43220/48845 [15:19:14<1:58:28,  1.26s/it]                                                          {'loss': 2.1422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43220/48845 [15:19:14<1:58:28,  1.26s/it] 88%|████████▊ | 43221/48845 [15:19:15<1:58:26,  1.26s/it] 88%|████████▊ | 43222/48845 [15:19:16<1:58:30,  1.26s/it] 88%|████████▊ | 43223/48845 [15:19:17<1:58:30,  1.26s/it] 88%|████████▊ | 43224/48845 [15:19:19<1:58:28,  1.26s/it] 88%|████████▊ | 43225/48845 [15:19:20<1:58:21,  1.26s/it]                                                          {'loss': 1.9457, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.42}
+ 88%|████████▊ | 43225/48845 [15:19:20<1:58:21,  1.26s/it] 88%|████████▊ | 43226/48845 [15:19:21<2:01:19,  1.30s/it] 88%|████████▊ | 43227/48845 [15:19:23<2:00:29,  1.29s/it] 89%|████████▊ | 43228/48845 [15:19:24<1:59:47,  1.28s/it] 89%|████████▊ | 43229/48845 [15:19:25<1:59:21,  1.28s/it] 89%|████████▊ | 43230/48845 [15:19:26<1:59:14,  1.27s/it]                                                          {'loss': 2.2011, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43230/48845 [15:19:26<1:59:14,  1.27s/it] 89%|████████▊ | 43231/48845 [15:19:28<1:58:56,  1.27s/it] 89%|████████▊ | 43232/48845 [15:19:29<1:58:42,  1.27s/it] 89%|████████▊ | 43233/48845 [15:19:30<1:58:28,  1.27s/it] 89%|████████▊ | 43234/48845 [15:19:32<1:58:32,  1.27s/it] 89%|████████▊ | 43235/48845 [15:19:33<1:58:26,  1.27s/it]                                                          {'loss': 2.0541, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43235/48845 [15:19:33<1:58:26,  1.27s/it] 89%|████████▊ | 43236/48845 [15:19:34<1:58:23,  1.27s/it] 89%|████████▊ | 43237/48845 [15:19:35<1:58:24,  1.27s/it] 89%|████████▊ | 43238/48845 [15:19:37<1:58:23,  1.27s/it] 89%|████████▊ | 43239/48845 [15:19:38<1:58:16,  1.27s/it] 89%|████████▊ | 43240/48845 [15:19:39<1:58:19,  1.27s/it]                                                          {'loss': 1.9401, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43240/48845 [15:19:39<1:58:19,  1.27s/it] 89%|████████▊ | 43241/48845 [15:19:40<1:58:14,  1.27s/it] 89%|████████▊ | 43242/48845 [15:19:42<1:58:13,  1.27s/it] 89%|████████▊ | 43243/48845 [15:19:43<1:58:08,  1.27s/it] 89%|████████▊ | 43244/48845 [15:19:44<1:58:05,  1.27s/it] 89%|████████▊ | 43245/48845 [15:19:45<1:58:12,  1.27s/it]                                                          {'loss': 2.1933, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43245/48845 [15:19:45<1:58:12,  1.27s/it] 89%|████████▊ | 43246/48845 [15:19:47<1:58:15,  1.27s/it] 89%|████████▊ | 43247/48845 [15:19:48<1:58:10,  1.27s/it] 89%|████████▊ | 43248/48845 [15:19:49<1:58:10,  1.27s/it] 89%|████████▊ | 43249/48845 [15:19:51<1:58:06,  1.27s/it] 89%|████████▊ | 43250/48845 [15:19:52<1:58:03,  1.27s/it]                                                          {'loss': 2.0002, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43250/48845 [15:19:52<1:58:03,  1.27s/it] 89%|████████▊ | 43251/48845 [15:19:53<1:57:57,  1.27s/it] 89%|████████▊ | 43252/48845 [15:19:54<1:57:55,  1.26s/it] 89%|████████▊ | 43253/48845 [15:19:56<1:57:51,  1.26s/it] 89%|████████▊ | 43254/48845 [15:19:57<1:57:58,  1.27s/it] 89%|████████▊ | 43255/48845 [15:19:58<1:58:03,  1.27s/it]                                                          {'loss': 2.0792, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43255/48845 [15:19:58<1:58:03,  1.27s/it] 89%|████████▊ | 43256/48845 [15:19:59<1:57:56,  1.27s/it] 89%|████████▊ | 43257/48845 [15:20:01<1:57:51,  1.27s/it] 89%|████████▊ | 43258/48845 [15:20:02<1:57:52,  1.27s/it] 89%|████████▊ | 43259/48845 [15:20:03<1:57:50,  1.27s/it] 89%|████████▊ | 43260/48845 [15:20:04<1:57:46,  1.27s/it]                                                          {'loss': 2.1056, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43260/48845 [15:20:04<1:57:46,  1.27s/it] 89%|████████▊ | 43261/48845 [15:20:06<1:57:45,  1.27s/it] 89%|████████▊ | 43262/48845 [15:20:07<1:57:39,  1.26s/it] 89%|████████▊ | 43263/48845 [15:20:08<1:57:39,  1.26s/it] 89%|████████▊ | 43264/48845 [15:20:09<1:57:37,  1.26s/it] 89%|████████▊ | 43265/48845 [15:20:11<1:57:32,  1.26s/it]                                                          {'loss': 1.9495, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43265/48845 [15:20:11<1:57:32,  1.26s/it] 89%|████████▊ | 43266/48845 [15:20:12<2:00:35,  1.30s/it] 89%|████████▊ | 43267/48845 [15:20:13<1:59:35,  1.29s/it] 89%|████████▊ | 43268/48845 [15:20:15<1:58:53,  1.28s/it] 89%|████████▊ | 43269/48845 [15:20:16<1:58:22,  1.27s/it] 89%|████████▊ | 43270/48845 [15:20:17<1:58:08,  1.27s/it]                                                          {'loss': 2.0892, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43270/48845 [15:20:17<1:58:08,  1.27s/it] 89%|████████▊ | 43271/48845 [15:20:18<1:58:01,  1.27s/it] 89%|████████▊ | 43272/48845 [15:20:20<1:57:47,  1.27s/it] 89%|████████▊ | 43273/48845 [15:20:21<1:57:40,  1.27s/it] 89%|████████▊ | 43274/48845 [15:20:22<1:57:39,  1.27s/it] 89%|████████▊ | 43275/48845 [15:20:24<1:57:35,  1.27s/it]                                                          {'loss': 1.8874, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43275/48845 [15:20:24<1:57:35,  1.27s/it] 89%|████████▊ | 43276/48845 [15:20:25<1:57:35,  1.27s/it] 89%|████████▊ | 43277/48845 [15:20:26<1:57:31,  1.27s/it] 89%|████████▊ | 43278/48845 [15:20:27<1:57:28,  1.27s/it] 89%|████████▊ | 43279/48845 [15:20:29<1:57:25,  1.27s/it] 89%|████████▊ | 43280/48845 [15:20:30<1:57:30,  1.27s/it]                                                          {'loss': 2.0594, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43280/48845 [15:20:30<1:57:30,  1.27s/it] 89%|████████▊ | 43281/48845 [15:20:31<1:57:24,  1.27s/it] 89%|████████▊ | 43282/48845 [15:20:32<1:57:25,  1.27s/it] 89%|████████▊ | 43283/48845 [15:20:34<1:57:20,  1.27s/it] 89%|████████▊ | 43284/48845 [15:20:35<1:57:18,  1.27s/it] 89%|████████▊ | 43285/48845 [15:20:36<1:57:07,  1.26s/it]                                                          {'loss': 1.9076, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43285/48845 [15:20:36<1:57:07,  1.26s/it] 89%|████████▊ | 43286/48845 [15:20:37<1:57:21,  1.27s/it] 89%|████████▊ | 43287/48845 [15:20:39<1:57:20,  1.27s/it] 89%|████████▊ | 43288/48845 [15:20:40<1:57:20,  1.27s/it] 89%|████████▊ | 43289/48845 [15:20:41<1:57:12,  1.27s/it] 89%|████████▊ | 43290/48845 [15:20:42<1:57:17,  1.27s/it]                                                          {'loss': 2.0463, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43290/48845 [15:20:43<1:57:17,  1.27s/it] 89%|████████▊ | 43291/48845 [15:20:44<1:57:12,  1.27s/it] 89%|████████▊ | 43292/48845 [15:20:45<1:57:06,  1.27s/it] 89%|████████▊ | 43293/48845 [15:20:46<1:57:09,  1.27s/it] 89%|████████▊ | 43294/48845 [15:20:48<1:57:05,  1.27s/it] 89%|████████▊ | 43295/48845 [15:20:49<1:57:06,  1.27s/it]                                                          {'loss': 1.9479, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43295/48845 [15:20:49<1:57:06,  1.27s/it] 89%|████████▊ | 43296/48845 [15:20:50<1:57:11,  1.27s/it] 89%|████████▊ | 43297/48845 [15:20:51<1:57:01,  1.27s/it] 89%|████████▊ | 43298/48845 [15:20:53<1:57:00,  1.27s/it] 89%|████████▊ | 43299/48845 [15:20:54<1:57:00,  1.27s/it] 89%|████████▊ | 43300/48845 [15:20:55<1:56:56,  1.27s/it]                                                          {'loss': 2.2481, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43300/48845 [15:20:55<1:56:56,  1.27s/it] 89%|████████▊ | 43301/48845 [15:20:56<1:56:51,  1.26s/it] 89%|████████▊ | 43302/48845 [15:20:58<1:56:54,  1.27s/it] 89%|████████▊ | 43303/48845 [15:20:59<1:56:53,  1.27s/it] 89%|████████▊ | 43304/48845 [15:21:00<1:56:54,  1.27s/it] 89%|████████▊ | 43305/48845 [15:21:01<1:56:46,  1.26s/it]                                                          {'loss': 2.1256, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43305/48845 [15:21:01<1:56:46,  1.26s/it] 89%|████████▊ | 43306/48845 [15:21:03<1:56:54,  1.27s/it] 89%|████████▊ | 43307/48845 [15:21:04<1:56:45,  1.27s/it] 89%|████████▊ | 43308/48845 [15:21:05<1:56:40,  1.26s/it] 89%|████████▊ | 43309/48845 [15:21:07<1:56:36,  1.26s/it] 89%|████████▊ | 43310/48845 [15:21:08<1:56:46,  1.27s/it]                                                          {'loss': 2.1852, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43310/48845 [15:21:08<1:56:46,  1.27s/it] 89%|████████▊ | 43311/48845 [15:21:09<1:56:47,  1.27s/it] 89%|████████▊ | 43312/48845 [15:21:10<1:56:43,  1.27s/it] 89%|████████▊ | 43313/48845 [15:21:12<1:56:48,  1.27s/it] 89%|████████▊ | 43314/48845 [15:21:13<1:56:44,  1.27s/it] 89%|████████▊ | 43315/48845 [15:21:14<1:56:35,  1.26s/it]                                                          {'loss': 2.2422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43315/48845 [15:21:14<1:56:35,  1.26s/it] 89%|████████▊ | 43316/48845 [15:21:15<1:56:35,  1.27s/it] 89%|████████▊ | 43317/48845 [15:21:17<1:56:29,  1.26s/it] 89%|████████▊ | 43318/48845 [15:21:18<1:56:34,  1.27s/it] 89%|████████▊ | 43319/48845 [15:21:19<1:56:30,  1.27s/it] 89%|████████▊ | 43320/48845 [15:21:20<1:56:32,  1.27s/it]                                                          {'loss': 2.1419, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43320/48845 [15:21:20<1:56:32,  1.27s/it] 89%|████████▊ | 43321/48845 [15:21:22<1:56:26,  1.26s/it] 89%|████████▊ | 43322/48845 [15:21:23<1:59:59,  1.30s/it] 89%|████████▊ | 43323/48845 [15:21:24<1:58:51,  1.29s/it] 89%|████████▊ | 43324/48845 [15:21:26<1:57:57,  1.28s/it] 89%|████████▊ | 43325/48845 [15:21:27<1:57:25,  1.28s/it]                                                          {'loss': 2.2905, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.43}
+ 89%|████████▊ | 43325/48845 [15:21:27<1:57:25,  1.28s/it] 89%|████████▊ | 43326/48845 [15:21:28<1:57:09,  1.27s/it] 89%|████████▊ | 43327/48845 [15:21:29<1:56:57,  1.27s/it] 89%|████████▊ | 43328/48845 [15:21:31<1:56:47,  1.27s/it] 89%|████████▊ | 43329/48845 [15:21:32<1:56:33,  1.27s/it] 89%|████████▊ | 43330/48845 [15:21:33<1:56:35,  1.27s/it]                                                          {'loss': 2.1405, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▊ | 43330/48845 [15:21:33<1:56:35,  1.27s/it] 89%|████████▊ | 43331/48845 [15:21:35<1:56:28,  1.27s/it] 89%|████████▊ | 43332/48845 [15:21:36<1:56:23,  1.27s/it] 89%|████████▊ | 43333/48845 [15:21:37<1:56:19,  1.27s/it] 89%|████████▊ | 43334/48845 [15:21:38<1:56:54,  1.27s/it] 89%|████████▊ | 43335/48845 [15:21:40<1:56:43,  1.27s/it]                                                          {'loss': 2.0904, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▊ | 43335/48845 [15:21:40<1:56:43,  1.27s/it] 89%|████████▊ | 43336/48845 [15:21:41<1:56:35,  1.27s/it] 89%|████████▊ | 43337/48845 [15:21:42<1:56:29,  1.27s/it] 89%|████████▊ | 43338/48845 [15:21:43<1:56:15,  1.27s/it] 89%|████████▊ | 43339/48845 [15:21:45<1:56:05,  1.27s/it] 89%|████████▊ | 43340/48845 [15:21:46<1:56:02,  1.26s/it]                                                          {'loss': 2.2324, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▊ | 43340/48845 [15:21:46<1:56:02,  1.26s/it] 89%|████████▊ | 43341/48845 [15:21:47<1:56:02,  1.27s/it] 89%|████████▊ | 43342/48845 [15:21:48<1:56:00,  1.26s/it] 89%|████████▊ | 43343/48845 [15:21:50<1:56:07,  1.27s/it] 89%|████████▊ | 43344/48845 [15:21:51<1:56:13,  1.27s/it] 89%|████████▊ | 43345/48845 [15:21:52<1:55:59,  1.27s/it]                                                          {'loss': 2.2831, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▊ | 43345/48845 [15:21:52<1:55:59,  1.27s/it] 89%|████████▊ | 43346/48845 [15:21:54<1:55:55,  1.26s/it] 89%|████████▊ | 43347/48845 [15:21:55<1:55:48,  1.26s/it] 89%|████████▊ | 43348/48845 [15:21:56<1:58:35,  1.29s/it] 89%|████████▊ | 43349/48845 [15:21:57<1:57:38,  1.28s/it] 89%|████████▉ | 43350/48845 [15:21:59<1:57:01,  1.28s/it]                                                          {'loss': 2.1186, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43350/48845 [15:21:59<1:57:01,  1.28s/it] 89%|████████▉ | 43351/48845 [15:22:00<1:56:39,  1.27s/it] 89%|████████▉ | 43352/48845 [15:22:01<2:00:05,  1.31s/it] 89%|████████▉ | 43353/48845 [15:22:03<1:58:47,  1.30s/it] 89%|████████▉ | 43354/48845 [15:22:04<1:57:51,  1.29s/it] 89%|████████▉ | 43355/48845 [15:22:05<1:57:09,  1.28s/it]                                                          {'loss': 2.1071, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43355/48845 [15:22:05<1:57:09,  1.28s/it] 89%|████████▉ | 43356/48845 [15:22:06<1:56:43,  1.28s/it] 89%|████████▉ | 43357/48845 [15:22:08<1:56:22,  1.27s/it] 89%|████████▉ | 43358/48845 [15:22:09<1:56:08,  1.27s/it] 89%|████████▉ | 43359/48845 [15:22:10<1:55:50,  1.27s/it] 89%|████████▉ | 43360/48845 [15:22:12<2:00:35,  1.32s/it]                                                          {'loss': 2.2318, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43360/48845 [15:22:12<2:00:35,  1.32s/it] 89%|████████▉ | 43361/48845 [15:22:13<1:58:57,  1.30s/it] 89%|████████▉ | 43362/48845 [15:22:14<1:57:46,  1.29s/it] 89%|████████▉ | 43363/48845 [15:22:15<1:57:01,  1.28s/it] 89%|████████▉ | 43364/48845 [15:22:17<1:56:28,  1.28s/it] 89%|████████▉ | 43365/48845 [15:22:18<1:55:59,  1.27s/it]                                                          {'loss': 2.1126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43365/48845 [15:22:18<1:55:59,  1.27s/it] 89%|████████▉ | 43366/48845 [15:22:19<1:55:44,  1.27s/it] 89%|████████▉ | 43367/48845 [15:22:20<1:55:44,  1.27s/it] 89%|████████▉ | 43368/48845 [15:22:22<1:55:40,  1.27s/it] 89%|████████▉ | 43369/48845 [15:22:23<1:55:37,  1.27s/it] 89%|████████▉ | 43370/48845 [15:22:24<1:55:24,  1.26s/it]                                                          {'loss': 2.214, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43370/48845 [15:22:24<1:55:24,  1.26s/it] 89%|████████▉ | 43371/48845 [15:22:26<1:55:35,  1.27s/it] 89%|████████▉ | 43372/48845 [15:22:27<1:55:35,  1.27s/it] 89%|████████▉ | 43373/48845 [15:22:28<1:55:28,  1.27s/it] 89%|████████▉ | 43374/48845 [15:22:29<1:55:26,  1.27s/it] 89%|████████▉ | 43375/48845 [15:22:31<1:55:19,  1.27s/it]                                                          {'loss': 2.044, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43375/48845 [15:22:31<1:55:19,  1.27s/it] 89%|████████▉ | 43376/48845 [15:22:32<1:55:21,  1.27s/it] 89%|████████▉ | 43377/48845 [15:22:33<1:55:25,  1.27s/it] 89%|████████▉ | 43378/48845 [15:22:34<1:55:16,  1.27s/it] 89%|████████▉ | 43379/48845 [15:22:36<1:55:14,  1.26s/it] 89%|████████▉ | 43380/48845 [15:22:37<1:55:13,  1.26s/it]                                                          {'loss': 2.1468, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43380/48845 [15:22:37<1:55:13,  1.26s/it] 89%|████████▉ | 43381/48845 [15:22:38<1:55:10,  1.26s/it] 89%|████████▉ | 43382/48845 [15:22:39<1:55:06,  1.26s/it] 89%|████████▉ | 43383/48845 [15:22:41<1:54:58,  1.26s/it] 89%|████████▉ | 43384/48845 [15:22:42<1:54:59,  1.26s/it] 89%|████████▉ | 43385/48845 [15:22:43<1:54:59,  1.26s/it]                                                          {'loss': 2.0476, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43385/48845 [15:22:43<1:54:59,  1.26s/it] 89%|████████▉ | 43386/48845 [15:22:44<1:54:59,  1.26s/it] 89%|████████▉ | 43387/48845 [15:22:46<1:54:59,  1.26s/it] 89%|████████▉ | 43388/48845 [15:22:47<1:54:58,  1.26s/it] 89%|████████▉ | 43389/48845 [15:22:48<1:54:56,  1.26s/it] 89%|████████▉ | 43390/48845 [15:22:50<1:54:53,  1.26s/it]                                                          {'loss': 2.1596, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43390/48845 [15:22:50<1:54:53,  1.26s/it] 89%|████████▉ | 43391/48845 [15:22:51<1:54:56,  1.26s/it] 89%|████████▉ | 43392/48845 [15:22:52<1:57:15,  1.29s/it] 89%|████████▉ | 43393/48845 [15:22:53<1:56:30,  1.28s/it] 89%|████████▉ | 43394/48845 [15:22:55<1:55:56,  1.28s/it] 89%|████████▉ | 43395/48845 [15:22:56<1:55:36,  1.27s/it]                                                          {'loss': 2.0767, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43395/48845 [15:22:56<1:55:36,  1.27s/it] 89%|████████▉ | 43396/48845 [15:22:57<1:55:34,  1.27s/it] 89%|████████▉ | 43397/48845 [15:22:58<1:55:20,  1.27s/it] 89%|████████▉ | 43398/48845 [15:23:00<1:55:13,  1.27s/it] 89%|████████▉ | 43399/48845 [15:23:01<1:55:07,  1.27s/it] 89%|████████▉ | 43400/48845 [15:23:02<1:55:04,  1.27s/it]                                                          {'loss': 2.1216, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43400/48845 [15:23:02<1:55:04,  1.27s/it] 89%|████████▉ | 43401/48845 [15:23:06<3:04:37,  2.03s/it] 89%|████████▉ | 43402/48845 [15:23:07<2:43:35,  1.80s/it] 89%|████████▉ | 43403/48845 [15:23:09<2:28:46,  1.64s/it] 89%|████████▉ | 43404/48845 [15:23:10<2:18:22,  1.53s/it] 89%|████████▉ | 43405/48845 [15:23:11<2:11:07,  1.45s/it]                                                          {'loss': 2.1085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43405/48845 [15:23:11<2:11:07,  1.45s/it] 89%|████████▉ | 43406/48845 [15:23:12<2:06:07,  1.39s/it] 89%|████████▉ | 43407/48845 [15:23:14<2:02:39,  1.35s/it] 89%|████████▉ | 43408/48845 [15:23:15<2:00:07,  1.33s/it] 89%|████████▉ | 43409/48845 [15:23:16<1:58:18,  1.31s/it] 89%|████████▉ | 43410/48845 [15:23:17<1:57:05,  1.29s/it]                                                          {'loss': 2.0219, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43410/48845 [15:23:18<1:57:05,  1.29s/it] 89%|████████▉ | 43411/48845 [15:23:19<1:58:29,  1.31s/it] 89%|████████▉ | 43412/48845 [15:23:20<1:57:10,  1.29s/it] 89%|████████▉ | 43413/48845 [15:23:21<1:56:15,  1.28s/it] 89%|████████▉ | 43414/48845 [15:23:23<1:55:51,  1.28s/it] 89%|████████▉ | 43415/48845 [15:23:24<1:55:19,  1.27s/it]                                                          {'loss': 2.0869, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43415/48845 [15:23:24<1:55:19,  1.27s/it] 89%|████████▉ | 43416/48845 [15:23:25<1:54:56,  1.27s/it] 89%|████████▉ | 43417/48845 [15:23:26<1:54:49,  1.27s/it] 89%|████████▉ | 43418/48845 [15:23:28<1:54:32,  1.27s/it] 89%|████████▉ | 43419/48845 [15:23:29<1:54:32,  1.27s/it] 89%|████████▉ | 43420/48845 [15:23:30<1:54:30,  1.27s/it]                                                          {'loss': 2.001, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.44}
+ 89%|████████▉ | 43420/48845 [15:23:30<1:54:30,  1.27s/it] 89%|████████▉ | 43421/48845 [15:23:31<1:54:27,  1.27s/it] 89%|████████▉ | 43422/48845 [15:23:33<1:54:10,  1.26s/it] 89%|████████▉ | 43423/48845 [15:23:34<1:54:11,  1.26s/it] 89%|████████▉ | 43424/48845 [15:23:35<1:54:08,  1.26s/it] 89%|████████▉ | 43425/48845 [15:23:36<1:54:02,  1.26s/it]                                                          {'loss': 2.1738, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43425/48845 [15:23:36<1:54:02,  1.26s/it] 89%|████████▉ | 43426/48845 [15:23:38<1:54:03,  1.26s/it] 89%|████████▉ | 43427/48845 [15:23:39<1:54:42,  1.27s/it] 89%|████████▉ | 43428/48845 [15:23:40<1:54:28,  1.27s/it] 89%|████████▉ | 43429/48845 [15:23:42<1:54:28,  1.27s/it] 89%|████████▉ | 43430/48845 [15:23:43<1:54:22,  1.27s/it]                                                          {'loss': 2.0988, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43430/48845 [15:23:43<1:54:22,  1.27s/it] 89%|████████▉ | 43431/48845 [15:23:44<1:54:28,  1.27s/it] 89%|████████▉ | 43432/48845 [15:23:45<1:54:21,  1.27s/it] 89%|████████▉ | 43433/48845 [15:23:47<1:54:15,  1.27s/it] 89%|████████▉ | 43434/48845 [15:23:48<1:54:07,  1.27s/it] 89%|████████▉ | 43435/48845 [15:23:49<1:54:11,  1.27s/it]                                                          {'loss': 2.0902, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43435/48845 [15:23:49<1:54:11,  1.27s/it] 89%|████████▉ | 43436/48845 [15:23:50<1:54:09,  1.27s/it] 89%|████████▉ | 43437/48845 [15:23:52<1:54:07,  1.27s/it] 89%|████████▉ | 43438/48845 [15:23:53<1:54:06,  1.27s/it] 89%|████████▉ | 43439/48845 [15:23:54<1:54:06,  1.27s/it] 89%|████████▉ | 43440/48845 [15:23:55<1:54:03,  1.27s/it]                                                          {'loss': 2.1441, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43440/48845 [15:23:55<1:54:03,  1.27s/it] 89%|████████▉ | 43441/48845 [15:23:57<1:53:59,  1.27s/it] 89%|████████▉ | 43442/48845 [15:23:58<1:53:55,  1.27s/it] 89%|████████▉ | 43443/48845 [15:23:59<1:53:53,  1.26s/it] 89%|████████▉ | 43444/48845 [15:24:01<1:53:50,  1.26s/it] 89%|████████▉ | 43445/48845 [15:24:02<1:53:51,  1.27s/it]                                                          {'loss': 1.9854, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43445/48845 [15:24:02<1:53:51,  1.27s/it] 89%|████████▉ | 43446/48845 [15:24:03<1:53:58,  1.27s/it] 89%|████████▉ | 43447/48845 [15:24:04<1:54:01,  1.27s/it] 89%|████████▉ | 43448/48845 [15:24:06<1:53:53,  1.27s/it] 89%|████████▉ | 43449/48845 [15:24:07<1:53:54,  1.27s/it] 89%|████████▉ | 43450/48845 [15:24:08<1:53:48,  1.27s/it]                                                          {'loss': 1.9914, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43450/48845 [15:24:08<1:53:48,  1.27s/it] 89%|████████▉ | 43451/48845 [15:24:09<1:53:46,  1.27s/it] 89%|████████▉ | 43452/48845 [15:24:11<1:53:40,  1.26s/it] 89%|████████▉ | 43453/48845 [15:24:12<1:53:39,  1.26s/it] 89%|████████▉ | 43454/48845 [15:24:13<1:53:35,  1.26s/it] 89%|████████▉ | 43455/48845 [15:24:14<1:53:40,  1.27s/it]                                                          {'loss': 2.024, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43455/48845 [15:24:14<1:53:40,  1.27s/it] 89%|████████▉ | 43456/48845 [15:24:16<1:53:43,  1.27s/it] 89%|████████▉ | 43457/48845 [15:24:17<1:53:38,  1.27s/it] 89%|████████▉ | 43458/48845 [15:24:18<1:53:38,  1.27s/it] 89%|████████▉ | 43459/48845 [15:24:20<1:53:40,  1.27s/it] 89%|████████▉ | 43460/48845 [15:24:21<1:53:37,  1.27s/it]                                                          {'loss': 1.9724, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43460/48845 [15:24:21<1:53:37,  1.27s/it] 89%|████████▉ | 43461/48845 [15:24:22<1:53:38,  1.27s/it] 89%|████████▉ | 43462/48845 [15:24:23<1:53:33,  1.27s/it] 89%|████████▉ | 43463/48845 [15:24:25<1:53:24,  1.26s/it] 89%|████████▉ | 43464/48845 [15:24:26<1:53:19,  1.26s/it] 89%|████████▉ | 43465/48845 [15:24:27<1:53:19,  1.26s/it]                                                          {'loss': 2.0343, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43465/48845 [15:24:27<1:53:19,  1.26s/it] 89%|████████▉ | 43466/48845 [15:24:28<1:53:21,  1.26s/it] 89%|████████▉ | 43467/48845 [15:24:30<1:53:15,  1.26s/it] 89%|████████▉ | 43468/48845 [15:24:31<1:53:19,  1.26s/it] 89%|████████▉ | 43469/48845 [15:24:32<1:53:14,  1.26s/it] 89%|████████▉ | 43470/48845 [15:24:33<1:53:17,  1.26s/it]                                                          {'loss': 2.1583, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43470/48845 [15:24:33<1:53:17,  1.26s/it] 89%|████████▉ | 43471/48845 [15:24:35<1:53:13,  1.26s/it] 89%|████████▉ | 43472/48845 [15:24:36<1:53:07,  1.26s/it] 89%|████████▉ | 43473/48845 [15:24:37<1:53:08,  1.26s/it] 89%|████████▉ | 43474/48845 [15:24:38<1:53:13,  1.26s/it] 89%|████████▉ | 43475/48845 [15:24:40<1:53:14,  1.27s/it]                                                          {'loss': 2.0236, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43475/48845 [15:24:40<1:53:14,  1.27s/it] 89%|████████▉ | 43476/48845 [15:24:41<1:53:13,  1.27s/it] 89%|████████▉ | 43477/48845 [15:24:42<1:53:11,  1.27s/it] 89%|████████▉ | 43478/48845 [15:24:44<1:53:13,  1.27s/it] 89%|████████▉ | 43479/48845 [15:24:45<1:53:12,  1.27s/it] 89%|████████▉ | 43480/48845 [15:24:46<1:53:06,  1.27s/it]                                                          {'loss': 2.0333, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43480/48845 [15:24:46<1:53:06,  1.27s/it] 89%|████████▉ | 43481/48845 [15:24:47<1:53:06,  1.27s/it] 89%|████████▉ | 43482/48845 [15:24:49<1:53:01,  1.26s/it] 89%|████████▉ | 43483/48845 [15:24:50<1:52:54,  1.26s/it] 89%|████████▉ | 43484/48845 [15:24:51<1:52:52,  1.26s/it] 89%|████████▉ | 43485/48845 [15:24:52<1:52:54,  1.26s/it]                                                          {'loss': 2.2208, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43485/48845 [15:24:52<1:52:54,  1.26s/it] 89%|████████▉ | 43486/48845 [15:24:54<1:52:51,  1.26s/it] 89%|████████▉ | 43487/48845 [15:24:55<1:52:56,  1.26s/it] 89%|████████▉ | 43488/48845 [15:24:56<1:52:55,  1.26s/it] 89%|████████▉ | 43489/48845 [15:24:57<1:52:49,  1.26s/it] 89%|████████▉ | 43490/48845 [15:24:59<1:52:53,  1.26s/it]                                                          {'loss': 2.1899, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43490/48845 [15:24:59<1:52:53,  1.26s/it] 89%|████████▉ | 43491/48845 [15:25:00<1:53:00,  1.27s/it] 89%|████████▉ | 43492/48845 [15:25:01<1:52:50,  1.26s/it] 89%|████████▉ | 43493/48845 [15:25:03<1:52:51,  1.27s/it] 89%|████████▉ | 43494/48845 [15:25:04<1:52:50,  1.27s/it] 89%|████████▉ | 43495/48845 [15:25:05<1:52:56,  1.27s/it]                                                          {'loss': 2.2341, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43495/48845 [15:25:05<1:52:56,  1.27s/it] 89%|████████▉ | 43496/48845 [15:25:06<1:52:58,  1.27s/it] 89%|████████▉ | 43497/48845 [15:25:08<1:52:49,  1.27s/it] 89%|████████▉ | 43498/48845 [15:25:09<1:52:46,  1.27s/it] 89%|████████▉ | 43499/48845 [15:25:10<1:52:54,  1.27s/it] 89%|████████▉ | 43500/48845 [15:25:11<1:52:53,  1.27s/it]                                                          {'loss': 2.0463, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43500/48845 [15:25:11<1:52:53,  1.27s/it] 89%|████████▉ | 43501/48845 [15:25:13<1:52:42,  1.27s/it] 89%|████████▉ | 43502/48845 [15:25:14<1:52:46,  1.27s/it] 89%|████████▉ | 43503/48845 [15:25:15<1:55:15,  1.29s/it] 89%|████████▉ | 43504/48845 [15:25:17<1:54:19,  1.28s/it] 89%|████████▉ | 43505/48845 [15:25:18<1:53:42,  1.28s/it]                                                          {'loss': 1.9298, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43505/48845 [15:25:18<1:53:42,  1.28s/it] 89%|████████▉ | 43506/48845 [15:25:19<1:53:20,  1.27s/it] 89%|████████▉ | 43507/48845 [15:25:20<1:53:02,  1.27s/it] 89%|████████▉ | 43508/48845 [15:25:22<1:52:45,  1.27s/it] 89%|████████▉ | 43509/48845 [15:25:23<1:52:39,  1.27s/it] 89%|████████▉ | 43510/48845 [15:25:24<1:52:44,  1.27s/it]                                                          {'loss': 2.0527, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43510/48845 [15:25:24<1:52:44,  1.27s/it] 89%|████████▉ | 43511/48845 [15:25:25<1:52:45,  1.27s/it] 89%|████████▉ | 43512/48845 [15:25:27<1:52:34,  1.27s/it] 89%|████████▉ | 43513/48845 [15:25:28<1:52:30,  1.27s/it] 89%|████████▉ | 43514/48845 [15:25:29<1:52:26,  1.27s/it] 89%|████████▉ | 43515/48845 [15:25:30<1:52:31,  1.27s/it]                                                          {'loss': 2.0259, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43515/48845 [15:25:30<1:52:31,  1.27s/it] 89%|████████▉ | 43516/48845 [15:25:32<1:52:36,  1.27s/it] 89%|████████▉ | 43517/48845 [15:25:33<1:52:34,  1.27s/it] 89%|████████▉ | 43518/48845 [15:25:34<1:52:22,  1.27s/it] 89%|████████▉ | 43519/48845 [15:25:36<1:52:22,  1.27s/it] 89%|████████▉ | 43520/48845 [15:25:37<1:52:17,  1.27s/it]                                                          {'loss': 2.2028, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.45}
+ 89%|████████▉ | 43520/48845 [15:25:37<1:52:17,  1.27s/it] 89%|████████▉ | 43521/48845 [15:25:38<1:52:16,  1.27s/it] 89%|████████▉ | 43522/48845 [15:25:39<1:52:12,  1.26s/it] 89%|████████▉ | 43523/48845 [15:25:41<1:56:13,  1.31s/it] 89%|████████▉ | 43524/48845 [15:25:42<1:54:53,  1.30s/it] 89%|████████▉ | 43525/48845 [15:25:43<1:54:03,  1.29s/it]                                                          {'loss': 2.0888, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43525/48845 [15:25:43<1:54:03,  1.29s/it] 89%|████████▉ | 43526/48845 [15:25:45<1:53:38,  1.28s/it] 89%|████████▉ | 43527/48845 [15:25:46<1:53:33,  1.28s/it] 89%|████████▉ | 43528/48845 [15:25:47<1:53:03,  1.28s/it] 89%|████████▉ | 43529/48845 [15:25:48<1:52:41,  1.27s/it] 89%|████████▉ | 43530/48845 [15:25:50<1:52:24,  1.27s/it]                                                          {'loss': 2.0446, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43530/48845 [15:25:50<1:52:24,  1.27s/it] 89%|████████▉ | 43531/48845 [15:25:51<1:52:27,  1.27s/it] 89%|████████▉ | 43532/48845 [15:25:52<1:52:24,  1.27s/it] 89%|████████▉ | 43533/48845 [15:25:53<1:52:09,  1.27s/it] 89%|████████▉ | 43534/48845 [15:25:55<1:51:58,  1.26s/it] 89%|████████▉ | 43535/48845 [15:25:56<1:52:03,  1.27s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43535/48845 [15:25:56<1:52:03,  1.27s/it] 89%|████████▉ | 43536/48845 [15:25:57<1:51:59,  1.27s/it] 89%|████████▉ | 43537/48845 [15:25:58<1:51:48,  1.26s/it] 89%|████████▉ | 43538/48845 [15:26:00<1:51:44,  1.26s/it] 89%|████████▉ | 43539/48845 [15:26:01<1:51:41,  1.26s/it] 89%|████████▉ | 43540/48845 [15:26:02<1:51:46,  1.26s/it]                                                          {'loss': 2.0247, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43540/48845 [15:26:02<1:51:46,  1.26s/it] 89%|████████▉ | 43541/48845 [15:26:04<1:51:45,  1.26s/it] 89%|████████▉ | 43542/48845 [15:26:05<1:51:43,  1.26s/it] 89%|████████▉ | 43543/48845 [15:26:06<1:51:46,  1.26s/it] 89%|████████▉ | 43544/48845 [15:26:07<1:51:47,  1.27s/it] 89%|████████▉ | 43545/48845 [15:26:09<1:51:38,  1.26s/it]                                                          {'loss': 2.1257, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43545/48845 [15:26:09<1:51:38,  1.26s/it] 89%|████████▉ | 43546/48845 [15:26:10<1:51:35,  1.26s/it] 89%|████████▉ | 43547/48845 [15:26:11<1:51:35,  1.26s/it] 89%|████████▉ | 43548/48845 [15:26:12<1:51:28,  1.26s/it] 89%|████████▉ | 43549/48845 [15:26:14<1:51:23,  1.26s/it] 89%|████████▉ | 43550/48845 [15:26:15<1:52:13,  1.27s/it]                                                          {'loss': 1.9852, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43550/48845 [15:26:15<1:52:13,  1.27s/it] 89%|████████▉ | 43551/48845 [15:26:16<1:52:11,  1.27s/it] 89%|████████▉ | 43552/48845 [15:26:17<1:51:56,  1.27s/it] 89%|████████▉ | 43553/48845 [15:26:19<1:51:43,  1.27s/it] 89%|████████▉ | 43554/48845 [15:26:20<1:51:38,  1.27s/it] 89%|████████▉ | 43555/48845 [15:26:21<1:51:31,  1.26s/it]                                                          {'loss': 2.0644, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43555/48845 [15:26:21<1:51:31,  1.26s/it] 89%|████████▉ | 43556/48845 [15:26:23<1:51:32,  1.27s/it] 89%|████████▉ | 43557/48845 [15:26:24<1:51:30,  1.27s/it] 89%|████████▉ | 43558/48845 [15:26:25<1:51:24,  1.26s/it] 89%|████████▉ | 43559/48845 [15:26:26<1:51:30,  1.27s/it] 89%|████████▉ | 43560/48845 [15:26:28<1:51:30,  1.27s/it]                                                          {'loss': 2.2469, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43560/48845 [15:26:28<1:51:30,  1.27s/it] 89%|████████▉ | 43561/48845 [15:26:29<1:51:31,  1.27s/it] 89%|████████▉ | 43562/48845 [15:26:30<1:51:34,  1.27s/it] 89%|████████▉ | 43563/48845 [15:26:31<1:53:37,  1.29s/it] 89%|████████▉ | 43564/48845 [15:26:33<1:52:50,  1.28s/it] 89%|████████▉ | 43565/48845 [15:26:34<1:52:22,  1.28s/it]                                                          {'loss': 2.233, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43565/48845 [15:26:34<1:52:22,  1.28s/it] 89%|████████▉ | 43566/48845 [15:26:35<1:52:08,  1.27s/it] 89%|████████▉ | 43567/48845 [15:26:37<1:51:58,  1.27s/it] 89%|████████▉ | 43568/48845 [15:26:38<1:51:50,  1.27s/it] 89%|████████▉ | 43569/48845 [15:26:39<1:51:37,  1.27s/it] 89%|████████▉ | 43570/48845 [15:26:40<1:51:32,  1.27s/it]                                                          {'loss': 2.0708, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43570/48845 [15:26:40<1:51:32,  1.27s/it] 89%|████████▉ | 43571/48845 [15:26:42<1:51:26,  1.27s/it] 89%|████████▉ | 43572/48845 [15:26:43<1:51:20,  1.27s/it] 89%|████████▉ | 43573/48845 [15:26:44<1:51:16,  1.27s/it] 89%|████████▉ | 43574/48845 [15:26:45<1:51:08,  1.27s/it] 89%|████████▉ | 43575/48845 [15:26:47<1:51:16,  1.27s/it]                                                          {'loss': 1.9805, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43575/48845 [15:26:47<1:51:16,  1.27s/it] 89%|████████▉ | 43576/48845 [15:26:48<1:51:16,  1.27s/it] 89%|████████▉ | 43577/48845 [15:26:49<1:51:13,  1.27s/it] 89%|████████▉ | 43578/48845 [15:26:50<1:51:09,  1.27s/it] 89%|████████▉ | 43579/48845 [15:26:52<1:51:08,  1.27s/it] 89%|████████▉ | 43580/48845 [15:26:53<1:51:10,  1.27s/it]                                                          {'loss': 1.8913, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43580/48845 [15:26:53<1:51:10,  1.27s/it] 89%|████████▉ | 43581/48845 [15:26:54<1:51:03,  1.27s/it] 89%|████████▉ | 43582/48845 [15:26:56<1:50:55,  1.26s/it] 89%|████████▉ | 43583/48845 [15:26:57<1:50:52,  1.26s/it] 89%|████████▉ | 43584/48845 [15:26:58<1:50:48,  1.26s/it] 89%|████████▉ | 43585/48845 [15:26:59<1:50:42,  1.26s/it]                                                          {'loss': 2.1714, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43585/48845 [15:26:59<1:50:42,  1.26s/it] 89%|████████▉ | 43586/48845 [15:27:01<1:50:46,  1.26s/it] 89%|████████▉ | 43587/48845 [15:27:02<1:50:50,  1.26s/it] 89%|████████▉ | 43588/48845 [15:27:03<1:50:48,  1.26s/it] 89%|████████▉ | 43589/48845 [15:27:04<1:50:44,  1.26s/it] 89%|████████▉ | 43590/48845 [15:27:06<1:50:41,  1.26s/it]                                                          {'loss': 1.9894, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43590/48845 [15:27:06<1:50:41,  1.26s/it] 89%|████████▉ | 43591/48845 [15:27:07<1:50:49,  1.27s/it] 89%|████████▉ | 43592/48845 [15:27:08<1:50:43,  1.26s/it] 89%|████████▉ | 43593/48845 [15:27:09<1:50:50,  1.27s/it] 89%|████████▉ | 43594/48845 [15:27:11<1:50:49,  1.27s/it] 89%|████████▉ | 43595/48845 [15:27:12<1:51:14,  1.27s/it]                                                          {'loss': 2.0168, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43595/48845 [15:27:12<1:51:14,  1.27s/it] 89%|████████▉ | 43596/48845 [15:27:13<1:51:02,  1.27s/it] 89%|████████▉ | 43597/48845 [15:27:14<1:50:59,  1.27s/it] 89%|████████▉ | 43598/48845 [15:27:16<1:50:52,  1.27s/it] 89%|████████▉ | 43599/48845 [15:27:17<1:50:51,  1.27s/it] 89%|████████▉ | 43600/48845 [15:27:18<1:50:47,  1.27s/it]                                                          {'loss': 2.1547, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43600/48845 [15:27:18<1:50:47,  1.27s/it] 89%|████████▉ | 43601/48845 [15:27:22<2:56:19,  2.02s/it] 89%|████████▉ | 43602/48845 [15:27:23<2:36:26,  1.79s/it] 89%|████████▉ | 43603/48845 [15:27:25<2:22:39,  1.63s/it] 89%|████████▉ | 43604/48845 [15:27:26<2:13:00,  1.52s/it] 89%|████████▉ | 43605/48845 [15:27:27<2:06:07,  1.44s/it]                                                          {'loss': 1.9093, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43605/48845 [15:27:27<2:06:07,  1.44s/it] 89%|████████▉ | 43606/48845 [15:27:28<2:01:20,  1.39s/it] 89%|████████▉ | 43607/48845 [15:27:30<1:57:56,  1.35s/it] 89%|████████▉ | 43608/48845 [15:27:31<1:55:44,  1.33s/it] 89%|████████▉ | 43609/48845 [15:27:32<1:54:02,  1.31s/it] 89%|████████▉ | 43610/48845 [15:27:33<1:52:52,  1.29s/it]                                                          {'loss': 1.9884, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43610/48845 [15:27:33<1:52:52,  1.29s/it] 89%|████████▉ | 43611/48845 [15:27:35<1:52:02,  1.28s/it] 89%|████████▉ | 43612/48845 [15:27:36<1:51:27,  1.28s/it] 89%|████████▉ | 43613/48845 [15:27:37<1:51:02,  1.27s/it] 89%|████████▉ | 43614/48845 [15:27:38<1:50:45,  1.27s/it] 89%|████████▉ | 43615/48845 [15:27:40<1:50:26,  1.27s/it]                                                          {'loss': 2.0599, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.46}
+ 89%|████████▉ | 43615/48845 [15:27:40<1:50:26,  1.27s/it] 89%|████████▉ | 43616/48845 [15:27:41<1:50:18,  1.27s/it] 89%|████████▉ | 43617/48845 [15:27:42<1:50:16,  1.27s/it] 89%|████████▉ | 43618/48845 [15:27:44<1:50:07,  1.26s/it] 89%|████████▉ | 43619/48845 [15:27:45<1:50:10,  1.26s/it] 89%|████████▉ | 43620/48845 [15:27:46<1:50:06,  1.26s/it]                                                          {'loss': 2.0539, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43620/48845 [15:27:46<1:50:06,  1.26s/it] 89%|████████▉ | 43621/48845 [15:27:47<1:50:10,  1.27s/it] 89%|████████▉ | 43622/48845 [15:27:49<1:50:06,  1.26s/it] 89%|████████▉ | 43623/48845 [15:27:50<1:50:08,  1.27s/it] 89%|████████▉ | 43624/48845 [15:27:51<1:50:04,  1.27s/it] 89%|████████▉ | 43625/48845 [15:27:52<1:50:04,  1.27s/it]                                                          {'loss': 2.179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43625/48845 [15:27:52<1:50:04,  1.27s/it] 89%|████████▉ | 43626/48845 [15:27:54<1:50:02,  1.27s/it] 89%|████████▉ | 43627/48845 [15:27:55<1:50:01,  1.27s/it] 89%|████████▉ | 43628/48845 [15:27:56<1:49:51,  1.26s/it] 89%|████████▉ | 43629/48845 [15:27:57<1:49:51,  1.26s/it] 89%|████████▉ | 43630/48845 [15:27:59<1:49:53,  1.26s/it]                                                          {'loss': 2.0823, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43630/48845 [15:27:59<1:49:53,  1.26s/it] 89%|████████▉ | 43631/48845 [15:28:00<1:49:58,  1.27s/it] 89%|████████▉ | 43632/48845 [15:28:01<1:49:50,  1.26s/it] 89%|████████▉ | 43633/48845 [15:28:03<1:53:00,  1.30s/it] 89%|████████▉ | 43634/48845 [15:28:04<1:52:04,  1.29s/it] 89%|████████▉ | 43635/48845 [15:28:05<1:51:23,  1.28s/it]                                                          {'loss': 2.1376, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43635/48845 [15:28:05<1:51:23,  1.28s/it] 89%|████████▉ | 43636/48845 [15:28:06<1:50:46,  1.28s/it] 89%|████████▉ | 43637/48845 [15:28:08<2:03:34,  1.42s/it] 89%|████████▉ | 43638/48845 [15:28:09<1:59:15,  1.37s/it] 89%|████████▉ | 43639/48845 [15:28:11<1:56:17,  1.34s/it] 89%|████████▉ | 43640/48845 [15:28:12<1:54:12,  1.32s/it]                                                          {'loss': 2.1435, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43640/48845 [15:28:12<1:54:12,  1.32s/it] 89%|████████▉ | 43641/48845 [15:28:13<1:52:41,  1.30s/it] 89%|████████▉ | 43642/48845 [15:28:14<1:51:44,  1.29s/it] 89%|████████▉ | 43643/48845 [15:28:16<1:51:02,  1.28s/it] 89%|████████▉ | 43644/48845 [15:28:17<1:50:31,  1.28s/it] 89%|████████▉ | 43645/48845 [15:28:18<1:50:18,  1.27s/it]                                                          {'loss': 2.0244, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43645/48845 [15:28:18<1:50:18,  1.27s/it] 89%|████████▉ | 43646/48845 [15:28:20<1:50:14,  1.27s/it] 89%|████████▉ | 43647/48845 [15:28:21<1:49:58,  1.27s/it] 89%|████████▉ | 43648/48845 [15:28:22<1:49:46,  1.27s/it] 89%|████████▉ | 43649/48845 [15:28:23<1:52:28,  1.30s/it] 89%|████████▉ | 43650/48845 [15:28:25<1:51:29,  1.29s/it]                                                          {'loss': 2.0839, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43650/48845 [15:28:25<1:51:29,  1.29s/it] 89%|████████▉ | 43651/48845 [15:28:26<1:50:48,  1.28s/it] 89%|████████▉ | 43652/48845 [15:28:27<1:50:18,  1.27s/it] 89%|████████▉ | 43653/48845 [15:28:29<1:50:03,  1.27s/it] 89%|████████▉ | 43654/48845 [15:28:30<1:49:41,  1.27s/it] 89%|████████▉ | 43655/48845 [15:28:31<1:49:33,  1.27s/it]                                                          {'loss': 2.0553, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43655/48845 [15:28:31<1:49:33,  1.27s/it] 89%|████████▉ | 43656/48845 [15:28:32<1:49:29,  1.27s/it] 89%|████████▉ | 43657/48845 [15:28:34<1:49:30,  1.27s/it] 89%|████████▉ | 43658/48845 [15:28:35<1:49:26,  1.27s/it] 89%|████████▉ | 43659/48845 [15:28:36<1:49:24,  1.27s/it] 89%|████████▉ | 43660/48845 [15:28:37<1:49:16,  1.26s/it]                                                          {'loss': 2.076, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43660/48845 [15:28:37<1:49:16,  1.26s/it] 89%|████████▉ | 43661/48845 [15:28:39<1:49:19,  1.27s/it] 89%|████████▉ | 43662/48845 [15:28:40<1:49:16,  1.26s/it] 89%|████████▉ | 43663/48845 [15:28:41<1:49:16,  1.27s/it] 89%|████████▉ | 43664/48845 [15:28:42<1:49:12,  1.26s/it] 89%|████████▉ | 43665/48845 [15:28:44<1:49:16,  1.27s/it]                                                          {'loss': 2.019, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43665/48845 [15:28:44<1:49:16,  1.27s/it] 89%|████████▉ | 43666/48845 [15:28:45<1:49:20,  1.27s/it] 89%|████████▉ | 43667/48845 [15:28:46<1:49:08,  1.26s/it] 89%|████████▉ | 43668/48845 [15:28:47<1:49:02,  1.26s/it] 89%|████████▉ | 43669/48845 [15:28:49<1:49:05,  1.26s/it] 89%|████████▉ | 43670/48845 [15:28:50<1:49:05,  1.26s/it]                                                          {'loss': 2.0158, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43670/48845 [15:28:50<1:49:05,  1.26s/it] 89%|████████▉ | 43671/48845 [15:28:51<1:49:02,  1.26s/it] 89%|████████▉ | 43672/48845 [15:28:53<1:48:57,  1.26s/it] 89%|████████▉ | 43673/48845 [15:28:54<1:49:00,  1.26s/it] 89%|████████▉ | 43674/48845 [15:28:55<1:48:52,  1.26s/it] 89%|████████▉ | 43675/48845 [15:28:56<1:48:52,  1.26s/it]                                                          {'loss': 2.1563, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43675/48845 [15:28:56<1:48:52,  1.26s/it] 89%|█���██████▉ | 43676/48845 [15:28:58<1:48:52,  1.26s/it] 89%|████████▉ | 43677/48845 [15:28:59<1:48:59,  1.27s/it] 89%|████████▉ | 43678/48845 [15:29:00<1:48:51,  1.26s/it] 89%|████████▉ | 43679/48845 [15:29:01<1:48:55,  1.27s/it] 89%|████████▉ | 43680/48845 [15:29:03<1:48:50,  1.26s/it]                                                          {'loss': 2.2137, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43680/48845 [15:29:03<1:48:50,  1.26s/it] 89%|████████▉ | 43681/48845 [15:29:04<1:48:50,  1.26s/it] 89%|████████▉ | 43682/48845 [15:29:05<1:48:44,  1.26s/it] 89%|████████▉ | 43683/48845 [15:29:06<1:48:42,  1.26s/it] 89%|████████▉ | 43684/48845 [15:29:08<1:48:35,  1.26s/it] 89%|████████▉ | 43685/48845 [15:29:09<1:48:42,  1.26s/it]                                                          {'loss': 2.0422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43685/48845 [15:29:09<1:48:42,  1.26s/it] 89%|████████▉ | 43686/48845 [15:29:10<1:48:39,  1.26s/it] 89%|████████▉ | 43687/48845 [15:29:11<1:48:37,  1.26s/it] 89%|████████▉ | 43688/48845 [15:29:13<1:48:35,  1.26s/it] 89%|████████▉ | 43689/48845 [15:29:14<1:48:36,  1.26s/it] 89%|████████▉ | 43690/48845 [15:29:15<1:48:31,  1.26s/it]                                                          {'loss': 1.9675, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43690/48845 [15:29:15<1:48:31,  1.26s/it] 89%|████████▉ | 43691/48845 [15:29:17<1:48:26,  1.26s/it] 89%|████████▉ | 43692/48845 [15:29:18<1:48:30,  1.26s/it] 89%|████████▉ | 43693/48845 [15:29:19<1:48:31,  1.26s/it] 89%|████████▉ | 43694/48845 [15:29:20<1:48:30,  1.26s/it] 89%|████████▉ | 43695/48845 [15:29:22<1:48:27,  1.26s/it]                                                          {'loss': 2.145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43695/48845 [15:29:22<1:48:27,  1.26s/it] 89%|████████▉ | 43696/48845 [15:29:23<1:48:32,  1.26s/it] 89%|████████▉ | 43697/48845 [15:29:24<1:48:33,  1.27s/it] 89%|████████▉ | 43698/48845 [15:29:25<1:48:30,  1.26s/it] 89%|████████▉ | 43699/48845 [15:29:27<1:48:27,  1.26s/it] 89%|████████▉ | 43700/48845 [15:29:28<1:48:25,  1.26s/it]                                                          {'loss': 2.1556, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43700/48845 [15:29:28<1:48:25,  1.26s/it] 89%|████████▉ | 43701/48845 [15:29:29<1:48:30,  1.27s/it] 89%|████████▉ | 43702/48845 [15:29:30<1:48:27,  1.27s/it] 89%|████████▉ | 43703/48845 [15:29:32<1:48:16,  1.26s/it] 89%|████████▉ | 43704/48845 [15:29:33<1:48:17,  1.26s/it] 89%|████████▉ | 43705/48845 [15:29:34<1:48:13,  1.26s/it]                                                          {'loss': 2.1503, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43705/48845 [15:29:34<1:48:13,  1.26s/it] 89%|████████▉ | 43706/48845 [15:29:36<1:48:15,  1.26s/it] 89%|████████▉ | 43707/48845 [15:29:37<1:48:19,  1.26s/it] 89%|████████▉ | 43708/48845 [15:29:38<1:48:15,  1.26s/it] 89%|████████▉ | 43709/48845 [15:29:39<1:48:10,  1.26s/it] 89%|████████▉ | 43710/48845 [15:29:41<1:48:05,  1.26s/it]                                                          {'loss': 2.0765, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43710/48845 [15:29:41<1:48:05,  1.26s/it] 89%|████████▉ | 43711/48845 [15:29:42<1:48:04,  1.26s/it] 89%|████████▉ | 43712/48845 [15:29:43<1:48:06,  1.26s/it] 89%|████████▉ | 43713/48845 [15:29:44<1:48:12,  1.27s/it] 89%|████████▉ | 43714/48845 [15:29:46<1:48:07,  1.26s/it] 89%|████████▉ | 43715/48845 [15:29:47<1:48:01,  1.26s/it]                                                          {'loss': 2.0676, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.47}
+ 89%|████████▉ | 43715/48845 [15:29:47<1:48:01,  1.26s/it] 89%|████████▉ | 43716/48845 [15:29:48<1:48:09,  1.27s/it] 90%|████████▉ | 43717/48845 [15:29:49<1:48:08,  1.27s/it] 90%|████████▉ | 43718/48845 [15:29:51<1:48:05,  1.26s/it] 90%|████████▉ | 43719/48845 [15:29:52<1:48:07,  1.27s/it] 90%|████████▉ | 43720/48845 [15:29:53<1:48:00,  1.26s/it]                                                          {'loss': 2.0135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43720/48845 [15:29:53<1:48:00,  1.26s/it] 90%|████████▉ | 43721/48845 [15:29:54<1:48:04,  1.27s/it] 90%|████████▉ | 43722/48845 [15:29:56<1:48:03,  1.27s/it] 90%|████████▉ | 43723/48845 [15:29:57<1:48:04,  1.27s/it] 90%|████████▉ | 43724/48845 [15:29:58<1:47:51,  1.26s/it] 90%|████████▉ | 43725/48845 [15:30:00<1:47:57,  1.27s/it]                                                          {'loss': 2.1947, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43725/48845 [15:30:00<1:47:57,  1.27s/it] 90%|████████▉ | 43726/48845 [15:30:01<1:47:58,  1.27s/it] 90%|████████▉ | 43727/48845 [15:30:02<1:47:59,  1.27s/it] 90%|████████▉ | 43728/48845 [15:30:03<1:47:57,  1.27s/it] 90%|████████▉ | 43729/48845 [15:30:05<1:47:58,  1.27s/it] 90%|████████▉ | 43730/48845 [15:30:06<1:47:55,  1.27s/it]                                                          {'loss': 2.2948, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43730/48845 [15:30:06<1:47:55,  1.27s/it] 90%|████████▉ | 43731/48845 [15:30:07<1:47:55,  1.27s/it] 90%|████████▉ | 43732/48845 [15:30:08<1:47:55,  1.27s/it] 90%|████████▉ | 43733/48845 [15:30:10<1:48:12,  1.27s/it] 90%|████████▉ | 43734/48845 [15:30:11<1:48:00,  1.27s/it] 90%|████████▉ | 43735/48845 [15:30:12<1:47:54,  1.27s/it]                                                          {'loss': 2.0966, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43735/48845 [15:30:12<1:47:54,  1.27s/it] 90%|████████▉ | 43736/48845 [15:30:13<1:47:45,  1.27s/it] 90%|████████▉ | 43737/48845 [15:30:15<1:47:52,  1.27s/it] 90%|████████▉ | 43738/48845 [15:30:16<1:47:44,  1.27s/it] 90%|████████▉ | 43739/48845 [15:30:17<1:47:42,  1.27s/it] 90%|████████▉ | 43740/48845 [15:30:19<1:47:38,  1.27s/it]                                                          {'loss': 2.0081, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43740/48845 [15:30:19<1:47:38,  1.27s/it] 90%|████████▉ | 43741/48845 [15:30:20<1:47:46,  1.27s/it] 90%|████████▉ | 43742/48845 [15:30:21<1:47:40,  1.27s/it] 90%|████████▉ | 43743/48845 [15:30:22<1:47:35,  1.27s/it] 90%|████████▉ | 43744/48845 [15:30:24<1:47:29,  1.26s/it] 90%|████████▉ | 43745/48845 [15:30:25<1:47:35,  1.27s/it]                                                          {'loss': 1.9777, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43745/48845 [15:30:25<1:47:35,  1.27s/it] 90%|████████▉ | 43746/48845 [15:30:26<1:47:38,  1.27s/it] 90%|████████▉ | 43747/48845 [15:30:27<1:47:33,  1.27s/it] 90%|████████▉ | 43748/48845 [15:30:29<1:47:25,  1.26s/it] 90%|████████▉ | 43749/48845 [15:30:30<1:47:28,  1.27s/it] 90%|████████▉ | 43750/48845 [15:30:31<1:47:19,  1.26s/it]                                                          {'loss': 2.0663, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43750/48845 [15:30:31<1:47:19,  1.26s/it] 90%|████████▉ | 43751/48845 [15:30:32<1:47:24,  1.27s/it] 90%|████████▉ | 43752/48845 [15:30:34<1:47:15,  1.26s/it] 90%|████████▉ | 43753/48845 [15:30:35<1:47:12,  1.26s/it] 90%|████████▉ | 43754/48845 [15:30:36<1:47:09,  1.26s/it] 90%|████████▉ | 43755/48845 [15:30:37<1:47:09,  1.26s/it]                                                          {'loss': 2.0016, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43755/48845 [15:30:37<1:47:09,  1.26s/it] 90%|████████▉ | 43756/48845 [15:30:39<1:47:13,  1.26s/it] 90%|████████▉ | 43757/48845 [15:30:40<1:47:20,  1.27s/it] 90%|████████▉ | 43758/48845 [15:30:41<1:47:10,  1.26s/it] 90%|████████▉ | 43759/48845 [15:30:43<1:47:07,  1.26s/it] 90%|████████▉ | 43760/48845 [15:30:44<1:47:13,  1.27s/it]                                                          {'loss': 2.0946, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43760/48845 [15:30:44<1:47:13,  1.27s/it] 90%|████████▉ | 43761/48845 [15:30:45<1:51:19,  1.31s/it] 90%|████████▉ | 43762/48845 [15:30:47<1:49:57,  1.30s/it] 90%|████████▉ | 43763/48845 [15:30:48<1:49:05,  1.29s/it] 90%|████████▉ | 43764/48845 [15:30:49<1:48:32,  1.28s/it] 90%|████████▉ | 43765/48845 [15:30:50<1:48:09,  1.28s/it]                                                          {'loss': 2.0413, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43765/48845 [15:30:50<1:48:09,  1.28s/it] 90%|████████▉ | 43766/48845 [15:30:52<1:47:55,  1.27s/it] 90%|████████▉ | 43767/48845 [15:30:53<1:47:36,  1.27s/it] 90%|████████▉ | 43768/48845 [15:30:54<1:47:23,  1.27s/it] 90%|████████▉ | 43769/48845 [15:30:55<1:47:16,  1.27s/it] 90%|████████▉ | 43770/48845 [15:30:57<1:47:07,  1.27s/it]                                                          {'loss': 1.9457, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43770/48845 [15:30:57<1:47:07,  1.27s/it] 90%|████████▉ | 43771/48845 [15:30:58<1:47:05,  1.27s/it] 90%|████████▉ | 43772/48845 [15:30:59<1:47:01,  1.27s/it] 90%|████████▉ | 43773/48845 [15:31:00<1:46:58,  1.27s/it] 90%|████████▉ | 43774/48845 [15:31:02<1:46:56,  1.27s/it] 90%|████████▉ | 43775/48845 [15:31:03<1:46:54,  1.27s/it]                                                          {'loss': 2.1471, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43775/48845 [15:31:03<1:46:54,  1.27s/it] 90%|████████▉ | 43776/48845 [15:31:04<1:46:49,  1.26s/it] 90%|████████▉ | 43777/48845 [15:31:05<1:46:59,  1.27s/it] 90%|████████▉ | 43778/48845 [15:31:07<1:46:53,  1.27s/it] 90%|████████▉ | 43779/48845 [15:31:08<1:46:53,  1.27s/it] 90%|████████▉ | 43780/48845 [15:31:09<1:46:46,  1.26s/it]                                                          {'loss': 2.0977, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43780/48845 [15:31:09<1:46:46,  1.26s/it] 90%|████████▉ | 43781/48845 [15:31:11<1:46:54,  1.27s/it] 90%|████████▉ | 43782/48845 [15:31:12<1:46:48,  1.27s/it] 90%|████████▉ | 43783/48845 [15:31:13<1:46:41,  1.26s/it] 90%|████████▉ | 43784/48845 [15:31:14<1:46:38,  1.26s/it] 90%|████████▉ | 43785/48845 [15:31:16<1:46:40,  1.27s/it]                                                          {'loss': 2.0553, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43785/48845 [15:31:16<1:46:40,  1.27s/it] 90%|████████▉ | 43786/48845 [15:31:17<1:46:38,  1.26s/it] 90%|████████▉ | 43787/48845 [15:31:18<1:46:40,  1.27s/it] 90%|████████▉ | 43788/48845 [15:31:19<1:46:35,  1.26s/it] 90%|████████▉ | 43789/48845 [15:31:21<1:46:37,  1.27s/it] 90%|████████▉ | 43790/48845 [15:31:22<1:46:35,  1.27s/it]                                                          {'loss': 2.0126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43790/48845 [15:31:22<1:46:35,  1.27s/it] 90%|████████▉ | 43791/48845 [15:31:23<1:46:32,  1.26s/it] 90%|████████▉ | 43792/48845 [15:31:24<1:46:28,  1.26s/it] 90%|████████▉ | 43793/48845 [15:31:26<1:46:28,  1.26s/it] 90%|████████▉ | 43794/48845 [15:31:27<1:46:24,  1.26s/it] 90%|████████▉ | 43795/48845 [15:31:28<1:46:15,  1.26s/it]                                                          {'loss': 2.1277, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43795/48845 [15:31:28<1:46:15,  1.26s/it] 90%|████████▉ | 43796/48845 [15:31:30<1:46:17,  1.26s/it] 90%|████████▉ | 43797/48845 [15:31:31<1:46:25,  1.26s/it] 90%|████████▉ | 43798/48845 [15:31:32<1:46:20,  1.26s/it] 90%|████████▉ | 43799/48845 [15:31:33<1:46:13,  1.26s/it] 90%|████████▉ | 43800/48845 [15:31:35<1:46:08,  1.26s/it]                                                          {'loss': 2.0672, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43800/48845 [15:31:35<1:46:08,  1.26s/it] 90%|████████▉ | 43801/48845 [15:31:38<2:50:32,  2.03s/it] 90%|████████▉ | 43802/48845 [15:31:40<2:31:07,  1.80s/it] 90%|████████▉ | 43803/48845 [15:31:41<2:17:38,  1.64s/it] 90%|████████▉ | 43804/48845 [15:31:42<2:08:01,  1.52s/it] 90%|████████▉ | 43805/48845 [15:31:43<2:01:21,  1.44s/it]                                                          {'loss': 2.0004, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43805/48845 [15:31:43<2:01:21,  1.44s/it] 90%|████████▉ | 43806/48845 [15:31:45<1:56:48,  1.39s/it] 90%|████████▉ | 43807/48845 [15:31:46<1:53:36,  1.35s/it] 90%|████████▉ | 43808/48845 [15:31:47<1:51:19,  1.33s/it] 90%|████████▉ | 43809/48845 [15:31:48<1:49:42,  1.31s/it] 90%|████████▉ | 43810/48845 [15:31:50<1:48:33,  1.29s/it]                                                          {'loss': 2.1301, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.48}
+ 90%|████████▉ | 43810/48845 [15:31:50<1:48:33,  1.29s/it] 90%|████████▉ | 43811/48845 [15:31:51<1:47:48,  1.28s/it] 90%|████████▉ | 43812/48845 [15:31:52<1:47:10,  1.28s/it] 90%|████████▉ | 43813/48845 [15:31:54<1:46:50,  1.27s/it] 90%|████████▉ | 43814/48845 [15:31:55<1:46:34,  1.27s/it] 90%|████████▉ | 43815/48845 [15:31:56<1:46:15,  1.27s/it]                                                          {'loss': 2.1326, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43815/48845 [15:31:56<1:46:15,  1.27s/it] 90%|████████▉ | 43816/48845 [15:31:57<1:46:03,  1.27s/it] 90%|████████▉ | 43817/48845 [15:31:59<1:46:04,  1.27s/it] 90%|████████▉ | 43818/48845 [15:32:00<1:45:54,  1.26s/it] 90%|████████▉ | 43819/48845 [15:32:01<1:45:51,  1.26s/it] 90%|████████▉ | 43820/48845 [15:32:02<1:45:53,  1.26s/it]                                                          {'loss': 2.1618, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43820/48845 [15:32:02<1:45:53,  1.26s/it] 90%|████████▉ | 43821/48845 [15:32:04<1:45:55,  1.26s/it] 90%|████████▉ | 43822/48845 [15:32:05<1:45:51,  1.26s/it] 90%|████████▉ | 43823/48845 [15:32:06<1:45:44,  1.26s/it] 90%|████████▉ | 43824/48845 [15:32:07<1:45:37,  1.26s/it] 90%|████████▉ | 43825/48845 [15:32:09<1:46:29,  1.27s/it]                                                          {'loss': 2.0788, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43825/48845 [15:32:09<1:46:29,  1.27s/it] 90%|████████▉ | 43826/48845 [15:32:10<1:46:15,  1.27s/it] 90%|████████▉ | 43827/48845 [15:32:11<1:46:04,  1.27s/it] 90%|████████▉ | 43828/48845 [15:32:13<1:45:57,  1.27s/it] 90%|████████▉ | 43829/48845 [15:32:14<1:45:50,  1.27s/it] 90%|████████▉ | 43830/48845 [15:32:15<1:45:43,  1.26s/it]                                                          {'loss': 2.0577, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43830/48845 [15:32:15<1:45:43,  1.26s/it] 90%|████████▉ | 43831/48845 [15:32:16<1:45:43,  1.27s/it] 90%|████████▉ | 43832/48845 [15:32:18<1:45:38,  1.26s/it] 90%|████████▉ | 43833/48845 [15:32:19<1:45:35,  1.26s/it] 90%|████████▉ | 43834/48845 [15:32:20<1:45:37,  1.26s/it] 90%|████████▉ | 43835/48845 [15:32:21<1:46:12,  1.27s/it]                                                          {'loss': 2.0519, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43835/48845 [15:32:21<1:46:12,  1.27s/it] 90%|████████▉ | 43836/48845 [15:32:23<1:45:57,  1.27s/it] 90%|████████▉ | 43837/48845 [15:32:24<1:45:49,  1.27s/it] 90%|████████▉ | 43838/48845 [15:32:25<1:45:42,  1.27s/it] 90%|████████▉ | 43839/48845 [15:32:26<1:45:37,  1.27s/it] 90%|████████▉ | 43840/48845 [15:32:28<1:45:35,  1.27s/it]                                                          {'loss': 2.0427, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43840/48845 [15:32:28<1:45:35,  1.27s/it] 90%|████████▉ | 43841/48845 [15:32:29<1:45:34,  1.27s/it] 90%|████████▉ | 43842/48845 [15:32:30<1:45:27,  1.26s/it] 90%|████████▉ | 43843/48845 [15:32:32<1:45:24,  1.26s/it] 90%|████████▉ | 43844/48845 [15:32:33<1:45:27,  1.27s/it] 90%|████████▉ | 43845/48845 [15:32:34<1:45:26,  1.27s/it]                                                          {'loss': 1.9701, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43845/48845 [15:32:34<1:45:26,  1.27s/it] 90%|████████▉ | 43846/48845 [15:32:35<1:45:20,  1.26s/it] 90%|████████▉ | 43847/48845 [15:32:37<1:45:16,  1.26s/it] 90%|████████▉ | 43848/48845 [15:32:38<1:45:18,  1.26s/it] 90%|████████▉ | 43849/48845 [15:32:39<1:49:41,  1.32s/it] 90%|████████▉ | 43850/48845 [15:32:41<1:48:18,  1.30s/it]                                                          {'loss': 2.0419, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43850/48845 [15:32:41<1:48:18,  1.30s/it] 90%|████████▉ | 43851/48845 [15:32:42<1:47:26,  1.29s/it] 90%|████████▉ | 43852/48845 [15:32:43<1:46:43,  1.28s/it] 90%|████████▉ | 43853/48845 [15:32:44<1:46:16,  1.28s/it] 90%|████████▉ | 43854/48845 [15:32:46<1:45:55,  1.27s/it] 90%|████████▉ | 43855/48845 [15:32:47<1:45:35,  1.27s/it]                                                          {'loss': 2.0423, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43855/48845 [15:32:47<1:45:35,  1.27s/it] 90%|████████▉ | 43856/48845 [15:32:48<1:45:24,  1.27s/it] 90%|████████▉ | 43857/48845 [15:32:49<1:45:27,  1.27s/it] 90%|████████▉ | 43858/48845 [15:32:51<1:45:19,  1.27s/it] 90%|████████▉ | 43859/48845 [15:32:52<1:45:12,  1.27s/it] 90%|████████▉ | 43860/48845 [15:32:53<1:45:05,  1.26s/it]                                                          {'loss': 1.9941, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43860/48845 [15:32:53<1:45:05,  1.26s/it] 90%|████████▉ | 43861/48845 [15:32:54<1:45:13,  1.27s/it] 90%|████████▉ | 43862/48845 [15:32:56<1:45:05,  1.27s/it] 90%|████████▉ | 43863/48845 [15:32:57<1:45:00,  1.26s/it] 90%|████████▉ | 43864/48845 [15:32:58<1:44:54,  1.26s/it] 90%|████████▉ | 43865/48845 [15:33:00<1:45:00,  1.27s/it]                                                          {'loss': 2.0192, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43865/48845 [15:33:00<1:45:00,  1.27s/it] 90%|████████▉ | 43866/48845 [15:33:01<1:45:04,  1.27s/it] 90%|████████▉ | 43867/48845 [15:33:02<1:45:12,  1.27s/it] 90%|████████▉ | 43868/48845 [15:33:03<1:45:11,  1.27s/it] 90%|████████▉ | 43869/48845 [15:33:05<1:45:13,  1.27s/it] 90%|████████▉ | 43870/48845 [15:33:06<1:44:58,  1.27s/it]                                                          {'loss': 2.2359, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43870/48845 [15:33:06<1:44:58,  1.27s/it] 90%|████████▉ | 43871/48845 [15:33:07<1:45:06,  1.27s/it] 90%|████████▉ | 43872/48845 [15:33:08<1:45:01,  1.27s/it] 90%|████████▉ | 43873/48845 [15:33:10<1:44:51,  1.27s/it] 90%|████████▉ | 43874/48845 [15:33:11<1:44:49,  1.27s/it] 90%|████████▉ | 43875/48845 [15:33:12<1:44:47,  1.27s/it]                                                          {'loss': 2.0704, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43875/48845 [15:33:12<1:44:47,  1.27s/it] 90%|████████▉ | 43876/48845 [15:33:13<1:44:40,  1.26s/it] 90%|████████▉ | 43877/48845 [15:33:15<1:44:47,  1.27s/it] 90%|████████▉ | 43878/48845 [15:33:16<1:44:44,  1.27s/it] 90%|████████▉ | 43879/48845 [15:33:17<1:44:44,  1.27s/it] 90%|████████▉ | 43880/48845 [15:33:18<1:44:36,  1.26s/it]                                                          {'loss': 2.2589, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43880/48845 [15:33:18<1:44:36,  1.26s/it] 90%|████████▉ | 43881/48845 [15:33:20<1:44:38,  1.26s/it] 90%|████████▉ | 43882/48845 [15:33:21<1:44:39,  1.27s/it] 90%|████████▉ | 43883/48845 [15:33:22<1:44:36,  1.26s/it] 90%|████████▉ | 43884/48845 [15:33:24<1:44:34,  1.26s/it] 90%|████████▉ | 43885/48845 [15:33:25<1:44:35,  1.27s/it]                                                          {'loss': 2.1478, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43885/48845 [15:33:25<1:44:35,  1.27s/it] 90%|████████▉ | 43886/48845 [15:33:26<1:44:34,  1.27s/it] 90%|████████▉ | 43887/48845 [15:33:27<1:44:35,  1.27s/it] 90%|████████▉ | 43888/48845 [15:33:29<1:44:32,  1.27s/it] 90%|████████▉ | 43889/48845 [15:33:30<1:44:40,  1.27s/it] 90%|████████▉ | 43890/48845 [15:33:31<1:44:37,  1.27s/it]                                                          {'loss': 2.2062, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43890/48845 [15:33:31<1:44:37,  1.27s/it] 90%|████████▉ | 43891/48845 [15:33:32<1:44:30,  1.27s/it] 90%|████████▉ | 43892/48845 [15:33:34<1:44:25,  1.27s/it] 90%|████████▉ | 43893/48845 [15:33:35<1:44:19,  1.26s/it] 90%|████████▉ | 43894/48845 [15:33:36<1:44:18,  1.26s/it] 90%|████████▉ | 43895/48845 [15:33:37<1:44:17,  1.26s/it]                                                          {'loss': 1.9197, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43895/48845 [15:33:37<1:44:17,  1.26s/it] 90%|████████▉ | 43896/48845 [15:33:39<1:44:15,  1.26s/it] 90%|████████▉ | 43897/48845 [15:33:40<1:44:16,  1.26s/it] 90%|████████▉ | 43898/48845 [15:33:41<1:44:15,  1.26s/it] 90%|████████▉ | 43899/48845 [15:33:43<1:44:13,  1.26s/it] 90%|████████▉ | 43900/48845 [15:33:44<1:44:09,  1.26s/it]                                                          {'loss': 2.0454, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43900/48845 [15:33:44<1:44:09,  1.26s/it] 90%|████████▉ | 43901/48845 [15:33:45<1:44:17,  1.27s/it] 90%|████████▉ | 43902/48845 [15:33:46<1:44:17,  1.27s/it] 90%|████████▉ | 43903/48845 [15:33:48<1:44:09,  1.26s/it] 90%|████████▉ | 43904/48845 [15:33:49<1:44:15,  1.27s/it] 90%|████████▉ | 43905/48845 [15:33:50<1:45:55,  1.29s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43905/48845 [15:33:50<1:45:55,  1.29s/it] 90%|████████▉ | 43906/48845 [15:33:51<1:45:20,  1.28s/it] 90%|████████▉ | 43907/48845 [15:33:53<1:45:01,  1.28s/it] 90%|████████▉ | 43908/48845 [15:33:54<1:44:47,  1.27s/it] 90%|████████▉ | 43909/48845 [15:33:55<1:44:32,  1.27s/it] 90%|████████▉ | 43910/48845 [15:33:57<1:44:20,  1.27s/it]                                                          {'loss': 2.2734, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.49}
+ 90%|████████▉ | 43910/48845 [15:33:57<1:44:20,  1.27s/it] 90%|████████▉ | 43911/48845 [15:33:58<1:44:14,  1.27s/it] 90%|████████▉ | 43912/48845 [15:33:59<1:44:10,  1.27s/it] 90%|████████▉ | 43913/48845 [15:34:00<1:44:06,  1.27s/it] 90%|████████▉ | 43914/48845 [15:34:02<1:44:05,  1.27s/it] 90%|████████▉ | 43915/48845 [15:34:03<1:44:02,  1.27s/it]                                                          {'loss': 2.1602, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43915/48845 [15:34:03<1:44:02,  1.27s/it] 90%|████████▉ | 43916/48845 [15:34:04<1:43:54,  1.26s/it] 90%|████████▉ | 43917/48845 [15:34:06<1:48:08,  1.32s/it] 90%|████████▉ | 43918/48845 [15:34:07<1:46:46,  1.30s/it] 90%|████████▉ | 43919/48845 [15:34:08<1:45:53,  1.29s/it] 90%|████████▉ | 43920/48845 [15:34:09<1:45:12,  1.28s/it]                                                          {'loss': 2.0007, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43920/48845 [15:34:09<1:45:12,  1.28s/it] 90%|████████▉ | 43921/48845 [15:34:11<1:44:59,  1.28s/it] 90%|████████▉ | 43922/48845 [15:34:12<1:44:42,  1.28s/it] 90%|████████▉ | 43923/48845 [15:34:13<1:44:22,  1.27s/it] 90%|████████▉ | 43924/48845 [15:34:14<1:44:05,  1.27s/it] 90%|████████▉ | 43925/48845 [15:34:16<1:44:00,  1.27s/it]                                                          {'loss': 1.928, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43925/48845 [15:34:16<1:44:00,  1.27s/it] 90%|████████▉ | 43926/48845 [15:34:17<1:43:58,  1.27s/it] 90%|████████▉ | 43927/48845 [15:34:18<1:43:45,  1.27s/it] 90%|████████▉ | 43928/48845 [15:34:19<1:43:40,  1.27s/it] 90%|████████▉ | 43929/48845 [15:34:21<1:43:39,  1.27s/it] 90%|████████▉ | 43930/48845 [15:34:22<1:43:40,  1.27s/it]                                                          {'loss': 1.9201, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43930/48845 [15:34:22<1:43:40,  1.27s/it] 90%|████████▉ | 43931/48845 [15:34:23<1:43:38,  1.27s/it] 90%|████████▉ | 43932/48845 [15:34:25<1:43:35,  1.27s/it] 90%|████████▉ | 43933/48845 [15:34:26<1:43:36,  1.27s/it] 90%|████████▉ | 43934/48845 [15:34:27<1:43:34,  1.27s/it] 90%|████████�� | 43935/48845 [15:34:28<1:43:24,  1.26s/it]                                                          {'loss': 2.0161, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43935/48845 [15:34:28<1:43:24,  1.26s/it] 90%|████████▉ | 43936/48845 [15:34:30<1:43:30,  1.27s/it] 90%|████████▉ | 43937/48845 [15:34:31<1:43:38,  1.27s/it] 90%|████████▉ | 43938/48845 [15:34:32<1:43:28,  1.27s/it] 90%|████████▉ | 43939/48845 [15:34:33<1:43:28,  1.27s/it] 90%|████████▉ | 43940/48845 [15:34:35<1:43:20,  1.26s/it]                                                          {'loss': 2.0961, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43940/48845 [15:34:35<1:43:20,  1.26s/it] 90%|████████▉ | 43941/48845 [15:34:36<1:43:26,  1.27s/it] 90%|████████▉ | 43942/48845 [15:34:37<1:43:24,  1.27s/it] 90%|████████▉ | 43943/48845 [15:34:38<1:43:18,  1.26s/it] 90%|████████▉ | 43944/48845 [15:34:40<1:43:10,  1.26s/it] 90%|████████▉ | 43945/48845 [15:34:41<1:43:13,  1.26s/it]                                                          {'loss': 2.2521, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43945/48845 [15:34:41<1:43:13,  1.26s/it] 90%|████████▉ | 43946/48845 [15:34:42<1:43:17,  1.26s/it] 90%|████████▉ | 43947/48845 [15:34:43<1:43:15,  1.26s/it] 90%|████████▉ | 43948/48845 [15:34:45<1:43:12,  1.26s/it] 90%|████████▉ | 43949/48845 [15:34:46<1:43:13,  1.27s/it] 90%|████████▉ | 43950/48845 [15:34:47<1:43:07,  1.26s/it]                                                          {'loss': 2.0176, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43950/48845 [15:34:47<1:43:07,  1.26s/it] 90%|████████▉ | 43951/48845 [15:34:49<1:43:03,  1.26s/it] 90%|████████▉ | 43952/48845 [15:34:50<1:43:02,  1.26s/it] 90%|████████▉ | 43953/48845 [15:34:51<1:43:02,  1.26s/it] 90%|████████▉ | 43954/48845 [15:34:52<1:43:02,  1.26s/it] 90%|████████▉ | 43955/48845 [15:34:54<1:43:00,  1.26s/it]                                                          {'loss': 2.2555, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43955/48845 [15:34:54<1:43:00,  1.26s/it] 90%|████████▉ | 43956/48845 [15:34:55<1:43:04,  1.26s/it] 90%|████████▉ | 43957/48845 [15:34:56<1:47:04,  1.31s/it] 90%|████████▉ | 43958/48845 [15:34:58<1:45:48,  1.30s/it] 90%|████████▉ | 43959/48845 [15:34:59<1:44:53,  1.29s/it] 90%|████████▉ | 43960/48845 [15:35:00<1:44:32,  1.28s/it]                                                          {'loss': 2.13, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|████████▉ | 43960/48845 [15:35:00<1:44:32,  1.28s/it] 90%|█████████ | 43961/48845 [15:35:02<1:47:36,  1.32s/it] 90%|█████████ | 43962/48845 [15:35:03<1:46:09,  1.30s/it] 90%|█████████ | 43963/48845 [15:35:04<1:45:12,  1.29s/it] 90%|█████████ | 43964/48845 [15:35:05<1:44:26,  1.28s/it] 90%|█████████ | 43965/48845 [15:35:07<1:45:56,  1.30s/it]                                                          {'loss': 2.0527, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43965/48845 [15:35:07<1:45:56,  1.30s/it] 90%|█████████ | 43966/48845 [15:35:08<1:45:01,  1.29s/it] 90%|█████████ | 43967/48845 [15:35:09<1:44:14,  1.28s/it] 90%|█████████ | 43968/48845 [15:35:10<1:43:56,  1.28s/it] 90%|█████████ | 43969/48845 [15:35:12<1:43:39,  1.28s/it] 90%|█████████ | 43970/48845 [15:35:13<1:43:18,  1.27s/it]                                                          {'loss': 1.9275, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43970/48845 [15:35:13<1:43:18,  1.27s/it] 90%|█████████ | 43971/48845 [15:35:14<1:43:02,  1.27s/it] 90%|█████████ | 43972/48845 [15:35:16<1:42:52,  1.27s/it] 90%|█████████ | 43973/48845 [15:35:17<1:42:52,  1.27s/it] 90%|█████████ | 43974/48845 [15:35:18<1:42:51,  1.27s/it] 90%|█████████ | 43975/48845 [15:35:19<1:42:44,  1.27s/it]                                                          {'loss': 2.2394, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43975/48845 [15:35:19<1:42:44,  1.27s/it] 90%|█████████ | 43976/48845 [15:35:21<1:42:37,  1.26s/it] 90%|█████████ | 43977/48845 [15:35:22<1:42:45,  1.27s/it] 90%|█████████ | 43978/48845 [15:35:23<1:42:38,  1.27s/it] 90%|█████████ | 43979/48845 [15:35:24<1:42:31,  1.26s/it] 90%|█████████ | 43980/48845 [15:35:26<1:42:31,  1.26s/it]                                                          {'loss': 1.9391, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43980/48845 [15:35:26<1:42:31,  1.26s/it] 90%|█████████ | 43981/48845 [15:35:27<1:42:37,  1.27s/it] 90%|█████████ | 43982/48845 [15:35:28<1:42:37,  1.27s/it] 90%|█████████ | 43983/48845 [15:35:29<1:42:29,  1.26s/it] 90%|█████████ | 43984/48845 [15:35:31<1:42:23,  1.26s/it] 90%|█████████ | 43985/48845 [15:35:32<1:42:28,  1.27s/it]                                                          {'loss': 2.0931, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43985/48845 [15:35:32<1:42:28,  1.27s/it] 90%|█████████ | 43986/48845 [15:35:33<1:42:28,  1.27s/it] 90%|█████████ | 43987/48845 [15:35:34<1:42:21,  1.26s/it] 90%|█████████ | 43988/48845 [15:35:36<1:42:18,  1.26s/it] 90%|█████████ | 43989/48845 [15:35:37<1:42:26,  1.27s/it] 90%|█████████ | 43990/48845 [15:35:38<1:42:22,  1.27s/it]                                                          {'loss': 1.9748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43990/48845 [15:35:38<1:42:22,  1.27s/it] 90%|█████████ | 43991/48845 [15:35:40<1:42:19,  1.26s/it] 90%|█████████ | 43992/48845 [15:35:41<1:42:15,  1.26s/it] 90%|█████████ | 43993/48845 [15:35:42<1:45:42,  1.31s/it] 90%|█████████ | 43994/48845 [15:35:43<1:44:35,  1.29s/it] 90%|█████████ | 43995/48845 [15:35:45<1:43:46,  1.28s/it]                                                          {'loss': 2.0624, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 43995/48845 [15:35:45<1:43:46,  1.28s/it] 90%|█████████ | 43996/48845 [15:35:46<1:43:30,  1.28s/it] 90%|█████████ | 43997/48845 [15:35:47<1:43:08,  1.28s/it] 90%|█████████ | 43998/48845 [15:35:49<1:42:47,  1.27s/it] 90%|█████████ | 43999/48845 [15:35:50<1:42:36,  1.27s/it] 90%|█████████ | 44000/48845 [15:35:51<1:42:26,  1.27s/it]                                                          {'loss': 2.084, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 44000/48845 [15:35:51<1:42:26,  1.27s/it] 90%|█████████ | 44001/48845 [15:35:55<2:44:33,  2.04s/it] 90%|█████████ | 44002/48845 [15:35:56<2:25:46,  1.81s/it] 90%|█████████ | 44003/48845 [15:35:57<2:12:32,  1.64s/it] 90%|█████████ | 44004/48845 [15:35:59<2:03:19,  1.53s/it] 90%|█████████ | 44005/48845 [15:36:00<1:56:53,  1.45s/it]                                                          {'loss': 2.1096, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.5}
+ 90%|█████████ | 44005/48845 [15:36:00<1:56:53,  1.45s/it] 90%|█████████ | 44006/48845 [15:36:01<1:52:15,  1.39s/it] 90%|█████████ | 44007/48845 [15:36:02<1:49:00,  1.35s/it] 90%|█████████ | 44008/48845 [15:36:04<1:46:46,  1.32s/it] 90%|█████████ | 44009/48845 [15:36:05<1:45:15,  1.31s/it] 90%|█████████ | 44010/48845 [15:36:06<1:44:23,  1.30s/it]                                                          {'loss': 2.1689, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44010/48845 [15:36:06<1:44:23,  1.30s/it] 90%|█████████ | 44011/48845 [15:36:08<1:43:40,  1.29s/it] 90%|█████████ | 44012/48845 [15:36:09<1:43:03,  1.28s/it] 90%|█████████ | 44013/48845 [15:36:10<1:42:40,  1.28s/it] 90%|█████████ | 44014/48845 [15:36:11<1:42:25,  1.27s/it] 90%|█████████ | 44015/48845 [15:36:13<1:42:15,  1.27s/it]                                                          {'loss': 2.171, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44015/48845 [15:36:13<1:42:15,  1.27s/it] 90%|█████████ | 44016/48845 [15:36:14<1:42:06,  1.27s/it] 90%|█████████ | 44017/48845 [15:36:15<1:42:03,  1.27s/it] 90%|█████████ | 44018/48845 [15:36:16<1:41:55,  1.27s/it] 90%|█████████ | 44019/48845 [15:36:18<1:41:59,  1.27s/it] 90%|█████████ | 44020/48845 [15:36:19<1:41:52,  1.27s/it]                                                          {'loss': 1.9993, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44020/48845 [15:36:19<1:41:52,  1.27s/it] 90%|█████████ | 44021/48845 [15:36:20<1:41:41,  1.26s/it] 90%|█████████ | 44022/48845 [15:36:21<1:41:37,  1.26s/it] 90%|█████████ | 44023/48845 [15:36:23<1:41:40,  1.27s/it] 90%|█████████ | 44024/48845 [15:36:24<1:41:38,  1.26s/it] 90%|█████████ | 44025/48845 [15:36:25<1:41:36,  1.26s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44025/48845 [15:36:25<1:41:36,  1.26s/it] 90%|█████████ | 44026/48845 [15:36:27<1:41:39,  1.27s/it] 90%|█████████ | 44027/48845 [15:36:28<1:41:41,  1.27s/it] 90%|█████████ | 44028/48845 [15:36:29<1:41:35,  1.27s/it] 90%|█████████ | 44029/48845 [15:36:30<1:41:29,  1.26s/it] 90%|█████████ | 44030/48845 [15:36:32<1:41:26,  1.26s/it]                                                          {'loss': 2.2699, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44030/48845 [15:36:32<1:41:26,  1.26s/it] 90%|█████████ | 44031/48845 [15:36:33<1:48:19,  1.35s/it] 90%|█████████ | 44032/48845 [15:36:34<1:46:09,  1.32s/it] 90%|█████████ | 44033/48845 [15:36:36<1:44:40,  1.31s/it] 90%|█████████ | 44034/48845 [15:36:37<1:43:34,  1.29s/it] 90%|█████████ | 44035/48845 [15:36:38<1:42:55,  1.28s/it]                                                          {'loss': 2.1006, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44035/48845 [15:36:38<1:42:55,  1.28s/it] 90%|█████████ | 44036/48845 [15:36:39<1:42:30,  1.28s/it] 90%|█████████ | 44037/48845 [15:36:41<1:42:03,  1.27s/it] 90%|█████████ | 44038/48845 [15:36:42<1:41:46,  1.27s/it] 90%|█████████ | 44039/48845 [15:36:43<1:41:33,  1.27s/it] 90%|█████████ | 44040/48845 [15:36:44<1:41:18,  1.27s/it]                                                          {'loss': 2.0787, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44040/48845 [15:36:44<1:41:18,  1.27s/it] 90%|█████████ | 44041/48845 [15:36:46<1:41:13,  1.26s/it] 90%|█████████ | 44042/48845 [15:36:47<1:41:15,  1.26s/it] 90%|█████████ | 44043/48845 [15:36:48<1:45:08,  1.31s/it] 90%|█████████ | 44044/48845 [15:36:50<1:43:53,  1.30s/it] 90%|█████████ | 44045/48845 [15:36:51<1:43:00,  1.29s/it]                                                          {'loss': 2.0316, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44045/48845 [15:36:51<1:43:00,  1.29s/it] 90%|█████████ | 44046/48845 [15:36:52<1:42:25,  1.28s/it] 90%|█████████ | 44047/48845 [15:36:53<1:42:07,  1.28s/it] 90%|█████████ | 44048/48845 [15:36:55<1:41:44,  1.27s/it] 90%|█████████ | 44049/48845 [15:36:56<1:41:30,  1.27s/it] 90%|█████████ | 44050/48845 [15:36:57<1:41:15,  1.27s/it]                                                          {'loss': 2.1074, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44050/48845 [15:36:57<1:41:15,  1.27s/it] 90%|█████████ | 44051/48845 [15:36:59<1:43:14,  1.29s/it] 90%|█████████ | 44052/48845 [15:37:00<1:42:31,  1.28s/it] 90%|█████████ | 44053/48845 [15:37:01<1:42:03,  1.28s/it] 90%|█████████ | 44054/48845 [15:37:02<1:41:39,  1.27s/it] 90%|█████████ | 44055/48845 [15:37:04<1:41:31,  1.27s/it]                                                          {'loss': 2.2165, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44055/48845 [15:37:04<1:41:31,  1.27s/it] 90%|█████████ | 44056/48845 [15:37:05<1:41:18,  1.27s/it] 90%|█████████ | 44057/48845 [15:37:06<1:41:12,  1.27s/it] 90%|█████████ | 44058/48845 [15:37:07<1:41:00,  1.27s/it] 90%|█████████ | 44059/48845 [15:37:09<1:40:57,  1.27s/it] 90%|█████████ | 44060/48845 [15:37:10<1:40:55,  1.27s/it]                                                          {'loss': 2.0233, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44060/48845 [15:37:10<1:40:55,  1.27s/it] 90%|█████████ | 44061/48845 [15:37:11<1:40:46,  1.26s/it] 90%|█████████ | 44062/48845 [15:37:13<1:40:46,  1.26s/it] 90%|█████████ | 44063/48845 [15:37:14<1:40:55,  1.27s/it] 90%|█████████ | 44064/48845 [15:37:15<1:40:49,  1.27s/it] 90%|█████████ | 44065/48845 [15:37:16<1:40:41,  1.26s/it]                                                          {'loss': 2.0489, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44065/48845 [15:37:16<1:40:41,  1.26s/it] 90%|█████████ | 44066/48845 [15:37:18<1:40:39,  1.26s/it] 90%|█████████ | 44067/48845 [15:37:19<1:40:40,  1.26s/it] 90%|█████████ | 44068/48845 [15:37:20<1:40:40,  1.26s/it] 90%|█████████ | 44069/48845 [15:37:21<1:40:36,  1.26s/it] 90%|█████████ | 44070/48845 [15:37:23<1:40:36,  1.26s/it]                                                          {'loss': 2.0457, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44070/48845 [15:37:23<1:40:36,  1.26s/it] 90%|█████████ | 44071/48845 [15:37:24<1:40:45,  1.27s/it] 90%|█████████ | 44072/48845 [15:37:25<1:40:39,  1.27s/it] 90%|█████████ | 44073/48845 [15:37:26<1:40:32,  1.26s/it] 90%|█████████ | 44074/48845 [15:37:28<1:40:29,  1.26s/it] 90%|█████████ | 44075/48845 [15:37:29<1:40:25,  1.26s/it]                                                          {'loss': 2.2861, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44075/48845 [15:37:29<1:40:25,  1.26s/it] 90%|█████████ | 44076/48845 [15:37:30<1:40:33,  1.27s/it] 90%|█████████ | 44077/48845 [15:37:31<1:40:25,  1.26s/it] 90%|█████████ | 44078/48845 [15:37:33<1:40:21,  1.26s/it] 90%|█████████ | 44079/48845 [15:37:34<1:40:24,  1.26s/it] 90%|█████████ | 44080/48845 [15:37:35<1:40:26,  1.26s/it]                                                          {'loss': 1.9892, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44080/48845 [15:37:35<1:40:26,  1.26s/it] 90%|█████████ | 44081/48845 [15:37:37<1:40:23,  1.26s/it] 90%|█████████ | 44082/48845 [15:37:38<1:40:25,  1.27s/it] 90%|█████████ | 44083/48845 [15:37:39<1:43:10,  1.30s/it] 90%|█████████ | 44084/48845 [15:37:40<1:42:20,  1.29s/it] 90%|█████████ | 44085/48845 [15:37:42<1:41:42,  1.28s/it]                                                          {'loss': 2.0189, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44085/48845 [15:37:42<1:41:42,  1.28s/it] 90%|█████████ | 44086/48845 [15:37:43<1:41:10,  1.28s/it] 90%|█████████ | 44087/48845 [15:37:44<1:40:53,  1.27s/it] 90%|█████████ | 44088/48845 [15:37:46<1:40:41,  1.27s/it] 90%|█████████ | 44089/48845 [15:37:47<1:40:31,  1.27s/it] 90%|█████████ | 44090/48845 [15:37:48<1:40:30,  1.27s/it]                                                          {'loss': 1.9932, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44090/48845 [15:37:48<1:40:30,  1.27s/it] 90%|█████████ | 44091/48845 [15:37:49<1:40:27,  1.27s/it] 90%|█████████ | 44092/48845 [15:37:51<1:40:19,  1.27s/it] 90%|█████████ | 44093/48845 [15:37:52<1:40:14,  1.27s/it] 90%|█████████ | 44094/48845 [15:37:53<1:40:11,  1.27s/it] 90%|█████████ | 44095/48845 [15:37:55<1:44:13,  1.32s/it]                                                          {'loss': 2.1646, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44095/48845 [15:37:55<1:44:13,  1.32s/it] 90%|█████████ | 44096/48845 [15:37:56<1:43:14,  1.30s/it] 90%|█████████ | 44097/48845 [15:37:57<1:42:21,  1.29s/it] 90%|█████████ | 44098/48845 [15:37:58<1:41:37,  1.28s/it] 90%|█████████ | 44099/48845 [15:38:00<1:41:11,  1.28s/it] 90%|█████████ | 44100/48845 [15:38:01<1:40:52,  1.28s/it]                                                          {'loss': 2.1756, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44100/48845 [15:38:01<1:40:52,  1.28s/it] 90%|█████████ | 44101/48845 [15:38:02<1:40:40,  1.27s/it] 90%|█████████ | 44102/48845 [15:38:03<1:40:29,  1.27s/it] 90%|█████████ | 44103/48845 [15:38:05<1:40:22,  1.27s/it] 90%|█████████ | 44104/48845 [15:38:06<1:40:14,  1.27s/it] 90%|█████████ | 44105/48845 [15:38:07<1:40:09,  1.27s/it]                                                          {'loss': 2.3487, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.51}
+ 90%|█████████ | 44105/48845 [15:38:07<1:40:09,  1.27s/it] 90%|█████████ | 44106/48845 [15:38:08<1:40:07,  1.27s/it] 90%|█████████ | 44107/48845 [15:38:10<1:40:09,  1.27s/it] 90%|█████████ | 44108/48845 [15:38:11<1:40:03,  1.27s/it] 90%|█████████ | 44109/48845 [15:38:12<1:39:50,  1.26s/it] 90%|█████████ | 44110/48845 [15:38:14<1:39:43,  1.26s/it]                                                          {'loss': 2.2331, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44110/48845 [15:38:14<1:39:43,  1.26s/it] 90%|█████████ | 44111/48845 [15:38:15<1:41:21,  1.28s/it] 90%|█████████ | 44112/48845 [15:38:16<1:40:52,  1.28s/it] 90%|█████████ | 44113/48845 [15:38:17<1:40:27,  1.27s/it] 90%|█████████ | 44114/48845 [15:38:19<1:40:17,  1.27s/it] 90%|█████████ | 44115/48845 [15:38:20<1:40:07,  1.27s/it]                                                          {'loss': 2.1221, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44115/48845 [15:38:20<1:40:07,  1.27s/it] 90%|█████████ | 44116/48845 [15:38:21<1:39:58,  1.27s/it] 90%|█████████ | 44117/48845 [15:38:22<1:39:50,  1.27s/it] 90%|█████████ | 44118/48845 [15:38:24<1:39:38,  1.26s/it] 90%|█████████ | 44119/48845 [15:38:25<1:39:40,  1.27s/it] 90%|█████████ | 44120/48845 [15:38:26<1:39:33,  1.26s/it]                                                          {'loss': 1.8762, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44120/48845 [15:38:26<1:39:33,  1.26s/it] 90%|█████████ | 44121/48845 [15:38:28<1:39:32,  1.26s/it] 90%|█████████ | 44122/48845 [15:38:29<1:39:38,  1.27s/it] 90%|█████████ | 44123/48845 [15:38:30<1:39:43,  1.27s/it] 90%|█████████ | 44124/48845 [15:38:31<1:39:37,  1.27s/it] 90%|█████████ | 44125/48845 [15:38:33<1:39:33,  1.27s/it]                                                          {'loss': 2.169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44125/48845 [15:38:33<1:39:33,  1.27s/it] 90%|█████████ | 44126/48845 [15:38:34<1:39:33,  1.27s/it] 90%|█████████ | 44127/48845 [15:38:35<1:42:41,  1.31s/it] 90%|█████████ | 44128/48845 [15:38:37<1:41:40,  1.29s/it] 90%|█████████ | 44129/48845 [15:38:38<1:40:56,  1.28s/it] 90%|█████████ | 44130/48845 [15:38:39<1:40:33,  1.28s/it]                                                          {'loss': 2.115, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44130/48845 [15:38:39<1:40:33,  1.28s/it] 90%|█████████ | 44131/48845 [15:38:40<1:40:12,  1.28s/it] 90%|█████████ | 44132/48845 [15:38:42<1:39:54,  1.27s/it] 90%|█████████ | 44133/48845 [15:38:43<1:39:41,  1.27s/it] 90%|█████████ | 44134/48845 [15:38:44<1:39:35,  1.27s/it] 90%|█████████ | 44135/48845 [15:38:46<1:43:19,  1.32s/it]                                                          {'loss': 2.0443, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44135/48845 [15:38:46<1:43:19,  1.32s/it] 90%|█████████ | 44136/48845 [15:38:47<1:42:06,  1.30s/it] 90%|█████████ | 44137/48845 [15:38:48<1:41:16,  1.29s/it] 90%|█████████ | 44138/48845 [15:38:49<1:40:35,  1.28s/it] 90%|█████████ | 44139/48845 [15:38:51<1:40:15,  1.28s/it] 90%|█████████ | 44140/48845 [15:38:52<1:39:59,  1.28s/it]                                                          {'loss': 2.1357, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44140/48845 [15:38:52<1:39:59,  1.28s/it] 90%|█████████ | 44141/48845 [15:38:53<1:39:46,  1.27s/it] 90%|█████████ | 44142/48845 [15:38:54<1:39:29,  1.27s/it] 90%|█████████ | 44143/48845 [15:38:56<1:39:35,  1.27s/it] 90%|█████████ | 44144/48845 [15:38:57<1:39:25,  1.27s/it] 90%|█████████ | 44145/48845 [15:38:58<1:39:14,  1.27s/it]                                                          {'loss': 2.0547, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44145/48845 [15:38:58<1:39:14,  1.27s/it] 90%|█████████ | 44146/48845 [15:38:59<1:39:17,  1.27s/it] 90%|█████████ | 44147/48845 [15:39:01<1:39:15,  1.27s/it] 90%|█████████ | 44148/48845 [15:39:02<1:39:09,  1.27s/it] 90%|█████████ | 44149/48845 [15:39:03<1:39:04,  1.27s/it] 90%|██████���██ | 44150/48845 [15:39:05<1:39:03,  1.27s/it]                                                          {'loss': 2.1371, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44150/48845 [15:39:05<1:39:03,  1.27s/it] 90%|█████████ | 44151/48845 [15:39:06<1:39:09,  1.27s/it] 90%|█████████ | 44152/48845 [15:39:07<1:39:02,  1.27s/it] 90%|█████████ | 44153/48845 [15:39:08<1:38:54,  1.26s/it] 90%|█████████ | 44154/48845 [15:39:10<1:38:53,  1.26s/it] 90%|█████████ | 44155/48845 [15:39:11<1:39:03,  1.27s/it]                                                          {'loss': 2.0356, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44155/48845 [15:39:11<1:39:03,  1.27s/it] 90%|█████████ | 44156/48845 [15:39:12<1:39:02,  1.27s/it] 90%|█████████ | 44157/48845 [15:39:13<1:38:51,  1.27s/it] 90%|█████████ | 44158/48845 [15:39:15<1:38:51,  1.27s/it] 90%|█████████ | 44159/48845 [15:39:16<1:38:49,  1.27s/it] 90%|█████████ | 44160/48845 [15:39:17<1:38:48,  1.27s/it]                                                          {'loss': 2.064, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44160/48845 [15:39:17<1:38:48,  1.27s/it] 90%|█████████ | 44161/48845 [15:39:18<1:38:44,  1.26s/it] 90%|█████████ | 44162/48845 [15:39:20<1:38:45,  1.27s/it] 90%|█████████ | 44163/48845 [15:39:21<1:38:45,  1.27s/it] 90%|█████████ | 44164/48845 [15:39:22<1:38:42,  1.27s/it] 90%|█████████ | 44165/48845 [15:39:24<1:38:37,  1.26s/it]                                                          {'loss': 2.0932, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44165/48845 [15:39:24<1:38:37,  1.26s/it] 90%|█████████ | 44166/48845 [15:39:25<1:38:40,  1.27s/it] 90%|█████████ | 44167/48845 [15:39:26<1:38:37,  1.27s/it] 90%|█████████ | 44168/48845 [15:39:27<1:38:29,  1.26s/it] 90%|█████████ | 44169/48845 [15:39:29<1:38:26,  1.26s/it] 90%|█████████ | 44170/48845 [15:39:30<1:38:22,  1.26s/it]                                                          {'loss': 2.0826, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44170/48845 [15:39:30<1:38:22,  1.26s/it] 90%|█████████ | 44171/48845 [15:39:31<1:38:33,  1.27s/it] 90%|█████████ | 44172/48845 [15:39:32<1:38:29,  1.26s/it] 90%|█████████ | 44173/48845 [15:39:34<1:38:22,  1.26s/it] 90%|█████████ | 44174/48845 [15:39:35<1:38:20,  1.26s/it] 90%|█████████ | 44175/48845 [15:39:36<1:41:25,  1.30s/it]                                                          {'loss': 2.0284, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44175/48845 [15:39:36<1:41:25,  1.30s/it] 90%|█████████ | 44176/48845 [15:39:38<1:40:33,  1.29s/it] 90%|█████████ | 44177/48845 [15:39:39<1:39:55,  1.28s/it] 90%|█████████ | 44178/48845 [15:39:40<1:39:30,  1.28s/it] 90%|█████████ | 44179/48845 [15:39:41<1:42:30,  1.32s/it] 90%|█████████ | 44180/48845 [15:39:43<1:41:13,  1.30s/it]                                                          {'loss': 1.8621, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44180/48845 [15:39:43<1:41:13,  1.30s/it] 90%|█████████ | 44181/48845 [15:39:44<1:40:16,  1.29s/it] 90%|█████████ | 44182/48845 [15:39:45<1:39:36,  1.28s/it] 90%|█████████ | 44183/48845 [15:39:47<1:39:16,  1.28s/it] 90%|█████████ | 44184/48845 [15:39:48<1:39:04,  1.28s/it] 90%|█████████ | 44185/48845 [15:39:49<1:38:45,  1.27s/it]                                                          {'loss': 2.147, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44185/48845 [15:39:49<1:38:45,  1.27s/it] 90%|█████████ | 44186/48845 [15:39:50<1:38:35,  1.27s/it] 90%|█████████ | 44187/48845 [15:39:52<1:38:28,  1.27s/it] 90%|█████████ | 44188/48845 [15:39:53<1:38:23,  1.27s/it] 90%|█████████ | 44189/48845 [15:39:54<1:38:21,  1.27s/it] 90%|█████████ | 44190/48845 [15:39:55<1:38:14,  1.27s/it]                                                          {'loss': 1.9791, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44190/48845 [15:39:55<1:38:14,  1.27s/it] 90%|█████████ | 44191/48845 [15:39:57<1:38:19,  1.27s/it] 90%|██��██████ | 44192/48845 [15:39:58<1:38:21,  1.27s/it] 90%|█████████ | 44193/48845 [15:39:59<1:38:14,  1.27s/it] 90%|█████████ | 44194/48845 [15:40:00<1:38:07,  1.27s/it] 90%|█████████ | 44195/48845 [15:40:02<1:38:10,  1.27s/it]                                                          {'loss': 2.1639, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44195/48845 [15:40:02<1:38:10,  1.27s/it] 90%|█████████ | 44196/48845 [15:40:03<1:38:05,  1.27s/it] 90%|█████████ | 44197/48845 [15:40:04<1:37:53,  1.26s/it] 90%|█████████ | 44198/48845 [15:40:06<1:37:48,  1.26s/it] 90%|█████████ | 44199/48845 [15:40:07<1:37:57,  1.27s/it] 90%|█████████ | 44200/48845 [15:40:08<1:37:56,  1.27s/it]                                                          {'loss': 2.3715, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.52}
+ 90%|█████████ | 44200/48845 [15:40:08<1:37:56,  1.27s/it] 90%|█████████ | 44201/48845 [15:40:12<2:36:58,  2.03s/it] 90%|█████████ | 44202/48845 [15:40:13<2:19:06,  1.80s/it] 90%|█████████ | 44203/48845 [15:40:14<2:06:38,  1.64s/it] 90%|█████████ | 44204/48845 [15:40:16<1:57:59,  1.53s/it] 91%|█████████ | 44205/48845 [15:40:17<1:51:49,  1.45s/it]                                                          {'loss': 2.0935, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44205/48845 [15:40:17<1:51:49,  1.45s/it] 91%|█████████ | 44206/48845 [15:40:18<1:47:30,  1.39s/it] 91%|█████████ | 44207/48845 [15:40:19<1:44:30,  1.35s/it] 91%|█████████ | 44208/48845 [15:40:21<1:42:21,  1.32s/it] 91%|█████████ | 44209/48845 [15:40:22<1:40:52,  1.31s/it] 91%|█████████ | 44210/48845 [15:40:23<1:39:52,  1.29s/it]                                                          {'loss': 1.9526, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44210/48845 [15:40:23<1:39:52,  1.29s/it] 91%|█████████ | 44211/48845 [15:40:24<1:39:08,  1.28s/it] 91%|█████████ | 44212/48845 [15:40:26<1:38:44,  1.28s/it] 91%|█████████ | 44213/48845 [15:40:27<1:38:21,  1.27s/it] 91%|█████████ | 44214/48845 [15:40:28<1:38:03,  1.27s/it] 91%|█████████ | 44215/48845 [15:40:30<1:37:50,  1.27s/it]                                                          {'loss': 2.0689, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44215/48845 [15:40:30<1:37:50,  1.27s/it] 91%|█████████ | 44216/48845 [15:40:31<1:37:36,  1.27s/it] 91%|█████████ | 44217/48845 [15:40:32<1:41:27,  1.32s/it] 91%|█████████ | 44218/48845 [15:40:34<1:40:13,  1.30s/it] 91%|█████████ | 44219/48845 [15:40:35<1:39:21,  1.29s/it] 91%|█████████ | 44220/48845 [15:40:36<1:38:43,  1.28s/it]                                                          {'loss': 2.1244, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44220/48845 [15:40:36<1:38:43,  1.28s/it] 91%|█████████ | 44221/48845 [15:40:37<1:38:17,  1.28s/it] 91%|█████████ | 44222/48845 [15:40:39<1:38:00,  1.27s/it] 91%|█████████ | 44223/48845 [15:40:40<1:37:49,  1.27s/it] 91%|█████████ | 44224/48845 [15:40:41<1:37:39,  1.27s/it] 91%|█████████ | 44225/48845 [15:40:42<1:37:32,  1.27s/it]                                                          {'loss': 2.1485, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44225/48845 [15:40:42<1:37:32,  1.27s/it] 91%|█████████ | 44226/48845 [15:40:44<1:37:25,  1.27s/it] 91%|█████████ | 44227/48845 [15:40:45<1:37:24,  1.27s/it] 91%|█████████ | 44228/48845 [15:40:46<1:37:25,  1.27s/it] 91%|█████████ | 44229/48845 [15:40:47<1:37:25,  1.27s/it] 91%|█████████ | 44230/48845 [15:40:49<1:37:18,  1.27s/it]                                                          {'loss': 1.9716, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44230/48845 [15:40:49<1:37:18,  1.27s/it] 91%|█████████ | 44231/48845 [15:40:50<1:37:21,  1.27s/it] 91%|█████████ | 44232/48845 [15:40:51<1:37:19,  1.27s/it] 91%|█████████ | 44233/48845 [15:40:52<1:37:19,  1.27s/it] 91%|█████████ | 44234/48845 [15:40:54<1:37:15,  1.27s/it] 91%|█████████ | 44235/48845 [15:40:55<1:37:13,  1.27s/it]                                                          {'loss': 2.239, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44235/48845 [15:40:55<1:37:13,  1.27s/it] 91%|█████████ | 44236/48845 [15:40:56<1:37:08,  1.26s/it] 91%|█████████ | 44237/48845 [15:40:58<1:37:09,  1.27s/it] 91%|█████████ | 44238/48845 [15:40:59<1:37:02,  1.26s/it] 91%|█████████ | 44239/48845 [15:41:00<1:36:58,  1.26s/it] 91%|█████████ | 44240/48845 [15:41:01<1:36:52,  1.26s/it]                                                          {'loss': 2.0501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44240/48845 [15:41:01<1:36:52,  1.26s/it] 91%|█████████ | 44241/48845 [15:41:03<1:36:57,  1.26s/it] 91%|█████████ | 44242/48845 [15:41:04<1:36:56,  1.26s/it] 91%|█████████ | 44243/48845 [15:41:05<1:36:58,  1.26s/it] 91%|█████████ | 44244/48845 [15:41:06<1:36:52,  1.26s/it] 91%|█████████ | 44245/48845 [15:41:08<1:36:57,  1.26s/it]                                                          {'loss': 2.198, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44245/48845 [15:41:08<1:36:57,  1.26s/it] 91%|█████████ | 44246/48845 [15:41:09<1:36:52,  1.26s/it] 91%|█████████ | 44247/48845 [15:41:10<1:36:48,  1.26s/it] 91%|█████████ | 44248/48845 [15:41:11<1:36:44,  1.26s/it] 91%|█████████ | 44249/48845 [15:41:13<1:36:48,  1.26s/it] 91%|█████████ | 44250/48845 [15:41:14<1:36:42,  1.26s/it]                                                          {'loss': 2.1945, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44250/48845 [15:41:14<1:36:42,  1.26s/it] 91%|█████████ | 44251/48845 [15:41:15<1:36:42,  1.26s/it] 91%|█████████ | 44252/48845 [15:41:16<1:36:38,  1.26s/it] 91%|█████████ | 44253/48845 [15:41:18<1:36:45,  1.26s/it] 91%|█████████ | 44254/48845 [15:41:19<1:36:43,  1.26s/it] 91%|█████████ | 44255/48845 [15:41:20<1:36:36,  1.26s/it]                                                          {'loss': 2.0483, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44255/48845 [15:41:20<1:36:36,  1.26s/it] 91%|█████████ | 44256/48845 [15:41:22<1:36:38,  1.26s/it] 91%|█████████ | 44257/48845 [15:41:23<1:36:37,  1.26s/it] 91%|█████████ | 44258/48845 [15:41:24<1:36:41,  1.26s/it] 91%|█████████ | 44259/48845 [15:41:25<1:36:33,  1.26s/it] 91%|█████████ | 44260/48845 [15:41:27<1:36:32,  1.26s/it]                                                          {'loss': 2.0868, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44260/48845 [15:41:27<1:36:32,  1.26s/it] 91%|█████████ | 44261/48845 [15:41:28<1:36:34,  1.26s/it] 91%|█████████ | 44262/48845 [15:41:29<1:36:32,  1.26s/it] 91%|█████████ | 44263/48845 [15:41:30<1:36:32,  1.26s/it] 91%|█████████ | 44264/48845 [15:41:32<1:36:34,  1.26s/it] 91%|█████████ | 44265/48845 [15:41:33<1:36:34,  1.27s/it]                                                          {'loss': 2.0703, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44265/48845 [15:41:33<1:36:34,  1.27s/it] 91%|█████████ | 44266/48845 [15:41:34<1:36:35,  1.27s/it] 91%|█████████ | 44267/48845 [15:41:35<1:36:27,  1.26s/it] 91%|█████████ | 44268/48845 [15:41:37<1:36:21,  1.26s/it] 91%|█████████ | 44269/48845 [15:41:38<1:36:23,  1.26s/it] 91%|█████████ | 44270/48845 [15:41:39<1:36:21,  1.26s/it]                                                          {'loss': 2.1119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44270/48845 [15:41:39<1:36:21,  1.26s/it] 91%|█████████ | 44271/48845 [15:41:40<1:36:21,  1.26s/it] 91%|█████████ | 44272/48845 [15:41:42<1:36:16,  1.26s/it] 91%|█████████ | 44273/48845 [15:41:43<1:36:28,  1.27s/it] 91%|█████████ | 44274/48845 [15:41:44<1:36:27,  1.27s/it] 91%|█████████ | 44275/48845 [15:41:46<1:36:19,  1.26s/it]                                                          {'loss': 2.1225, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44275/48845 [15:41:46<1:36:19,  1.26s/it] 91%|█████████ | 44276/48845 [15:41:47<1:36:18,  1.26s/it] 91%|█████████ | 44277/48845 [15:41:48<1:36:18,  1.27s/it] 91%|█████████ | 44278/48845 [15:41:49<1:36:20,  1.27s/it] 91%|█████████ | 44279/48845 [15:41:51<1:36:16,  1.27s/it] 91%|█████████ | 44280/48845 [15:41:52<1:36:14,  1.27s/it]                                                          {'loss': 2.0646, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44280/48845 [15:41:52<1:36:14,  1.27s/it] 91%|█████████ | 44281/48845 [15:41:53<1:36:16,  1.27s/it] 91%|█████████ | 44282/48845 [15:41:54<1:36:14,  1.27s/it] 91%|█████████ | 44283/48845 [15:41:56<1:36:10,  1.26s/it] 91%|█████████ | 44284/48845 [15:41:57<1:36:08,  1.26s/it] 91%|█████████ | 44285/48845 [15:41:58<1:36:16,  1.27s/it]                                                          {'loss': 2.2157, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44285/48845 [15:41:58<1:36:16,  1.27s/it] 91%|█████████ | 44286/48845 [15:41:59<1:36:06,  1.26s/it] 91%|█████████ | 44287/48845 [15:42:01<1:35:57,  1.26s/it] 91%|█████████ | 44288/48845 [15:42:02<1:35:54,  1.26s/it] 91%|█████████ | 44289/48845 [15:42:03<1:36:57,  1.28s/it] 91%|█████████ | 44290/48845 [15:42:05<1:36:41,  1.27s/it]                                                          {'loss': 2.0414, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44290/48845 [15:42:05<1:36:41,  1.27s/it] 91%|█████████ | 44291/48845 [15:42:06<1:36:30,  1.27s/it] 91%|█████████ | 44292/48845 [15:42:07<1:36:18,  1.27s/it] 91%|█████████ | 44293/48845 [15:42:08<1:36:13,  1.27s/it] 91%|█████████ | 44294/48845 [15:42:10<1:36:02,  1.27s/it] 91%|█████████ | 44295/48845 [15:42:11<1:35:50,  1.26s/it]                                                          {'loss': 2.1159, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44295/48845 [15:42:11<1:35:50,  1.26s/it] 91%|█████████ | 44296/48845 [15:42:12<1:35:46,  1.26s/it] 91%|█████████ | 44297/48845 [15:42:13<1:35:44,  1.26s/it] 91%|█████████ | 44298/48845 [15:42:15<1:35:44,  1.26s/it] 91%|█████████ | 44299/48845 [15:42:16<1:35:40,  1.26s/it] 91%|█████████ | 44300/48845 [15:42:17<1:35:42,  1.26s/it]                                                          {'loss': 2.122, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.53}
+ 91%|█████████ | 44300/48845 [15:42:17<1:35:42,  1.26s/it] 91%|█████████ | 44301/48845 [15:42:18<1:35:42,  1.26s/it] 91%|█████████ | 44302/48845 [15:42:20<1:35:38,  1.26s/it] 91%|█████████ | 44303/48845 [15:42:21<1:35:40,  1.26s/it] 91%|█████████ | 44304/48845 [15:42:22<1:35:36,  1.26s/it] 91%|█████████ | 44305/48845 [15:42:24<1:35:38,  1.26s/it]                                                          {'loss': 2.2029, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44305/48845 [15:42:24<1:35:38,  1.26s/it] 91%|█████████ | 44306/48845 [15:42:25<1:35:34,  1.26s/it] 91%|█████████ | 44307/48845 [15:42:26<1:35:33,  1.26s/it] 91%|█████████ | 44308/48845 [15:42:27<1:35:37,  1.26s/it] 91%|█████████ | 44309/48845 [15:42:29<1:35:39,  1.27s/it] 91%|█████████ | 44310/48845 [15:42:30<1:35:34,  1.26s/it]                                                          {'loss': 2.0815, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44310/48845 [15:42:30<1:35:34,  1.26s/it] 91%|█████████ | 44311/48845 [15:42:31<1:35:37,  1.27s/it] 91%|█████████ | 44312/48845 [15:42:32<1:35:42,  1.27s/it] 91%|█████████ | 44313/48845 [15:42:34<1:35:33,  1.27s/it] 91%|█████████ | 44314/48845 [15:42:35<1:35:31,  1.26s/it] 91%|█████████ | 44315/48845 [15:42:36<1:35:28,  1.26s/it]                                                          {'loss': 2.0784, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44315/48845 [15:42:36<1:35:28,  1.26s/it] 91%|█████████ | 44316/48845 [15:42:37<1:35:32,  1.27s/it] 91%|█████████ | 44317/48845 [15:42:39<1:35:27,  1.26s/it] 91%|█████████ | 44318/48845 [15:42:40<1:35:25,  1.26s/it] 91%|█████████ | 44319/48845 [15:42:41<1:35:28,  1.27s/it] 91%|█████████ | 44320/48845 [15:42:43<1:35:29,  1.27s/it]                                                          {'loss': 2.0926, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44320/48845 [15:42:43<1:35:29,  1.27s/it] 91%|█████████ | 44321/48845 [15:42:44<1:35:27,  1.27s/it] 91%|█████████ | 44322/48845 [15:42:45<1:35:18,  1.26s/it] 91%|█████████ | 44323/48845 [15:42:46<1:35:18,  1.26s/it] 91%|█████████ | 44324/48845 [15:42:48<1:35:17,  1.26s/it] 91%|█████████ | 44325/48845 [15:42:49<1:35:10,  1.26s/it]                                                          {'loss': 1.9504, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44325/48845 [15:42:49<1:35:10,  1.26s/it] 91%|█████████ | 44326/48845 [15:42:50<1:35:10,  1.26s/it] 91%|█████████ | 44327/48845 [15:42:51<1:35:12,  1.26s/it] 91%|█████████ | 44328/48845 [15:42:53<1:35:22,  1.27s/it] 91%|█████████ | 44329/48845 [15:42:54<1:35:16,  1.27s/it] 91%|█████████ | 44330/48845 [15:42:55<1:35:16,  1.27s/it]                                                          {'loss': 2.1702, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44330/48845 [15:42:55<1:35:16,  1.27s/it] 91%|█████████ | 44331/48845 [15:42:56<1:35:17,  1.27s/it] 91%|█████████ | 44332/48845 [15:42:58<1:35:14,  1.27s/it] 91%|█████████ | 44333/48845 [15:42:59<1:35:05,  1.26s/it] 91%|█████████ | 44334/48845 [15:43:00<1:35:07,  1.27s/it] 91%|█████████ | 44335/48845 [15:43:01<1:34:59,  1.26s/it]                                                          {'loss': 2.1774, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44335/48845 [15:43:01<1:34:59,  1.26s/it] 91%|█████████ | 44336/48845 [15:43:03<1:35:05,  1.27s/it] 91%|█████████ | 44337/48845 [15:43:04<1:34:59,  1.26s/it] 91%|█████████ | 44338/48845 [15:43:05<1:34:59,  1.26s/it] 91%|█████████ | 44339/48845 [15:43:07<1:34:57,  1.26s/it] 91%|█████████ | 44340/48845 [15:43:08<1:34:55,  1.26s/it]                                                          {'loss': 2.129, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44340/48845 [15:43:08<1:34:55,  1.26s/it] 91%|█████████ | 44341/48845 [15:43:09<1:34:53,  1.26s/it] 91%|█████████ | 44342/48845 [15:43:10<1:34:55,  1.26s/it] 91%|█████████ | 44343/48845 [15:43:12<1:34:52,  1.26s/it] 91%|█████████ | 44344/48845 [15:43:13<1:34:52,  1.26s/it] 91%|█████████ | 44345/48845 [15:43:14<1:34:54,  1.27s/it]                                                          {'loss': 2.0949, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44345/48845 [15:43:14<1:34:54,  1.27s/it] 91%|█████████ | 44346/48845 [15:43:15<1:34:53,  1.27s/it] 91%|█████████ | 44347/48845 [15:43:17<1:34:46,  1.26s/it] 91%|█████████ | 44348/48845 [15:43:18<1:34:50,  1.27s/it] 91%|█████████ | 44349/48845 [15:43:19<1:34:49,  1.27s/it] 91%|█████████ | 44350/48845 [15:43:20<1:34:47,  1.27s/it]                                                          {'loss': 1.9324, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44350/48845 [15:43:20<1:34:47,  1.27s/it] 91%|█████████ | 44351/48845 [15:43:22<1:34:46,  1.27s/it] 91%|█████████ | 44352/48845 [15:43:23<1:34:51,  1.27s/it] 91%|█████████ | 44353/48845 [15:43:24<1:34:44,  1.27s/it] 91%|█████████ | 44354/48845 [15:43:26<1:34:38,  1.26s/it] 91%|█████████ | 44355/48845 [15:43:27<1:34:36,  1.26s/it]                                                          {'loss': 2.2411, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44355/48845 [15:43:27<1:34:36,  1.26s/it] 91%|█████████ | 44356/48845 [15:43:28<1:34:45,  1.27s/it] 91%|█████████ | 44357/48845 [15:43:29<1:34:34,  1.26s/it] 91%|█████████ | 44358/48845 [15:43:31<1:34:37,  1.27s/it] 91%|█████████ | 44359/48845 [15:43:32<1:34:30,  1.26s/it] 91%|█████████ | 44360/48845 [15:43:33<1:34:32,  1.26s/it]                                                          {'loss': 2.1748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44360/48845 [15:43:33<1:34:32,  1.26s/it] 91%|█████████ | 44361/48845 [15:43:34<1:34:33,  1.27s/it] 91%|█████████ | 44362/48845 [15:43:36<1:34:31,  1.27s/it] 91%|█████████ | 44363/48845 [15:43:37<1:34:24,  1.26s/it] 91%|█████████ | 44364/48845 [15:43:38<1:34:29,  1.27s/it] 91%|█████████ | 44365/48845 [15:43:39<1:34:29,  1.27s/it]                                                          {'loss': 2.1041, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44365/48845 [15:43:39<1:34:29,  1.27s/it] 91%|█████████ | 44366/48845 [15:43:41<1:34:30,  1.27s/it] 91%|█████████ | 44367/48845 [15:43:42<1:34:28,  1.27s/it] 91%|█████████ | 44368/48845 [15:43:43<1:34:24,  1.27s/it] 91%|█████████ | 44369/48845 [15:43:44<1:34:21,  1.26s/it] 91%|█████████ | 44370/48845 [15:43:46<1:34:18,  1.26s/it]                                                          {'loss': 2.1321, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44370/48845 [15:43:46<1:34:18,  1.26s/it] 91%|█████████ | 44371/48845 [15:43:47<1:34:24,  1.27s/it] 91%|█████████ | 44372/48845 [15:43:48<1:34:25,  1.27s/it] 91%|█████████ | 44373/48845 [15:43:50<1:34:19,  1.27s/it] 91%|█████████ | 44374/48845 [15:43:51<1:34:17,  1.27s/it] 91%|█████████ | 44375/48845 [15:43:52<1:34:10,  1.26s/it]                                                          {'loss': 2.1245, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44375/48845 [15:43:52<1:34:10,  1.26s/it] 91%|█████████ | 44376/48845 [15:43:53<1:34:12,  1.26s/it] 91%|█████████ | 44377/48845 [15:43:55<1:34:10,  1.26s/it] 91%|█████████ | 44378/48845 [15:43:56<1:34:11,  1.27s/it] 91%|█████████ | 44379/48845 [15:43:57<1:34:06,  1.26s/it] 91%|█████████ | 44380/48845 [15:43:59<1:36:51,  1.30s/it]                                                          {'loss': 1.9601, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44380/48845 [15:43:59<1:36:51,  1.30s/it] 91%|█████████ | 44381/48845 [15:44:00<1:36:07,  1.29s/it] 91%|█████████ | 44382/48845 [15:44:01<1:35:24,  1.28s/it] 91%|█████████ | 44383/48845 [15:44:02<1:34:59,  1.28s/it] 91%|█████████ | 44384/48845 [15:44:04<1:34:44,  1.27s/it] 91%|█████████ | 44385/48845 [15:44:05<1:34:27,  1.27s/it]                                                          {'loss': 2.0652, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44385/48845 [15:44:05<1:34:27,  1.27s/it] 91%|█████████ | 44386/48845 [15:44:06<1:34:17,  1.27s/it] 91%|█████████ | 44387/48845 [15:44:07<1:34:07,  1.27s/it] 91%|█████████ | 44388/48845 [15:44:09<1:34:06,  1.27s/it] 91%|█████████ | 44389/48845 [15:44:10<1:34:05,  1.27s/it] 91%|█████████ | 44390/48845 [15:44:11<1:34:02,  1.27s/it]                                                          {'loss': 2.2384, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44390/48845 [15:44:11<1:34:02,  1.27s/it] 91%|█████████ | 44391/48845 [15:44:12<1:33:58,  1.27s/it] 91%|█████████ | 44392/48845 [15:44:14<1:34:01,  1.27s/it] 91%|█████████ | 44393/48845 [15:44:15<1:33:52,  1.27s/it] 91%|█████████ | 44394/48845 [15:44:16<1:33:45,  1.26s/it] 91%|█████████ | 44395/48845 [15:44:17<1:33:44,  1.26s/it]                                                          {'loss': 2.0579, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44395/48845 [15:44:18<1:33:44,  1.26s/it] 91%|█████████ | 44396/48845 [15:44:19<1:37:33,  1.32s/it] 91%|█████████ | 44397/48845 [15:44:20<1:36:22,  1.30s/it] 91%|█████████ | 44398/48845 [15:44:21<1:35:32,  1.29s/it] 91%|█████████ | 44399/48845 [15:44:23<1:34:57,  1.28s/it] 91%|█████████ | 44400/48845 [15:44:24<1:34:31,  1.28s/it]                                                          {'loss': 2.0426, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.54}
+ 91%|█████████ | 44400/48845 [15:44:24<1:34:31,  1.28s/it] 91%|█████████ | 44401/48845 [15:44:28<2:30:58,  2.04s/it] 91%|█████████ | 44402/48845 [15:44:29<2:13:42,  1.81s/it] 91%|█████████ | 44403/48845 [15:44:30<2:01:40,  1.64s/it] 91%|█████████ | 44404/48845 [15:44:32<1:53:09,  1.53s/it] 91%|█████████ | 44405/48845 [15:44:33<1:47:12,  1.45s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44405/48845 [15:44:33<1:47:12,  1.45s/it] 91%|█████████ | 44406/48845 [15:44:34<1:46:09,  1.43s/it] 91%|█████████ | 44407/48845 [15:44:36<1:42:20,  1.38s/it] 91%|█████████ | 44408/48845 [15:44:37<1:39:45,  1.35s/it] 91%|█████████ | 44409/48845 [15:44:38<1:37:51,  1.32s/it] 91%|█████████ | 44410/48845 [15:44:39<1:36:23,  1.30s/it]                                                          {'loss': 2.0277, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44410/48845 [15:44:39<1:36:23,  1.30s/it] 91%|█████████ | 44411/48845 [15:44:41<1:35:37,  1.29s/it] 91%|█████████ | 44412/48845 [15:44:42<1:34:55,  1.28s/it] 91%|█████████ | 44413/48845 [15:44:43<1:34:22,  1.28s/it] 91%|█████████ | 44414/48845 [15:44:44<1:34:05,  1.27s/it] 91%|█████████ | 44415/48845 [15:44:46<1:33:56,  1.27s/it]                                                          {'loss': 2.1322, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44415/48845 [15:44:46<1:33:56,  1.27s/it] 91%|█████████ | 44416/48845 [15:44:47<1:33:41,  1.27s/it] 91%|█████████ | 44417/48845 [15:44:48<1:33:36,  1.27s/it] 91%|█████████ | 44418/48845 [15:44:49<1:33:31,  1.27s/it] 91%|█████████ | 44419/48845 [15:44:51<1:33:23,  1.27s/it] 91%|█████████ | 44420/48845 [15:44:52<1:33:28,  1.27s/it]                                                          {'loss': 2.1086, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44420/48845 [15:44:52<1:33:28,  1.27s/it] 91%|█████████ | 44421/48845 [15:44:53<1:33:22,  1.27s/it] 91%|█████████ | 44422/48845 [15:44:55<1:33:27,  1.27s/it] 91%|█████████ | 44423/48845 [15:44:56<1:33:21,  1.27s/it] 91%|█████████ | 44424/48845 [15:44:57<1:33:17,  1.27s/it] 91%|█████████ | 44425/48845 [15:44:58<1:33:16,  1.27s/it]                                                          {'loss': 2.0755, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44425/48845 [15:44:58<1:33:16,  1.27s/it] 91%|█████████ | 44426/48845 [15:45:00<1:33:17,  1.27s/it] 91%|█████████ | 44427/48845 [15:45:01<1:33:14,  1.27s/it] 91%|█████████ | 44428/48845 [15:45:02<1:33:10,  1.27s/it] 91%|█████████ | 44429/48845 [15:45:03<1:32:59,  1.26s/it] 91%|█████████ | 44430/48845 [15:45:05<1:33:01,  1.26s/it]                                                          {'loss': 2.2754, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44430/48845 [15:45:05<1:33:01,  1.26s/it] 91%|█████████ | 44431/48845 [15:45:06<1:33:00,  1.26s/it] 91%|█████████ | 44432/48845 [15:45:07<1:33:03,  1.27s/it] 91%|█████████ | 44433/48845 [15:45:08<1:32:57,  1.26s/it] 91%|█████████ | 44434/48845 [15:45:10<1:33:03,  1.27s/it] 91%|█████████ | 44435/48845 [15:45:11<1:33:02,  1.27s/it]                                                          {'loss': 2.0568, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44435/48845 [15:45:11<1:33:02,  1.27s/it] 91%|█████████ | 44436/48845 [15:45:12<1:32:57,  1.26s/it] 91%|█████████ | 44437/48845 [15:45:13<1:32:56,  1.27s/it] 91%|█████████ | 44438/48845 [15:45:15<1:33:01,  1.27s/it] 91%|█████████ | 44439/48845 [15:45:16<1:32:56,  1.27s/it] 91%|█████████ | 44440/48845 [15:45:17<1:32:49,  1.26s/it]                                                          {'loss': 1.9923, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44440/48845 [15:45:17<1:32:49,  1.26s/it] 91%|█████████ | 44441/48845 [15:45:19<1:32:48,  1.26s/it] 91%|█████████ | 44442/48845 [15:45:20<1:32:46,  1.26s/it] 91%|█████████ | 44443/48845 [15:45:21<1:32:48,  1.27s/it] 91%|█████████ | 44444/48845 [15:45:22<1:32:42,  1.26s/it] 91%|█████████ | 44445/48845 [15:45:24<1:32:41,  1.26s/it]                                                          {'loss': 1.9981, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44445/48845 [15:45:24<1:32:41,  1.26s/it] 91%|█████████ | 44446/48845 [15:45:25<1:32:41,  1.26s/it] 91%|█████████ | 44447/48845 [15:45:26<1:32:41,  1.26s/it] 91%|█████████ | 44448/48845 [15:45:27<1:32:33,  1.26s/it] 91%|█████████ | 44449/48845 [15:45:29<1:32:31,  1.26s/it] 91%|█████████ | 44450/48845 [15:45:30<1:32:32,  1.26s/it]                                                          {'loss': 2.1609, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44450/48845 [15:45:30<1:32:32,  1.26s/it] 91%|█████████ | 44451/48845 [15:45:31<1:32:29,  1.26s/it] 91%|█████████ | 44452/48845 [15:45:32<1:32:30,  1.26s/it] 91%|█████████ | 44453/48845 [15:45:34<1:32:30,  1.26s/it] 91%|█████████ | 44454/48845 [15:45:35<1:32:28,  1.26s/it] 91%|█████████ | 44455/48845 [15:45:36<1:32:26,  1.26s/it]                                                          {'loss': 1.9561, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44455/48845 [15:45:36<1:32:26,  1.26s/it] 91%|█████████ | 44456/48845 [15:45:37<1:32:23,  1.26s/it] 91%|█████████ | 44457/48845 [15:45:39<1:32:24,  1.26s/it] 91%|█████████ | 44458/48845 [15:45:40<1:32:28,  1.26s/it] 91%|█████████ | 44459/48845 [15:45:41<1:32:26,  1.26s/it] 91%|█████████ | 44460/48845 [15:45:43<1:32:26,  1.26s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44460/48845 [15:45:43<1:32:26,  1.26s/it] 91%|█████████ | 44461/48845 [15:45:44<1:32:24,  1.26s/it] 91%|█████████ | 44462/48845 [15:45:45<1:32:24,  1.27s/it] 91%|█████████ | 44463/48845 [15:45:46<1:32:18,  1.26s/it] 91%|█████████ | 44464/48845 [15:45:48<1:32:22,  1.27s/it] 91%|█████████ | 44465/48845 [15:45:49<1:32:14,  1.26s/it]                                                          {'loss': 2.0028, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44465/48845 [15:45:49<1:32:14,  1.26s/it] 91%|█████████ | 44466/48845 [15:45:50<1:32:21,  1.27s/it] 91%|█████████ | 44467/48845 [15:45:51<1:32:16,  1.26s/it] 91%|█████████ | 44468/48845 [15:45:53<1:32:13,  1.26s/it] 91%|█████████ | 44469/48845 [15:45:54<1:32:09,  1.26s/it] 91%|█████████ | 44470/48845 [15:45:55<1:32:12,  1.26s/it]                                                          {'loss': 2.0918, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44470/48845 [15:45:55<1:32:12,  1.26s/it] 91%|█████████ | 44471/48845 [15:45:56<1:32:06,  1.26s/it] 91%|█████████ | 44472/48845 [15:45:58<1:32:02,  1.26s/it] 91%|█████████ | 44473/48845 [15:45:59<1:31:59,  1.26s/it] 91%|█████████ | 44474/48845 [15:46:00<1:32:02,  1.26s/it] 91%|█████████ | 44475/48845 [15:46:02<1:32:05,  1.26s/it]                                                          {'loss': 2.2041, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44475/48845 [15:46:02<1:32:05,  1.26s/it] 91%|█████████ | 44476/48845 [15:46:03<1:32:03,  1.26s/it] 91%|█████████ | 44477/48845 [15:46:04<1:32:01,  1.26s/it] 91%|█████████ | 44478/48845 [15:46:05<1:32:06,  1.27s/it] 91%|█████████ | 44479/48845 [15:46:07<1:32:05,  1.27s/it] 91%|█████████ | 44480/48845 [15:46:08<1:32:02,  1.27s/it]                                                          {'loss': 2.0277, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44480/48845 [15:46:08<1:32:02,  1.27s/it] 91%|█████████ | 44481/48845 [15:46:09<1:31:59,  1.26s/it] 91%|█████████ | 44482/48845 [15:46:10<1:32:04,  1.27s/it] 91%|█████████ | 44483/48845 [15:46:12<1:31:56,  1.26s/it] 91%|█████████ | 44484/48845 [15:46:13<1:31:58,  1.27s/it] 91%|█████████ | 44485/48845 [15:46:14<1:31:53,  1.26s/it]                                                          {'loss': 1.9767, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44485/48845 [15:46:14<1:31:53,  1.26s/it] 91%|█████████ | 44486/48845 [15:46:15<1:31:54,  1.27s/it] 91%|█████████ | 44487/48845 [15:46:17<1:31:53,  1.27s/it] 91%|█████████ | 44488/48845 [15:46:18<1:31:54,  1.27s/it] 91%|█████████ | 44489/48845 [15:46:19<1:31:55,  1.27s/it] 91%|█████████ | 44490/48845 [15:46:20<1:31:50,  1.27s/it]                                                          {'loss': 2.1211, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44490/48845 [15:46:20<1:31:50,  1.27s/it] 91%|█████████ | 44491/48845 [15:46:22<1:31:53,  1.27s/it] 91%|█████████ | 44492/48845 [15:46:23<1:31:52,  1.27s/it] 91%|█████████ | 44493/48845 [15:46:24<1:31:48,  1.27s/it] 91%|█████████ | 44494/48845 [15:46:26<1:31:44,  1.27s/it] 91%|█████████ | 44495/48845 [15:46:27<1:31:41,  1.26s/it]                                                          {'loss': 2.1097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.55}
+ 91%|█████████ | 44495/48845 [15:46:27<1:31:41,  1.26s/it] 91%|█████████ | 44496/48845 [15:46:28<1:31:39,  1.26s/it] 91%|█████████ | 44497/48845 [15:46:29<1:31:35,  1.26s/it] 91%|█████████ | 44498/48845 [15:46:31<1:31:39,  1.27s/it] 91%|█████████ | 44499/48845 [15:46:32<1:31:36,  1.26s/it] 91%|█████████ | 44500/48845 [15:46:33<1:31:36,  1.26s/it]                                                          {'loss': 2.1125, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44500/48845 [15:46:33<1:31:36,  1.26s/it] 91%|█████████ | 44501/48845 [15:46:34<1:31:36,  1.27s/it] 91%|█████████ | 44502/48845 [15:46:36<1:33:15,  1.29s/it] 91%|█████████ | 44503/48845 [15:46:37<1:32:41,  1.28s/it] 91%|█████████ | 44504/48845 [15:46:38<1:32:19,  1.28s/it] 91%|█████████ | 44505/48845 [15:46:40<1:32:03,  1.27s/it]                                                          {'loss': 2.1076, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44505/48845 [15:46:40<1:32:03,  1.27s/it] 91%|█████████ | 44506/48845 [15:46:41<1:31:50,  1.27s/it] 91%|█████████ | 44507/48845 [15:46:42<1:31:41,  1.27s/it] 91%|█████████ | 44508/48845 [15:46:43<1:31:35,  1.27s/it] 91%|█████████ | 44509/48845 [15:46:45<1:31:30,  1.27s/it] 91%|█████████ | 44510/48845 [15:46:46<1:31:28,  1.27s/it]                                                          {'loss': 2.0118, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44510/48845 [15:46:46<1:31:28,  1.27s/it] 91%|█████████ | 44511/48845 [15:46:47<1:31:21,  1.26s/it] 91%|█████████ | 44512/48845 [15:46:48<1:31:14,  1.26s/it] 91%|█████████ | 44513/48845 [15:46:50<1:31:15,  1.26s/it] 91%|█████████ | 44514/48845 [15:46:51<1:31:19,  1.27s/it] 91%|█████████ | 44515/48845 [15:46:52<1:31:19,  1.27s/it]                                                          {'loss': 2.2642, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44515/48845 [15:46:52<1:31:19,  1.27s/it] 91%|█████████ | 44516/48845 [15:46:53<1:31:23,  1.27s/it] 91%|█████████ | 44517/48845 [15:46:55<1:31:18,  1.27s/it] 91%|█████████ | 44518/48845 [15:46:56<1:31:11,  1.26s/it] 91%|█████████ | 44519/48845 [15:46:57<1:31:08,  1.26s/it] 91%|█████████ | 44520/48845 [15:46:59<1:31:04,  1.26s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44520/48845 [15:46:59<1:31:04,  1.26s/it] 91%|█████████ | 44521/48845 [15:47:00<1:31:08,  1.26s/it] 91%|█████████ | 44522/48845 [15:47:01<1:31:17,  1.27s/it] 91%|█████████ | 44523/48845 [15:47:02<1:31:16,  1.27s/it] 91%|█████████ | 44524/48845 [15:47:04<1:31:12,  1.27s/it] 91%|█████████ | 44525/48845 [15:47:05<1:31:08,  1.27s/it]                                                          {'loss': 1.981, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44525/48845 [15:47:05<1:31:08,  1.27s/it] 91%|█████████ | 44526/48845 [15:47:06<1:34:27,  1.31s/it] 91%|█████████ | 44527/48845 [15:47:08<1:33:28,  1.30s/it] 91%|█████████ | 44528/48845 [15:47:09<1:32:38,  1.29s/it] 91%|█████████ | 44529/48845 [15:47:10<1:32:03,  1.28s/it] 91%|█████████ | 44530/48845 [15:47:11<1:35:09,  1.32s/it]                                                          {'loss': 2.0904, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44530/48845 [15:47:11<1:35:09,  1.32s/it] 91%|█████████ | 44531/48845 [15:47:13<1:33:47,  1.30s/it] 91%|█████████ | 44532/48845 [15:47:14<1:32:51,  1.29s/it] 91%|█████████ | 44533/48845 [15:47:15<1:32:12,  1.28s/it] 91%|█████████ | 44534/48845 [15:47:17<1:33:13,  1.30s/it] 91%|█████████ | 44535/48845 [15:47:18<1:32:26,  1.29s/it]                                                          {'loss': 2.1675, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44535/48845 [15:47:18<1:32:26,  1.29s/it] 91%|█████████ | 44536/48845 [15:47:19<1:32:03,  1.28s/it] 91%|█████████ | 44537/48845 [15:47:20<1:31:37,  1.28s/it] 91%|█████████ | 44538/48845 [15:47:22<1:31:26,  1.27s/it] 91%|█████████ | 44539/48845 [15:47:23<1:31:19,  1.27s/it] 91%|█████████ | 44540/48845 [15:47:24<1:31:13,  1.27s/it]                                                          {'loss': 2.0768, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44540/48845 [15:47:24<1:31:13,  1.27s/it] 91%|█████████ | 44541/48845 [15:47:25<1:30:59,  1.27s/it] 91%|█████████ | 44542/48845 [15:47:27<1:30:55,  1.27s/it] 91%|█████████ | 44543/48845 [15:47:28<1:30:57,  1.27s/it] 91%|█████████ | 44544/48845 [15:47:29<1:30:50,  1.27s/it] 91%|█████████ | 44545/48845 [15:47:31<1:30:50,  1.27s/it]                                                          {'loss': 2.1432, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44545/48845 [15:47:31<1:30:50,  1.27s/it] 91%|█████████ | 44546/48845 [15:47:32<1:30:45,  1.27s/it] 91%|█████████ | 44547/48845 [15:47:33<1:34:28,  1.32s/it] 91%|█████████ | 44548/48845 [15:47:34<1:33:15,  1.30s/it] 91%|█████████ | 44549/48845 [15:47:36<1:32:28,  1.29s/it] 91%|█████████ | 44550/48845 [15:47:37<1:31:51,  1.28s/it]                                                          {'loss': 2.0266, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44550/48845 [15:47:37<1:31:51,  1.28s/it] 91%|█████████ | 44551/48845 [15:47:38<1:32:40,  1.29s/it] 91%|█████████ | 44552/48845 [15:47:40<1:32:01,  1.29s/it] 91%|█████████ | 44553/48845 [15:47:41<1:31:37,  1.28s/it] 91%|█████████ | 44554/48845 [15:47:42<1:31:14,  1.28s/it] 91%|█████████ | 44555/48845 [15:47:43<1:30:55,  1.27s/it]                                                          {'loss': 2.0969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44555/48845 [15:47:43<1:30:55,  1.27s/it] 91%|█████████ | 44556/48845 [15:47:45<1:30:45,  1.27s/it] 91%|█████████ | 44557/48845 [15:47:46<1:30:41,  1.27s/it] 91%|█████████ | 44558/48845 [15:47:47<1:30:30,  1.27s/it] 91%|█████████ | 44559/48845 [15:47:48<1:30:24,  1.27s/it] 91%|█████████ | 44560/48845 [15:47:50<1:30:18,  1.26s/it]                                                          {'loss': 1.9588, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44560/48845 [15:47:50<1:30:18,  1.26s/it] 91%|█████████ | 44561/48845 [15:47:51<1:30:16,  1.26s/it] 91%|█████████ | 44562/48845 [15:47:52<1:30:20,  1.27s/it] 91%|█████████ | 44563/48845 [15:47:54<1:30:21,  1.27s/it] 91%|█████████ | 44564/48845 [15:47:55<1:30:23,  1.27s/it] 91%|█████████ | 44565/48845 [15:47:56<1:30:17,  1.27s/it]                                                          {'loss': 2.0295, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44565/48845 [15:47:56<1:30:17,  1.27s/it] 91%|█████████ | 44566/48845 [15:47:57<1:30:18,  1.27s/it] 91%|█████████ | 44567/48845 [15:47:59<1:33:27,  1.31s/it] 91%|█████████ | 44568/48845 [15:48:00<1:32:31,  1.30s/it] 91%|█████████ | 44569/48845 [15:48:01<1:31:45,  1.29s/it] 91%|█████████ | 44570/48845 [15:48:03<1:31:13,  1.28s/it]                                                          {'loss': 2.0475, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████ | 44570/48845 [15:48:03<1:31:13,  1.28s/it] 91%|█████████ | 44571/48845 [15:48:04<1:30:50,  1.28s/it] 91%|█████████▏| 44572/48845 [15:48:05<1:30:37,  1.27s/it] 91%|█████████▏| 44573/48845 [15:48:06<1:30:28,  1.27s/it] 91%|█████████▏| 44574/48845 [15:48:08<1:30:19,  1.27s/it] 91%|█████████▏| 44575/48845 [15:48:09<1:30:15,  1.27s/it]                                                          {'loss': 2.0866, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████▏| 44575/48845 [15:48:09<1:30:15,  1.27s/it] 91%|█████████▏| 44576/48845 [15:48:10<1:30:09,  1.27s/it] 91%|█████████▏| 44577/48845 [15:48:11<1:30:02,  1.27s/it] 91%|█████████▏| 44578/48845 [15:48:13<1:30:03,  1.27s/it] 91%|█████████▏| 44579/48845 [15:48:14<1:30:07,  1.27s/it] 91%|█████████▏| 44580/48845 [15:48:15<1:30:05,  1.27s/it]                                                          {'loss': 2.0273, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████▏| 44580/48845 [15:48:15<1:30:05,  1.27s/it] 91%|█████████▏| 44581/48845 [15:48:16<1:30:01,  1.27s/it] 91%|█████████▏| 44582/48845 [15:48:18<1:29:51,  1.26s/it] 91%|█████████▏| 44583/48845 [15:48:19<1:29:50,  1.26s/it] 91%|█████████▏| 44584/48845 [15:48:20<1:29:47,  1.26s/it] 91%|█████████▏| 44585/48845 [15:48:22<1:29:50,  1.27s/it]                                                          {'loss': 2.0946, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████▏| 44585/48845 [15:48:22<1:29:50,  1.27s/it] 91%|█████████▏| 44586/48845 [15:48:23<1:29:45,  1.26s/it] 91%|█████████▏| 44587/48845 [15:48:24<1:29:47,  1.27s/it] 91%|█████████▏| 44588/48845 [15:48:25<1:29:40,  1.26s/it] 91%|█████████▏| 44589/48845 [15:48:27<1:29:35,  1.26s/it] 91%|█████████▏| 44590/48845 [15:48:28<1:29:38,  1.26s/it]                                                          {'loss': 2.2008, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████▏| 44590/48845 [15:48:28<1:29:38,  1.26s/it] 91%|█████████▏| 44591/48845 [15:48:29<1:33:09,  1.31s/it] 91%|█████████▏| 44592/48845 [15:48:31<1:32:04,  1.30s/it] 91%|█████████▏| 44593/48845 [15:48:32<1:31:15,  1.29s/it] 91%|█████████▏| 44594/48845 [15:48:33<1:30:42,  1.28s/it] 91%|█████████▏| 44595/48845 [15:48:34<1:30:31,  1.28s/it]                                                          {'loss': 2.0429, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.56}
+ 91%|█████████▏| 44595/48845 [15:48:34<1:30:31,  1.28s/it] 91%|█████████▏| 44596/48845 [15:48:36<1:30:12,  1.27s/it] 91%|█████████▏| 44597/48845 [15:48:37<1:29:57,  1.27s/it] 91%|█████████▏| 44598/48845 [15:48:38<1:29:47,  1.27s/it] 91%|█████████▏| 44599/48845 [15:48:39<1:29:39,  1.27s/it] 91%|█████████▏| 44600/48845 [15:48:41<1:29:32,  1.27s/it]                                                          {'loss': 1.9869, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44600/48845 [15:48:41<1:29:32,  1.27s/it] 91%|█████████▏| 44601/48845 [15:48:44<2:23:48,  2.03s/it] 91%|█████████▏| 44602/48845 [15:48:46<2:07:22,  1.80s/it] 91%|█████████▏| 44603/48845 [15:48:47<1:55:49,  1.64s/it] 91%|█████████▏| 44604/48845 [15:48:48<1:47:42,  1.52s/it] 91%|█████████▏| 44605/48845 [15:48:50<1:43:22,  1.46s/it]                                                          {'loss': 2.0401, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44605/48845 [15:48:50<1:43:22,  1.46s/it] 91%|█████████▏| 44606/48845 [15:48:51<1:39:05,  1.40s/it] 91%|█████████▏| 44607/48845 [15:48:52<1:36:07,  1.36s/it] 91%|█████████▏| 44608/48845 [15:48:53<1:33:58,  1.33s/it] 91%|█████████▏| 44609/48845 [15:48:55<1:34:19,  1.34s/it] 91%|█████████▏| 44610/48845 [15:48:56<1:32:42,  1.31s/it]                                                          {'loss': 2.0608, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44610/48845 [15:48:56<1:32:42,  1.31s/it] 91%|█████████▏| 44611/48845 [15:48:57<1:31:35,  1.30s/it] 91%|█████████▏| 44612/48845 [15:48:58<1:30:49,  1.29s/it] 91%|█████████▏| 44613/48845 [15:49:00<1:30:15,  1.28s/it] 91%|█████████▏| 44614/48845 [15:49:01<1:29:54,  1.28s/it] 91%|█████████▏| 44615/48845 [15:49:02<1:29:42,  1.27s/it]                                                          {'loss': 1.9849, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44615/48845 [15:49:02<1:29:42,  1.27s/it] 91%|█████████▏| 44616/48845 [15:49:04<1:29:26,  1.27s/it] 91%|█████████▏| 44617/48845 [15:49:05<1:29:15,  1.27s/it] 91%|█████████▏| 44618/48845 [15:49:06<1:29:11,  1.27s/it] 91%|█████████▏| 44619/48845 [15:49:07<1:29:04,  1.26s/it] 91%|█████████▏| 44620/48845 [15:49:09<1:29:06,  1.27s/it]                                                          {'loss': 2.2738, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44620/48845 [15:49:09<1:29:06,  1.27s/it] 91%|█████████▏| 44621/48845 [15:49:10<1:29:08,  1.27s/it] 91%|█████████▏| 44622/48845 [15:49:11<1:28:59,  1.26s/it] 91%|█████████▏| 44623/48845 [15:49:12<1:28:56,  1.26s/it] 91%|█████████▏| 44624/48845 [15:49:14<1:28:55,  1.26s/it] 91%|█████████▏| 44625/48845 [15:49:15<1:28:55,  1.26s/it]                                                          {'loss': 2.0364, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44625/48845 [15:49:15<1:28:55,  1.26s/it] 91%|█████████▏| 44626/48845 [15:49:16<1:28:52,  1.26s/it] 91%|█████████▏| 44627/48845 [15:49:17<1:28:44,  1.26s/it] 91%|█████████▏| 44628/48845 [15:49:19<1:28:45,  1.26s/it] 91%|█████████▏| 44629/48845 [15:49:20<1:28:45,  1.26s/it] 91%|█████████▏| 44630/48845 [15:49:21<1:28:42,  1.26s/it]                                                          {'loss': 2.1385, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44630/48845 [15:49:21<1:28:42,  1.26s/it] 91%|█████████▏| 44631/48845 [15:49:22<1:28:45,  1.26s/it] 91%|█████████▏| 44632/48845 [15:49:24<1:28:39,  1.26s/it] 91%|█████████▏| 44633/48845 [15:49:25<1:28:43,  1.26s/it] 91%|█████████▏| 44634/48845 [15:49:26<1:28:36,  1.26s/it] 91%|█████████▏| 44635/48845 [15:49:28<1:28:32,  1.26s/it]                                                          {'loss': 2.0807, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44635/48845 [15:49:28<1:28:32,  1.26s/it] 91%|█████████▏| 44636/48845 [15:49:29<1:28:35,  1.26s/it] 91%|█████████▏| 44637/48845 [15:49:30<1:28:39,  1.26s/it] 91%|█████████▏| 44638/48845 [15:49:31<1:28:34,  1.26s/it] 91%|█████████▏| 44639/48845 [15:49:33<1:28:30,  1.26s/it] 91%|█████████▏| 44640/48845 [15:49:34<1:28:29,  1.26s/it]                                                          {'loss': 2.2512, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44640/48845 [15:49:34<1:28:29,  1.26s/it] 91%|█████████▏| 44641/48845 [15:49:35<1:28:33,  1.26s/it] 91%|█████████▏| 44642/48845 [15:49:36<1:28:31,  1.26s/it] 91%|█████████▏| 44643/48845 [15:49:38<1:28:30,  1.26s/it] 91%|█████████▏| 44644/48845 [15:49:39<1:28:31,  1.26s/it] 91%|█████████▏| 44645/48845 [15:49:40<1:30:29,  1.29s/it]                                                          {'loss': 2.0615, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44645/48845 [15:49:40<1:30:29,  1.29s/it] 91%|█████████▏| 44646/48845 [15:49:42<1:29:47,  1.28s/it] 91%|█████████▏| 44647/48845 [15:49:43<1:29:26,  1.28s/it] 91%|█████████▏| 44648/48845 [15:49:44<1:29:07,  1.27s/it] 91%|█████████▏| 44649/48845 [15:49:45<1:28:59,  1.27s/it] 91%|█████████▏| 44650/48845 [15:49:47<1:28:45,  1.27s/it]                                                          {'loss': 2.1897, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44650/48845 [15:49:47<1:28:45,  1.27s/it] 91%|█████████▏| 44651/48845 [15:49:48<1:28:39,  1.27s/it] 91%|█████████▏| 44652/48845 [15:49:49<1:28:32,  1.27s/it] 91%|█████████▏| 44653/48845 [15:49:51<1:31:55,  1.32s/it] 91%|█████████▏| 44654/48845 [15:49:52<1:30:53,  1.30s/it] 91%|█████████▏| 44655/48845 [15:49:53<1:30:02,  1.29s/it]                                                          {'loss': 2.0971, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44655/48845 [15:49:53<1:30:02,  1.29s/it] 91%|█████████▏| 44656/48845 [15:49:54<1:29:29,  1.28s/it] 91%|█████████▏| 44657/48845 [15:49:56<1:29:02,  1.28s/it] 91%|█████████▏| 44658/48845 [15:49:57<1:28:45,  1.27s/it] 91%|█████████▏| 44659/48845 [15:49:58<1:28:36,  1.27s/it] 91%|█████████▏| 44660/48845 [15:49:59<1:28:25,  1.27s/it]                                                          {'loss': 1.9728, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44660/48845 [15:49:59<1:28:25,  1.27s/it] 91%|█████████▏| 44661/48845 [15:50:01<1:28:24,  1.27s/it] 91%|█████████▏| 44662/48845 [15:50:02<1:28:16,  1.27s/it] 91%|████��████▏| 44663/48845 [15:50:03<1:28:13,  1.27s/it] 91%|█████████▏| 44664/48845 [15:50:04<1:28:10,  1.27s/it] 91%|█████████▏| 44665/48845 [15:50:06<1:30:33,  1.30s/it]                                                          {'loss': 1.9664, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44665/48845 [15:50:06<1:30:33,  1.30s/it] 91%|█████████▏| 44666/48845 [15:50:07<1:29:46,  1.29s/it] 91%|█████████▏| 44667/48845 [15:50:08<1:29:09,  1.28s/it] 91%|█████████▏| 44668/48845 [15:50:10<1:28:54,  1.28s/it] 91%|█████████▏| 44669/48845 [15:50:11<1:28:41,  1.27s/it] 91%|█████████▏| 44670/48845 [15:50:12<1:28:23,  1.27s/it]                                                          {'loss': 2.0964, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44670/48845 [15:50:12<1:28:23,  1.27s/it] 91%|█████████▏| 44671/48845 [15:50:13<1:28:10,  1.27s/it] 91%|█████████▏| 44672/48845 [15:50:15<1:28:04,  1.27s/it] 91%|█████████▏| 44673/48845 [15:50:16<1:28:03,  1.27s/it] 91%|█████████▏| 44674/48845 [15:50:17<1:27:56,  1.27s/it] 91%|█████████▏| 44675/48845 [15:50:18<1:27:53,  1.26s/it]                                                          {'loss': 1.8635, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44675/48845 [15:50:18<1:27:53,  1.26s/it] 91%|█████████▏| 44676/48845 [15:50:20<1:27:45,  1.26s/it] 91%|█████████▏| 44677/48845 [15:50:21<1:27:46,  1.26s/it] 91%|█████████▏| 44678/48845 [15:50:22<1:27:49,  1.26s/it] 91%|█████████▏| 44679/48845 [15:50:24<1:27:44,  1.26s/it] 91%|█████████▏| 44680/48845 [15:50:25<1:27:44,  1.26s/it]                                                          {'loss': 2.194, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44680/48845 [15:50:25<1:27:44,  1.26s/it] 91%|█████████▏| 44681/48845 [15:50:26<1:27:53,  1.27s/it] 91%|█████████▏| 44682/48845 [15:50:27<1:27:47,  1.27s/it] 91%|█████████▏| 44683/48845 [15:50:29<1:27:40,  1.26s/it] 91%|█████████▏| 44684/48845 [15:50:30<1:27:36,  1.26s/it] 91%|█████████▏| 44685/48845 [15:50:31<1:27:40,  1.26s/it]                                                          {'loss': 2.1191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44685/48845 [15:50:31<1:27:40,  1.26s/it] 91%|█████████▏| 44686/48845 [15:50:32<1:27:38,  1.26s/it] 91%|█████████▏| 44687/48845 [15:50:34<1:27:38,  1.26s/it] 91%|█████████▏| 44688/48845 [15:50:35<1:27:34,  1.26s/it] 91%|█████████▏| 44689/48845 [15:50:36<1:29:35,  1.29s/it] 91%|█████████▏| 44690/48845 [15:50:38<1:28:54,  1.28s/it]                                                          {'loss': 2.2969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.57}
+ 91%|█████████▏| 44690/48845 [15:50:38<1:28:54,  1.28s/it] 91%|█████████▏| 44691/48845 [15:50:39<1:28:24,  1.28s/it] 91%|█████████▏| 44692/48845 [15:50:40<1:28:11,  1.27s/it] 91%|█████████▏| 44693/48845 [15:50:41<1:28:02,  1.27s/it] 92%|█████████▏| 44694/48845 [15:50:43<1:27:47,  1.27s/it] 92%|█████████▏| 44695/48845 [15:50:44<1:27:35,  1.27s/it]                                                          {'loss': 2.0484, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44695/48845 [15:50:44<1:27:35,  1.27s/it] 92%|█████████▏| 44696/48845 [15:50:45<1:27:32,  1.27s/it] 92%|█████████▏| 44697/48845 [15:50:46<1:27:32,  1.27s/it] 92%|█████████▏| 44698/48845 [15:50:48<1:27:26,  1.27s/it] 92%|█████████▏| 44699/48845 [15:50:49<1:27:21,  1.26s/it] 92%|█████████▏| 44700/48845 [15:50:50<1:27:19,  1.26s/it]                                                          {'loss': 1.9597, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44700/48845 [15:50:50<1:27:19,  1.26s/it] 92%|█████████▏| 44701/48845 [15:50:52<1:30:29,  1.31s/it] 92%|█████████▏| 44702/48845 [15:50:53<1:29:29,  1.30s/it] 92%|█████████▏| 44703/48845 [15:50:54<1:28:51,  1.29s/it] 92%|█████████▏| 44704/48845 [15:50:55<1:28:22,  1.28s/it] 92%|█████████▏| 44705/48845 [15:50:57<1:28:06,  1.28s/it]                                                          {'loss': 2.233, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44705/48845 [15:50:57<1:28:06,  1.28s/it] 92%|█████████▏| 44706/48845 [15:50:58<1:27:52,  1.27s/it] 92%|█████████▏| 44707/48845 [15:50:59<1:27:40,  1.27s/it] 92%|█████████▏| 44708/48845 [15:51:00<1:27:26,  1.27s/it] 92%|█████████▏| 44709/48845 [15:51:02<1:28:41,  1.29s/it] 92%|█████████▏| 44710/48845 [15:51:03<1:28:12,  1.28s/it]                                                          {'loss': 2.0265, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44710/48845 [15:51:03<1:28:12,  1.28s/it] 92%|█████████▏| 44711/48845 [15:51:04<1:27:59,  1.28s/it] 92%|█████████▏| 44712/48845 [15:51:06<1:27:44,  1.27s/it] 92%|█████████▏| 44713/48845 [15:51:07<1:27:35,  1.27s/it] 92%|█████████▏| 44714/48845 [15:51:08<1:27:22,  1.27s/it] 92%|█████████▏| 44715/48845 [15:51:09<1:27:13,  1.27s/it]                                                          {'loss': 2.1393, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44715/48845 [15:51:09<1:27:13,  1.27s/it] 92%|█████████▏| 44716/48845 [15:51:11<1:27:10,  1.27s/it] 92%|█████████▏| 44717/48845 [15:51:12<1:29:34,  1.30s/it] 92%|█████████▏| 44718/48845 [15:51:13<1:28:43,  1.29s/it] 92%|█████████▏| 44719/48845 [15:51:15<1:28:05,  1.28s/it] 92%|█████████▏| 44720/48845 [15:51:16<1:27:38,  1.27s/it]                                                          {'loss': 2.0058, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44720/48845 [15:51:16<1:27:38,  1.27s/it] 92%|█████████▏| 44721/48845 [15:51:17<1:27:29,  1.27s/it] 92%|█████████▏| 44722/48845 [15:51:18<1:27:21,  1.27s/it] 92%|█████████▏| 44723/48845 [15:51:20<1:27:15,  1.27s/it] 92%|█████████▏| 44724/48845 [15:51:21<1:27:10,  1.27s/it] 92%|█████████▏| 44725/48845 [15:51:22<1:29:57,  1.31s/it]                                                          {'loss': 2.0745, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44725/48845 [15:51:22<1:29:57,  1.31s/it] 92%|█████████▏| 44726/48845 [15:51:24<1:29:06,  1.30s/it] 92%|█████████▏| 44727/48845 [15:51:25<1:28:23,  1.29s/it] 92%|█████████▏| 44728/48845 [15:51:26<1:27:49,  1.28s/it] 92%|█████████▏| 44729/48845 [15:51:27<1:27:33,  1.28s/it] 92%|█████████▏| 44730/48845 [15:51:29<1:27:19,  1.27s/it]                                                          {'loss': 2.0966, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44730/48845 [15:51:29<1:27:19,  1.27s/it] 92%|█████████▏| 44731/48845 [15:51:30<1:27:04,  1.27s/it] 92%|█████████▏| 44732/48845 [15:51:31<1:26:57,  1.27s/it] 92%|█████████▏| 44733/48845 [15:51:32<1:26:52,  1.27s/it] 92%|█████████▏| 44734/48845 [15:51:34<1:26:48,  1.27s/it] 92%|█████████▏| 44735/48845 [15:51:35<1:26:48,  1.27s/it]                                                          {'loss': 2.0321, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44735/48845 [15:51:35<1:26:48,  1.27s/it] 92%|█████████▏| 44736/48845 [15:51:36<1:26:53,  1.27s/it] 92%|█████████▏| 44737/48845 [15:51:37<1:26:52,  1.27s/it] 92%|█████████▏| 44738/48845 [15:51:39<1:26:44,  1.27s/it] 92%|█████████▏| 44739/48845 [15:51:40<1:26:41,  1.27s/it] 92%|█████████▏| 44740/48845 [15:51:41<1:26:33,  1.27s/it]                                                          {'loss': 2.0828, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44740/48845 [15:51:41<1:26:33,  1.27s/it] 92%|█████████▏| 44741/48845 [15:51:43<1:26:33,  1.27s/it] 92%|█████████▏| 44742/48845 [15:51:44<1:26:26,  1.26s/it] 92%|█████████▏| 44743/48845 [15:51:45<1:26:22,  1.26s/it] 92%|█████████▏| 44744/48845 [15:51:46<1:26:19,  1.26s/it] 92%|█████████▏| 44745/48845 [15:51:48<1:26:23,  1.26s/it]                                                          {'loss': 1.9722, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44745/48845 [15:51:48<1:26:23,  1.26s/it] 92%|█████████▏| 44746/48845 [15:51:49<1:26:20,  1.26s/it] 92%|█████████▏| 44747/48845 [15:51:50<1:26:17,  1.26s/it] 92%|█████████▏| 44748/48845 [15:51:51<1:26:21,  1.26s/it] 92%|█████████▏| 44749/48845 [15:51:53<1:26:21,  1.26s/it] 92%|█████████▏| 44750/48845 [15:51:54<1:26:17,  1.26s/it]                                                          {'loss': 2.1208, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44750/48845 [15:51:54<1:26:17,  1.26s/it] 92%|█████████▏| 44751/48845 [15:51:55<1:26:16,  1.26s/it] 92%|█████████▏| 44752/48845 [15:51:56<1:26:18,  1.27s/it] 92%|█████████▏| 44753/48845 [15:51:58<1:26:24,  1.27s/it] 92%|█████████▏| 44754/48845 [15:51:59<1:26:17,  1.27s/it] 92%|█████████▏| 44755/48845 [15:52:00<1:26:13,  1.26s/it]                                                          {'loss': 2.045, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44755/48845 [15:52:00<1:26:13,  1.26s/it] 92%|█████████▏| 44756/48845 [15:52:02<1:26:14,  1.27s/it] 92%|█████████▏| 44757/48845 [15:52:03<1:26:13,  1.27s/it] 92%|█████████▏| 44758/48845 [15:52:04<1:26:14,  1.27s/it] 92%|█████████▏| 44759/48845 [15:52:05<1:26:10,  1.27s/it] 92%|█████████▏| 44760/48845 [15:52:07<1:26:05,  1.26s/it]                                                          {'loss': 2.1347, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44760/48845 [15:52:07<1:26:05,  1.26s/it] 92%|█████████▏| 44761/48845 [15:52:08<1:26:08,  1.27s/it] 92%|█████████▏| 44762/48845 [15:52:09<1:26:04,  1.26s/it] 92%|█████████▏| 44763/48845 [15:52:10<1:26:03,  1.27s/it] 92%|█████████▏| 44764/48845 [15:52:12<1:26:04,  1.27s/it] 92%|█████████▏| 44765/48845 [15:52:13<1:26:00,  1.26s/it]                                                          {'loss': 2.0964, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44765/48845 [15:52:13<1:26:00,  1.26s/it] 92%|█████████▏| 44766/48845 [15:52:14<1:26:00,  1.27s/it] 92%|█████████▏| 44767/48845 [15:52:15<1:26:03,  1.27s/it] 92%|█████████▏| 44768/48845 [15:52:17<1:25:59,  1.27s/it] 92%|█████████▏| 44769/48845 [15:52:18<1:25:58,  1.27s/it] 92%|█████████▏| 44770/48845 [15:52:19<1:25:55,  1.27s/it]                                                          {'loss': 1.9857, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44770/48845 [15:52:19<1:25:55,  1.27s/it] 92%|█████████▏| 44771/48845 [15:52:20<1:25:49,  1.26s/it] 92%|█████████▏| 44772/48845 [15:52:22<1:25:48,  1.26s/it] 92%|█████████▏| 44773/48845 [15:52:23<1:25:51,  1.27s/it] 92%|█████████▏| 44774/48845 [15:52:24<1:25:48,  1.26s/it] 92%|█████████▏| 44775/48845 [15:52:26<1:25:44,  1.26s/it]                                                          {'loss': 2.2114, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44775/48845 [15:52:26<1:25:44,  1.26s/it] 92%|█████████▏| 44776/48845 [15:52:27<1:25:46,  1.26s/it] 92%|█████████▏| 44777/48845 [15:52:28<1:25:46,  1.27s/it] 92%|█████████▏| 44778/48845 [15:52:29<1:25:42,  1.26s/it] 92%|█████████▏| 44779/48845 [15:52:31<1:25:42,  1.26s/it] 92%|█████████▏| 44780/48845 [15:52:32<1:25:35,  1.26s/it]                                                          {'loss': 2.0184, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44780/48845 [15:52:32<1:25:35,  1.26s/it] 92%|█████████▏| 44781/48845 [15:52:33<1:25:36,  1.26s/it] 92%|█████████▏| 44782/48845 [15:52:34<1:25:32,  1.26s/it] 92%|█████████▏| 44783/48845 [15:52:36<1:25:34,  1.26s/it] 92%|█████████▏| 44784/48845 [15:52:37<1:25:37,  1.27s/it] 92%|█████████▏| 44785/48845 [15:52:38<1:25:33,  1.26s/it]                                                          {'loss': 1.8411, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44785/48845 [15:52:38<1:25:33,  1.26s/it] 92%|█████████▏| 44786/48845 [15:52:39<1:25:36,  1.27s/it] 92%|█████████▏| 44787/48845 [15:52:41<1:25:33,  1.26s/it] 92%|█████████▏| 44788/48845 [15:52:42<1:25:28,  1.26s/it] 92%|█████████▏| 44789/48845 [15:52:43<1:25:28,  1.26s/it] 92%|██████���██▏| 44790/48845 [15:52:45<1:25:28,  1.26s/it]                                                          {'loss': 2.2107, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.58}
+ 92%|█████████▏| 44790/48845 [15:52:45<1:25:28,  1.26s/it] 92%|█████████▏| 44791/48845 [15:52:46<1:27:46,  1.30s/it] 92%|█████████▏| 44792/48845 [15:52:47<1:27:02,  1.29s/it] 92%|█████████▏| 44793/48845 [15:52:48<1:26:35,  1.28s/it] 92%|█████████▏| 44794/48845 [15:52:50<1:26:15,  1.28s/it] 92%|█████████▏| 44795/48845 [15:52:51<1:26:05,  1.28s/it]                                                          {'loss': 2.1101, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44795/48845 [15:52:51<1:26:05,  1.28s/it] 92%|█████████▏| 44796/48845 [15:52:52<1:25:55,  1.27s/it] 92%|█████████▏| 44797/48845 [15:52:53<1:25:44,  1.27s/it] 92%|█████████▏| 44798/48845 [15:52:55<1:25:31,  1.27s/it] 92%|█████████▏| 44799/48845 [15:52:56<1:25:22,  1.27s/it] 92%|█████████▏| 44800/48845 [15:52:57<1:25:19,  1.27s/it]                                                          {'loss': 2.0525, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44800/48845 [15:52:57<1:25:19,  1.27s/it] 92%|█████████▏| 44801/48845 [15:53:01<2:16:58,  2.03s/it] 92%|█████████▏| 44802/48845 [15:53:02<2:01:22,  1.80s/it] 92%|█████████▏| 44803/48845 [15:53:04<1:50:29,  1.64s/it] 92%|█████████▏| 44804/48845 [15:53:05<1:42:50,  1.53s/it] 92%|█████████▏| 44805/48845 [15:53:06<1:40:11,  1.49s/it]                                                          {'loss': 2.0835, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44805/48845 [15:53:06<1:40:11,  1.49s/it] 92%|█████████▏| 44806/48845 [15:53:08<1:35:35,  1.42s/it] 92%|█████████▏| 44807/48845 [15:53:09<1:32:28,  1.37s/it] 92%|█████████▏| 44808/48845 [15:53:10<1:30:11,  1.34s/it] 92%|█████████▏| 44809/48845 [15:53:11<1:28:38,  1.32s/it] 92%|█████████▏| 44810/48845 [15:53:13<1:27:31,  1.30s/it]                                                          {'loss': 2.0116, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44810/48845 [15:53:13<1:27:31,  1.30s/it] 92%|█████████▏| 44811/48845 [15:53:14<1:26:44,  1.29s/it] 92%|█████████▏| 44812/48845 [15:53:15<1:26:09,  1.28s/it] 92%|█████████▏| 44813/48845 [15:53:16<1:25:40,  1.27s/it] 92%|█████████▏| 44814/48845 [15:53:18<1:25:26,  1.27s/it] 92%|█████████▏| 44815/48845 [15:53:19<1:25:13,  1.27s/it]                                                          {'loss': 1.9974, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44815/48845 [15:53:19<1:25:13,  1.27s/it] 92%|█████████▏| 44816/48845 [15:53:20<1:25:13,  1.27s/it] 92%|█████████▏| 44817/48845 [15:53:22<1:26:31,  1.29s/it] 92%|█████████▏| 44818/48845 [15:53:23<1:25:56,  1.28s/it] 92%|█████████▏| 44819/48845 [15:53:24<1:25:28,  1.27s/it] 92%|█████████▏| 44820/48845 [15:53:25<1:25:17,  1.27s/it]                                                          {'loss': 2.0112, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44820/48845 [15:53:25<1:25:17,  1.27s/it] 92%|█████████▏| 44821/48845 [15:53:27<1:26:17,  1.29s/it] 92%|█████████▏| 44822/48845 [15:53:28<1:25:55,  1.28s/it] 92%|█████████▏| 44823/48845 [15:53:29<1:25:36,  1.28s/it] 92%|█████████▏| 44824/48845 [15:53:30<1:25:15,  1.27s/it] 92%|█████████▏| 44825/48845 [15:53:32<1:24:59,  1.27s/it]                                                          {'loss': 2.231, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44825/48845 [15:53:32<1:24:59,  1.27s/it] 92%|█████████▏| 44826/48845 [15:53:33<1:24:52,  1.27s/it] 92%|█████████▏| 44827/48845 [15:53:34<1:24:52,  1.27s/it] 92%|█████████▏| 44828/48845 [15:53:35<1:24:47,  1.27s/it] 92%|█████████▏| 44829/48845 [15:53:37<1:24:43,  1.27s/it] 92%|█████████▏| 44830/48845 [15:53:38<1:24:34,  1.26s/it]                                                          {'loss': 2.2793, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44830/48845 [15:53:38<1:24:34,  1.26s/it] 92%|█████████▏| 44831/48845 [15:53:39<1:24:36,  1.26s/it] 92%|█████████▏| 44832/48845 [15:53:41<1:24:31,  1.26s/it] 92%|█████████▏| 44833/48845 [15:53:42<1:24:31,  1.26s/it] 92%|█████████▏| 44834/48845 [15:53:43<1:24:30,  1.26s/it] 92%|█████████▏| 44835/48845 [15:53:44<1:24:23,  1.26s/it]                                                          {'loss': 2.0676, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44835/48845 [15:53:44<1:24:23,  1.26s/it] 92%|█████████▏| 44836/48845 [15:53:46<1:24:23,  1.26s/it] 92%|█████████▏| 44837/48845 [15:53:47<1:24:27,  1.26s/it] 92%|█████████▏| 44838/48845 [15:53:48<1:24:22,  1.26s/it] 92%|█████████▏| 44839/48845 [15:53:49<1:24:24,  1.26s/it] 92%|█████████▏| 44840/48845 [15:53:51<1:24:19,  1.26s/it]                                                          {'loss': 2.1493, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44840/48845 [15:53:51<1:24:19,  1.26s/it] 92%|█████████▏| 44841/48845 [15:53:52<1:24:23,  1.26s/it] 92%|█████████▏| 44842/48845 [15:53:53<1:24:20,  1.26s/it] 92%|█████████▏| 44843/48845 [15:53:54<1:24:18,  1.26s/it] 92%|█████████▏| 44844/48845 [15:53:56<1:24:17,  1.26s/it] 92%|█████████▏| 44845/48845 [15:53:57<1:24:18,  1.26s/it]                                                          {'loss': 2.2454, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44845/48845 [15:53:57<1:24:18,  1.26s/it] 92%|█████████▏| 44846/48845 [15:53:58<1:24:22,  1.27s/it] 92%|█████████▏| 44847/48845 [15:54:00<1:24:28,  1.27s/it] 92%|█████████▏| 44848/48845 [15:54:01<1:24:20,  1.27s/it] 92%|█████████▏| 44849/48845 [15:54:02<1:24:23,  1.27s/it] 92%|█████████▏| 44850/48845 [15:54:03<1:24:22,  1.27s/it]                                                          {'loss': 1.9663, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44850/48845 [15:54:03<1:24:22,  1.27s/it] 92%|█████████▏| 44851/48845 [15:54:05<1:24:16,  1.27s/it] 92%|█████████▏| 44852/48845 [15:54:06<1:24:12,  1.27s/it] 92%|█████████▏| 44853/48845 [15:54:07<1:24:12,  1.27s/it] 92%|█████████▏| 44854/48845 [15:54:08<1:24:10,  1.27s/it] 92%|█████████▏| 44855/48845 [15:54:10<1:24:11,  1.27s/it]                                                          {'loss': 2.0587, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44855/48845 [15:54:10<1:24:11,  1.27s/it] 92%|█████████▏| 44856/48845 [15:54:11<1:24:04,  1.26s/it] 92%|█████████▏| 44857/48845 [15:54:12<1:26:58,  1.31s/it] 92%|█████████▏| 44858/48845 [15:54:14<1:26:11,  1.30s/it] 92%|█████████▏| 44859/48845 [15:54:15<1:25:38,  1.29s/it] 92%|█████████▏| 44860/48845 [15:54:16<1:25:08,  1.28s/it]                                                          {'loss': 2.1365, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44860/48845 [15:54:16<1:25:08,  1.28s/it] 92%|█████████▏| 44861/48845 [15:54:17<1:24:55,  1.28s/it] 92%|█████████▏| 44862/48845 [15:54:19<1:24:34,  1.27s/it] 92%|█████████▏| 44863/48845 [15:54:20<1:24:26,  1.27s/it] 92%|█████████▏| 44864/48845 [15:54:21<1:24:21,  1.27s/it] 92%|█████████▏| 44865/48845 [15:54:22<1:24:15,  1.27s/it]                                                          {'loss': 2.0528, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44865/48845 [15:54:22<1:24:15,  1.27s/it] 92%|█████████▏| 44866/48845 [15:54:24<1:24:07,  1.27s/it] 92%|█████████▏| 44867/48845 [15:54:25<1:24:06,  1.27s/it] 92%|█████████▏| 44868/48845 [15:54:26<1:24:01,  1.27s/it] 92%|█████████▏| 44869/48845 [15:54:28<1:24:02,  1.27s/it] 92%|█████████▏| 44870/48845 [15:54:29<1:23:55,  1.27s/it]                                                          {'loss': 2.171, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44870/48845 [15:54:29<1:23:55,  1.27s/it] 92%|█████████▏| 44871/48845 [15:54:30<1:23:48,  1.27s/it] 92%|█████████▏| 44872/48845 [15:54:31<1:23:45,  1.26s/it] 92%|█████████▏| 44873/48845 [15:54:33<1:23:46,  1.27s/it] 92%|█���███████▏| 44874/48845 [15:54:34<1:23:43,  1.26s/it] 92%|█████████▏| 44875/48845 [15:54:35<1:23:42,  1.27s/it]                                                          {'loss': 2.1431, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44875/48845 [15:54:35<1:23:42,  1.27s/it] 92%|█████████▏| 44876/48845 [15:54:36<1:23:41,  1.27s/it] 92%|█████████▏| 44877/48845 [15:54:38<1:23:59,  1.27s/it] 92%|█████████▏| 44878/48845 [15:54:39<1:23:55,  1.27s/it] 92%|█████████▏| 44879/48845 [15:54:40<1:23:50,  1.27s/it] 92%|█████████▏| 44880/48845 [15:54:41<1:23:44,  1.27s/it]                                                          {'loss': 2.153, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44880/48845 [15:54:41<1:23:44,  1.27s/it] 92%|█████████▏| 44881/48845 [15:54:43<1:23:44,  1.27s/it] 92%|█████████▏| 44882/48845 [15:54:44<1:23:36,  1.27s/it] 92%|█████████▏| 44883/48845 [15:54:45<1:23:38,  1.27s/it] 92%|█████████▏| 44884/48845 [15:54:47<1:23:37,  1.27s/it] 92%|█████████▏| 44885/48845 [15:54:48<1:23:46,  1.27s/it]                                                          {'loss': 2.1538, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.59}
+ 92%|█████████▏| 44885/48845 [15:54:48<1:23:46,  1.27s/it] 92%|█████████▏| 44886/48845 [15:54:49<1:23:47,  1.27s/it] 92%|█████████▏| 44887/48845 [15:54:50<1:23:47,  1.27s/it] 92%|█████████▏| 44888/48845 [15:54:52<1:23:41,  1.27s/it] 92%|█████████▏| 44889/48845 [15:54:53<1:23:38,  1.27s/it] 92%|█████████▏| 44890/48845 [15:54:54<1:23:36,  1.27s/it]                                                          {'loss': 2.123, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44890/48845 [15:54:54<1:23:36,  1.27s/it] 92%|█████████▏| 44891/48845 [15:54:55<1:23:36,  1.27s/it] 92%|█████████▏| 44892/48845 [15:54:57<1:23:32,  1.27s/it] 92%|█████████▏| 44893/48845 [15:54:58<1:23:25,  1.27s/it] 92%|█████████▏| 44894/48845 [15:54:59<1:23:21,  1.27s/it] 92%|█████████▏| 44895/48845 [15:55:00<1:23:14,  1.26s/it]                                                          {'loss': 2.0474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44895/48845 [15:55:00<1:23:14,  1.26s/it] 92%|█████████▏| 44896/48845 [15:55:02<1:23:17,  1.27s/it] 92%|█████████▏| 44897/48845 [15:55:03<1:23:14,  1.27s/it] 92%|█████████▏| 44898/48845 [15:55:04<1:23:14,  1.27s/it] 92%|█████████▏| 44899/48845 [15:55:06<1:23:11,  1.26s/it] 92%|█████████▏| 44900/48845 [15:55:07<1:23:12,  1.27s/it]                                                          {'loss': 2.1942, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44900/48845 [15:55:07<1:23:12,  1.27s/it] 92%|█████████▏| 44901/48845 [15:55:08<1:23:14,  1.27s/it] 92%|█████████▏| 44902/48845 [15:55:09<1:23:09,  1.27s/it] 92%|█████████▏| 44903/48845 [15:55:11<1:23:04,  1.26s/it] 92%|█████████▏| 44904/48845 [15:55:12<1:23:06,  1.27s/it] 92%|█████████▏| 44905/48845 [15:55:13<1:23:05,  1.27s/it]                                                          {'loss': 2.1545, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44905/48845 [15:55:13<1:23:05,  1.27s/it] 92%|█████████▏| 44906/48845 [15:55:14<1:23:02,  1.26s/it] 92%|█████████▏| 44907/48845 [15:55:16<1:22:59,  1.26s/it] 92%|█████████▏| 44908/48845 [15:55:17<1:22:56,  1.26s/it] 92%|█████████▏| 44909/48845 [15:55:18<1:23:05,  1.27s/it] 92%|█████████▏| 44910/48845 [15:55:19<1:23:04,  1.27s/it]                                                          {'loss': 1.9618, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44910/48845 [15:55:19<1:23:04,  1.27s/it] 92%|█████████▏| 44911/48845 [15:55:21<1:22:59,  1.27s/it] 92%|█████████▏| 44912/48845 [15:55:22<1:22:57,  1.27s/it] 92%|█████████▏| 44913/48845 [15:55:23<1:23:00,  1.27s/it] 92%|█████████▏| 44914/48845 [15:55:24<1:22:54,  1.27s/it] 92%|█████████▏| 44915/48845 [15:55:26<1:22:50,  1.26s/it]                                                          {'loss': 2.162, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44915/48845 [15:55:26<1:22:50,  1.26s/it] 92%|█████████▏| 44916/48845 [15:55:27<1:22:45,  1.26s/it] 92%|█████████▏| 44917/48845 [15:55:28<1:22:50,  1.27s/it] 92%|█████████▏| 44918/48845 [15:55:30<1:22:49,  1.27s/it] 92%|█████████▏| 44919/48845 [15:55:31<1:22:48,  1.27s/it] 92%|█████████▏| 44920/48845 [15:55:32<1:22:48,  1.27s/it]                                                          {'loss': 2.1195, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44920/48845 [15:55:32<1:22:48,  1.27s/it] 92%|█████████▏| 44921/48845 [15:55:33<1:22:51,  1.27s/it] 92%|█████████▏| 44922/48845 [15:55:35<1:22:45,  1.27s/it] 92%|█████████▏| 44923/48845 [15:55:36<1:22:49,  1.27s/it] 92%|█████████▏| 44924/48845 [15:55:37<1:22:43,  1.27s/it] 92%|█████████▏| 44925/48845 [15:55:38<1:22:38,  1.26s/it]                                                          {'loss': 2.0169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44925/48845 [15:55:38<1:22:38,  1.26s/it] 92%|█████████▏| 44926/48845 [15:55:40<1:22:36,  1.26s/it] 92%|█████████▏| 44927/48845 [15:55:41<1:22:40,  1.27s/it] 92%|█████████▏| 44928/48845 [15:55:42<1:22:35,  1.27s/it] 92%|█████████▏| 44929/48845 [15:55:43<1:22:36,  1.27s/it] 92%|█████████▏| 44930/48845 [15:55:45<1:22:35,  1.27s/it]                                                          {'loss': 2.0969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44930/48845 [15:55:45<1:22:35,  1.27s/it] 92%|█████████▏| 44931/48845 [15:55:46<1:22:32,  1.27s/it] 92%|█████████▏| 44932/48845 [15:55:47<1:22:24,  1.26s/it] 92%|█████████▏| 44933/48845 [15:55:49<1:22:24,  1.26s/it] 92%|█████████▏| 44934/48845 [15:55:50<1:22:24,  1.26s/it] 92%|█████████▏| 44935/48845 [15:55:51<1:22:24,  1.26s/it]                                                          {'loss': 2.2083, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44935/48845 [15:55:51<1:22:24,  1.26s/it] 92%|█████████▏| 44936/48845 [15:55:52<1:22:21,  1.26s/it] 92%|█████████▏| 44937/48845 [15:55:54<1:22:25,  1.27s/it] 92%|█████████▏| 44938/48845 [15:55:55<1:22:29,  1.27s/it] 92%|█████████▏| 44939/48845 [15:55:56<1:22:29,  1.27s/it] 92%|█████████▏| 44940/48845 [15:55:57<1:22:28,  1.27s/it]                                                          {'loss': 2.1735, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44940/48845 [15:55:57<1:22:28,  1.27s/it] 92%|█████████▏| 44941/48845 [15:55:59<1:22:33,  1.27s/it] 92%|█████████▏| 44942/48845 [15:56:00<1:22:29,  1.27s/it] 92%|█████████▏| 44943/48845 [15:56:01<1:22:27,  1.27s/it] 92%|█████████▏| 44944/48845 [15:56:02<1:22:22,  1.27s/it] 92%|█████████▏| 44945/48845 [15:56:04<1:22:23,  1.27s/it]                                                          {'loss': 2.0932, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44945/48845 [15:56:04<1:22:23,  1.27s/it] 92%|█████████▏| 44946/48845 [15:56:05<1:22:20,  1.27s/it] 92%|█████████▏| 44947/48845 [15:56:06<1:22:12,  1.27s/it] 92%|█████████▏| 44948/48845 [15:56:08<1:22:17,  1.27s/it] 92%|█████████▏| 44949/48845 [15:56:09<1:22:14,  1.27s/it] 92%|█████████▏| 44950/48845 [15:56:10<1:22:13,  1.27s/it]                                                          {'loss': 2.0692, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44950/48845 [15:56:10<1:22:13,  1.27s/it] 92%|█████████▏| 44951/48845 [15:56:11<1:22:14,  1.27s/it] 92%|█████████▏| 44952/48845 [15:56:13<1:22:10,  1.27s/it] 92%|█████████▏| 44953/48845 [15:56:14<1:22:05,  1.27s/it] 92%|█████████▏| 44954/48845 [15:56:15<1:21:57,  1.26s/it] 92%|█████████▏| 44955/48845 [15:56:16<1:21:57,  1.26s/it]                                                          {'loss': 2.3609, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44955/48845 [15:56:16<1:21:57,  1.26s/it] 92%|█████████▏| 44956/48845 [15:56:18<1:21:56,  1.26s/it] 92%|█████████▏| 44957/48845 [15:56:19<1:24:59,  1.31s/it] 92%|█���███████▏| 44958/48845 [15:56:20<1:24:05,  1.30s/it] 92%|█████████▏| 44959/48845 [15:56:22<1:23:23,  1.29s/it] 92%|█████████▏| 44960/48845 [15:56:23<1:22:56,  1.28s/it]                                                          {'loss': 2.1678, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44960/48845 [15:56:23<1:22:56,  1.28s/it] 92%|█████████▏| 44961/48845 [15:56:24<1:22:37,  1.28s/it] 92%|█████████▏| 44962/48845 [15:56:25<1:22:17,  1.27s/it] 92%|█████████▏| 44963/48845 [15:56:27<1:22:06,  1.27s/it] 92%|█████████▏| 44964/48845 [15:56:28<1:22:03,  1.27s/it] 92%|█████████▏| 44965/48845 [15:56:29<1:21:57,  1.27s/it]                                                          {'loss': 2.0145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44965/48845 [15:56:29<1:21:57,  1.27s/it] 92%|█████████▏| 44966/48845 [15:56:30<1:21:49,  1.27s/it] 92%|█████████▏| 44967/48845 [15:56:32<1:21:42,  1.26s/it] 92%|█████████▏| 44968/48845 [15:56:33<1:21:39,  1.26s/it] 92%|█████████▏| 44969/48845 [15:56:34<1:23:56,  1.30s/it] 92%|█████████▏| 44970/48845 [15:56:36<1:23:13,  1.29s/it]                                                          {'loss': 2.0923, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44970/48845 [15:56:36<1:23:13,  1.29s/it] 92%|█████████▏| 44971/48845 [15:56:37<1:22:44,  1.28s/it] 92%|█████████▏| 44972/48845 [15:56:38<1:22:24,  1.28s/it] 92%|█████████▏| 44973/48845 [15:56:40<1:25:24,  1.32s/it] 92%|█████████▏| 44974/48845 [15:56:41<1:24:14,  1.31s/it] 92%|█████████▏| 44975/48845 [15:56:42<1:23:19,  1.29s/it]                                                          {'loss': 2.0085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44975/48845 [15:56:42<1:23:19,  1.29s/it] 92%|█████████▏| 44976/48845 [15:56:43<1:22:47,  1.28s/it] 92%|█████████▏| 44977/48845 [15:56:45<1:22:28,  1.28s/it] 92%|█████████▏| 44978/48845 [15:56:46<1:22:06,  1.27s/it] 92%|█████████▏| 44979/48845 [15:56:47<1:21:59,  1.27s/it] 92%|█████████▏| 44980/48845 [15:56:48<1:21:44,  1.27s/it]                                                          {'loss': 2.1258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44980/48845 [15:56:48<1:21:44,  1.27s/it] 92%|█████████▏| 44981/48845 [15:56:50<1:21:42,  1.27s/it] 92%|█████████▏| 44982/48845 [15:56:51<1:21:35,  1.27s/it] 92%|█████████▏| 44983/48845 [15:56:52<1:21:24,  1.26s/it] 92%|█████████▏| 44984/48845 [15:56:53<1:21:18,  1.26s/it] 92%|█████████▏| 44985/48845 [15:56:55<1:21:17,  1.26s/it]                                                          {'loss': 1.9579, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.6}
+ 92%|█████████▏| 44985/48845 [15:56:55<1:21:17,  1.26s/it] 92%|█████████▏| 44986/48845 [15:56:56<1:21:10,  1.26s/it] 92%|█████████▏| 44987/48845 [15:56:57<1:21:07,  1.26s/it] 92%|█████████▏| 44988/48845 [15:56:59<1:21:13,  1.26s/it] 92%|█████████▏| 44989/48845 [15:57:00<1:21:11,  1.26s/it] 92%|█████████▏| 44990/48845 [15:57:01<1:21:11,  1.26s/it]                                                          {'loss': 2.1889, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 44990/48845 [15:57:01<1:21:11,  1.26s/it] 92%|█████████▏| 44991/48845 [15:57:02<1:21:15,  1.27s/it] 92%|█████████▏| 44992/48845 [15:57:04<1:21:16,  1.27s/it] 92%|█████████▏| 44993/48845 [15:57:05<1:21:15,  1.27s/it] 92%|█████████▏| 44994/48845 [15:57:06<1:21:11,  1.27s/it] 92%|█████████▏| 44995/48845 [15:57:07<1:21:03,  1.26s/it]                                                          {'loss': 2.0609, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 44995/48845 [15:57:07<1:21:03,  1.26s/it] 92%|█████████▏| 44996/48845 [15:57:09<1:21:03,  1.26s/it] 92%|█████████▏| 44997/48845 [15:57:10<1:21:13,  1.27s/it] 92%|█████████▏| 44998/48845 [15:57:11<1:21:13,  1.27s/it] 92%|█████████▏| 44999/48845 [15:57:12<1:21:07,  1.27s/it] 92%|█████████▏| 45000/48845 [15:57:14<1:21:07,  1.27s/it]                                                          {'loss': 2.1049, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45000/48845 [15:57:14<1:21:07,  1.27s/it] 92%|█████████▏| 45001/48845 [15:57:18<2:10:21,  2.03s/it] 92%|█████████▏| 45002/48845 [15:57:19<1:55:28,  1.80s/it] 92%|█████████▏| 45003/48845 [15:57:20<1:45:05,  1.64s/it] 92%|█████████▏| 45004/48845 [15:57:21<1:37:40,  1.53s/it] 92%|█████████▏| 45005/48845 [15:57:23<1:32:31,  1.45s/it]                                                          {'loss': 1.9528, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45005/48845 [15:57:23<1:32:31,  1.45s/it] 92%|█████████▏| 45006/48845 [15:57:24<1:28:56,  1.39s/it] 92%|█████████▏| 45007/48845 [15:57:25<1:26:28,  1.35s/it] 92%|█████████▏| 45008/48845 [15:57:26<1:24:41,  1.32s/it] 92%|█████████▏| 45009/48845 [15:57:28<1:23:30,  1.31s/it] 92%|█████████▏| 45010/48845 [15:57:29<1:22:38,  1.29s/it]                                                          {'loss': 1.9506, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45010/48845 [15:57:29<1:22:38,  1.29s/it] 92%|█████████▏| 45011/48845 [15:57:30<1:22:07,  1.29s/it] 92%|█████████▏| 45012/48845 [15:57:31<1:21:37,  1.28s/it] 92%|█████████▏| 45013/48845 [15:57:33<1:21:14,  1.27s/it] 92%|█████████▏| 45014/48845 [15:57:34<1:21:00,  1.27s/it] 92%|█████████▏| 45015/48845 [15:57:35<1:20:53,  1.27s/it]                                                          {'loss': 1.9656, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45015/48845 [15:57:35<1:20:53,  1.27s/it] 92%|█████████▏| 45016/48845 [15:57:36<1:20:51,  1.27s/it] 92%|█████████▏| 45017/48845 [15:57:38<1:20:41,  1.26s/it] 92%|█████████▏| 45018/48845 [15:57:39<1:20:39,  1.26s/it] 92%|█████████▏| 45019/48845 [15:57:40<1:20:37,  1.26s/it] 92%|█████████▏| 45020/48845 [15:57:42<1:20:35,  1.26s/it]                                                          {'loss': 2.0102, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45020/48845 [15:57:42<1:20:35,  1.26s/it] 92%|█████████▏| 45021/48845 [15:57:43<1:20:30,  1.26s/it] 92%|█████████▏| 45022/48845 [15:57:44<1:20:23,  1.26s/it] 92%|█████████▏| 45023/48845 [15:57:45<1:20:28,  1.26s/it] 92%|█████████▏| 45024/48845 [15:57:47<1:20:25,  1.26s/it] 92%|█████████▏| 45025/48845 [15:57:48<1:20:22,  1.26s/it]                                                          {'loss': 2.1868, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45025/48845 [15:57:48<1:20:22,  1.26s/it] 92%|█████████▏| 45026/48845 [15:57:49<1:20:22,  1.26s/it] 92%|█████████▏| 45027/48845 [15:57:50<1:20:58,  1.27s/it] 92%|█████████▏| 45028/48845 [15:57:52<1:20:48,  1.27s/it] 92%|█████████▏| 45029/48845 [15:57:53<1:20:40,  1.27s/it] 92%|█████████▏| 45030/48845 [15:57:54<1:20:36,  1.27s/it]                                                          {'loss': 2.1313, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45030/48845 [15:57:54<1:20:36,  1.27s/it] 92%|█████████▏| 45031/48845 [15:57:55<1:20:37,  1.27s/it] 92%|█████████▏| 45032/48845 [15:57:57<1:20:35,  1.27s/it] 92%|█████████▏| 45033/48845 [15:57:58<1:20:30,  1.27s/it] 92%|█████████▏| 45034/48845 [15:57:59<1:20:24,  1.27s/it] 92%|█████████▏| 45035/48845 [15:58:01<1:20:27,  1.27s/it]                                                          {'loss': 2.0861, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45035/48845 [15:58:01<1:20:27,  1.27s/it] 92%|█████████▏| 45036/48845 [15:58:02<1:20:20,  1.27s/it] 92%|█████████▏| 45037/48845 [15:58:03<1:20:15,  1.26s/it] 92%|█████████▏| 45038/48845 [15:58:04<1:20:13,  1.26s/it] 92%|█████████▏| 45039/48845 [15:58:06<1:22:48,  1.31s/it] 92%|█████████▏| 45040/48845 [15:58:07<1:21:59,  1.29s/it]                                                          {'loss': 2.0747, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45040/48845 [15:58:07<1:21:59,  1.29s/it] 92%|█████████▏| 45041/48845 [15:58:08<1:21:26,  1.28s/it] 92%|█████████▏| 45042/48845 [15:58:10<1:21:04,  1.28s/it] 92%|█████████▏| 45043/48845 [15:58:11<1:21:50,  1.29s/it] 92%|█████████▏| 45044/48845 [15:58:12<1:21:15,  1.28s/it] 92%|█████████▏| 45045/48845 [15:58:13<1:20:55,  1.28s/it]                                                          {'loss': 2.0251, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45045/48845 [15:58:13<1:20:55,  1.28s/it] 92%|█████████▏| 45046/48845 [15:58:15<1:20:38,  1.27s/it] 92%|█████████▏| 45047/48845 [15:58:16<1:20:27,  1.27s/it] 92%|█████████▏| 45048/48845 [15:58:17<1:20:16,  1.27s/it] 92%|█████████▏| 45049/48845 [15:58:18<1:20:06,  1.27s/it] 92%|█████████▏| 45050/48845 [15:58:20<1:20:01,  1.27s/it]                                                          {'loss': 1.9668, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45050/48845 [15:58:20<1:20:01,  1.27s/it] 92%|█████████▏| 45051/48845 [15:58:21<1:20:02,  1.27s/it] 92%|█████████▏| 45052/48845 [15:58:22<1:20:01,  1.27s/it] 92%|█████████▏| 45053/48845 [15:58:23<1:19:58,  1.27s/it] 92%|█████████▏| 45054/48845 [15:58:25<1:19:54,  1.26s/it] 92%|█████████▏| 45055/48845 [15:58:26<1:21:20,  1.29s/it]                                                          {'loss': 2.1027, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45055/48845 [15:58:26<1:21:20,  1.29s/it] 92%|█████████▏| 45056/48845 [15:58:27<1:20:49,  1.28s/it] 92%|█████████▏| 45057/48845 [15:58:29<1:20:31,  1.28s/it] 92%|█████████▏| 45058/48845 [15:58:30<1:20:15,  1.27s/it] 92%|█████████▏| 45059/48845 [15:58:31<1:20:10,  1.27s/it] 92%|█████████▏| 45060/48845 [15:58:32<1:20:01,  1.27s/it]                                                          {'loss': 1.96, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45060/48845 [15:58:32<1:20:01,  1.27s/it] 92%|█████████▏| 45061/48845 [15:58:34<1:19:56,  1.27s/it] 92%|█████████▏| 45062/48845 [15:58:35<1:19:50,  1.27s/it] 92%|█████████▏| 45063/48845 [15:58:36<1:19:52,  1.27s/it] 92%|█████████▏| 45064/48845 [15:58:37<1:19:46,  1.27s/it] 92%|█████████▏| 45065/48845 [15:58:39<1:19:46,  1.27s/it]                                                          {'loss': 1.9824, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45065/48845 [15:58:39<1:19:46,  1.27s/it] 92%|█████████▏| 45066/48845 [15:58:40<1:19:45,  1.27s/it] 92%|█████████▏| 45067/48845 [15:58:41<1:19:51,  1.27s/it] 92%|█████████▏| 45068/48845 [15:58:43<1:19:44,  1.27s/it] 92%|█████████▏| 45069/48845 [15:58:44<1:19:36,  1.26s/it] 92%|█████████▏| 45070/48845 [15:58:45<1:19:32,  1.26s/it]                                                          {'loss': 1.8941, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45070/48845 [15:58:45<1:19:32,  1.26s/it] 92%|█████████▏| 45071/48845 [15:58:46<1:19:29,  1.26s/it] 92%|█████████▏| 45072/48845 [15:58:48<1:19:29,  1.26s/it] 92%|█████████▏| 45073/48845 [15:58:49<1:19:29,  1.26s/it] 92%|█████████▏| 45074/48845 [15:58:50<1:19:28,  1.26s/it] 92%|█████████▏| 45075/48845 [15:58:51<1:19:27,  1.26s/it]                                                          {'loss': 2.0516, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45075/48845 [15:58:51<1:19:27,  1.26s/it] 92%|█████████▏| 45076/48845 [15:58:53<1:19:26,  1.26s/it] 92%|█████████▏| 45077/48845 [15:58:54<1:19:23,  1.26s/it] 92%|█████████▏| 45078/48845 [15:58:55<1:19:20,  1.26s/it] 92%|█████████▏| 45079/48845 [15:58:56<1:19:32,  1.27s/it] 92%|█████████▏| 45080/48845 [15:58:58<1:19:27,  1.27s/it]                                                          {'loss': 2.1748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.61}
+ 92%|█████████▏| 45080/48845 [15:58:58<1:19:27,  1.27s/it] 92%|█████████▏| 45081/48845 [15:58:59<1:19:25,  1.27s/it] 92%|█████████▏| 45082/48845 [15:59:00<1:19:20,  1.27s/it] 92%|█████████▏| 45083/48845 [15:59:02<1:21:29,  1.30s/it] 92%|█████████▏| 45084/48845 [15:59:03<1:20:48,  1.29s/it] 92%|████��████▏| 45085/48845 [15:59:04<1:20:14,  1.28s/it]                                                          {'loss': 2.1232, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45085/48845 [15:59:04<1:20:14,  1.28s/it] 92%|█████████▏| 45086/48845 [15:59:05<1:19:53,  1.28s/it] 92%|█████████▏| 45087/48845 [15:59:07<1:22:30,  1.32s/it] 92%|█████████▏| 45088/48845 [15:59:08<1:21:30,  1.30s/it] 92%|█████████▏| 45089/48845 [15:59:09<1:20:45,  1.29s/it] 92%|█████████▏| 45090/48845 [15:59:11<1:20:14,  1.28s/it]                                                          {'loss': 2.1092, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45090/48845 [15:59:11<1:20:14,  1.28s/it] 92%|█████████▏| 45091/48845 [15:59:12<1:19:56,  1.28s/it] 92%|█████████▏| 45092/48845 [15:59:13<1:19:37,  1.27s/it] 92%|█████████▏| 45093/48845 [15:59:14<1:19:25,  1.27s/it] 92%|█████████▏| 45094/48845 [15:59:16<1:19:09,  1.27s/it] 92%|█████████▏| 45095/48845 [15:59:17<1:19:06,  1.27s/it]                                                          {'loss': 2.0123, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45095/48845 [15:59:17<1:19:06,  1.27s/it] 92%|█████████▏| 45096/48845 [15:59:18<1:19:06,  1.27s/it] 92%|█████████▏| 45097/48845 [15:59:19<1:19:00,  1.26s/it] 92%|█████████▏| 45098/48845 [15:59:21<1:18:55,  1.26s/it] 92%|█████████▏| 45099/48845 [15:59:22<1:18:57,  1.26s/it] 92%|█████████▏| 45100/48845 [15:59:23<1:18:52,  1.26s/it]                                                          {'loss': 2.168, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45100/48845 [15:59:23<1:18:52,  1.26s/it] 92%|█████████▏| 45101/48845 [15:59:25<1:18:52,  1.26s/it] 92%|█████████▏| 45102/48845 [15:59:26<1:18:53,  1.26s/it] 92%|█████████▏| 45103/48845 [15:59:27<1:18:58,  1.27s/it] 92%|█████████▏| 45104/48845 [15:59:28<1:18:52,  1.27s/it] 92%|█████████▏| 45105/48845 [15:59:30<1:18:52,  1.27s/it]                                                          {'loss': 2.1894, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45105/48845 [15:59:30<1:18:52,  1.27s/it] 92%|█████████▏| 45106/48845 [15:59:31<1:18:49,  1.26s/it] 92%|█████████▏| 45107/48845 [15:59:32<1:18:47,  1.26s/it] 92%|█████████▏| 45108/48845 [15:59:33<1:18:40,  1.26s/it] 92%|█████████▏| 45109/48845 [15:59:35<1:18:34,  1.26s/it] 92%|█████████▏| 45110/48845 [15:59:36<1:18:31,  1.26s/it]                                                          {'loss': 2.114, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45110/48845 [15:59:36<1:18:31,  1.26s/it] 92%|█████████▏| 45111/48845 [15:59:37<1:18:40,  1.26s/it] 92%|█████████▏| 45112/48845 [15:59:38<1:18:40,  1.26s/it] 92%|█████████▏| 45113/48845 [15:59:40<1:18:35,  1.26s/it] 92%|█████████▏| 45114/48845 [15:59:41<1:18:33,  1.26s/it] 92%|█████████▏| 45115/48845 [15:59:42<1:21:00,  1.30s/it]                                                          {'loss': 2.0622, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45115/48845 [15:59:42<1:21:00,  1.30s/it] 92%|█████████▏| 45116/48845 [15:59:44<1:20:18,  1.29s/it] 92%|█████████▏| 45117/48845 [15:59:45<1:19:45,  1.28s/it] 92%|█████████▏| 45118/48845 [15:59:46<1:19:21,  1.28s/it] 92%|█████████▏| 45119/48845 [15:59:47<1:19:10,  1.27s/it] 92%|█████████▏| 45120/48845 [15:59:49<1:18:56,  1.27s/it]                                                          {'loss': 1.9474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45120/48845 [15:59:49<1:18:56,  1.27s/it] 92%|█████████▏| 45121/48845 [15:59:50<1:18:46,  1.27s/it] 92%|█████████▏| 45122/48845 [15:59:51<1:18:38,  1.27s/it] 92%|█████████▏| 45123/48845 [15:59:52<1:18:35,  1.27s/it] 92%|█████████▏| 45124/48845 [15:59:54<1:18:27,  1.27s/it] 92%|█████████▏| 45125/48845 [15:59:55<1:18:30,  1.27s/it]                                                          {'loss': 2.1144, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45125/48845 [15:59:55<1:18:30,  1.27s/it] 92%|█████████▏| 45126/48845 [15:59:56<1:18:27,  1.27s/it] 92%|█████████▏| 45127/48845 [15:59:58<1:18:24,  1.27s/it] 92%|█████████▏| 45128/48845 [15:59:59<1:18:21,  1.26s/it] 92%|█████████▏| 45129/48845 [16:00:00<1:18:16,  1.26s/it] 92%|█████████▏| 45130/48845 [16:00:01<1:18:15,  1.26s/it]                                                          {'loss': 1.9896, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45130/48845 [16:00:01<1:18:15,  1.26s/it] 92%|█████████▏| 45131/48845 [16:00:03<1:18:21,  1.27s/it] 92%|█████████▏| 45132/48845 [16:00:04<1:18:15,  1.26s/it] 92%|█████████▏| 45133/48845 [16:00:05<1:18:14,  1.26s/it] 92%|█████████▏| 45134/48845 [16:00:06<1:18:10,  1.26s/it] 92%|█████████▏| 45135/48845 [16:00:08<1:18:10,  1.26s/it]                                                          {'loss': 2.1079, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45135/48845 [16:00:08<1:18:10,  1.26s/it] 92%|█████████▏| 45136/48845 [16:00:09<1:18:10,  1.26s/it] 92%|█████████▏| 45137/48845 [16:00:10<1:18:11,  1.27s/it] 92%|█████████▏| 45138/48845 [16:00:11<1:18:03,  1.26s/it] 92%|█████████▏| 45139/48845 [16:00:13<1:18:10,  1.27s/it] 92%|█████████▏| 45140/48845 [16:00:14<1:18:04,  1.26s/it]                                                          {'loss': 1.9361, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45140/48845 [16:00:14<1:18:04,  1.26s/it] 92%|█████████▏| 45141/48845 [16:00:15<1:18:03,  1.26s/it] 92%|█████████▏| 45142/48845 [16:00:16<1:17:59,  1.26s/it] 92%|█████████▏| 45143/48845 [16:00:18<1:18:03,  1.26s/it] 92%|█████████▏| 45144/48845 [16:00:19<1:18:09,  1.27s/it] 92%|█████████▏| 45145/48845 [16:00:20<1:17:58,  1.26s/it]                                                          {'loss': 1.9807, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45145/48845 [16:00:20<1:17:58,  1.26s/it] 92%|█████████▏| 45146/48845 [16:00:22<1:17:56,  1.26s/it] 92%|█████████▏| 45147/48845 [16:00:23<1:17:55,  1.26s/it] 92%|█████████▏| 45148/48845 [16:00:24<1:18:01,  1.27s/it] 92%|█████████▏| 45149/48845 [16:00:25<1:17:56,  1.27s/it] 92%|█████████▏| 45150/48845 [16:00:27<1:17:51,  1.26s/it]                                                          {'loss': 2.2768, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45150/48845 [16:00:27<1:17:51,  1.26s/it] 92%|█████████▏| 45151/48845 [16:00:28<1:17:55,  1.27s/it] 92%|█████████▏| 45152/48845 [16:00:29<1:17:52,  1.27s/it] 92%|█████████▏| 45153/48845 [16:00:30<1:17:49,  1.26s/it] 92%|█████████▏| 45154/48845 [16:00:32<1:17:44,  1.26s/it] 92%|█████████▏| 45155/48845 [16:00:33<1:17:43,  1.26s/it]                                                          {'loss': 2.0333, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45155/48845 [16:00:33<1:17:43,  1.26s/it] 92%|█████████▏| 45156/48845 [16:00:34<1:17:47,  1.27s/it] 92%|█████████▏| 45157/48845 [16:00:35<1:17:48,  1.27s/it] 92%|█████████▏| 45158/48845 [16:00:37<1:17:49,  1.27s/it] 92%|█████████▏| 45159/48845 [16:00:38<1:21:05,  1.32s/it] 92%|█████████▏| 45160/48845 [16:00:39<1:20:00,  1.30s/it]                                                          {'loss': 2.1864, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45160/48845 [16:00:39<1:20:00,  1.30s/it] 92%|█████████▏| 45161/48845 [16:00:41<1:19:17,  1.29s/it] 92%|█████████▏| 45162/48845 [16:00:42<1:18:46,  1.28s/it] 92%|█████████▏| 45163/48845 [16:00:43<1:18:26,  1.28s/it] 92%|█████████▏| 45164/48845 [16:00:45<1:18:08,  1.27s/it] 92%|█████████▏| 45165/48845 [16:00:46<1:17:55,  1.27s/it]                                                          {'loss': 1.9799, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45165/48845 [16:00:46<1:17:55,  1.27s/it] 92%|█████████▏| 45166/48845 [16:00:47<1:17:47,  1.27s/it] 92%|█████████▏| 45167/48845 [16:00:48<1:17:45,  1.27s/it] 92%|█████████▏| 45168/48845 [16:00:50<1:17:37,  1.27s/it] 92%|█████████▏| 45169/48845 [16:00:51<1:17:36,  1.27s/it] 92%|█████████▏| 45170/48845 [16:00:52<1:17:32,  1.27s/it]                                                          {'loss': 2.1075, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45170/48845 [16:00:52<1:17:32,  1.27s/it] 92%|█████████▏| 45171/48845 [16:00:53<1:17:32,  1.27s/it] 92%|█████████▏| 45172/48845 [16:00:55<1:17:28,  1.27s/it] 92%|█████████▏| 45173/48845 [16:00:56<1:17:24,  1.26s/it] 92%|█████████▏| 45174/48845 [16:00:57<1:17:24,  1.27s/it] 92%|█████████▏| 45175/48845 [16:00:58<1:17:23,  1.27s/it]                                                          {'loss': 2.1413, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45175/48845 [16:00:58<1:17:23,  1.27s/it] 92%|█████████▏| 45176/48845 [16:01:00<1:17:24,  1.27s/it] 92%|█████████▏| 45177/48845 [16:01:01<1:17:24,  1.27s/it] 92%|█████████▏| 45178/48845 [16:01:02<1:17:22,  1.27s/it] 92%|█████████▏| 45179/48845 [16:01:03<1:17:20,  1.27s/it] 92%|█████████▏| 45180/48845 [16:01:05<1:17:14,  1.26s/it]                                                          {'loss': 2.0116, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.62}
+ 92%|█████████▏| 45180/48845 [16:01:05<1:17:14,  1.26s/it] 92%|█████████▏| 45181/48845 [16:01:06<1:17:15,  1.27s/it] 93%|█████████▎| 45182/48845 [16:01:07<1:17:10,  1.26s/it] 93%|█████████▎| 45183/48845 [16:01:09<1:17:15,  1.27s/it] 93%|█████████▎| 45184/48845 [16:01:10<1:17:17,  1.27s/it] 93%|█████████▎| 45185/48845 [16:01:11<1:17:11,  1.27s/it]                                                          {'loss': 2.165, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45185/48845 [16:01:11<1:17:11,  1.27s/it] 93%|█████████▎| 45186/48845 [16:01:12<1:17:06,  1.26s/it] 93%|█████████▎| 45187/48845 [16:01:14<1:20:02,  1.31s/it] 93%|█████████▎| 45188/48845 [16:01:15<1:19:07,  1.30s/it] 93%|█████████▎| 45189/48845 [16:01:16<1:18:28,  1.29s/it] 93%|█████████▎| 45190/48845 [16:01:18<1:18:05,  1.28s/it]                                                          {'loss': 2.0189, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45190/48845 [16:01:18<1:18:05,  1.28s/it] 93%|█████████▎| 45191/48845 [16:01:19<1:20:26,  1.32s/it] 93%|█████████▎| 45192/48845 [16:01:20<1:19:19,  1.30s/it] 93%|█████████▎| 45193/48845 [16:01:21<1:18:36,  1.29s/it] 93%|█████████▎| 45194/48845 [16:01:23<1:18:06,  1.28s/it] 93%|█████████▎| 45195/48845 [16:01:24<1:17:46,  1.28s/it]                                                          {'loss': 2.2267, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45195/48845 [16:01:24<1:17:46,  1.28s/it] 93%|█████████▎| 45196/48845 [16:01:25<1:17:27,  1.27s/it] 93%|█████████▎| 45197/48845 [16:01:27<1:17:18,  1.27s/it] 93%|█████████▎| 45198/48845 [16:01:28<1:17:10,  1.27s/it] 93%|█████████▎| 45199/48845 [16:01:29<1:17:04,  1.27s/it] 93%|█████████▎| 45200/48845 [16:01:30<1:17:06,  1.27s/it]                                                          {'loss': 2.1187, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45200/48845 [16:01:30<1:17:06,  1.27s/it] 93%|█████████▎| 45201/48845 [16:01:34<2:03:04,  2.03s/it] 93%|█████████▎| 45202/48845 [16:01:35<1:49:06,  1.80s/it] 93%|█████████▎| 45203/48845 [16:01:37<1:39:17,  1.64s/it] 93%|█████████▎| 45204/48845 [16:01:38<1:32:27,  1.52s/it] 93%|█████████▎| 45205/48845 [16:01:39<1:30:24,  1.49s/it]                                                          {'loss': 2.0126, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45205/48845 [16:01:39<1:30:24,  1.49s/it] 93%|█████████▎| 45206/48845 [16:01:41<1:26:09,  1.42s/it] 93%|█████████▎| 45207/48845 [16:01:42<1:23:12,  1.37s/it] 93%|█████████▎| 45208/48845 [16:01:43<1:21:10,  1.34s/it] 93%|█████████▎| 45209/48845 [16:01:44<1:19:48,  1.32s/it] 93%|█████████▎| 45210/48845 [16:01:46<1:18:46,  1.30s/it]                                                          {'loss': 2.1844, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45210/48845 [16:01:46<1:18:46,  1.30s/it] 93%|█████████▎| 45211/48845 [16:01:47<1:18:09,  1.29s/it] 93%|█████████▎| 45212/48845 [16:01:48<1:17:44,  1.28s/it] 93%|█████████▎| 45213/48845 [16:01:49<1:18:12,  1.29s/it] 93%|█████████▎| 45214/48845 [16:01:51<1:17:36,  1.28s/it] 93%|█████████▎| 45215/48845 [16:01:52<1:17:17,  1.28s/it]                                                          {'loss': 1.9679, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45215/48845 [16:01:52<1:17:17,  1.28s/it] 93%|█████████▎| 45216/48845 [16:01:53<1:16:59,  1.27s/it] 93%|█████████▎| 45217/48845 [16:01:55<1:16:54,  1.27s/it] 93%|█████████▎| 45218/48845 [16:01:56<1:16:45,  1.27s/it] 93%|█████████▎| 45219/48845 [16:01:57<1:16:31,  1.27s/it] 93%|█████████▎| 45220/48845 [16:01:58<1:16:27,  1.27s/it]                                                          {'loss': 2.0156, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45220/48845 [16:01:58<1:16:27,  1.27s/it] 93%|█████████▎| 45221/48845 [16:02:00<1:18:39,  1.30s/it] 93%|█████████▎| 45222/48845 [16:02:01<1:17:55,  1.29s/it] 93%|█████████▎| 45223/48845 [16:02:02<1:17:24,  1.28s/it] 93%|█████████▎| 45224/48845 [16:02:04<1:17:05,  1.28s/it] 93%|█████████▎| 45225/48845 [16:02:05<1:18:03,  1.29s/it]                                                          {'loss': 2.2801, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45225/48845 [16:02:05<1:18:03,  1.29s/it] 93%|█████████▎| 45226/48845 [16:02:06<1:17:42,  1.29s/it] 93%|█████████▎| 45227/48845 [16:02:07<1:17:13,  1.28s/it] 93%|█████████▎| 45228/48845 [16:02:09<1:16:56,  1.28s/it] 93%|█████████▎| 45229/48845 [16:02:10<1:17:26,  1.28s/it] 93%|█████████▎| 45230/48845 [16:02:11<1:17:03,  1.28s/it]                                                          {'loss': 1.9844, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45230/48845 [16:02:11<1:17:03,  1.28s/it] 93%|█████████▎| 45231/48845 [16:02:12<1:16:44,  1.27s/it] 93%|█████████▎| 45232/48845 [16:02:14<1:16:28,  1.27s/it] 93%|█████████▎| 45233/48845 [16:02:15<1:16:21,  1.27s/it] 93%|█████████▎| 45234/48845 [16:02:16<1:16:13,  1.27s/it] 93%|█████████▎| 45235/48845 [16:02:18<1:16:08,  1.27s/it]                                                          {'loss': 2.0893, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45235/48845 [16:02:18<1:16:08,  1.27s/it] 93%|█████████▎| 45236/48845 [16:02:19<1:16:07,  1.27s/it] 93%|█████████▎| 45237/48845 [16:02:20<1:16:00,  1.26s/it] 93%|█████████▎| 45238/48845 [16:02:21<1:15:56,  1.26s/it] 93%|█████████▎| 45239/48845 [16:02:23<1:15:50,  1.26s/it] 93%|█████████▎| 45240/48845 [16:02:24<1:15:47,  1.26s/it]                                                          {'loss': 1.9597, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45240/48845 [16:02:24<1:15:47,  1.26s/it] 93%|█████████▎| 45241/48845 [16:02:25<1:15:47,  1.26s/it] 93%|█████████▎| 45242/48845 [16:02:26<1:15:46,  1.26s/it] 93%|█████████▎| 45243/48845 [16:02:28<1:15:47,  1.26s/it] 93%|█████████▎| 45244/48845 [16:02:29<1:16:00,  1.27s/it] 93%|█████████▎| 45245/48845 [16:02:30<1:16:02,  1.27s/it]                                                          {'loss': 2.0393, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45245/48845 [16:02:30<1:16:02,  1.27s/it] 93%|█████████▎| 45246/48845 [16:02:31<1:15:58,  1.27s/it] 93%|█████████▎| 45247/48845 [16:02:33<1:15:54,  1.27s/it] 93%|█████████▎| 45248/48845 [16:02:34<1:15:47,  1.26s/it] 93%|█████████▎| 45249/48845 [16:02:35<1:17:56,  1.30s/it] 93%|█████████▎| 45250/48845 [16:02:37<1:17:17,  1.29s/it]                                                          {'loss': 2.0959, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45250/48845 [16:02:37<1:17:17,  1.29s/it] 93%|█████████▎| 45251/48845 [16:02:38<1:16:48,  1.28s/it] 93%|█████████▎| 45252/48845 [16:02:39<1:16:24,  1.28s/it] 93%|█████████▎| 45253/48845 [16:02:40<1:16:11,  1.27s/it] 93%|█████████▎| 45254/48845 [16:02:42<1:15:58,  1.27s/it] 93%|█████████▎| 45255/48845 [16:02:43<1:15:48,  1.27s/it]                                                          {'loss': 2.0119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45255/48845 [16:02:43<1:15:48,  1.27s/it] 93%|█████████▎| 45256/48845 [16:02:44<1:15:45,  1.27s/it] 93%|█████████▎| 45257/48845 [16:02:45<1:15:45,  1.27s/it] 93%|█████████▎| 45258/48845 [16:02:47<1:15:41,  1.27s/it] 93%|█████████▎| 45259/48845 [16:02:48<1:15:40,  1.27s/it] 93%|█████████▎| 45260/48845 [16:02:49<1:15:32,  1.26s/it]                                                          {'loss': 2.0353, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45260/48845 [16:02:49<1:15:32,  1.26s/it] 93%|█████████▎| 45261/48845 [16:02:51<1:15:37,  1.27s/it] 93%|█████████▎| 45262/48845 [16:02:52<1:15:35,  1.27s/it] 93%|█████████▎| 45263/48845 [16:02:53<1:15:31,  1.27s/it] 93%|█████████▎| 45264/48845 [16:02:54<1:15:28,  1.26s/it] 93%|█████████▎| 45265/48845 [16:02:56<1:15:29,  1.27s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45265/48845 [16:02:56<1:15:29,  1.27s/it] 93%|█████████▎| 45266/48845 [16:02:57<1:15:24,  1.26s/it] 93%|█████████▎| 45267/48845 [16:02:58<1:15:23,  1.26s/it] 93%|█████████▎| 45268/48845 [16:02:59<1:15:19,  1.26s/it] 93%|█████████▎| 45269/48845 [16:03:01<1:15:22,  1.26s/it] 93%|█████████▎| 45270/48845 [16:03:02<1:15:24,  1.27s/it]                                                          {'loss': 2.1463, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45270/48845 [16:03:02<1:15:24,  1.27s/it] 93%|█████████▎| 45271/48845 [16:03:03<1:15:20,  1.26s/it] 93%|█████████▎| 45272/48845 [16:03:04<1:15:19,  1.26s/it] 93%|█████████▎| 45273/48845 [16:03:06<1:15:24,  1.27s/it] 93%|█████████▎| 45274/48845 [16:03:07<1:15:19,  1.27s/it] 93%|█████████▎| 45275/48845 [16:03:08<1:15:18,  1.27s/it]                                                          {'loss': 2.0595, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.63}
+ 93%|█████████▎| 45275/48845 [16:03:08<1:15:18,  1.27s/it] 93%|█████████▎| 45276/48845 [16:03:10<1:15:14,  1.26s/it] 93%|█████████▎| 45277/48845 [16:03:11<1:15:14,  1.27s/it] 93%|█████████▎| 45278/48845 [16:03:12<1:15:10,  1.26s/it] 93%|█████████▎| 45279/48845 [16:03:13<1:15:07,  1.26s/it] 93%|█████████▎| 45280/48845 [16:03:15<1:15:02,  1.26s/it]                                                          {'loss': 2.2074, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45280/48845 [16:03:15<1:15:02,  1.26s/it] 93%|█████████▎| 45281/48845 [16:03:16<1:15:10,  1.27s/it] 93%|█████████▎| 45282/48845 [16:03:17<1:15:06,  1.26s/it] 93%|█████████▎| 45283/48845 [16:03:18<1:15:06,  1.27s/it] 93%|█████████▎| 45284/48845 [16:03:20<1:15:04,  1.26s/it] 93%|█████████▎| 45285/48845 [16:03:21<1:15:07,  1.27s/it]                                                          {'loss': 2.2219, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45285/48845 [16:03:21<1:15:07,  1.27s/it] 93%|█████████▎| 45286/48845 [16:03:22<1:15:07,  1.27s/it] 93%|█████████▎| 45287/48845 [16:03:23<1:15:08,  1.27s/it] 93%|█████████▎| 45288/48845 [16:03:25<1:15:01,  1.27s/it] 93%|█████████▎| 45289/48845 [16:03:26<1:14:58,  1.26s/it] 93%|█████████▎| 45290/48845 [16:03:27<1:14:56,  1.26s/it]                                                          {'loss': 2.101, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45290/48845 [16:03:27<1:14:56,  1.26s/it] 93%|█████████▎| 45291/48845 [16:03:28<1:14:59,  1.27s/it] 93%|█████████▎| 45292/48845 [16:03:30<1:14:53,  1.26s/it] 93%|█████████▎| 45293/48845 [16:03:31<1:14:55,  1.27s/it] 93%|█████████▎| 45294/48845 [16:03:32<1:14:49,  1.26s/it] 93%|█████████▎| 45295/48845 [16:03:34<1:14:49,  1.26s/it]                                                          {'loss': 2.1715, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45295/48845 [16:03:34<1:14:49,  1.26s/it] 93%|█████████▎| 45296/48845 [16:03:35<1:14:45,  1.26s/it] 93%|█████████▎| 45297/48845 [16:03:36<1:14:43,  1.26s/it] 93%|█████████▎| 45298/48845 [16:03:37<1:14:47,  1.27s/it] 93%|█████████▎| 45299/48845 [16:03:39<1:14:45,  1.26s/it] 93%|█████████▎| 45300/48845 [16:03:40<1:14:41,  1.26s/it]                                                          {'loss': 2.1206, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45300/48845 [16:03:40<1:14:41,  1.26s/it] 93%|█████████▎| 45301/48845 [16:03:41<1:14:36,  1.26s/it] 93%|█████████▎| 45302/48845 [16:03:42<1:14:37,  1.26s/it] 93%|█████████▎| 45303/48845 [16:03:44<1:14:43,  1.27s/it] 93%|█████████▎| 45304/48845 [16:03:45<1:14:38,  1.26s/it] 93%|█████████▎| 45305/48845 [16:03:46<1:14:31,  1.26s/it]                                                          {'loss': 2.0856, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45305/48845 [16:03:46<1:14:31,  1.26s/it] 93%|█████████▎| 45306/48845 [16:03:47<1:14:31,  1.26s/it] 93%|█████████▎| 45307/48845 [16:03:49<1:14:28,  1.26s/it] 93%|█████████▎| 45308/48845 [16:03:50<1:14:25,  1.26s/it] 93%|█████████▎| 45309/48845 [16:03:51<1:14:27,  1.26s/it] 93%|█████████▎| 45310/48845 [16:03:52<1:14:29,  1.26s/it]                                                          {'loss': 1.9543, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45310/48845 [16:03:53<1:14:29,  1.26s/it] 93%|█████████▎| 45311/48845 [16:03:54<1:14:29,  1.26s/it] 93%|█████████▎| 45312/48845 [16:03:55<1:14:23,  1.26s/it] 93%|█████████▎| 45313/48845 [16:03:56<1:14:20,  1.26s/it] 93%|█████████▎| 45314/48845 [16:03:58<1:14:23,  1.26s/it] 93%|█████████▎| 45315/48845 [16:03:59<1:14:24,  1.26s/it]                                                          {'loss': 2.0776, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45315/48845 [16:03:59<1:14:24,  1.26s/it] 93%|█████████▎| 45316/48845 [16:04:00<1:14:29,  1.27s/it] 93%|█████████▎| 45317/48845 [16:04:01<1:14:25,  1.27s/it] 93%|█████████▎| 45318/48845 [16:04:03<1:14:25,  1.27s/it] 93%|█████████▎| 45319/48845 [16:04:04<1:14:22,  1.27s/it] 93%|█████████▎| 45320/48845 [16:04:05<1:14:22,  1.27s/it]                                                          {'loss': 2.0819, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45320/48845 [16:04:05<1:14:22,  1.27s/it] 93%|█████████▎| 45321/48845 [16:04:06<1:14:18,  1.27s/it] 93%|█████████▎| 45322/48845 [16:04:08<1:14:13,  1.26s/it] 93%|█████████▎| 45323/48845 [16:04:09<1:14:11,  1.26s/it] 93%|█████████▎| 45324/48845 [16:04:10<1:14:11,  1.26s/it] 93%|█████████▎| 45325/48845 [16:04:11<1:14:11,  1.26s/it]                                                          {'loss': 2.0369, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45325/48845 [16:04:11<1:14:11,  1.26s/it] 93%|█████████▎| 45326/48845 [16:04:13<1:14:16,  1.27s/it] 93%|█████████▎| 45327/48845 [16:04:14<1:14:09,  1.26s/it] 93%|█████████▎| 45328/48845 [16:04:15<1:14:06,  1.26s/it] 93%|█████████▎| 45329/48845 [16:04:17<1:14:06,  1.26s/it] 93%|█████████▎| 45330/48845 [16:04:18<1:14:06,  1.26s/it]                                                          {'loss': 2.1183, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45330/48845 [16:04:18<1:14:06,  1.26s/it] 93%|█████████▎| 45331/48845 [16:04:19<1:14:01,  1.26s/it] 93%|█████████▎| 45332/48845 [16:04:20<1:13:59,  1.26s/it] 93%|█████████▎| 45333/48845 [16:04:22<1:14:01,  1.26s/it] 93%|█████████▎| 45334/48845 [16:04:23<1:14:05,  1.27s/it] 93%|█████████▎| 45335/48845 [16:04:24<1:13:59,  1.26s/it]                                                          {'loss': 2.1527, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45335/48845 [16:04:24<1:13:59,  1.26s/it] 93%|█████████▎| 45336/48845 [16:04:25<1:14:01,  1.27s/it] 93%|█████████▎| 45337/48845 [16:04:27<1:13:57,  1.26s/it] 93%|█████████▎| 45338/48845 [16:04:28<1:13:57,  1.27s/it] 93%|█████████▎| 45339/48845 [16:04:29<1:13:57,  1.27s/it] 93%|█████████▎| 45340/48845 [16:04:30<1:14:03,  1.27s/it]                                                          {'loss': 2.0627, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45340/48845 [16:04:30<1:14:03,  1.27s/it] 93%|█████████▎| 45341/48845 [16:04:32<1:15:10,  1.29s/it] 93%|█████████▎| 45342/48845 [16:04:33<1:14:55,  1.28s/it] 93%|█████████▎| 45343/48845 [16:04:34<1:14:32,  1.28s/it] 93%|█████████▎| 45344/48845 [16:04:36<1:14:19,  1.27s/it] 93%|█████████▎| 45345/48845 [16:04:37<1:14:03,  1.27s/it]                                                          {'loss': 2.1381, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45345/48845 [16:04:37<1:14:03,  1.27s/it] 93%|█████████▎| 45346/48845 [16:04:38<1:13:59,  1.27s/it] 93%|█████████▎| 45347/48845 [16:04:39<1:13:54,  1.27s/it] 93%|█████████▎| 45348/48845 [16:04:41<1:13:44,  1.27s/it] 93%|█████████▎| 45349/48845 [16:04:42<1:13:41,  1.26s/it] 93%|█████████▎| 45350/48845 [16:04:43<1:13:40,  1.26s/it]                                                          {'loss': 2.0588, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45350/48845 [16:04:43<1:13:40,  1.26s/it] 93%|█████████▎| 45351/48845 [16:04:44<1:13:43,  1.27s/it] 93%|█████████▎| 45352/48845 [16:04:46<1:13:36,  1.26s/it] 93%|█████████▎| 45353/48845 [16:04:47<1:13:32,  1.26s/it] 93%|█████████▎| 45354/48845 [16:04:48<1:13:39,  1.27s/it] 93%|█████████▎| 45355/48845 [16:04:50<1:13:37,  1.27s/it]                                                          {'loss': 2.1749, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45355/48845 [16:04:50<1:13:37,  1.27s/it] 93%|█████████▎| 45356/48845 [16:04:51<1:13:37,  1.27s/it] 93%|█████████▎| 45357/48845 [16:04:52<1:13:28,  1.26s/it] 93%|█████████▎| 45358/48845 [16:04:53<1:13:31,  1.27s/it] 93%|█████████▎| 45359/48845 [16:04:55<1:13:29,  1.26s/it] 93%|█████████▎| 45360/48845 [16:04:56<1:13:26,  1.26s/it]                                                          {'loss': 1.987, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45360/48845 [16:04:56<1:13:26,  1.26s/it] 93%|█████████▎| 45361/48845 [16:04:57<1:13:25,  1.26s/it] 93%|█████████▎| 45362/48845 [16:04:58<1:13:41,  1.27s/it] 93%|█████████▎| 45363/48845 [16:05:00<1:13:35,  1.27s/it] 93%|█████████▎| 45364/48845 [16:05:01<1:13:30,  1.27s/it] 93%|█████████▎| 45365/48845 [16:05:02<1:13:22,  1.27s/it]                                                          {'loss': 1.9752, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45365/48845 [16:05:02<1:13:22,  1.27s/it] 93%|█████████▎| 45366/48845 [16:05:03<1:13:29,  1.27s/it] 93%|█████████▎| 45367/48845 [16:05:05<1:13:24,  1.27s/it] 93%|█████████▎| 45368/48845 [16:05:06<1:13:20,  1.27s/it] 93%|█████████▎| 45369/48845 [16:05:07<1:13:18,  1.27s/it] 93%|█████████▎| 45370/48845 [16:05:08<1:13:20,  1.27s/it]                                                          {'loss': 2.1709, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45370/48845 [16:05:08<1:13:20,  1.27s/it] 93%|█████████▎| 45371/48845 [16:05:10<1:13:15,  1.27s/it] 93%|█████████▎| 45372/48845 [16:05:11<1:13:12,  1.26s/it] 93%|█████████▎| 45373/48845 [16:05:12<1:13:11,  1.26s/it] 93%|█████████▎| 45374/48845 [16:05:14<1:13:14,  1.27s/it] 93%|█████████▎| 45375/48845 [16:05:15<1:13:07,  1.26s/it]                                                          {'loss': 1.9344, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.64}
+ 93%|█████████▎| 45375/48845 [16:05:15<1:13:07,  1.26s/it] 93%|█████████▎| 45376/48845 [16:05:16<1:13:04,  1.26s/it] 93%|█████████▎| 45377/48845 [16:05:17<1:13:03,  1.26s/it] 93%|█████████▎| 45378/48845 [16:05:19<1:13:42,  1.28s/it] 93%|█████████▎| 45379/48845 [16:05:20<1:13:32,  1.27s/it] 93%|█████████▎| 45380/48845 [16:05:21<1:13:26,  1.27s/it]                                                          {'loss': 2.1279, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45380/48845 [16:05:21<1:13:26,  1.27s/it] 93%|█████████▎| 45381/48845 [16:05:22<1:13:24,  1.27s/it] 93%|█████████▎| 45382/48845 [16:05:24<1:13:16,  1.27s/it] 93%|█████████▎| 45383/48845 [16:05:25<1:13:08,  1.27s/it] 93%|█████████▎| 45384/48845 [16:05:26<1:13:04,  1.27s/it] 93%|█████████▎| 45385/48845 [16:05:28<1:13:01,  1.27s/it]                                                          {'loss': 2.0843, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45385/48845 [16:05:28<1:13:01,  1.27s/it] 93%|█████████▎| 45386/48845 [16:05:29<1:13:04,  1.27s/it] 93%|█████████▎| 45387/48845 [16:05:30<1:13:03,  1.27s/it] 93%|█████████▎| 45388/48845 [16:05:31<1:12:57,  1.27s/it] 93%|█████████▎| 45389/48845 [16:05:33<1:12:53,  1.27s/it] 93%|█████████▎| 45390/48845 [16:05:34<1:14:04,  1.29s/it]                                                          {'loss': 1.9053, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45390/48845 [16:05:34<1:14:04,  1.29s/it] 93%|█████████▎| 45391/48845 [16:05:35<1:13:46,  1.28s/it] 93%|█████████▎| 45392/48845 [16:05:36<1:13:33,  1.28s/it] 93%|█████████▎| 45393/48845 [16:05:38<1:13:15,  1.27s/it] 93%|█████████▎| 45394/48845 [16:05:39<1:15:10,  1.31s/it] 93%|█████████▎| 45395/48845 [16:05:40<1:14:27,  1.29s/it]                                                          {'loss': 2.1446, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45395/48845 [16:05:40<1:14:27,  1.29s/it] 93%|█████████▎| 45396/48845 [16:05:42<1:13:55,  1.29s/it] 93%|█████████▎| 45397/48845 [16:05:43<1:13:33,  1.28s/it] 93%|█████████▎| 45398/48845 [16:05:44<1:13:22,  1.28s/it] 93%|█████████▎| 45399/48845 [16:05:45<1:13:05,  1.27s/it] 93%|█████████▎| 45400/48845 [16:05:47<1:12:54,  1.27s/it]                                                          {'loss': 2.1384, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45400/48845 [16:05:47<1:12:54,  1.27s/it] 93%|█████████▎| 45401/48845 [16:05:50<1:56:37,  2.03s/it] 93%|█████████▎| 45402/48845 [16:05:52<1:43:23,  1.80s/it] 93%|█████████▎| 45403/48845 [16:05:53<1:34:07,  1.64s/it] 93%|█████████▎| 45404/48845 [16:05:54<1:27:40,  1.53s/it] 93%|█████████▎| 45405/48845 [16:05:56<1:23:04,  1.45s/it]                                                          {'loss': 2.0094, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45405/48845 [16:05:56<1:23:04,  1.45s/it] 93%|█████████▎| 45406/48845 [16:05:57<1:19:54,  1.39s/it] 93%|█████████▎| 45407/48845 [16:05:58<1:17:36,  1.35s/it] 93%|█████████▎| 45408/48845 [16:05:59<1:17:06,  1.35s/it] 93%|█████████▎| 45409/48845 [16:06:01<1:15:40,  1.32s/it] 93%|█████████▎| 45410/48845 [16:06:02<1:14:38,  1.30s/it]                                                          {'loss': 2.0684, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45410/48845 [16:06:02<1:14:38,  1.30s/it] 93%|█████████▎| 45411/48845 [16:06:03<1:13:55,  1.29s/it] 93%|█████████▎| 45412/48845 [16:06:05<1:15:59,  1.33s/it] 93%|█████████▎| 45413/48845 [16:06:06<1:14:54,  1.31s/it] 93%|█████████▎| 45414/48845 [16:06:07<1:14:05,  1.30s/it] 93%|█████████▎| 45415/48845 [16:06:08<1:13:31,  1.29s/it]                                                          {'loss': 2.0238, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45415/48845 [16:06:08<1:13:31,  1.29s/it] 93%|█████████▎| 45416/48845 [16:06:10<1:13:15,  1.28s/it] 93%|█████████▎| 45417/48845 [16:06:11<1:12:54,  1.28s/it] 93%|█████████▎| 45418/48845 [16:06:12<1:12:38,  1.27s/it] 93%|█████████▎| 45419/48845 [16:06:13<1:12:30,  1.27s/it] 93%|█████████▎| 45420/48845 [16:06:15<1:12:23,  1.27s/it]                                                          {'loss': 1.9428, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45420/48845 [16:06:15<1:12:23,  1.27s/it] 93%|█████████▎| 45421/48845 [16:06:16<1:12:18,  1.27s/it] 93%|█████████▎| 45422/48845 [16:06:17<1:12:17,  1.27s/it] 93%|█████████▎| 45423/48845 [16:06:19<1:12:12,  1.27s/it] 93%|█████████▎| 45424/48845 [16:06:20<1:12:08,  1.27s/it] 93%|█████████▎| 45425/48845 [16:06:21<1:12:09,  1.27s/it]                                                          {'loss': 1.945, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45425/48845 [16:06:21<1:12:09,  1.27s/it] 93%|█████████▎| 45426/48845 [16:06:22<1:12:10,  1.27s/it] 93%|█████████▎| 45427/48845 [16:06:24<1:12:06,  1.27s/it] 93%|█████████▎| 45428/48845 [16:06:25<1:12:07,  1.27s/it] 93%|█████████▎| 45429/48845 [16:06:26<1:12:05,  1.27s/it] 93%|█████████▎| 45430/48845 [16:06:27<1:12:03,  1.27s/it]                                                          {'loss': 2.1527, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45430/48845 [16:06:27<1:12:03,  1.27s/it] 93%|█████████▎| 45431/48845 [16:06:29<1:12:03,  1.27s/it] 93%|█████████▎| 45432/48845 [16:06:30<1:13:39,  1.29s/it] 93%|█████████▎| 45433/48845 [16:06:31<1:13:09,  1.29s/it] 93%|█████████▎| 45434/48845 [16:06:33<1:12:44,  1.28s/it] 93%|█████████▎| 45435/48845 [16:06:34<1:12:24,  1.27s/it]                                                          {'loss': 1.9179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45435/48845 [16:06:34<1:12:24,  1.27s/it] 93%|█████████▎| 45436/48845 [16:06:35<1:12:19,  1.27s/it] 93%|█████████▎| 45437/48845 [16:06:36<1:12:06,  1.27s/it] 93%|█████████▎| 45438/48845 [16:06:38<1:12:04,  1.27s/it] 93%|█████████▎| 45439/48845 [16:06:39<1:11:57,  1.27s/it] 93%|█████████▎| 45440/48845 [16:06:40<1:11:56,  1.27s/it]                                                          {'loss': 2.1489, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45440/48845 [16:06:40<1:11:56,  1.27s/it] 93%|█████████▎| 45441/48845 [16:06:41<1:11:54,  1.27s/it] 93%|█████████▎| 45442/48845 [16:06:43<1:11:49,  1.27s/it] 93%|█████████▎| 45443/48845 [16:06:44<1:11:49,  1.27s/it] 93%|█████████▎| 45444/48845 [16:06:45<1:11:49,  1.27s/it] 93%|█████████▎| 45445/48845 [16:06:46<1:11:49,  1.27s/it]                                                          {'loss': 2.188, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45445/48845 [16:06:46<1:11:49,  1.27s/it] 93%|█████████▎| 45446/48845 [16:06:48<1:11:43,  1.27s/it] 93%|█████████▎| 45447/48845 [16:06:49<1:11:42,  1.27s/it] 93%|█████████▎| 45448/48845 [16:06:50<1:11:43,  1.27s/it] 93%|█████████▎| 45449/48845 [16:06:52<1:11:41,  1.27s/it] 93%|█████████▎| 45450/48845 [16:06:53<1:11:38,  1.27s/it]                                                          {'loss': 2.022, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45450/48845 [16:06:53<1:11:38,  1.27s/it] 93%|█████████▎| 45451/48845 [16:06:54<1:11:39,  1.27s/it] 93%|█████████▎| 45452/48845 [16:06:55<1:11:42,  1.27s/it] 93%|█████████▎| 45453/48845 [16:06:57<1:11:36,  1.27s/it] 93%|█████████▎| 45454/48845 [16:06:58<1:11:35,  1.27s/it] 93%|█████████▎| 45455/48845 [16:06:59<1:11:30,  1.27s/it]                                                          {'loss': 2.1901, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45455/48845 [16:06:59<1:11:30,  1.27s/it] 93%|█████████▎| 45456/48845 [16:07:00<1:11:32,  1.27s/it] 93%|█████████▎| 45457/48845 [16:07:02<1:11:31,  1.27s/it] 93%|█████████▎| 45458/48845 [16:07:03<1:11:31,  1.27s/it] 93%|█████████▎| 45459/48845 [16:07:04<1:11:27,  1.27s/it] 93%|█████████▎| 45460/48845 [16:07:05<1:11:30,  1.27s/it]                                                          {'loss': 2.0846, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45460/48845 [16:07:05<1:11:30,  1.27s/it] 93%|█████████▎| 45461/48845 [16:07:07<1:11:26,  1.27s/it] 93%|█████████▎| 45462/48845 [16:07:08<1:11:23,  1.27s/it] 93%|█████████▎| 45463/48845 [16:07:09<1:11:22,  1.27s/it] 93%|█████████▎| 45464/48845 [16:07:11<1:11:25,  1.27s/it] 93%|█████████▎| 45465/48845 [16:07:12<1:11:26,  1.27s/it]                                                          {'loss': 2.1513, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45465/48845 [16:07:12<1:11:26,  1.27s/it] 93%|█████████▎| 45466/48845 [16:07:13<1:11:25,  1.27s/it] 93%|█████████▎| 45467/48845 [16:07:14<1:11:21,  1.27s/it] 93%|█████████▎| 45468/48845 [16:07:16<1:11:19,  1.27s/it] 93%|█████████▎| 45469/48845 [16:07:17<1:11:15,  1.27s/it] 93%|█████████▎| 45470/48845 [16:07:18<1:11:17,  1.27s/it]                                                          {'loss': 1.9961, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.65}
+ 93%|█████████▎| 45470/48845 [16:07:18<1:11:17,  1.27s/it] 93%|█████████▎| 45471/48845 [16:07:19<1:11:14,  1.27s/it] 93%|█████████▎| 45472/48845 [16:07:21<1:11:11,  1.27s/it] 93%|█████████▎| 45473/48845 [16:07:22<1:11:21,  1.27s/it] 93%|█████████▎| 45474/48845 [16:07:23<1:11:13,  1.27s/it] 93%|█████████▎| 45475/48845 [16:07:24<1:11:10,  1.27s/it]                                                          {'loss': 2.259, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45475/48845 [16:07:24<1:11:10,  1.27s/it] 93%|█████████▎| 45476/48845 [16:07:26<1:11:10,  1.27s/it] 93%|█████████▎| 45477/48845 [16:07:27<1:11:06,  1.27s/it] 93%|█████████▎| 45478/48845 [16:07:28<1:11:04,  1.27s/it] 93%|█████████▎| 45479/48845 [16:07:30<1:10:58,  1.27s/it] 93%|█████████▎| 45480/48845 [16:07:31<1:11:02,  1.27s/it]                                                          {'loss': 1.9076, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45480/48845 [16:07:31<1:11:02,  1.27s/it] 93%|█████████▎| 45481/48845 [16:07:32<1:11:04,  1.27s/it] 93%|█████████▎| 45482/48845 [16:07:33<1:10:59,  1.27s/it] 93%|█████████▎| 45483/48845 [16:07:35<1:11:06,  1.27s/it] 93%|█████████▎| 45484/48845 [16:07:36<1:11:02,  1.27s/it] 93%|█████████▎| 45485/48845 [16:07:37<1:10:54,  1.27s/it]                                                          {'loss': 2.1726, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45485/48845 [16:07:37<1:10:54,  1.27s/it] 93%|█████████▎| 45486/48845 [16:07:38<1:10:57,  1.27s/it] 93%|█████████▎| 45487/48845 [16:07:40<1:10:52,  1.27s/it] 93%|█████████▎| 45488/48845 [16:07:41<1:10:50,  1.27s/it] 93%|█████████▎| 45489/48845 [16:07:42<1:10:47,  1.27s/it] 93%|█████████▎| 45490/48845 [16:07:43<1:10:46,  1.27s/it]                                                          {'loss': 2.0428, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45490/48845 [16:07:43<1:10:46,  1.27s/it] 93%|█████████▎| 45491/48845 [16:07:45<1:11:11,  1.27s/it] 93%|█████████▎| 45492/48845 [16:07:46<1:11:04,  1.27s/it] 93%|█████████▎| 45493/48845 [16:07:47<1:10:57,  1.27s/it] 93%|█████████▎| 45494/48845 [16:07:49<1:10:53,  1.27s/it] 93%|█████████▎| 45495/48845 [16:07:50<1:10:49,  1.27s/it]                                                          {'loss': 1.9757, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45495/48845 [16:07:50<1:10:49,  1.27s/it] 93%|█████████▎| 45496/48845 [16:07:51<1:10:55,  1.27s/it] 93%|█████████▎| 45497/48845 [16:07:52<1:10:50,  1.27s/it] 93%|█████████▎| 45498/48845 [16:07:54<1:10:42,  1.27s/it] 93%|█████████▎| 45499/48845 [16:07:55<1:10:42,  1.27s/it] 93%|█████████▎| 45500/48845 [16:07:56<1:10:35,  1.27s/it]                                                          {'loss': 2.0563, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45500/48845 [16:07:56<1:10:35,  1.27s/it] 93%|█████████▎| 45501/48845 [16:07:57<1:10:31,  1.27s/it] 93%|█████████▎| 45502/48845 [16:07:59<1:10:35,  1.27s/it] 93%|█████████▎| 45503/48845 [16:08:00<1:10:35,  1.27s/it] 93%|█████████▎| 45504/48845 [16:08:01<1:10:39,  1.27s/it] 93%|█████████▎| 45505/48845 [16:08:03<1:10:36,  1.27s/it]                                                          {'loss': 2.1561, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45505/48845 [16:08:03<1:10:36,  1.27s/it] 93%|█████████▎| 45506/48845 [16:08:04<1:10:35,  1.27s/it] 93%|█████████▎| 45507/48845 [16:08:05<1:10:31,  1.27s/it] 93%|█████████▎| 45508/48845 [16:08:06<1:10:32,  1.27s/it] 93%|█████████▎| 45509/48845 [16:08:08<1:10:25,  1.27s/it] 93%|█████████▎| 45510/48845 [16:08:09<1:10:23,  1.27s/it]                                                          {'loss': 1.919, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45510/48845 [16:08:09<1:10:23,  1.27s/it] 93%|█████████▎| 45511/48845 [16:08:10<1:10:31,  1.27s/it] 93%|█████████▎| 45512/48845 [16:08:11<1:10:44,  1.27s/it] 93%|█████████▎| 45513/48845 [16:08:13<1:10:32,  1.27s/it] 93%|█████████▎| 45514/48845 [16:08:14<1:10:24,  1.27s/it] 93%|█████████▎| 45515/48845 [16:08:15<1:10:19,  1.27s/it]                                                          {'loss': 2.1879, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45515/48845 [16:08:15<1:10:19,  1.27s/it] 93%|█████████▎| 45516/48845 [16:08:16<1:10:24,  1.27s/it] 93%|█████████▎| 45517/48845 [16:08:18<1:10:21,  1.27s/it] 93%|█████████▎| 45518/48845 [16:08:19<1:10:22,  1.27s/it] 93%|█████████▎| 45519/48845 [16:08:20<1:10:18,  1.27s/it] 93%|█████████▎| 45520/48845 [16:08:22<1:13:03,  1.32s/it]                                                          {'loss': 2.1974, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45520/48845 [16:08:22<1:13:03,  1.32s/it] 93%|█████████▎| 45521/48845 [16:08:23<1:12:09,  1.30s/it] 93%|█████████▎| 45522/48845 [16:08:24<1:11:32,  1.29s/it] 93%|█████████▎| 45523/48845 [16:08:26<1:11:07,  1.28s/it] 93%|█████████▎| 45524/48845 [16:08:27<1:10:50,  1.28s/it] 93%|█████████▎| 45525/48845 [16:08:28<1:10:32,  1.27s/it]                                                          {'loss': 1.9856, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45525/48845 [16:08:28<1:10:32,  1.27s/it] 93%|█████████▎| 45526/48845 [16:08:29<1:10:21,  1.27s/it] 93%|█████████▎| 45527/48845 [16:08:31<1:10:12,  1.27s/it] 93%|█████████▎| 45528/48845 [16:08:32<1:10:16,  1.27s/it] 93%|█████████▎| 45529/48845 [16:08:33<1:10:12,  1.27s/it] 93%|█████████▎| 45530/48845 [16:08:34<1:10:06,  1.27s/it]                                                          {'loss': 2.0054, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45530/48845 [16:08:34<1:10:06,  1.27s/it] 93%|█████████▎| 45531/48845 [16:08:36<1:10:07,  1.27s/it] 93%|█████████▎| 45532/48845 [16:08:37<1:10:04,  1.27s/it] 93%|█████████▎| 45533/48845 [16:08:38<1:09:58,  1.27s/it] 93%|█████████▎| 45534/48845 [16:08:39<1:09:52,  1.27s/it] 93%|█████████▎| 45535/48845 [16:08:41<1:09:59,  1.27s/it]                                                          {'loss': 2.1529, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45535/48845 [16:08:41<1:09:59,  1.27s/it] 93%|█████████▎| 45536/48845 [16:08:42<1:09:59,  1.27s/it] 93%|█████████▎| 45537/48845 [16:08:43<1:10:00,  1.27s/it] 93%|█████████▎| 45538/48845 [16:08:45<1:09:59,  1.27s/it] 93%|█████████▎| 45539/48845 [16:08:46<1:09:51,  1.27s/it] 93%|█████████▎| 45540/48845 [16:08:47<1:09:48,  1.27s/it]                                                          {'loss': 2.1241, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45540/48845 [16:08:47<1:09:48,  1.27s/it] 93%|█████████▎| 45541/48845 [16:08:48<1:09:47,  1.27s/it] 93%|█████████▎| 45542/48845 [16:08:50<1:09:49,  1.27s/it] 93%|█████████▎| 45543/48845 [16:08:51<1:09:47,  1.27s/it] 93%|█████████▎| 45544/48845 [16:08:52<1:09:43,  1.27s/it] 93%|█████████▎| 45545/48845 [16:08:53<1:09:38,  1.27s/it]                                                          {'loss': 1.8879, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45545/48845 [16:08:53<1:09:38,  1.27s/it] 93%|█████████▎| 45546/48845 [16:08:55<1:09:38,  1.27s/it] 93%|█████████▎| 45547/48845 [16:08:56<1:09:39,  1.27s/it] 93%|█████████▎| 45548/48845 [16:08:57<1:09:36,  1.27s/it] 93%|█████████▎| 45549/48845 [16:08:58<1:09:33,  1.27s/it] 93%|█████████▎| 45550/48845 [16:09:00<1:09:37,  1.27s/it]                                                          {'loss': 2.05, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45550/48845 [16:09:00<1:09:37,  1.27s/it] 93%|█████████▎| 45551/48845 [16:09:01<1:09:39,  1.27s/it] 93%|█████████▎| 45552/48845 [16:09:02<1:09:33,  1.27s/it] 93%|█████████▎| 45553/48845 [16:09:04<1:09:32,  1.27s/it] 93%|█████████▎| 45554/48845 [16:09:05<1:09:30,  1.27s/it] 93%|█████████▎| 45555/48845 [16:09:06<1:09:26,  1.27s/it]                                                          {'loss': 2.1211, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45555/48845 [16:09:06<1:09:26,  1.27s/it] 93%|█████████▎| 45556/48845 [16:09:07<1:09:21,  1.27s/it] 93%|█████████▎| 45557/48845 [16:09:09<1:09:17,  1.26s/it] 93%|█████████▎| 45558/48845 [16:09:10<1:09:14,  1.26s/it] 93%|█████████▎| 45559/48845 [16:09:11<1:09:13,  1.26s/it] 93%|█████████▎| 45560/48845 [16:09:12<1:09:14,  1.26s/it]                                                          {'loss': 2.2003, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45560/48845 [16:09:12<1:09:14,  1.26s/it] 93%|█████████▎| 45561/48845 [16:09:14<1:09:17,  1.27s/it] 93%|█████████▎| 45562/48845 [16:09:15<1:09:17,  1.27s/it] 93%|█████████▎| 45563/48845 [16:09:16<1:09:12,  1.27s/it] 93%|█████████▎| 45564/48845 [16:09:17<1:09:08,  1.26s/it] 93%|█████████▎| 45565/48845 [16:09:19<1:09:05,  1.26s/it]                                                          {'loss': 2.1451, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45565/48845 [16:09:19<1:09:05,  1.26s/it] 93%|█████████▎| 45566/48845 [16:09:20<1:09:11,  1.27s/it] 93%|█████████▎| 45567/48845 [16:09:21<1:09:07,  1.27s/it] 93%|█████████▎| 45568/48845 [16:09:23<1:09:07,  1.27s/it] 93%|█████████▎| 45569/48845 [16:09:24<1:09:10,  1.27s/it] 93%|█████████▎| 45570/48845 [16:09:25<1:09:07,  1.27s/it]                                                          {'loss': 2.1378, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.66}
+ 93%|█████████▎| 45570/48845 [16:09:25<1:09:07,  1.27s/it] 93%|█████████▎| 45571/48845 [16:09:26<1:09:13,  1.27s/it] 93%|█████████▎| 45572/48845 [16:09:28<1:09:07,  1.27s/it] 93%|█████████▎| 45573/48845 [16:09:29<1:09:02,  1.27s/it] 93%|█████████▎| 45574/48845 [16:09:30<1:09:03,  1.27s/it] 93%|█████████▎| 45575/48845 [16:09:31<1:08:59,  1.27s/it]                                                          {'loss': 2.0221, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45575/48845 [16:09:31<1:08:59,  1.27s/it] 93%|█████████▎| 45576/48845 [16:09:33<1:09:00,  1.27s/it] 93%|█████████▎| 45577/48845 [16:09:34<1:09:01,  1.27s/it] 93%|█████████▎| 45578/48845 [16:09:35<1:08:55,  1.27s/it] 93%|█████████▎| 45579/48845 [16:09:36<1:08:52,  1.27s/it] 93%|█████████▎| 45580/48845 [16:09:38<1:08:52,  1.27s/it]                                                          {'loss': 2.2772, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45580/48845 [16:09:38<1:08:52,  1.27s/it] 93%|█████████▎| 45581/48845 [16:09:39<1:08:51,  1.27s/it] 93%|█████████▎| 45582/48845 [16:09:40<1:10:43,  1.30s/it] 93%|█████████▎| 45583/48845 [16:09:42<1:10:05,  1.29s/it] 93%|█████████▎| 45584/48845 [16:09:43<1:09:37,  1.28s/it] 93%|█████████▎| 45585/48845 [16:09:44<1:09:24,  1.28s/it]                                                          {'loss': 2.1104, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45585/48845 [16:09:44<1:09:24,  1.28s/it] 93%|█████████▎| 45586/48845 [16:09:45<1:09:16,  1.28s/it] 93%|█████████▎| 45587/48845 [16:09:47<1:09:07,  1.27s/it] 93%|█████████▎| 45588/48845 [16:09:48<1:08:58,  1.27s/it] 93%|█████████▎| 45589/48845 [16:09:49<1:08:55,  1.27s/it] 93%|█████████▎| 45590/48845 [16:09:51<1:08:54,  1.27s/it]                                                          {'loss': 2.0022, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45590/48845 [16:09:51<1:08:54,  1.27s/it] 93%|█████████▎| 45591/48845 [16:09:52<1:08:59,  1.27s/it] 93%|█████████▎| 45592/48845 [16:09:53<1:08:52,  1.27s/it] 93%|█████████▎| 45593/48845 [16:09:54<1:08:49,  1.27s/it] 93%|█████████▎| 45594/48845 [16:09:56<1:10:38,  1.30s/it] 93%|█████████▎| 45595/48845 [16:09:57<1:09:57,  1.29s/it]                                                          {'loss': 2.0324, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45595/48845 [16:09:57<1:09:57,  1.29s/it] 93%|█████████▎| 45596/48845 [16:09:58<1:09:34,  1.28s/it] 93%|█████████▎| 45597/48845 [16:10:00<1:09:14,  1.28s/it] 93%|█████████▎| 45598/48845 [16:10:01<1:09:04,  1.28s/it] 93%|█████████▎| 45599/48845 [16:10:02<1:08:51,  1.27s/it] 93%|█████████▎| 45600/48845 [16:10:03<1:08:44,  1.27s/it]                                                          {'loss': 2.061, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45600/48845 [16:10:03<1:08:44,  1.27s/it] 93%|█████████▎| 45601/48845 [16:10:07<1:50:22,  2.04s/it] 93%|█████████▎| 45602/48845 [16:10:08<1:37:40,  1.81s/it] 93%|█████████▎| 45603/48845 [16:10:10<1:28:50,  1.64s/it] 93%|█████████▎| 45604/48845 [16:10:11<1:22:39,  1.53s/it] 93%|█████████▎| 45605/48845 [16:10:12<1:18:22,  1.45s/it]                                                          {'loss': 2.0507, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45605/48845 [16:10:12<1:18:22,  1.45s/it] 93%|█████████▎| 45606/48845 [16:10:13<1:15:17,  1.39s/it] 93%|█████████▎| 45607/48845 [16:10:15<1:13:09,  1.36s/it] 93%|█████████▎| 45608/48845 [16:10:16<1:11:38,  1.33s/it] 93%|█████████▎| 45609/48845 [16:10:17<1:10:35,  1.31s/it] 93%|█████████▎| 45610/48845 [16:10:19<1:09:50,  1.30s/it]                                                          {'loss': 1.9677, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45610/48845 [16:10:19<1:09:50,  1.30s/it] 93%|█████████▎| 45611/48845 [16:10:20<1:09:24,  1.29s/it] 93%|█████████▎| 45612/48845 [16:10:21<1:09:04,  1.28s/it] 93%|█████████▎| 45613/48845 [16:10:22<1:08:45,  1.28s/it] 93%|█████████▎| 45614/48845 [16:10:24<1:08:32,  1.27s/it] 93%|█████████▎| 45615/48845 [16:10:25<1:08:22,  1.27s/it]                                                          {'loss': 2.1408, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45615/48845 [16:10:25<1:08:22,  1.27s/it] 93%|█████████▎| 45616/48845 [16:10:26<1:08:18,  1.27s/it] 93%|█████████▎| 45617/48845 [16:10:27<1:08:13,  1.27s/it] 93%|█████████▎| 45618/48845 [16:10:29<1:08:07,  1.27s/it] 93%|█████████▎| 45619/48845 [16:10:30<1:08:01,  1.27s/it] 93%|█████████▎| 45620/48845 [16:10:31<1:08:04,  1.27s/it]                                                          {'loss': 2.1286, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45620/48845 [16:10:31<1:08:04,  1.27s/it] 93%|█████████▎| 45621/48845 [16:10:32<1:08:01,  1.27s/it] 93%|█████████▎| 45622/48845 [16:10:34<1:07:57,  1.27s/it] 93%|█████████▎| 45623/48845 [16:10:35<1:07:52,  1.26s/it] 93%|█████████▎| 45624/48845 [16:10:36<1:07:51,  1.26s/it] 93%|█████████▎| 45625/48845 [16:10:37<1:07:50,  1.26s/it]                                                          {'loss': 2.1995, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45625/48845 [16:10:37<1:07:50,  1.26s/it] 93%|█████████▎| 45626/48845 [16:10:39<1:07:52,  1.27s/it] 93%|█████████▎| 45627/48845 [16:10:40<1:07:47,  1.26s/it] 93%|█████████▎| 45628/48845 [16:10:41<1:07:50,  1.27s/it] 93%|█████████▎| 45629/48845 [16:10:43<1:07:47,  1.26s/it] 93%|█████████▎| 45630/48845 [16:10:44<1:07:44,  1.26s/it]                                                          {'loss': 2.0067, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45630/48845 [16:10:44<1:07:44,  1.26s/it] 93%|███████��█▎| 45631/48845 [16:10:45<1:07:44,  1.26s/it] 93%|█████████▎| 45632/48845 [16:10:46<1:09:10,  1.29s/it] 93%|█████████▎| 45633/48845 [16:10:48<1:08:41,  1.28s/it] 93%|█████████▎| 45634/48845 [16:10:49<1:08:22,  1.28s/it] 93%|█████████▎| 45635/48845 [16:10:50<1:08:08,  1.27s/it]                                                          {'loss': 2.0254, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45635/48845 [16:10:50<1:08:08,  1.27s/it] 93%|█████████▎| 45636/48845 [16:10:51<1:07:59,  1.27s/it] 93%|█████████▎| 45637/48845 [16:10:53<1:07:53,  1.27s/it] 93%|█████████▎| 45638/48845 [16:10:54<1:07:49,  1.27s/it] 93%|█████████▎| 45639/48845 [16:10:55<1:07:44,  1.27s/it] 93%|█████████▎| 45640/48845 [16:10:57<1:07:39,  1.27s/it]                                                          {'loss': 2.0753, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45640/48845 [16:10:57<1:07:39,  1.27s/it] 93%|█████████▎| 45641/48845 [16:10:58<1:07:38,  1.27s/it] 93%|█████████▎| 45642/48845 [16:10:59<1:07:34,  1.27s/it] 93%|█████████▎| 45643/48845 [16:11:00<1:07:30,  1.27s/it] 93%|█████████▎| 45644/48845 [16:11:02<1:09:33,  1.30s/it] 93%|█████████▎| 45645/48845 [16:11:03<1:08:51,  1.29s/it]                                                          {'loss': 1.9912, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45645/48845 [16:11:03<1:08:51,  1.29s/it] 93%|█████████▎| 45646/48845 [16:11:04<1:08:21,  1.28s/it] 93%|█████████▎| 45647/48845 [16:11:06<1:08:01,  1.28s/it] 93%|█████████▎| 45648/48845 [16:11:07<1:07:47,  1.27s/it] 93%|█████████▎| 45649/48845 [16:11:08<1:07:42,  1.27s/it] 93%|█████████▎| 45650/48845 [16:11:09<1:07:34,  1.27s/it]                                                          {'loss': 2.1179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45650/48845 [16:11:09<1:07:34,  1.27s/it] 93%|█████████▎| 45651/48845 [16:11:11<1:07:34,  1.27s/it] 93%|█████████▎| 45652/48845 [16:11:12<1:07:31,  1.27s/it] 93%|█████████▎| 45653/48845 [16:11:13<1:07:26,  1.27s/it] 93%|█████████▎| 45654/48845 [16:11:14<1:07:24,  1.27s/it] 93%|█████████▎| 45655/48845 [16:11:16<1:07:19,  1.27s/it]                                                          {'loss': 2.0257, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45655/48845 [16:11:16<1:07:19,  1.27s/it] 93%|█████████▎| 45656/48845 [16:11:17<1:07:18,  1.27s/it] 93%|█████████▎| 45657/48845 [16:11:18<1:07:16,  1.27s/it] 93%|█████████▎| 45658/48845 [16:11:19<1:07:14,  1.27s/it] 93%|█████████▎| 45659/48845 [16:11:21<1:07:11,  1.27s/it] 93%|█████████▎| 45660/48845 [16:11:22<1:07:12,  1.27s/it]                                                          {'loss': 2.0828, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45660/48845 [16:11:22<1:07:12,  1.27s/it] 93%|█████████▎| 45661/48845 [16:11:23<1:07:14,  1.27s/it] 93%|█████████▎| 45662/48845 [16:11:25<1:07:11,  1.27s/it] 93%|█████████▎| 45663/48845 [16:11:26<1:07:08,  1.27s/it] 93%|█████████▎| 45664/48845 [16:11:27<1:07:12,  1.27s/it] 93%|█████████▎| 45665/48845 [16:11:28<1:07:10,  1.27s/it]                                                          {'loss': 2.2007, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45665/48845 [16:11:28<1:07:10,  1.27s/it] 93%|█████████▎| 45666/48845 [16:11:30<1:07:06,  1.27s/it] 93%|█████████▎| 45667/48845 [16:11:31<1:07:03,  1.27s/it] 93%|█████████▎| 45668/48845 [16:11:32<1:07:04,  1.27s/it] 93%|█████████▎| 45669/48845 [16:11:33<1:07:05,  1.27s/it] 93%|█████████▎| 45670/48845 [16:11:35<1:07:03,  1.27s/it]                                                          {'loss': 2.1722, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.67}
+ 93%|█████████▎| 45670/48845 [16:11:35<1:07:03,  1.27s/it] 94%|█████████▎| 45671/48845 [16:11:36<1:07:07,  1.27s/it] 94%|█████████▎| 45672/48845 [16:11:37<1:08:15,  1.29s/it] 94%|█████████▎| 45673/48845 [16:11:39<1:07:54,  1.28s/it] 94%|█████████▎| 45674/48845 [16:11:40<1:07:36,  1.28s/it] 94%|█████████▎| 45675/48845 [16:11:41<1:07:25,  1.28s/it]                                                          {'loss': 2.0343, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45675/48845 [16:11:41<1:07:25,  1.28s/it] 94%|█████████▎| 45676/48845 [16:11:42<1:08:29,  1.30s/it] 94%|█████████▎| 45677/48845 [16:11:44<1:08:01,  1.29s/it] 94%|█████████▎| 45678/48845 [16:11:45<1:07:42,  1.28s/it] 94%|█████████▎| 45679/48845 [16:11:46<1:07:24,  1.28s/it] 94%|█████████▎| 45680/48845 [16:11:47<1:07:15,  1.28s/it]                                                          {'loss': 2.0167, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45680/48845 [16:11:47<1:07:15,  1.28s/it] 94%|█████████▎| 45681/48845 [16:11:49<1:07:03,  1.27s/it] 94%|█████████▎| 45682/48845 [16:11:50<1:06:53,  1.27s/it] 94%|█████████▎| 45683/48845 [16:11:51<1:06:48,  1.27s/it] 94%|█████████▎| 45684/48845 [16:11:53<1:06:47,  1.27s/it] 94%|█████████▎| 45685/48845 [16:11:54<1:06:41,  1.27s/it]                                                          {'loss': 2.0713, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45685/48845 [16:11:54<1:06:41,  1.27s/it] 94%|█████████▎| 45686/48845 [16:11:55<1:06:42,  1.27s/it] 94%|█████████▎| 45687/48845 [16:11:56<1:06:38,  1.27s/it] 94%|█████████▎| 45688/48845 [16:11:58<1:06:38,  1.27s/it] 94%|█████████▎| 45689/48845 [16:11:59<1:06:36,  1.27s/it] 94%|█████████▎| 45690/48845 [16:12:00<1:06:38,  1.27s/it]                                                          {'loss': 1.9935, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45690/48845 [16:12:00<1:06:38,  1.27s/it] 94%|█████████▎| 45691/48845 [16:12:01<1:06:39,  1.27s/it] 94%|█████████▎| 45692/48845 [16:12:03<1:06:34,  1.27s/it] 94%|█████████▎| 45693/48845 [16:12:04<1:06:31,  1.27s/it] 94%|█████████▎| 45694/48845 [16:12:05<1:06:29,  1.27s/it] 94%|█████████▎| 45695/48845 [16:12:06<1:06:26,  1.27s/it]                                                          {'loss': 1.9822, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45695/48845 [16:12:06<1:06:26,  1.27s/it] 94%|█████████▎| 45696/48845 [16:12:08<1:06:33,  1.27s/it] 94%|█████████▎| 45697/48845 [16:12:09<1:06:29,  1.27s/it] 94%|█████████▎| 45698/48845 [16:12:10<1:06:30,  1.27s/it] 94%|█████████▎| 45699/48845 [16:12:12<1:06:30,  1.27s/it] 94%|█████████▎| 45700/48845 [16:12:13<1:06:31,  1.27s/it]                                                          {'loss': 2.0412, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45700/48845 [16:12:13<1:06:31,  1.27s/it] 94%|█████████▎| 45701/48845 [16:12:14<1:06:27,  1.27s/it] 94%|█████████▎| 45702/48845 [16:12:15<1:06:22,  1.27s/it] 94%|█████████▎| 45703/48845 [16:12:17<1:06:22,  1.27s/it] 94%|█████████▎| 45704/48845 [16:12:18<1:06:21,  1.27s/it] 94%|█████████▎| 45705/48845 [16:12:19<1:06:19,  1.27s/it]                                                          {'loss': 2.0346, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45705/48845 [16:12:19<1:06:19,  1.27s/it] 94%|█████████▎| 45706/48845 [16:12:20<1:06:18,  1.27s/it] 94%|█████████▎| 45707/48845 [16:12:22<1:06:14,  1.27s/it] 94%|█████████▎| 45708/48845 [16:12:23<1:06:12,  1.27s/it] 94%|█████████▎| 45709/48845 [16:12:24<1:06:13,  1.27s/it] 94%|█████████▎| 45710/48845 [16:12:25<1:06:09,  1.27s/it]                                                          {'loss': 2.0098, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45710/48845 [16:12:26<1:06:09,  1.27s/it] 94%|█████████▎| 45711/48845 [16:12:27<1:06:09,  1.27s/it] 94%|█████████▎| 45712/48845 [16:12:28<1:06:12,  1.27s/it] 94%|█████████▎| 45713/48845 [16:12:29<1:06:12,  1.27s/it] 94%|█████████▎| 45714/48845 [16:12:31<1:06:06,  1.27s/it] 94%|█████████▎| 45715/48845 [16:12:32<1:06:03,  1.27s/it]                                                          {'loss': 2.0707, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45715/48845 [16:12:32<1:06:03,  1.27s/it] 94%|█████████▎| 45716/48845 [16:12:33<1:07:34,  1.30s/it] 94%|█████████▎| 45717/48845 [16:12:34<1:07:04,  1.29s/it] 94%|█████████▎| 45718/48845 [16:12:36<1:06:46,  1.28s/it] 94%|█████████▎| 45719/48845 [16:12:37<1:06:30,  1.28s/it] 94%|█████████▎| 45720/48845 [16:12:38<1:06:21,  1.27s/it]                                                          {'loss': 1.947, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45720/48845 [16:12:38<1:06:21,  1.27s/it] 94%|█████████▎| 45721/48845 [16:12:40<1:06:15,  1.27s/it] 94%|█████████▎| 45722/48845 [16:12:41<1:06:06,  1.27s/it] 94%|█████████▎| 45723/48845 [16:12:42<1:06:02,  1.27s/it] 94%|█████████▎| 45724/48845 [16:12:43<1:06:01,  1.27s/it] 94%|█████████▎| 45725/48845 [16:12:45<1:05:55,  1.27s/it]                                                          {'loss': 1.9722, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45725/48845 [16:12:45<1:05:55,  1.27s/it] 94%|█████████▎| 45726/48845 [16:12:46<1:05:55,  1.27s/it] 94%|█████████▎| 45727/48845 [16:12:47<1:05:52,  1.27s/it] 94%|█████████▎| 45728/48845 [16:12:48<1:06:06,  1.27s/it] 94%|█████████▎| 45729/48845 [16:12:50<1:05:59,  1.27s/it] 94%|█████████▎| 45730/48845 [16:12:51<1:05:51,  1.27s/it]                                                          {'loss': 1.9674, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45730/48845 [16:12:51<1:05:51,  1.27s/it] 94%|█████████▎| 45731/48845 [16:12:52<1:05:49,  1.27s/it] 94%|█████████▎| 45732/48845 [16:12:53<1:05:48,  1.27s/it] 94%|█████████▎| 45733/48845 [16:12:55<1:05:44,  1.27s/it] 94%|█████████▎| 45734/48845 [16:12:56<1:05:37,  1.27s/it] 94%|█████████▎| 45735/48845 [16:12:57<1:05:36,  1.27s/it]                                                          {'loss': 2.2342, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45735/48845 [16:12:57<1:05:36,  1.27s/it] 94%|█████████▎| 45736/48845 [16:12:59<1:05:37,  1.27s/it] 94%|█████████▎| 45737/48845 [16:13:00<1:05:34,  1.27s/it] 94%|█████████▎| 45738/48845 [16:13:01<1:05:32,  1.27s/it] 94%|█████████▎| 45739/48845 [16:13:02<1:05:32,  1.27s/it] 94%|█████████▎| 45740/48845 [16:13:04<1:05:31,  1.27s/it]                                                          {'loss': 2.0692, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45740/48845 [16:13:04<1:05:31,  1.27s/it] 94%|█████████▎| 45741/48845 [16:13:05<1:05:33,  1.27s/it] 94%|█████████▎| 45742/48845 [16:13:06<1:05:34,  1.27s/it] 94%|█████████▎| 45743/48845 [16:13:07<1:05:31,  1.27s/it] 94%|█████████▎| 45744/48845 [16:13:09<1:05:31,  1.27s/it] 94%|█████████▎| 45745/48845 [16:13:10<1:05:21,  1.27s/it]                                                          {'loss': 2.178, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45745/48845 [16:13:10<1:05:21,  1.27s/it] 94%|█████████▎| 45746/48845 [16:13:11<1:05:19,  1.26s/it] 94%|█████████▎| 45747/48845 [16:13:12<1:05:15,  1.26s/it] 94%|█████████▎| 45748/48845 [16:13:14<1:05:18,  1.27s/it] 94%|█████████▎| 45749/48845 [16:13:15<1:05:15,  1.26s/it] 94%|█████████▎| 45750/48845 [16:13:16<1:05:14,  1.26s/it]                                                          {'loss': 1.9709, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45750/48845 [16:13:16<1:05:14,  1.26s/it] 94%|█████████▎| 45751/48845 [16:13:18<1:05:17,  1.27s/it] 94%|█████████▎| 45752/48845 [16:13:19<1:05:15,  1.27s/it] 94%|█████████▎| 45753/48845 [16:13:20<1:05:09,  1.26s/it] 94%|█████████▎| 45754/48845 [16:13:21<1:05:07,  1.26s/it] 94%|█████████▎| 45755/48845 [16:13:23<1:05:11,  1.27s/it]                                                          {'loss': 1.9607, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45755/48845 [16:13:23<1:05:11,  1.27s/it] 94%|█████████▎| 45756/48845 [16:13:24<1:06:27,  1.29s/it] 94%|█████████▎| 45757/48845 [16:13:25<1:06:02,  1.28s/it] 94%|█████████▎| 45758/48845 [16:13:26<1:05:48,  1.28s/it] 94%|█████████▎| 45759/48845 [16:13:28<1:05:32,  1.27s/it] 94%|█████████▎| 45760/48845 [16:13:29<1:05:27,  1.27s/it]                                                          {'loss': 2.0523, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45760/48845 [16:13:29<1:05:27,  1.27s/it] 94%|█████████▎| 45761/48845 [16:13:30<1:05:21,  1.27s/it] 94%|█████████▎| 45762/48845 [16:13:32<1:05:15,  1.27s/it] 94%|█████████▎| 45763/48845 [16:13:33<1:05:11,  1.27s/it] 94%|█████████▎| 45764/48845 [16:13:34<1:05:07,  1.27s/it] 94%|█████████▎| 45765/48845 [16:13:35<1:05:02,  1.27s/it]                                                          {'loss': 2.0206, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.68}
+ 94%|█████████▎| 45765/48845 [16:13:35<1:05:02,  1.27s/it] 94%|█████████▎| 45766/48845 [16:13:37<1:05:02,  1.27s/it] 94%|█████████▎| 45767/48845 [16:13:38<1:05:01,  1.27s/it] 94%|█████████▎| 45768/48845 [16:13:39<1:04:57,  1.27s/it] 94%|█████████▎| 45769/48845 [16:13:40<1:05:05,  1.27s/it] 94%|█████████▎| 45770/48845 [16:13:42<1:05:01,  1.27s/it]                                                          {'loss': 2.0802, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▎| 45770/48845 [16:13:42<1:05:01,  1.27s/it] 94%|█████████▎| 45771/48845 [16:13:43<1:04:56,  1.27s/it] 94%|█████████▎| 45772/48845 [16:13:44<1:04:53,  1.27s/it] 94%|█████████▎| 45773/48845 [16:13:45<1:04:54,  1.27s/it] 94%|█████████▎| 45774/48845 [16:13:47<1:04:50,  1.27s/it] 94%|█████████▎| 45775/48845 [16:13:48<1:04:45,  1.27s/it]                                                          {'loss': 2.1488, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▎| 45775/48845 [16:13:48<1:04:45,  1.27s/it] 94%|█████████▎| 45776/48845 [16:13:49<1:07:20,  1.32s/it] 94%|█████████▎| 45777/48845 [16:13:51<1:06:30,  1.30s/it] 94%|█████████▎| 45778/48845 [16:13:52<1:05:52,  1.29s/it] 94%|█████████▎| 45779/48845 [16:13:53<1:05:29,  1.28s/it] 94%|█████████▎| 45780/48845 [16:13:55<1:05:13,  1.28s/it]                                                          {'loss': 1.9793, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▎| 45780/48845 [16:13:55<1:05:13,  1.28s/it] 94%|█████████▎| 45781/48845 [16:13:56<1:05:15,  1.28s/it] 94%|█████████▎| 45782/48845 [16:13:57<1:05:00,  1.27s/it] 94%|█████████▎| 45783/48845 [16:13:58<1:04:52,  1.27s/it] 94%|█████████▎| 45784/48845 [16:14:00<1:04:51,  1.27s/it] 94%|█████████▎| 45785/48845 [16:14:01<1:04:42,  1.27s/it]                                                          {'loss': 2.1382, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▎| 45785/48845 [16:14:01<1:04:42,  1.27s/it] 94%|█████████▎| 45786/48845 [16:14:02<1:04:49,  1.27s/it] 94%|█████████▎| 45787/48845 [16:14:03<1:04:41,  1.27s/it] 94%|█████████▎| 45788/48845 [16:14:05<1:04:35,  1.27s/it] 94%|█████████▎| 45789/48845 [16:14:06<1:04:33,  1.27s/it] 94%|█████████▎| 45790/48845 [16:14:07<1:04:34,  1.27s/it]                                                          {'loss': 2.0371, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▎| 45790/48845 [16:14:07<1:04:34,  1.27s/it] 94%|█████████▎| 45791/48845 [16:14:08<1:04:31,  1.27s/it] 94%|█████████▎| 45792/48845 [16:14:10<1:04:27,  1.27s/it] 94%|█████████▍| 45793/48845 [16:14:11<1:04:23,  1.27s/it] 94%|█████████▍| 45794/48845 [16:14:12<1:04:19,  1.27s/it] 94%|█████████▍| 45795/48845 [16:14:14<1:04:20,  1.27s/it]                                                          {'loss': 2.1648, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45795/48845 [16:14:14<1:04:20,  1.27s/it] 94%|█████████▍| 45796/48845 [16:14:15<1:04:22,  1.27s/it] 94%|█████████▍| 45797/48845 [16:14:16<1:04:20,  1.27s/it] 94%|█████████▍| 45798/48845 [16:14:17<1:04:18,  1.27s/it] 94%|█████████▍| 45799/48845 [16:14:19<1:04:17,  1.27s/it] 94%|█████████▍| 45800/48845 [16:14:20<1:04:19,  1.27s/it]                                                          {'loss': 2.22, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45800/48845 [16:14:20<1:04:19,  1.27s/it] 94%|█████████▍| 45801/48845 [16:14:24<1:44:44,  2.06s/it] 94%|█████████▍| 45802/48845 [16:14:25<1:32:30,  1.82s/it] 94%|█████████▍| 45803/48845 [16:14:26<1:23:56,  1.66s/it] 94%|█████████▍| 45804/48845 [16:14:28<1:17:53,  1.54s/it] 94%|█████████▍| 45805/48845 [16:14:29<1:13:40,  1.45s/it]                                                          {'loss': 2.0351, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45805/48845 [16:14:29<1:13:40,  1.45s/it] 94%|█████████▍| 45806/48845 [16:14:30<1:10:47,  1.40s/it] 94%|█████████▍| 45807/48845 [16:14:31<1:08:42,  1.36s/it] 94%|█████████▍| 45808/48845 [16:14:33<1:07:13,  1.33s/it] 94%|█████████▍| 45809/48845 [16:14:34<1:06:10,  1.31s/it] 94%|█████████▍| 45810/48845 [16:14:35<1:05:32,  1.30s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45810/48845 [16:14:35<1:05:32,  1.30s/it] 94%|█████████▍| 45811/48845 [16:14:36<1:05:01,  1.29s/it] 94%|█████████▍| 45812/48845 [16:14:38<1:04:41,  1.28s/it] 94%|█████████▍| 45813/48845 [16:14:39<1:04:25,  1.28s/it] 94%|█████████▍| 45814/48845 [16:14:40<1:04:18,  1.27s/it] 94%|█████████▍| 45815/48845 [16:14:41<1:04:07,  1.27s/it]                                                          {'loss': 2.0869, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45815/48845 [16:14:41<1:04:07,  1.27s/it] 94%|█████████▍| 45816/48845 [16:14:43<1:04:04,  1.27s/it] 94%|█████████▍| 45817/48845 [16:14:44<1:03:56,  1.27s/it] 94%|█████████▍| 45818/48845 [16:14:45<1:03:52,  1.27s/it] 94%|█████████▍| 45819/48845 [16:14:47<1:03:47,  1.26s/it] 94%|█████████▍| 45820/48845 [16:14:48<1:03:48,  1.27s/it]                                                          {'loss': 2.11, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45820/48845 [16:14:48<1:03:48,  1.27s/it] 94%|█████████▍| 45821/48845 [16:14:49<1:03:45,  1.27s/it] 94%|█████████▍| 45822/48845 [16:14:50<1:03:45,  1.27s/it] 94%|█████████▍| 45823/48845 [16:14:52<1:03:42,  1.26s/it] 94%|█████████▍| 45824/48845 [16:14:53<1:03:41,  1.26s/it] 94%|█████████▍| 45825/48845 [16:14:54<1:03:39,  1.26s/it]                                                          {'loss': 2.0264, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45825/48845 [16:14:54<1:03:39,  1.26s/it] 94%|█████████▍| 45826/48845 [16:14:55<1:03:43,  1.27s/it] 94%|█████████▍| 45827/48845 [16:14:57<1:03:45,  1.27s/it] 94%|█████████▍| 45828/48845 [16:14:58<1:03:41,  1.27s/it] 94%|█████████▍| 45829/48845 [16:14:59<1:03:37,  1.27s/it] 94%|█████████▍| 45830/48845 [16:15:00<1:03:34,  1.27s/it]                                                          {'loss': 2.1571, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45830/48845 [16:15:00<1:03:34,  1.27s/it] 94%|█████████▍| 45831/48845 [16:15:02<1:04:10,  1.28s/it] 94%|█████████▍| 45832/48845 [16:15:03<1:03:58,  1.27s/it] 94%|█████████▍| 45833/48845 [16:15:04<1:03:49,  1.27s/it] 94%|█████████▍| 45834/48845 [16:15:06<1:03:41,  1.27s/it] 94%|█████████▍| 45835/48845 [16:15:07<1:05:02,  1.30s/it]                                                          {'loss': 1.9003, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45835/48845 [16:15:07<1:05:02,  1.30s/it] 94%|█████████▍| 45836/48845 [16:15:08<1:04:37,  1.29s/it] 94%|█████████▍| 45837/48845 [16:15:09<1:04:16,  1.28s/it] 94%|█████████▍| 45838/48845 [16:15:11<1:04:01,  1.28s/it] 94%|█████████▍| 45839/48845 [16:15:12<1:03:53,  1.28s/it] 94%|█████████▍| 45840/48845 [16:15:13<1:03:44,  1.27s/it]                                                          {'loss': 2.0837, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45840/48845 [16:15:13<1:03:44,  1.27s/it] 94%|█████████▍| 45841/48845 [16:15:15<1:03:45,  1.27s/it] 94%|████��████▍| 45842/48845 [16:15:16<1:03:41,  1.27s/it] 94%|█████████▍| 45843/48845 [16:15:17<1:04:48,  1.30s/it] 94%|█████████▍| 45844/48845 [16:15:18<1:04:27,  1.29s/it] 94%|█████████▍| 45845/48845 [16:15:20<1:05:00,  1.30s/it]                                                          {'loss': 2.0524, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45845/48845 [16:15:20<1:05:00,  1.30s/it] 94%|█████████▍| 45846/48845 [16:15:21<1:04:27,  1.29s/it] 94%|█████████▍| 45847/48845 [16:15:22<1:04:05,  1.28s/it] 94%|█████████▍| 45848/48845 [16:15:24<1:03:45,  1.28s/it] 94%|█████████▍| 45849/48845 [16:15:25<1:03:33,  1.27s/it] 94%|█████████▍| 45850/48845 [16:15:26<1:03:26,  1.27s/it]                                                          {'loss': 1.9812, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45850/48845 [16:15:26<1:03:26,  1.27s/it] 94%|█████████▍| 45851/48845 [16:15:27<1:04:12,  1.29s/it] 94%|█████████▍| 45852/48845 [16:15:29<1:03:52,  1.28s/it] 94%|█████████▍| 45853/48845 [16:15:30<1:03:34,  1.28s/it] 94%|█████████▍| 45854/48845 [16:15:31<1:03:25,  1.27s/it] 94%|█████████▍| 45855/48845 [16:15:32<1:03:29,  1.27s/it]                                                          {'loss': 2.2639, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45855/48845 [16:15:32<1:03:29,  1.27s/it] 94%|█████████▍| 45856/48845 [16:15:34<1:03:20,  1.27s/it] 94%|█████████▍| 45857/48845 [16:15:35<1:03:13,  1.27s/it] 94%|█████████▍| 45858/48845 [16:15:36<1:03:07,  1.27s/it] 94%|█████████▍| 45859/48845 [16:15:38<1:03:12,  1.27s/it] 94%|█████████▍| 45860/48845 [16:15:39<1:03:04,  1.27s/it]                                                          {'loss': 2.235, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45860/48845 [16:15:39<1:03:04,  1.27s/it] 94%|█████████▍| 45861/48845 [16:15:40<1:03:00,  1.27s/it] 94%|█████████▍| 45862/48845 [16:15:41<1:02:56,  1.27s/it] 94%|█████████▍| 45863/48845 [16:15:43<1:02:56,  1.27s/it] 94%|█████████▍| 45864/48845 [16:15:44<1:02:53,  1.27s/it] 94%|█████████▍| 45865/48845 [16:15:45<1:02:54,  1.27s/it]                                                          {'loss': 2.0453, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.69}
+ 94%|█████████▍| 45865/48845 [16:15:45<1:02:54,  1.27s/it] 94%|█████████▍| 45866/48845 [16:15:46<1:02:53,  1.27s/it] 94%|█████████▍| 45867/48845 [16:15:48<1:02:49,  1.27s/it] 94%|█████████▍| 45868/48845 [16:15:49<1:02:45,  1.26s/it] 94%|█████████▍| 45869/48845 [16:15:50<1:02:45,  1.27s/it] 94%|█████████▍| 45870/48845 [16:15:51<1:02:40,  1.26s/it]                                                          {'loss': 2.1614, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45870/48845 [16:15:52<1:02:40,  1.26s/it] 94%|█████████▍| 45871/48845 [16:15:53<1:05:27,  1.32s/it] 94%|█████████▍| 45872/48845 [16:15:54<1:04:37,  1.30s/it] 94%|█████████▍| 45873/48845 [16:15:55<1:04:01,  1.29s/it] 94%|█████████▍| 45874/48845 [16:15:57<1:03:36,  1.28s/it] 94%|█████████▍| 45875/48845 [16:15:58<1:03:19,  1.28s/it]                                                          {'loss': 2.1934, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45875/48845 [16:15:58<1:03:19,  1.28s/it] 94%|█████████▍| 45876/48845 [16:15:59<1:03:08,  1.28s/it] 94%|█████████▍| 45877/48845 [16:16:00<1:02:59,  1.27s/it] 94%|█████████▍| 45878/48845 [16:16:02<1:02:48,  1.27s/it] 94%|█████████▍| 45879/48845 [16:16:03<1:02:46,  1.27s/it] 94%|█████████▍| 45880/48845 [16:16:04<1:02:40,  1.27s/it]                                                          {'loss': 1.9963, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45880/48845 [16:16:04<1:02:40,  1.27s/it] 94%|█████████▍| 45881/48845 [16:16:06<1:02:37,  1.27s/it] 94%|█████████▍| 45882/48845 [16:16:07<1:02:34,  1.27s/it] 94%|█████████▍| 45883/48845 [16:16:08<1:02:35,  1.27s/it] 94%|█████████▍| 45884/48845 [16:16:09<1:02:35,  1.27s/it] 94%|█████████▍| 45885/48845 [16:16:11<1:02:27,  1.27s/it]                                                          {'loss': 2.115, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45885/48845 [16:16:11<1:02:27,  1.27s/it] 94%|█████████▍| 45886/48845 [16:16:12<1:02:30,  1.27s/it] 94%|█████████▍| 45887/48845 [16:16:13<1:02:35,  1.27s/it] 94%|█████████▍| 45888/48845 [16:16:14<1:02:27,  1.27s/it] 94%|█████████▍| 45889/48845 [16:16:16<1:02:23,  1.27s/it] 94%|█████████▍| 45890/48845 [16:16:17<1:02:21,  1.27s/it]                                                          {'loss': 1.9813, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45890/48845 [16:16:17<1:02:21,  1.27s/it] 94%|█████████▍| 45891/48845 [16:16:18<1:02:28,  1.27s/it] 94%|█████████▍| 45892/48845 [16:16:20<1:02:23,  1.27s/it] 94%|█████████▍| 45893/48845 [16:16:21<1:02:16,  1.27s/it] 94%|█████████▍| 45894/48845 [16:16:22<1:02:12,  1.26s/it] 94%|█████████▍| 45895/48845 [16:16:23<1:02:24,  1.27s/it]                                                          {'loss': 2.1808, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45895/48845 [16:16:23<1:02:24,  1.27s/it] 94%|█████████▍| 45896/48845 [16:16:25<1:02:18,  1.27s/it] 94%|█████████▍| 45897/48845 [16:16:26<1:02:14,  1.27s/it] 94%|█████████▍| 45898/48845 [16:16:27<1:02:12,  1.27s/it] 94%|█████████▍| 45899/48845 [16:16:28<1:02:20,  1.27s/it] 94%|█████████▍| 45900/48845 [16:16:30<1:02:14,  1.27s/it]                                                          {'loss': 1.9113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45900/48845 [16:16:30<1:02:14,  1.27s/it] 94%|█████████▍| 45901/48845 [16:16:31<1:02:11,  1.27s/it] 94%|█████████▍| 45902/48845 [16:16:32<1:02:09,  1.27s/it] 94%|█████████▍| 45903/48845 [16:16:33<1:02:05,  1.27s/it] 94%|█████████▍| 45904/48845 [16:16:35<1:02:00,  1.26s/it] 94%|█████████▍| 45905/48845 [16:16:36<1:01:59,  1.27s/it]                                                          {'loss': 2.1093, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45905/48845 [16:16:36<1:01:59,  1.27s/it] 94%|█████████▍| 45906/48845 [16:16:37<1:02:07,  1.27s/it] 94%|█████████▍| 45907/48845 [16:16:39<1:03:27,  1.30s/it] 94%|█████████▍| 45908/48845 [16:16:40<1:02:56,  1.29s/it] 94%|█████████▍| 45909/48845 [16:16:41<1:02:37,  1.28s/it] 94%|█████████▍| 45910/48845 [16:16:42<1:02:22,  1.28s/it]                                                          {'loss': 2.0481, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45910/48845 [16:16:42<1:02:22,  1.28s/it] 94%|█████████▍| 45911/48845 [16:16:44<1:02:17,  1.27s/it] 94%|█████████▍| 45912/48845 [16:16:45<1:02:06,  1.27s/it] 94%|█████████▍| 45913/48845 [16:16:46<1:02:00,  1.27s/it] 94%|█████████▍| 45914/48845 [16:16:47<1:01:56,  1.27s/it] 94%|█████████▍| 45915/48845 [16:16:49<1:01:58,  1.27s/it]                                                          {'loss': 2.1096, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45915/48845 [16:16:49<1:01:58,  1.27s/it] 94%|█████████▍| 45916/48845 [16:16:50<1:01:56,  1.27s/it] 94%|█████████▍| 45917/48845 [16:16:51<1:01:50,  1.27s/it] 94%|█████████▍| 45918/48845 [16:16:53<1:01:44,  1.27s/it] 94%|█████████▍| 45919/48845 [16:16:54<1:01:45,  1.27s/it] 94%|█████████▍| 45920/48845 [16:16:55<1:01:41,  1.27s/it]                                                          {'loss': 1.9667, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45920/48845 [16:16:55<1:01:41,  1.27s/it] 94%|█████████▍| 45921/48845 [16:16:56<1:01:47,  1.27s/it] 94%|█████████▍| 45922/48845 [16:16:58<1:01:39,  1.27s/it] 94%|█████████▍| 45923/48845 [16:16:59<1:01:38,  1.27s/it] 94%|█████████▍| 45924/48845 [16:17:00<1:01:37,  1.27s/it] 94%|█████████▍| 45925/48845 [16:17:01<1:01:36,  1.27s/it]                                                          {'loss': 2.1208, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45925/48845 [16:17:01<1:01:36,  1.27s/it] 94%|███��█████▍| 45926/48845 [16:17:03<1:01:33,  1.27s/it] 94%|█████████▍| 45927/48845 [16:17:04<1:01:34,  1.27s/it] 94%|█████████▍| 45928/48845 [16:17:05<1:01:32,  1.27s/it] 94%|█████████▍| 45929/48845 [16:17:06<1:01:29,  1.27s/it] 94%|█████████▍| 45930/48845 [16:17:08<1:01:38,  1.27s/it]                                                          {'loss': 2.3468, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45930/48845 [16:17:08<1:01:38,  1.27s/it] 94%|█████████▍| 45931/48845 [16:17:09<1:02:06,  1.28s/it] 94%|█████████▍| 45932/48845 [16:17:10<1:01:54,  1.28s/it] 94%|█████████▍| 45933/48845 [16:17:12<1:01:47,  1.27s/it] 94%|█████████▍| 45934/48845 [16:17:13<1:01:37,  1.27s/it] 94%|█████████▍| 45935/48845 [16:17:14<1:01:32,  1.27s/it]                                                          {'loss': 2.1188, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45935/48845 [16:17:14<1:01:32,  1.27s/it] 94%|█████████▍| 45936/48845 [16:17:15<1:01:32,  1.27s/it] 94%|█████████▍| 45937/48845 [16:17:17<1:01:24,  1.27s/it] 94%|█████████▍| 45938/48845 [16:17:18<1:01:23,  1.27s/it] 94%|█████████▍| 45939/48845 [16:17:19<1:01:19,  1.27s/it] 94%|█████████▍| 45940/48845 [16:17:20<1:01:16,  1.27s/it]                                                          {'loss': 2.0621, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45940/48845 [16:17:20<1:01:16,  1.27s/it] 94%|█████████▍| 45941/48845 [16:17:22<1:01:12,  1.26s/it] 94%|█████████▍| 45942/48845 [16:17:23<1:01:10,  1.26s/it] 94%|█████████▍| 45943/48845 [16:17:24<1:01:16,  1.27s/it] 94%|█████████▍| 45944/48845 [16:17:25<1:01:10,  1.27s/it] 94%|█████████▍| 45945/48845 [16:17:27<1:01:09,  1.27s/it]                                                          {'loss': 2.0358, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45945/48845 [16:17:27<1:01:09,  1.27s/it] 94%|█████████▍| 45946/48845 [16:17:28<1:01:10,  1.27s/it] 94%|█████████▍| 45947/48845 [16:17:29<1:03:23,  1.31s/it] 94%|█████████▍| 45948/48845 [16:17:31<1:02:40,  1.30s/it] 94%|█████████▍| 45949/48845 [16:17:32<1:02:07,  1.29s/it] 94%|█████████▍| 45950/48845 [16:17:33<1:01:49,  1.28s/it]                                                          {'loss': 2.0307, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45950/48845 [16:17:33<1:01:49,  1.28s/it] 94%|█████████▍| 45951/48845 [16:17:35<1:01:42,  1.28s/it] 94%|█████████▍| 45952/48845 [16:17:36<1:01:31,  1.28s/it] 94%|█████████▍| 45953/48845 [16:17:37<1:01:19,  1.27s/it] 94%|█████████▍| 45954/48845 [16:17:38<1:01:12,  1.27s/it] 94%|█████████▍| 45955/48845 [16:17:40<1:01:11,  1.27s/it]                                                          {'loss': 2.0888, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45955/48845 [16:17:40<1:01:11,  1.27s/it] 94%|█████████▍| 45956/48845 [16:17:41<1:01:04,  1.27s/it] 94%|█████████▍| 45957/48845 [16:17:42<1:01:00,  1.27s/it] 94%|█████████▍| 45958/48845 [16:17:43<1:00:57,  1.27s/it] 94%|█████████▍| 45959/48845 [16:17:45<1:00:56,  1.27s/it] 94%|█████████▍| 45960/48845 [16:17:46<1:00:53,  1.27s/it]                                                          {'loss': 2.39, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.7}
+ 94%|█████████▍| 45960/48845 [16:17:46<1:00:53,  1.27s/it] 94%|█████████▍| 45961/48845 [16:17:47<1:00:51,  1.27s/it] 94%|█████████▍| 45962/48845 [16:17:48<1:00:52,  1.27s/it] 94%|█████████▍| 45963/48845 [16:17:50<1:00:54,  1.27s/it] 94%|█████████▍| 45964/48845 [16:17:51<1:00:46,  1.27s/it] 94%|█████████▍| 45965/48845 [16:17:52<1:00:46,  1.27s/it]                                                          {'loss': 2.2108, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45965/48845 [16:17:52<1:00:46,  1.27s/it] 94%|█████████▍| 45966/48845 [16:17:54<1:00:47,  1.27s/it] 94%|█████████▍| 45967/48845 [16:17:55<1:00:46,  1.27s/it] 94%|█████████▍| 45968/48845 [16:17:56<1:00:44,  1.27s/it] 94%|█████████▍| 45969/48845 [16:17:57<1:00:40,  1.27s/it] 94%|█████████▍| 45970/48845 [16:17:59<1:00:37,  1.27s/it]                                                          {'loss': 1.9201, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45970/48845 [16:17:59<1:00:37,  1.27s/it] 94%|█████████▍| 45971/48845 [16:18:00<1:00:41,  1.27s/it] 94%|█████████▍| 45972/48845 [16:18:01<1:00:36,  1.27s/it] 94%|█████████▍| 45973/48845 [16:18:02<1:00:33,  1.27s/it] 94%|█████████▍| 45974/48845 [16:18:04<1:00:37,  1.27s/it] 94%|█████████▍| 45975/48845 [16:18:05<1:00:33,  1.27s/it]                                                          {'loss': 2.0694, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45975/48845 [16:18:05<1:00:33,  1.27s/it] 94%|█████████▍| 45976/48845 [16:18:06<1:00:37,  1.27s/it] 94%|█████████▍| 45977/48845 [16:18:07<1:00:35,  1.27s/it] 94%|█████████▍| 45978/48845 [16:18:09<1:00:29,  1.27s/it] 94%|█████████▍| 45979/48845 [16:18:10<1:00:32,  1.27s/it] 94%|█████████▍| 45980/48845 [16:18:11<1:00:28,  1.27s/it]                                                          {'loss': 2.2113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45980/48845 [16:18:11<1:00:28,  1.27s/it] 94%|█████████▍| 45981/48845 [16:18:12<1:00:24,  1.27s/it] 94%|█████████▍| 45982/48845 [16:18:14<1:00:22,  1.27s/it] 94%|█████████▍| 45983/48845 [16:18:15<1:00:20,  1.27s/it] 94%|█████████▍| 45984/48845 [16:18:16<1:00:20,  1.27s/it] 94%|█████████▍| 45985/48845 [16:18:18<1:00:17,  1.26s/it]                                                          {'loss': 2.0577, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45985/48845 [16:18:18<1:00:17,  1.26s/it] 94%|█████████▍| 45986/48845 [16:18:19<1:00:17,  1.27s/it] 94%|█████████▍| 45987/48845 [16:18:20<1:00:17,  1.27s/it] 94%|█████████▍| 45988/48845 [16:18:21<1:00:13,  1.26s/it] 94%|█████████▍| 45989/48845 [16:18:23<1:00:08,  1.26s/it] 94%|█████████▍| 45990/48845 [16:18:24<1:00:07,  1.26s/it]                                                          {'loss': 2.2144, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45990/48845 [16:18:24<1:00:07,  1.26s/it] 94%|█████████▍| 45991/48845 [16:18:25<1:00:18,  1.27s/it] 94%|█████████▍| 45992/48845 [16:18:26<1:00:25,  1.27s/it] 94%|█████████▍| 45993/48845 [16:18:28<1:00:18,  1.27s/it] 94%|█████████▍| 45994/48845 [16:18:29<1:00:16,  1.27s/it] 94%|█████████▍| 45995/48845 [16:18:30<1:00:14,  1.27s/it]                                                          {'loss': 2.1145, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 45995/48845 [16:18:30<1:00:14,  1.27s/it] 94%|█████████▍| 45996/48845 [16:18:32<1:00:14,  1.27s/it] 94%|█████████▍| 45997/48845 [16:18:33<1:00:07,  1.27s/it] 94%|█████████▍| 45998/48845 [16:18:34<1:00:08,  1.27s/it] 94%|█████████▍| 45999/48845 [16:18:35<1:02:17,  1.31s/it] 94%|█████████▍| 46000/48845 [16:18:37<1:01:36,  1.30s/it]                                                          {'loss': 2.0689, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46000/48845 [16:18:37<1:01:36,  1.30s/it] 94%|█████████▍| 46001/48845 [16:18:41<1:37:21,  2.05s/it] 94%|█████████▍| 46002/48845 [16:18:42<1:26:05,  1.82s/it] 94%|█████████▍| 46003/48845 [16:18:43<1:18:11,  1.65s/it] 94%|█████████▍| 46004/48845 [16:18:44<1:12:39,  1.53s/it] 94%|█████████▍| 46005/48845 [16:18:46<1:08:45,  1.45s/it]                                                          {'loss': 1.9533, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46005/48845 [16:18:46<1:08:45,  1.45s/it] 94%|█████████▍| 46006/48845 [16:18:47<1:06:01,  1.40s/it] 94%|█████████▍| 46007/48845 [16:18:48<1:04:08,  1.36s/it] 94%|█████████▍| 46008/48845 [16:18:49<1:02:50,  1.33s/it] 94%|█████████▍| 46009/48845 [16:18:51<1:03:47,  1.35s/it] 94%|█████████▍| 46010/48845 [16:18:52<1:02:31,  1.32s/it]                                                          {'loss': 2.0069, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46010/48845 [16:18:52<1:02:31,  1.32s/it] 94%|█████████▍| 46011/48845 [16:18:53<1:01:38,  1.31s/it] 94%|█████████▍| 46012/48845 [16:18:55<1:01:11,  1.30s/it] 94%|█████████▍| 46013/48845 [16:18:56<1:02:04,  1.32s/it] 94%|█████████▍| 46014/48845 [16:18:57<1:01:19,  1.30s/it] 94%|█████████▍| 46015/48845 [16:18:58<1:00:46,  1.29s/it]                                                          {'loss': 2.0134, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46015/48845 [16:18:58<1:00:46,  1.29s/it] 94%|█████████▍| 46016/48845 [16:19:00<1:00:25,  1.28s/it] 94%|█████████▍| 46017/48845 [16:19:01<1:00:12,  1.28s/it] 94%|█████████▍| 46018/48845 [16:19:02<59:57,  1.27s/it]   94%|█████████▍| 46019/48845 [16:19:04<59:45,  1.27s/it] 94%|█████████▍| 46020/48845 [16:19:05<59:39,  1.27s/it]                                                        {'loss': 2.0967, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46020/48845 [16:19:05<59:39,  1.27s/it] 94%|█████████▍| 46021/48845 [16:19:06<59:43,  1.27s/it] 94%|█████████▍| 46022/48845 [16:19:07<59:36,  1.27s/it] 94%|█████████▍| 46023/48845 [16:19:09<59:33,  1.27s/it] 94%|█████████▍| 46024/48845 [16:19:10<59:30,  1.27s/it] 94%|█████████▍| 46025/48845 [16:19:11<59:40,  1.27s/it]                                                        {'loss': 2.0688, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46025/48845 [16:19:11<59:40,  1.27s/it] 94%|█████████▍| 46026/48845 [16:19:12<59:34,  1.27s/it] 94%|█████████▍| 46027/48845 [16:19:14<59:29,  1.27s/it] 94%|█████████▍| 46028/48845 [16:19:15<59:26,  1.27s/it] 94%|█████████▍| 46029/48845 [16:19:16<59:30,  1.27s/it] 94%|█████████▍| 46030/48845 [16:19:17<59:27,  1.27s/it]                                                        {'loss': 2.0466, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46030/48845 [16:19:17<59:27,  1.27s/it] 94%|█████████▍| 46031/48845 [16:19:19<59:25,  1.27s/it] 94%|█████████▍| 46032/48845 [16:19:20<59:21,  1.27s/it] 94%|█████████▍| 46033/48845 [16:19:21<1:01:21,  1.31s/it] 94%|█████████▍| 46034/48845 [16:19:23<1:00:41,  1.30s/it] 94%|█████████▍| 46035/48845 [16:19:24<1:00:11,  1.29s/it]                                                          {'loss': 2.0499, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46035/48845 [16:19:24<1:00:11,  1.29s/it] 94%|█████████▍| 46036/48845 [16:19:25<59:55,  1.28s/it]   94%|█████████▍| 46037/48845 [16:19:27<1:01:17,  1.31s/it] 94%|█████████▍| 46038/48845 [16:19:28<1:00:37,  1.30s/it] 94%|█████████▍| 46039/48845 [16:19:29<1:00:07,  1.29s/it] 94%|█████████▍| 46040/48845 [16:19:30<59:44,  1.28s/it]                                                          {'loss': 2.0845, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46040/48845 [16:19:30<59:44,  1.28s/it] 94%|█████████▍| 46041/48845 [16:19:32<1:01:38,  1.32s/it] 94%|█████████▍| 46042/48845 [16:19:33<1:00:51,  1.30s/it] 94%|█████████▍| 46043/48845 [16:19:34<1:00:18,  1.29s/it] 94%|█████████▍| 46044/48845 [16:19:36<59:54,  1.28s/it]   94%|█████████▍| 46045/48845 [16:19:37<59:40,  1.28s/it]                                                        {'loss': 2.097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46045/48845 [16:19:37<59:40,  1.28s/it] 94%|█████████▍| 46046/48845 [16:19:38<59:31,  1.28s/it] 94%|█████████▍| 46047/48845 [16:19:39<59:22,  1.27s/it] 94%|█████████▍| 46048/48845 [16:19:41<59:12,  1.27s/it] 94%|█████████▍| 46049/48845 [16:19:42<59:07,  1.27s/it] 94%|█████████▍| 46050/48845 [16:19:43<59:02,  1.27s/it]                                                        {'loss': 1.9814, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46050/48845 [16:19:43<59:02,  1.27s/it] 94%|█████████▍| 46051/48845 [16:19:44<58:58,  1.27s/it] 94%|█████████▍| 46052/48845 [16:19:46<58:54,  1.27s/it] 94%|█████████▍| 46053/48845 [16:19:47<58:57,  1.27s/it] 94%|████��████▍| 46054/48845 [16:19:48<58:54,  1.27s/it] 94%|█████████▍| 46055/48845 [16:19:49<58:49,  1.27s/it]                                                        {'loss': 1.9852, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46055/48845 [16:19:49<58:49,  1.27s/it] 94%|█████████▍| 46056/48845 [16:19:51<58:48,  1.27s/it] 94%|█████████▍| 46057/48845 [16:19:52<58:45,  1.26s/it] 94%|█████████▍| 46058/48845 [16:19:53<58:43,  1.26s/it] 94%|█████████▍| 46059/48845 [16:19:55<58:41,  1.26s/it] 94%|█████████▍| 46060/48845 [16:19:56<58:41,  1.26s/it]                                                        {'loss': 2.1232, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.71}
+ 94%|█████████▍| 46060/48845 [16:19:56<58:41,  1.26s/it] 94%|█████████▍| 46061/48845 [16:19:57<58:48,  1.27s/it] 94%|█████████▍| 46062/48845 [16:19:58<58:45,  1.27s/it] 94%|█████████▍| 46063/48845 [16:20:00<58:41,  1.27s/it] 94%|█████████▍| 46064/48845 [16:20:01<58:40,  1.27s/it] 94%|█████████▍| 46065/48845 [16:20:02<58:38,  1.27s/it]                                                        {'loss': 2.0608, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46065/48845 [16:20:02<58:38,  1.27s/it] 94%|█████████▍| 46066/48845 [16:20:03<58:38,  1.27s/it] 94%|█████████▍| 46067/48845 [16:20:05<58:39,  1.27s/it] 94%|█████████▍| 46068/48845 [16:20:06<58:35,  1.27s/it] 94%|█████████▍| 46069/48845 [16:20:07<58:40,  1.27s/it] 94%|█████████▍| 46070/48845 [16:20:08<58:36,  1.27s/it]                                                        {'loss': 2.135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46070/48845 [16:20:08<58:36,  1.27s/it] 94%|█████████▍| 46071/48845 [16:20:10<58:37,  1.27s/it] 94%|█████████▍| 46072/48845 [16:20:11<58:34,  1.27s/it] 94%|█████████▍| 46073/48845 [16:20:12<58:31,  1.27s/it] 94%|█████████▍| 46074/48845 [16:20:14<58:28,  1.27s/it] 94%|█████████▍| 46075/48845 [16:20:15<58:26,  1.27s/it]                                                        {'loss': 2.0884, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46075/48845 [16:20:15<58:26,  1.27s/it] 94%|█████████▍| 46076/48845 [16:20:16<58:28,  1.27s/it] 94%|█████████▍| 46077/48845 [16:20:17<58:21,  1.27s/it] 94%|█████████▍| 46078/48845 [16:20:19<58:18,  1.26s/it] 94%|█████████▍| 46079/48845 [16:20:20<58:17,  1.26s/it] 94%|█████████▍| 46080/48845 [16:20:21<58:17,  1.27s/it]                                                        {'loss': 2.0298, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46080/48845 [16:20:21<58:17,  1.27s/it] 94%|█████████▍| 46081/48845 [16:20:22<58:23,  1.27s/it] 94%|█████████▍| 46082/48845 [16:20:24<58:16,  1.27s/it] 94%|█████████▍| 46083/48845 [16:20:25<58:14,  1.27s/it] 94%|█████████▍| 46084/48845 [16:20:26<58:13,  1.27s/it] 94%|█████████▍| 46085/48845 [16:20:28<1:00:12,  1.31s/it]                                                          {'loss': 2.221, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46085/48845 [16:20:28<1:00:12,  1.31s/it] 94%|█████████▍| 46086/48845 [16:20:29<59:33,  1.30s/it]   94%|█████████▍| 46087/48845 [16:20:30<59:07,  1.29s/it] 94%|█████████▍| 46088/48845 [16:20:31<58:50,  1.28s/it] 94%|█████████▍| 46089/48845 [16:20:33<58:43,  1.28s/it] 94%|█████████▍| 46090/48845 [16:20:34<58:31,  1.27s/it]                                                        {'loss': 2.1096, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46090/48845 [16:20:34<58:31,  1.27s/it] 94%|█████████▍| 46091/48845 [16:20:35<58:23,  1.27s/it] 94%|█████████▍| 46092/48845 [16:20:36<58:14,  1.27s/it] 94%|█████████▍| 46093/48845 [16:20:38<58:11,  1.27s/it] 94%|█████████▍| 46094/48845 [16:20:39<58:09,  1.27s/it] 94%|█████████▍| 46095/48845 [16:20:40<58:03,  1.27s/it]                                                        {'loss': 2.0992, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46095/48845 [16:20:40<58:03,  1.27s/it] 94%|████���████▍| 46096/48845 [16:20:42<58:02,  1.27s/it] 94%|█████████▍| 46097/48845 [16:20:43<58:02,  1.27s/it] 94%|█████████▍| 46098/48845 [16:20:44<57:59,  1.27s/it] 94%|█████████▍| 46099/48845 [16:20:45<57:59,  1.27s/it] 94%|█████████▍| 46100/48845 [16:20:47<57:56,  1.27s/it]                                                        {'loss': 1.9588, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46100/48845 [16:20:47<57:56,  1.27s/it] 94%|█████████▍| 46101/48845 [16:20:48<58:01,  1.27s/it] 94%|█████████▍| 46102/48845 [16:20:49<57:58,  1.27s/it] 94%|█████████▍| 46103/48845 [16:20:50<57:53,  1.27s/it] 94%|█████████▍| 46104/48845 [16:20:52<57:49,  1.27s/it] 94%|█████████▍| 46105/48845 [16:20:53<57:50,  1.27s/it]                                                        {'loss': 2.03, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46105/48845 [16:20:53<57:50,  1.27s/it] 94%|█████████▍| 46106/48845 [16:20:54<57:48,  1.27s/it] 94%|█████████▍| 46107/48845 [16:20:55<57:43,  1.27s/it] 94%|█████████▍| 46108/48845 [16:20:57<57:44,  1.27s/it] 94%|█████████▍| 46109/48845 [16:20:58<57:45,  1.27s/it] 94%|█████████▍| 46110/48845 [16:20:59<57:40,  1.27s/it]                                                        {'loss': 2.0554, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46110/48845 [16:20:59<57:40,  1.27s/it] 94%|█████████▍| 46111/48845 [16:21:01<57:37,  1.26s/it] 94%|█████████▍| 46112/48845 [16:21:02<57:36,  1.26s/it] 94%|█████████▍| 46113/48845 [16:21:03<57:35,  1.26s/it] 94%|█████████▍| 46114/48845 [16:21:04<57:31,  1.26s/it] 94%|█████████▍| 46115/48845 [16:21:06<57:28,  1.26s/it]                                                        {'loss': 1.977, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46115/48845 [16:21:06<57:28,  1.26s/it] 94%|█████████▍| 46116/48845 [16:21:07<57:29,  1.26s/it] 94%|█████████▍| 46117/48845 [16:21:08<57:31,  1.27s/it] 94%|█████████▍| 46118/48845 [16:21:09<57:33,  1.27s/it] 94%|█████████▍| 46119/48845 [16:21:11<57:30,  1.27s/it] 94%|█████████▍| 46120/48845 [16:21:12<57:28,  1.27s/it]                                                        {'loss': 1.9783, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46120/48845 [16:21:12<57:28,  1.27s/it] 94%|█████████▍| 46121/48845 [16:21:13<57:40,  1.27s/it] 94%|█████████▍| 46122/48845 [16:21:14<57:33,  1.27s/it] 94%|█████████▍| 46123/48845 [16:21:16<57:29,  1.27s/it] 94%|█████████▍| 46124/48845 [16:21:17<57:27,  1.27s/it] 94%|█████████▍| 46125/48845 [16:21:18<57:30,  1.27s/it]                                                        {'loss': 2.0303, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46125/48845 [16:21:18<57:30,  1.27s/it] 94%|█████████▍| 46126/48845 [16:21:20<57:30,  1.27s/it] 94%|█████████▍| 46127/48845 [16:21:21<57:27,  1.27s/it] 94%|█████████▍| 46128/48845 [16:21:22<57:25,  1.27s/it] 94%|█████████▍| 46129/48845 [16:21:23<57:22,  1.27s/it] 94%|█████████▍| 46130/48845 [16:21:25<57:19,  1.27s/it]                                                        {'loss': 2.0379, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46130/48845 [16:21:25<57:19,  1.27s/it] 94%|█████████▍| 46131/48845 [16:21:26<57:22,  1.27s/it] 94%|█████████▍| 46132/48845 [16:21:27<57:19,  1.27s/it] 94%|█████████▍| 46133/48845 [16:21:28<57:18,  1.27s/it] 94%|█████████▍| 46134/48845 [16:21:30<57:14,  1.27s/it] 94%|█████████▍| 46135/48845 [16:21:31<57:09,  1.27s/it]                                                        {'loss': 1.9693, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46135/48845 [16:21:31<57:09,  1.27s/it] 94%|█████████▍| 46136/48845 [16:21:32<57:17,  1.27s/it] 94%|█████████▍| 46137/48845 [16:21:33<57:15,  1.27s/it] 94%|█████████▍| 46138/48845 [16:21:35<57:14,  1.27s/it] 94%|█████████▍| 46139/48845 [16:21:36<57:09,  1.27s/it] 94%|█████████▍| 46140/48845 [16:21:37<57:02,  1.27s/it]                                                        {'loss': 2.032, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46140/48845 [16:21:37<57:02,  1.27s/it] 94%|█████████▍| 46141/48845 [16:21:39<57:03,  1.27s/it] 94%|█████████▍| 46142/48845 [16:21:40<57:02,  1.27s/it] 94%|█████████▍| 46143/48845 [16:21:41<57:01,  1.27s/it] 94%|█████████▍| 46144/48845 [16:21:42<56:57,  1.27s/it] 94%|█████████▍| 46145/48845 [16:21:44<57:02,  1.27s/it]                                                        {'loss': 2.1191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46145/48845 [16:21:44<57:02,  1.27s/it] 94%|█████████▍| 46146/48845 [16:21:45<57:02,  1.27s/it] 94%|█████████▍| 46147/48845 [16:21:46<57:01,  1.27s/it] 94%|█████████▍| 46148/48845 [16:21:47<56:56,  1.27s/it] 94%|█████████▍| 46149/48845 [16:21:49<56:59,  1.27s/it] 94%|█████████▍| 46150/48845 [16:21:50<56:55,  1.27s/it]                                                        {'loss': 2.069, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46150/48845 [16:21:50<56:55,  1.27s/it] 94%|█████████▍| 46151/48845 [16:21:51<56:54,  1.27s/it] 94%|█████████▍| 46152/48845 [16:21:52<56:53,  1.27s/it] 94%|█████████▍| 46153/48845 [16:21:54<57:02,  1.27s/it] 94%|█████████▍| 46154/48845 [16:21:55<56:55,  1.27s/it] 94%|█████████▍| 46155/48845 [16:21:56<56:50,  1.27s/it]                                                        {'loss': 1.9546, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.72}
+ 94%|█████████▍| 46155/48845 [16:21:56<56:50,  1.27s/it] 94%|█████████▍| 46156/48845 [16:21:58<56:51,  1.27s/it] 94%|█████████▍| 46157/48845 [16:21:59<56:47,  1.27s/it] 94%|█████████▍| 46158/48845 [16:22:00<56:43,  1.27s/it] 95%|█████████▍| 46159/48845 [16:22:01<56:44,  1.27s/it] 95%|█████████▍| 46160/48845 [16:22:03<56:39,  1.27s/it]                                                        {'loss': 1.9934, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46160/48845 [16:22:03<56:39,  1.27s/it] 95%|█████████▍| 46161/48845 [16:22:04<56:45,  1.27s/it] 95%|█████████▍| 46162/48845 [16:22:05<56:41,  1.27s/it] 95%|█████████▍| 46163/48845 [16:22:06<56:38,  1.27s/it] 95%|█████████▍| 46164/48845 [16:22:08<56:35,  1.27s/it] 95%|█████████▍| 46165/48845 [16:22:09<58:08,  1.30s/it]                                                        {'loss': 2.0713, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46165/48845 [16:22:09<58:08,  1.30s/it] 95%|█████████▍| 46166/48845 [16:22:10<57:36,  1.29s/it] 95%|█████████▍| 46167/48845 [16:22:12<57:17,  1.28s/it] 95%|█████████▍| 46168/48845 [16:22:13<57:00,  1.28s/it] 95%|█████████▍| 46169/48845 [16:22:14<56:49,  1.27s/it] 95%|█████████▍| 46170/48845 [16:22:15<56:39,  1.27s/it]                                                        {'loss': 2.0228, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46170/48845 [16:22:15<56:39,  1.27s/it] 95%|█████████▍| 46171/48845 [16:22:17<56:38,  1.27s/it] 95%|█████████▍| 46172/48845 [16:22:18<56:30,  1.27s/it] 95%|█████████▍| 46173/48845 [16:22:19<56:27,  1.27s/it] 95%|█████████▍| 46174/48845 [16:22:20<56:23,  1.27s/it] 95%|█████████▍| 46175/48845 [16:22:22<56:22,  1.27s/it]                                                        {'loss': 2.015, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46175/48845 [16:22:22<56:22,  1.27s/it] 95%|█████████▍| 46176/48845 [16:22:23<56:19,  1.27s/it] 95%|█████████▍| 46177/48845 [16:22:24<56:21,  1.27s/it] 95%|█████████▍| 46178/48845 [16:22:26<56:17,  1.27s/it] 95%|█████████▍| 46179/48845 [16:22:27<56:14,  1.27s/it] 95%|█████████▍| 46180/48845 [16:22:28<56:14,  1.27s/it]                                                        {'loss': 2.1309, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46180/48845 [16:22:28<56:14,  1.27s/it] 95%|█████████▍| 46181/48845 [16:22:29<56:14,  1.27s/it] 95%|█████████▍| 46182/48845 [16:22:31<56:10,  1.27s/it] 95%|██���██████▍| 46183/48845 [16:22:32<56:08,  1.27s/it] 95%|█████████▍| 46184/48845 [16:22:33<56:06,  1.27s/it] 95%|█████████▍| 46185/48845 [16:22:34<56:06,  1.27s/it]                                                        {'loss': 2.2136, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46185/48845 [16:22:34<56:06,  1.27s/it] 95%|█████████▍| 46186/48845 [16:22:36<56:05,  1.27s/it] 95%|█████████▍| 46187/48845 [16:22:37<56:10,  1.27s/it] 95%|█████████▍| 46188/48845 [16:22:38<56:08,  1.27s/it] 95%|█████████▍| 46189/48845 [16:22:40<56:52,  1.28s/it] 95%|█████████▍| 46190/48845 [16:22:41<56:35,  1.28s/it]                                                        {'loss': 2.0483, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46190/48845 [16:22:41<56:35,  1.28s/it] 95%|█████████▍| 46191/48845 [16:22:42<56:25,  1.28s/it] 95%|█████████▍| 46192/48845 [16:22:43<56:17,  1.27s/it] 95%|█████████▍| 46193/48845 [16:22:45<56:11,  1.27s/it] 95%|█████████▍| 46194/48845 [16:22:46<56:05,  1.27s/it] 95%|█████████▍| 46195/48845 [16:22:47<56:01,  1.27s/it]                                                        {'loss': 2.0542, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46195/48845 [16:22:47<56:01,  1.27s/it] 95%|█████████▍| 46196/48845 [16:22:48<56:00,  1.27s/it] 95%|█████████▍| 46197/48845 [16:22:50<57:01,  1.29s/it] 95%|█████████▍| 46198/48845 [16:22:51<56:43,  1.29s/it] 95%|█████████▍| 46199/48845 [16:22:52<56:26,  1.28s/it] 95%|█████████▍| 46200/48845 [16:22:54<56:16,  1.28s/it]                                                        {'loss': 2.0119, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46200/48845 [16:22:54<56:16,  1.28s/it] 95%|█████████▍| 46201/48845 [16:22:57<1:29:34,  2.03s/it] 95%|█████████▍| 46202/48845 [16:22:59<1:19:22,  1.80s/it] 95%|█████████▍| 46203/48845 [16:23:00<1:13:28,  1.67s/it] 95%|█████████▍| 46204/48845 [16:23:01<1:08:06,  1.55s/it] 95%|█████████▍| 46205/48845 [16:23:02<1:04:20,  1.46s/it]                                                          {'loss': 2.0211, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46205/48845 [16:23:02<1:04:20,  1.46s/it] 95%|█████████▍| 46206/48845 [16:23:04<1:01:41,  1.40s/it] 95%|█████████▍| 46207/48845 [16:23:05<59:47,  1.36s/it]   95%|█████████▍| 46208/48845 [16:23:06<58:30,  1.33s/it] 95%|█████████▍| 46209/48845 [16:23:08<57:33,  1.31s/it] 95%|█████████▍| 46210/48845 [16:23:09<56:52,  1.30s/it]                                                        {'loss': 2.218, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46210/48845 [16:23:09<56:52,  1.30s/it] 95%|█████████▍| 46211/48845 [16:23:10<56:28,  1.29s/it] 95%|█████████▍| 46212/48845 [16:23:11<56:08,  1.28s/it] 95%|█████████▍| 46213/48845 [16:23:13<55:56,  1.28s/it] 95%|█████████▍| 46214/48845 [16:23:14<55:44,  1.27s/it] 95%|█████████▍| 46215/48845 [16:23:15<57:10,  1.30s/it]                                                        {'loss': 2.1312, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46215/48845 [16:23:15<57:10,  1.30s/it] 95%|█████████▍| 46216/48845 [16:23:17<56:42,  1.29s/it] 95%|█████████▍| 46217/48845 [16:23:18<56:18,  1.29s/it] 95%|█████████▍| 46218/48845 [16:23:19<56:00,  1.28s/it] 95%|█████████▍| 46219/48845 [16:23:20<58:03,  1.33s/it] 95%|█████████▍| 46220/48845 [16:23:22<57:11,  1.31s/it]                                                        {'loss': 2.2671, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46220/48845 [16:23:22<57:11,  1.31s/it] 95%|█████████▍| 46221/48845 [16:23:23<56:35,  1.29s/it] 95%|█████████▍| 46222/48845 [16:23:24<56:08,  1.28s/it] 95%|█████████▍| 46223/48845 [16:23:26<55:54,  1.28s/it] 95%|█████████▍| 46224/48845 [16:23:27<55:41,  1.27s/it] 95%|█████████▍| 46225/48845 [16:23:28<55:28,  1.27s/it]                                                        {'loss': 2.4969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46225/48845 [16:23:28<55:28,  1.27s/it] 95%|█████████▍| 46226/48845 [16:23:29<55:21,  1.27s/it] 95%|█████████▍| 46227/48845 [16:23:31<55:18,  1.27s/it] 95%|█████████▍| 46228/48845 [16:23:32<55:13,  1.27s/it] 95%|█████████▍| 46229/48845 [16:23:33<55:11,  1.27s/it] 95%|█████████▍| 46230/48845 [16:23:34<55:08,  1.27s/it]                                                        {'loss': 2.0477, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46230/48845 [16:23:34<55:08,  1.27s/it] 95%|█████████▍| 46231/48845 [16:23:36<55:15,  1.27s/it] 95%|█████████▍| 46232/48845 [16:23:37<55:11,  1.27s/it] 95%|█████████▍| 46233/48845 [16:23:38<55:05,  1.27s/it] 95%|█████████▍| 46234/48845 [16:23:39<55:06,  1.27s/it] 95%|█████████▍| 46235/48845 [16:23:41<55:03,  1.27s/it]                                                        {'loss': 2.2887, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46235/48845 [16:23:41<55:03,  1.27s/it] 95%|█████████▍| 46236/48845 [16:23:42<54:59,  1.26s/it] 95%|█████████▍| 46237/48845 [16:23:43<54:57,  1.26s/it] 95%|█████████▍| 46238/48845 [16:23:44<54:52,  1.26s/it] 95%|█████████▍| 46239/48845 [16:23:46<54:56,  1.26s/it] 95%|█████████▍| 46240/48845 [16:23:47<54:56,  1.27s/it]                                                        {'loss': 1.9779, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46240/48845 [16:23:47<54:56,  1.27s/it] 95%|█████████▍| 46241/48845 [16:23:48<54:55,  1.27s/it] 95%|█████████▍| 46242/48845 [16:23:50<54:57,  1.27s/it] 95%|█████████▍| 46243/48845 [16:23:51<54:57,  1.27s/it] 95%|█████████▍| 46244/48845 [16:23:52<54:51,  1.27s/it] 95%|█████████▍| 46245/48845 [16:23:53<54:51,  1.27s/it]                                                        {'loss': 2.2632, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46245/48845 [16:23:53<54:51,  1.27s/it] 95%|█████████▍| 46246/48845 [16:23:55<54:50,  1.27s/it] 95%|█████████▍| 46247/48845 [16:23:56<54:51,  1.27s/it] 95%|█████████▍| 46248/48845 [16:23:57<54:48,  1.27s/it] 95%|█████████▍| 46249/48845 [16:23:58<54:45,  1.27s/it] 95%|█████████▍| 46250/48845 [16:24:00<54:43,  1.27s/it]                                                        {'loss': 2.0028, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46250/48845 [16:24:00<54:43,  1.27s/it] 95%|█████████▍| 46251/48845 [16:24:01<56:13,  1.30s/it] 95%|█████████▍| 46252/48845 [16:24:02<55:45,  1.29s/it] 95%|█████████▍| 46253/48845 [16:24:04<55:25,  1.28s/it] 95%|█████████▍| 46254/48845 [16:24:05<55:09,  1.28s/it] 95%|█████████▍| 46255/48845 [16:24:06<55:02,  1.28s/it]                                                        {'loss': 2.1009, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.73}
+ 95%|█████████▍| 46255/48845 [16:24:06<55:02,  1.28s/it] 95%|█████████▍| 46256/48845 [16:24:07<54:53,  1.27s/it] 95%|█████████▍| 46257/48845 [16:24:09<54:54,  1.27s/it] 95%|█████████▍| 46258/48845 [16:24:10<54:45,  1.27s/it] 95%|█████████▍| 46259/48845 [16:24:11<54:40,  1.27s/it] 95%|█████████▍| 46260/48845 [16:24:12<54:39,  1.27s/it]                                                        {'loss': 2.1033, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46260/48845 [16:24:12<54:39,  1.27s/it] 95%|█████████▍| 46261/48845 [16:24:14<54:33,  1.27s/it] 95%|█████████▍| 46262/48845 [16:24:15<54:27,  1.27s/it] 95%|█████████▍| 46263/48845 [16:24:16<54:28,  1.27s/it] 95%|█████████▍| 46264/48845 [16:24:18<54:28,  1.27s/it] 95%|█████████▍| 46265/48845 [16:24:19<54:26,  1.27s/it]                                                        {'loss': 2.1565, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46265/48845 [16:24:19<54:26,  1.27s/it] 95%|█████████▍| 46266/48845 [16:24:20<54:34,  1.27s/it] 95%|█████████▍| 46267/48845 [16:24:21<54:28,  1.27s/it] 95%|█████████▍| 46268/48845 [16:24:23<54:23,  1.27s/it] 95%|█████████▍| 46269/48845 [16:24:24<54:23,  1.27s/it] 95%|█████████▍| 46270/48845 [16:24:25<54:22,  1.27s/it]                                                        {'loss': 2.0645, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46270/48845 [16:24:25<54:22,  1.27s/it] 95%|█████████▍| 46271/48845 [16:24:26<54:22,  1.27s/it] 95%|█████████▍| 46272/48845 [16:24:28<54:20,  1.27s/it] 95%|█████████▍| 46273/48845 [16:24:29<54:15,  1.27s/it] 95%|█████████▍| 46274/48845 [16:24:30<54:12,  1.27s/it] 95%|█████████▍| 46275/48845 [16:24:31<54:13,  1.27s/it]                                                        {'loss': 2.0612, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46275/48845 [16:24:31<54:13,  1.27s/it] 95%|█████████▍| 46276/48845 [16:24:33<54:12,  1.27s/it] 95%|█████████▍| 46277/48845 [16:24:34<54:09,  1.27s/it] 95%|█████████▍| 46278/48845 [16:24:35<54:04,  1.26s/it] 95%|█████████▍| 46279/48845 [16:24:37<55:28,  1.30s/it] 95%|█████████▍| 46280/48845 [16:24:38<55:03,  1.29s/it]                                                        {'loss': 2.0644, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46280/48845 [16:24:38<55:03,  1.29s/it] 95%|█████████▍| 46281/48845 [16:24:39<54:52,  1.28s/it] 95%|█████████▍| 46282/48845 [16:24:40<54:35,  1.28s/it] 95%|█████████▍| 46283/48845 [16:24:42<54:25,  1.27s/it] 95%|█████████▍| 46284/48845 [16:24:43<54:17,  1.27s/it] 95%|█████████▍| 46285/48845 [16:24:44<54:07,  1.27s/it]                                                        {'loss': 2.0746, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46285/48845 [16:24:44<54:07,  1.27s/it] 95%|█████████▍| 46286/48845 [16:24:45<54:03,  1.27s/it] 95%|█████████▍| 46287/48845 [16:24:47<54:03,  1.27s/it] 95%|█████████▍| 46288/48845 [16:24:48<54:01,  1.27s/it] 95%|█████████▍| 46289/48845 [16:24:49<53:56,  1.27s/it] 95%|█████████▍| 46290/48845 [16:24:51<53:54,  1.27s/it]                                                        {'loss': 2.2044, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46290/48845 [16:24:51<53:54,  1.27s/it] 95%|█████████▍| 46291/48845 [16:24:52<54:13,  1.27s/it] 95%|█████████▍| 46292/48845 [16:24:53<54:05,  1.27s/it] 95%|█████████▍| 46293/48845 [16:24:54<53:59,  1.27s/it] 95%|█████████▍| 46294/48845 [16:24:56<53:54,  1.27s/it] 95%|█████████▍| 46295/48845 [16:24:57<53:50,  1.27s/it]                                                        {'loss': 1.9748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46295/48845 [16:24:57<53:50,  1.27s/it] 95%|█████████▍| 46296/48845 [16:24:58<53:45,  1.27s/it] 95%|█████████▍| 46297/48845 [16:24:59<53:41,  1.26s/it] 95%|█████████▍| 46298/48845 [16:25:01<53:38,  1.26s/it] 95%|█████████▍| 46299/48845 [16:25:02<53:37,  1.26s/it] 95%|█████████▍| 46300/48845 [16:25:03<53:35,  1.26s/it]                                                        {'loss': 2.2604, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46300/48845 [16:25:03<53:35,  1.26s/it] 95%|█████████▍| 46301/48845 [16:25:04<53:34,  1.26s/it] 95%|█████████▍| 46302/48845 [16:25:06<53:38,  1.27s/it] 95%|█████████▍| 46303/48845 [16:25:07<53:38,  1.27s/it] 95%|█████████▍| 46304/48845 [16:25:08<53:35,  1.27s/it] 95%|█████████▍| 46305/48845 [16:25:10<53:30,  1.26s/it]                                                        {'loss': 2.0501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46305/48845 [16:25:10<53:30,  1.26s/it] 95%|█████████▍| 46306/48845 [16:25:11<53:38,  1.27s/it] 95%|█████████▍| 46307/48845 [16:25:12<53:35,  1.27s/it] 95%|█████████▍| 46308/48845 [16:25:13<53:31,  1.27s/it] 95%|█████████▍| 46309/48845 [16:25:15<53:27,  1.26s/it] 95%|█████████▍| 46310/48845 [16:25:16<53:21,  1.26s/it]                                                        {'loss': 2.1003, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46310/48845 [16:25:16<53:21,  1.26s/it] 95%|█████████▍| 46311/48845 [16:25:17<53:20,  1.26s/it] 95%|█████████▍| 46312/48845 [16:25:18<53:18,  1.26s/it] 95%|█████████▍| 46313/48845 [16:25:20<53:18,  1.26s/it] 95%|█████████▍| 46314/48845 [16:25:21<53:17,  1.26s/it] 95%|█████████▍| 46315/48845 [16:25:22<53:15,  1.26s/it]                                                        {'loss': 2.1041, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46315/48845 [16:25:22<53:15,  1.26s/it] 95%|█████████▍| 46316/48845 [16:25:23<53:10,  1.26s/it] 95%|█████████▍| 46317/48845 [16:25:25<53:15,  1.26s/it] 95%|█████████▍| 46318/48845 [16:25:26<53:11,  1.26s/it] 95%|█████████▍| 46319/48845 [16:25:27<53:15,  1.26s/it] 95%|█████████▍| 46320/48845 [16:25:29<53:10,  1.26s/it]                                                        {'loss': 2.1441, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46320/48845 [16:25:29<53:10,  1.26s/it] 95%|█████████▍| 46321/48845 [16:25:30<54:51,  1.30s/it] 95%|█████████▍| 46322/48845 [16:25:31<54:23,  1.29s/it] 95%|█████████▍| 46323/48845 [16:25:32<53:56,  1.28s/it] 95%|█████████▍| 46324/48845 [16:25:34<53:37,  1.28s/it] 95%|█████████▍| 46325/48845 [16:25:35<53:25,  1.27s/it]                                                        {'loss': 2.0865, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46325/48845 [16:25:35<53:25,  1.27s/it] 95%|█████████▍| 46326/48845 [16:25:36<53:18,  1.27s/it] 95%|█████████▍| 46327/48845 [16:25:37<53:16,  1.27s/it] 95%|█████████▍| 46328/48845 [16:25:39<53:12,  1.27s/it] 95%|█████████▍| 46329/48845 [16:25:40<53:10,  1.27s/it] 95%|█████████▍| 46330/48845 [16:25:41<53:05,  1.27s/it]                                                        {'loss': 1.8941, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46330/48845 [16:25:41<53:05,  1.27s/it] 95%|█████████▍| 46331/48845 [16:25:43<53:08,  1.27s/it] 95%|█████████▍| 46332/48845 [16:25:44<53:03,  1.27s/it] 95%|█████████▍| 46333/48845 [16:25:45<53:02,  1.27s/it] 95%|█████████▍| 46334/48845 [16:25:46<52:59,  1.27s/it] 95%|█████████▍| 46335/48845 [16:25:48<52:57,  1.27s/it]                                                        {'loss': 1.949, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46335/48845 [16:25:48<52:57,  1.27s/it] 95%|█████████▍| 46336/48845 [16:25:49<52:56,  1.27s/it] 95%|█████████▍| 46337/48845 [16:25:50<52:55,  1.27s/it] 95%|█████████▍| 46338/48845 [16:25:51<52:49,  1.26s/it] 95%|█████████▍| 46339/48845 [16:25:53<52:48,  1.26s/it] 95%|█████████▍| 46340/48845 [16:25:54<52:46,  1.26s/it]                                                        {'loss': 1.9667, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46340/48845 [16:25:54<52:46,  1.26s/it] 95%|█████████▍| 46341/48845 [16:25:55<53:57,  1.29s/it] 95%|█████████▍| 46342/48845 [16:25:57<53:36,  1.28s/it] 95%|█████████▍| 46343/48845 [16:25:58<53:15,  1.28s/it] 95%|█████████▍| 46344/48845 [16:25:59<53:05,  1.27s/it] 95%|█████████▍| 46345/48845 [16:26:00<54:31,  1.31s/it]                                                        {'loss': 2.0535, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46345/48845 [16:26:00<54:31,  1.31s/it] 95%|█████████▍| 46346/48845 [16:26:02<53:55,  1.29s/it] 95%|█████████▍| 46347/48845 [16:26:03<53:32,  1.29s/it] 95%|█████████▍| 46348/48845 [16:26:04<53:16,  1.28s/it] 95%|█████████▍| 46349/48845 [16:26:06<54:01,  1.30s/it] 95%|█████████▍| 46350/48845 [16:26:07<53:34,  1.29s/it]                                                        {'loss': 2.1038, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.74}
+ 95%|█████████▍| 46350/48845 [16:26:07<53:34,  1.29s/it] 95%|█████████▍| 46351/48845 [16:26:08<53:13,  1.28s/it] 95%|█████████▍| 46352/48845 [16:26:09<52:57,  1.27s/it] 95%|█████████▍| 46353/48845 [16:26:11<54:23,  1.31s/it] 95%|█████████▍| 46354/48845 [16:26:12<53:47,  1.30s/it] 95%|█████████▍| 46355/48845 [16:26:13<53:22,  1.29s/it]                                                        {'loss': 2.1186, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46355/48845 [16:26:13<53:22,  1.29s/it] 95%|█████████▍| 46356/48845 [16:26:15<53:07,  1.28s/it] 95%|█████████▍| 46357/48845 [16:26:16<52:56,  1.28s/it] 95%|█████████▍| 46358/48845 [16:26:17<52:46,  1.27s/it] 95%|█████████▍| 46359/48845 [16:26:18<52:40,  1.27s/it] 95%|█████████▍| 46360/48845 [16:26:20<52:33,  1.27s/it]                                                        {'loss': 1.9832, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46360/48845 [16:26:20<52:33,  1.27s/it] 95%|█████████▍| 46361/48845 [16:26:21<52:31,  1.27s/it] 95%|█████████▍| 46362/48845 [16:26:22<52:27,  1.27s/it] 95%|█████████▍| 46363/48845 [16:26:23<52:23,  1.27s/it] 95%|█████████▍| 46364/48845 [16:26:25<52:20,  1.27s/it] 95%|█████████▍| 46365/48845 [16:26:26<52:19,  1.27s/it]                                                        {'loss': 1.9869, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46365/48845 [16:26:26<52:19,  1.27s/it] 95%|█████████▍| 46366/48845 [16:26:27<52:18,  1.27s/it] 95%|█████████▍| 46367/48845 [16:26:29<52:14,  1.27s/it] 95%|█████████▍| 46368/48845 [16:26:30<52:12,  1.26s/it] 95%|█████████▍| 46369/48845 [16:26:31<52:13,  1.27s/it] 95%|█████████▍| 46370/48845 [16:26:32<52:12,  1.27s/it]                                                        {'loss': 1.9338, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46370/48845 [16:26:32<52:12,  1.27s/it] 95%|█████████▍| 46371/48845 [16:26:34<52:13,  1.27s/it] 95%|█████████▍| 46372/48845 [16:26:35<52:11,  1.27s/it] 95%|█████████▍| 46373/48845 [16:26:36<52:10,  1.27s/it] 95%|█████████▍| 46374/48845 [16:26:37<52:07,  1.27s/it] 95%|█████████▍| 46375/48845 [16:26:39<52:04,  1.26s/it]                                                        {'loss': 2.2113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46375/48845 [16:26:39<52:04,  1.26s/it] 95%|█████████▍| 46376/48845 [16:26:40<52:09,  1.27s/it] 95%|█████████▍| 46377/48845 [16:26:41<52:09,  1.27s/it] 95%|█████████▍| 46378/48845 [16:26:42<52:06,  1.27s/it] 95%|█████████▍| 46379/48845 [16:26:44<52:00,  1.27s/it] 95%|█████████▍| 46380/48845 [16:26:45<51:56,  1.26s/it]                                                        {'loss': 2.0679, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46380/48845 [16:26:45<51:56,  1.26s/it] 95%|█████████▍| 46381/48845 [16:26:46<52:08,  1.27s/it] 95%|█████████▍| 46382/48845 [16:26:48<52:01,  1.27s/it] 95%|█████████▍| 46383/48845 [16:26:49<52:01,  1.27s/it] 95%|█████████▍| 46384/48845 [16:26:50<51:56,  1.27s/it] 95%|█████████▍| 46385/48845 [16:26:51<51:53,  1.27s/it]                                                        {'loss': 2.292, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46385/48845 [16:26:51<51:53,  1.27s/it] 95%|█████████▍| 46386/48845 [16:26:53<51:50,  1.27s/it] 95%|█████████▍| 46387/48845 [16:26:54<51:47,  1.26s/it] 95%|█████████▍| 46388/48845 [16:26:55<51:47,  1.26s/it] 95%|█████████▍| 46389/48845 [16:26:56<53:11,  1.30s/it] 95%|█████████▍| 46390/48845 [16:26:58<52:42,  1.29s/it]                                                        {'loss': 1.9583, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46390/48845 [16:26:58<52:42,  1.29s/it] 95%|█████████▍| 46391/48845 [16:26:59<52:25,  1.28s/it] 95%|█████████▍| 46392/48845 [16:27:00<52:12,  1.28s/it] 95%|█████████▍| 46393/48845 [16:27:02<52:44,  1.29s/it] 95%|█████████▍| 46394/48845 [16:27:03<52:27,  1.28s/it] 95%|█████████▍| 46395/48845 [16:27:04<52:09,  1.28s/it]                                                        {'loss': 2.2992, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46395/48845 [16:27:04<52:09,  1.28s/it] 95%|█████████▍| 46396/48845 [16:27:05<52:00,  1.27s/it] 95%|█████████▍| 46397/48845 [16:27:07<53:19,  1.31s/it] 95%|█████████▍| 46398/48845 [16:27:08<52:48,  1.29s/it] 95%|█████████▍| 46399/48845 [16:27:09<52:22,  1.28s/it] 95%|█████████▍| 46400/48845 [16:27:11<52:07,  1.28s/it]                                                        {'loss': 2.0602, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▍| 46400/48845 [16:27:11<52:07,  1.28s/it] 95%|█████████▍| 46401/48845 [16:27:14<1:24:07,  2.07s/it] 95%|█████████▍| 46402/48845 [16:27:16<1:14:15,  1.82s/it] 95%|█████████▌| 46403/48845 [16:27:17<1:07:22,  1.66s/it] 95%|█████████▌| 46404/48845 [16:27:18<1:02:31,  1.54s/it] 95%|█████████▌| 46405/48845 [16:27:20<59:08,  1.45s/it]                                                          {'loss': 2.273, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46405/48845 [16:27:20<59:08,  1.45s/it] 95%|█████████▌| 46406/48845 [16:27:21<56:48,  1.40s/it] 95%|█████████▌| 46407/48845 [16:27:22<55:28,  1.37s/it] 95%|█████████▌| 46408/48845 [16:27:23<54:13,  1.34s/it] 95%|█████████▌| 46409/48845 [16:27:25<53:19,  1.31s/it] 95%|█████████▌| 46410/48845 [16:27:26<52:41,  1.30s/it]                                                        {'loss': 2.0155, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46410/48845 [16:27:26<52:41,  1.30s/it] 95%|█████████▌| 46411/48845 [16:27:27<52:18,  1.29s/it] 95%|█████████▌| 46412/48845 [16:27:28<51:55,  1.28s/it] 95%|█████████▌| 46413/48845 [16:27:30<51:42,  1.28s/it] 95%|█████████▌| 46414/48845 [16:27:31<51:32,  1.27s/it] 95%|█████████▌| 46415/48845 [16:27:32<52:41,  1.30s/it]                                                        {'loss': 2.0385, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46415/48845 [16:27:32<52:41,  1.30s/it] 95%|█████████▌| 46416/48845 [16:27:34<52:13,  1.29s/it] 95%|█████████▌| 46417/48845 [16:27:35<51:52,  1.28s/it] 95%|█████████▌| 46418/48845 [16:27:36<51:38,  1.28s/it] 95%|█████████▌| 46419/48845 [16:27:37<51:30,  1.27s/it] 95%|█████████▌| 46420/48845 [16:27:39<51:22,  1.27s/it]                                                        {'loss': 2.0498, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46420/48845 [16:27:39<51:22,  1.27s/it] 95%|█████████▌| 46421/48845 [16:27:40<51:20,  1.27s/it] 95%|█████████▌| 46422/48845 [16:27:41<51:15,  1.27s/it] 95%|█████████▌| 46423/48845 [16:27:43<52:29,  1.30s/it] 95%|█████████▌| 46424/48845 [16:27:44<52:01,  1.29s/it] 95%|█████████▌| 46425/48845 [16:27:45<51:42,  1.28s/it]                                                        {'loss': 2.0399, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46425/48845 [16:27:45<51:42,  1.28s/it] 95%|█████████▌| 46426/48845 [16:27:46<51:29,  1.28s/it] 95%|█████████▌| 46427/48845 [16:27:48<51:18,  1.27s/it] 95%|█████████▌| 46428/48845 [16:27:49<51:11,  1.27s/it] 95%|█████████▌| 46429/48845 [16:27:50<51:07,  1.27s/it] 95%|█████████▌| 46430/48845 [16:27:51<50:59,  1.27s/it]                                                        {'loss': 2.2226, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46430/48845 [16:27:51<50:59,  1.27s/it] 95%|█████████▌| 46431/48845 [16:27:53<51:00,  1.27s/it] 95%|█████████▌| 46432/48845 [16:27:54<50:54,  1.27s/it] 95%|█████████▌| 46433/48845 [16:27:55<50:52,  1.27s/it] 95%|█████████▌| 46434/48845 [16:27:57<52:21,  1.30s/it] 95%|█████████▌| 46435/48845 [16:27:58<51:56,  1.29s/it]                                                        {'loss': 2.1285, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46435/48845 [16:27:58<51:56,  1.29s/it] 95%|█████████▌| 46436/48845 [16:27:59<51:34,  1.28s/it] 95%|█████████▌| 46437/48845 [16:28:00<51:20,  1.28s/it] 95%|█████████▌| 46438/48845 [16:28:02<51:05,  1.27s/it] 95%|█████████▌| 46439/48845 [16:28:03<50:59,  1.27s/it] 95%|█████████▌| 46440/48845 [16:28:04<50:55,  1.27s/it]                                                        {'loss': 1.9714, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46440/48845 [16:28:04<50:55,  1.27s/it] 95%|█████████▌| 46441/48845 [16:28:05<50:49,  1.27s/it] 95%|█████████▌| 46442/48845 [16:28:07<50:42,  1.27s/it] 95%|█████████▌| 46443/48845 [16:28:08<50:41,  1.27s/it] 95%|█████████▌| 46444/48845 [16:28:09<50:38,  1.27s/it] 95%|█████████▌| 46445/48845 [16:28:10<50:37,  1.27s/it]                                                        {'loss': 1.9896, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46445/48845 [16:28:10<50:37,  1.27s/it] 95%|█████████▌| 46446/48845 [16:28:12<50:38,  1.27s/it] 95%|█████████▌| 46447/48845 [16:28:13<50:33,  1.26s/it] 95%|█████████▌| 46448/48845 [16:28:14<50:29,  1.26s/it] 95%|█████████▌| 46449/48845 [16:28:16<50:32,  1.27s/it] 95%|█████████▌| 46450/48845 [16:28:17<50:27,  1.26s/it]                                                        {'loss': 2.1109, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.75}
+ 95%|█████████▌| 46450/48845 [16:28:17<50:27,  1.26s/it] 95%|█████████▌| 46451/48845 [16:28:18<50:35,  1.27s/it] 95%|█████████▌| 46452/48845 [16:28:19<50:29,  1.27s/it] 95%|█████████▌| 46453/48845 [16:28:21<50:25,  1.26s/it] 95%|█████████▌| 46454/48845 [16:28:22<50:22,  1.26s/it] 95%|█████████▌| 46455/48845 [16:28:23<50:26,  1.27s/it]                                                        {'loss': 2.0097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46455/48845 [16:28:23<50:26,  1.27s/it] 95%|█████████▌| 46456/48845 [16:28:24<50:22,  1.27s/it] 95%|█████████▌| 46457/48845 [16:28:26<50:22,  1.27s/it] 95%|█████████▌| 46458/48845 [16:28:27<50:19,  1.26s/it] 95%|█████████▌| 46459/48845 [16:28:28<50:21,  1.27s/it] 95%|█████████▌| 46460/48845 [16:28:29<50:16,  1.26s/it]                                                        {'loss': 2.0939, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46460/48845 [16:28:29<50:16,  1.26s/it] 95%|█████████▌| 46461/48845 [16:28:31<50:14,  1.26s/it] 95%|█████████▌| 46462/48845 [16:28:32<50:13,  1.26s/it] 95%|█████████▌| 46463/48845 [16:28:33<50:12,  1.26s/it] 95%|█████████▌| 46464/48845 [16:28:35<50:11,  1.26s/it] 95%|█████████▌| 46465/48845 [16:28:36<50:10,  1.26s/it]                                                        {'loss': 2.1015, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46465/48845 [16:28:36<50:10,  1.26s/it] 95%|█████████▌| 46466/48845 [16:28:37<50:10,  1.27s/it] 95%|█████████▌| 46467/48845 [16:28:38<50:07,  1.26s/it] 95%|█████████▌| 46468/48845 [16:28:40<50:03,  1.26s/it] 95%|█████████▌| 46469/48845 [16:28:41<50:02,  1.26s/it] 95%|█████████▌| 46470/48845 [16:28:42<49:59,  1.26s/it]                                                        {'loss': 2.1448, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46470/48845 [16:28:42<49:59,  1.26s/it] 95%|█████████▌| 46471/48845 [16:28:43<50:04,  1.27s/it] 95%|█████████▌| 46472/48845 [16:28:45<50:01,  1.26s/it] 95%|█████████▌| 46473/48845 [16:28:46<49:58,  1.26s/it] 95%|█████████▌| 46474/48845 [16:28:47<49:56,  1.26s/it] 95%|█████████▌| 46475/48845 [16:28:48<49:59,  1.27s/it]                                                        {'loss': 2.0524, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46475/48845 [16:28:48<49:59,  1.27s/it] 95%|█████████▌| 46476/48845 [16:28:50<49:59,  1.27s/it] 95%|█████████▌| 46477/48845 [16:28:51<49:56,  1.27s/it] 95%|█████████▌| 46478/48845 [16:28:52<49:58,  1.27s/it] 95%|█████████▌| 46479/48845 [16:28:53<49:56,  1.27s/it] 95%|█████████▌| 46480/48845 [16:28:55<49:52,  1.27s/it]                                                        {'loss': 2.0729, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46480/48845 [16:28:55<49:52,  1.27s/it] 95%|█████████▌| 46481/48845 [16:28:56<49:50,  1.27s/it] 95%|█████████▌| 46482/48845 [16:28:57<49:48,  1.26s/it] 95%|█████████▌| 46483/48845 [16:28:59<49:51,  1.27s/it] 95%|█████████▌| 46484/48845 [16:29:00<49:51,  1.27s/it] 95%|█████████��| 46485/48845 [16:29:01<49:51,  1.27s/it]                                                        {'loss': 2.2505, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46485/48845 [16:29:01<49:51,  1.27s/it] 95%|█████████▌| 46486/48845 [16:29:02<49:45,  1.27s/it] 95%|█████████▌| 46487/48845 [16:29:04<49:47,  1.27s/it] 95%|█████████▌| 46488/48845 [16:29:05<49:43,  1.27s/it] 95%|█████████▌| 46489/48845 [16:29:06<49:45,  1.27s/it] 95%|█████████▌| 46490/48845 [16:29:07<49:42,  1.27s/it]                                                        {'loss': 2.1468, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46490/48845 [16:29:07<49:42,  1.27s/it] 95%|█████████▌| 46491/48845 [16:29:09<49:39,  1.27s/it] 95%|█████████▌| 46492/48845 [16:29:10<49:39,  1.27s/it] 95%|█████████▌| 46493/48845 [16:29:11<49:38,  1.27s/it] 95%|█████████▌| 46494/48845 [16:29:12<49:33,  1.26s/it] 95%|█████████▌| 46495/48845 [16:29:14<49:35,  1.27s/it]                                                        {'loss': 2.1151, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46495/48845 [16:29:14<49:35,  1.27s/it] 95%|█████████▌| 46496/48845 [16:29:15<49:35,  1.27s/it] 95%|█████████▌| 46497/48845 [16:29:16<49:30,  1.27s/it] 95%|█████████▌| 46498/48845 [16:29:18<49:29,  1.27s/it] 95%|█████████▌| 46499/48845 [16:29:19<49:32,  1.27s/it] 95%|█████████▌| 46500/48845 [16:29:20<49:26,  1.26s/it]                                                        {'loss': 2.2857, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46500/48845 [16:29:20<49:26,  1.26s/it] 95%|█████████▌| 46501/48845 [16:29:21<49:24,  1.26s/it] 95%|█████████▌| 46502/48845 [16:29:23<49:22,  1.26s/it] 95%|█████████▌| 46503/48845 [16:29:24<49:25,  1.27s/it] 95%|█████████▌| 46504/48845 [16:29:25<49:22,  1.27s/it] 95%|█████████▌| 46505/48845 [16:29:26<49:20,  1.27s/it]                                                        {'loss': 2.0196, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46505/48845 [16:29:26<49:20,  1.27s/it] 95%|█████████▌| 46506/48845 [16:29:28<49:18,  1.26s/it] 95%|█████████▌| 46507/48845 [16:29:29<49:24,  1.27s/it] 95%|█████████▌| 46508/48845 [16:29:30<49:21,  1.27s/it] 95%|█████████▌| 46509/48845 [16:29:31<49:19,  1.27s/it] 95%|█████████▌| 46510/48845 [16:29:33<49:19,  1.27s/it]                                                        {'loss': 2.1694, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46510/48845 [16:29:33<49:19,  1.27s/it] 95%|█████████▌| 46511/48845 [16:29:34<51:17,  1.32s/it] 95%|█████████▌| 46512/48845 [16:29:35<50:39,  1.30s/it] 95%|█████████▌| 46513/48845 [16:29:37<50:12,  1.29s/it] 95%|█████████▌| 46514/48845 [16:29:38<49:50,  1.28s/it] 95%|█████████▌| 46515/48845 [16:29:39<49:36,  1.28s/it]                                                        {'loss': 2.0632, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46515/48845 [16:29:39<49:36,  1.28s/it] 95%|█████████▌| 46516/48845 [16:29:41<49:29,  1.27s/it] 95%|█████████▌| 46517/48845 [16:29:42<49:19,  1.27s/it] 95%|█████████▌| 46518/48845 [16:29:43<49:12,  1.27s/it] 95%|█████████▌| 46519/48845 [16:29:44<49:09,  1.27s/it] 95%|█████████▌| 46520/48845 [16:29:46<49:04,  1.27s/it]                                                        {'loss': 1.857, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46520/48845 [16:29:46<49:04,  1.27s/it] 95%|█████████▌| 46521/48845 [16:29:47<49:01,  1.27s/it] 95%|█████████▌| 46522/48845 [16:29:48<48:57,  1.26s/it] 95%|█████████▌| 46523/48845 [16:29:49<48:58,  1.27s/it] 95%|█████████▌| 46524/48845 [16:29:51<48:54,  1.26s/it] 95%|█████████▌| 46525/48845 [16:29:52<48:54,  1.26s/it]                                                        {'loss': 2.02, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46525/48845 [16:29:52<48:54,  1.26s/it] 95%|█████████▌| 46526/48845 [16:29:53<48:52,  1.26s/it] 95%|█████████▌| 46527/48845 [16:29:54<48:53,  1.27s/it] 95%|█████████▌| 46528/48845 [16:29:56<48:50,  1.26s/it] 95%|█████████▌| 46529/48845 [16:29:57<48:50,  1.27s/it] 95%|█████████▌| 46530/48845 [16:29:58<48:52,  1.27s/it]                                                        {'loss': 2.1048, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46530/48845 [16:29:58<48:52,  1.27s/it] 95%|█████████▌| 46531/48845 [16:29:59<48:52,  1.27s/it] 95%|█████████▌| 46532/48845 [16:30:01<48:48,  1.27s/it] 95%|█████████▌| 46533/48845 [16:30:02<48:45,  1.27s/it] 95%|█████████▌| 46534/48845 [16:30:03<48:41,  1.26s/it] 95%|█████████▌| 46535/48845 [16:30:05<48:42,  1.27s/it]                                                        {'loss': 2.0922, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46535/48845 [16:30:05<48:42,  1.27s/it] 95%|█████████▌| 46536/48845 [16:30:06<48:42,  1.27s/it] 95%|█████████▌| 46537/48845 [16:30:07<48:41,  1.27s/it] 95%|█████████▌| 46538/48845 [16:30:08<48:37,  1.26s/it] 95%|█████████▌| 46539/48845 [16:30:10<48:39,  1.27s/it] 95%|█████████▌| 46540/48845 [16:30:11<48:37,  1.27s/it]                                                        {'loss': 2.0851, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46540/48845 [16:30:11<48:37,  1.27s/it] 95%|█████████▌| 46541/48845 [16:30:12<48:33,  1.26s/it] 95%|█████████▌| 46542/48845 [16:30:13<48:31,  1.26s/it] 95%|█████████▌| 46543/48845 [16:30:15<48:29,  1.26s/it] 95%|█████████▌| 46544/48845 [16:30:16<48:27,  1.26s/it] 95%|█████████▌| 46545/48845 [16:30:17<48:23,  1.26s/it]                                                        {'loss': 2.1303, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.76}
+ 95%|█████████▌| 46545/48845 [16:30:17<48:23,  1.26s/it] 95%|█████████▌| 46546/48845 [16:30:18<48:23,  1.26s/it] 95%|█████████▌| 46547/48845 [16:30:20<48:27,  1.27s/it] 95%|█████████▌| 46548/48845 [16:30:21<48:25,  1.26s/it] 95%|█████████▌| 46549/48845 [16:30:22<48:25,  1.27s/it] 95%|█████████▌| 46550/48845 [16:30:24<48:20,  1.26s/it]                                                        {'loss': 2.0474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46550/48845 [16:30:24<48:20,  1.26s/it] 95%|█████████▌| 46551/48845 [16:30:25<48:24,  1.27s/it] 95%|█████████▌| 46552/48845 [16:30:26<48:21,  1.27s/it] 95%|█████████▌| 46553/48845 [16:30:27<48:19,  1.26s/it] 95%|█████████▌| 46554/48845 [16:30:29<48:19,  1.27s/it] 95%|█████████▌| 46555/48845 [16:30:30<49:56,  1.31s/it]                                                        {'loss': 2.0845, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46555/48845 [16:30:30<49:56,  1.31s/it] 95%|█████████▌| 46556/48845 [16:30:31<49:23,  1.29s/it] 95%|█████████▌| 46557/48845 [16:30:33<48:59,  1.28s/it] 95%|█████████▌| 46558/48845 [16:30:34<48:44,  1.28s/it] 95%|█████████▌| 46559/48845 [16:30:35<48:34,  1.27s/it] 95%|█████████▌| 46560/48845 [16:30:36<48:26,  1.27s/it]                                                        {'loss': 1.9919, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46560/48845 [16:30:36<48:26,  1.27s/it] 95%|█████████▌| 46561/48845 [16:30:38<48:19,  1.27s/it] 95%|█████████▌| 46562/48845 [16:30:39<48:15,  1.27s/it] 95%|█████████▌| 46563/48845 [16:30:40<48:16,  1.27s/it] 95%|█████████▌| 46564/48845 [16:30:41<48:12,  1.27s/it] 95%|█████████▌| 46565/48845 [16:30:43<48:09,  1.27s/it]                                                        {'loss': 2.0798, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46565/48845 [16:30:43<48:09,  1.27s/it] 95%|█████████▌| 46566/48845 [16:30:44<48:05,  1.27s/it] 95%|█████████▌| 46567/48845 [16:30:45<48:05,  1.27s/it] 95%|█████████▌| 46568/48845 [16:30:46<48:03,  1.27s/it] 95%|█████████▌| 46569/48845 [16:30:48<48:00,  1.27s/it] 95%|█████████▌| 46570/48845 [16:30:49<47:55,  1.26s/it]                                                        {'loss': 2.0183, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46570/48845 [16:30:49<47:55,  1.26s/it] 95%|█████████▌| 46571/48845 [16:30:50<47:56,  1.27s/it] 95%|█████████▌| 46572/48845 [16:30:51<47:58,  1.27s/it] 95%|█████████▌| 46573/48845 [16:30:53<47:58,  1.27s/it] 95%|█████████▌| 46574/48845 [16:30:54<47:53,  1.27s/it] 95%|█████████▌| 46575/48845 [16:30:55<47:56,  1.27s/it]                                                        {'loss': 2.0483, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46575/48845 [16:30:55<47:56,  1.27s/it] 95%|█████████▌| 46576/48845 [16:30:57<47:54,  1.27s/it] 95%|█████████▌| 46577/48845 [16:30:58<47:55,  1.27s/it] 95%|█████████▌| 46578/48845 [16:30:59<47:53,  1.27s/it] 95%|█████████▌| 46579/48845 [16:31:01<49:43,  1.32s/it] 95%|█████████▌| 46580/48845 [16:31:02<49:06,  1.30s/it]                                                        {'loss': 2.0756, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46580/48845 [16:31:02<49:06,  1.30s/it] 95%|█████████▌| 46581/48845 [16:31:03<48:39,  1.29s/it] 95%|█████████▌| 46582/48845 [16:31:04<48:20,  1.28s/it] 95%|█████████▌| 46583/48845 [16:31:06<48:56,  1.30s/it] 95%|█████████▌| 46584/48845 [16:31:07<48:31,  1.29s/it] 95%|█████████▌| 46585/48845 [16:31:08<48:19,  1.28s/it]                                                        {'loss': 2.0868, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46585/48845 [16:31:08<48:19,  1.28s/it] 95%|█████████▌| 46586/48845 [16:31:09<48:06,  1.28s/it] 95%|█████████▌| 46587/48845 [16:31:11<47:59,  1.28s/it] 95%|█████████▌| 46588/48845 [16:31:12<47:49,  1.27s/it] 95%|█████████▌| 46589/48845 [16:31:13<47:42,  1.27s/it] 95%|█████████▌| 46590/48845 [16:31:15<47:38,  1.27s/it]                                                        {'loss': 2.0803, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46590/48845 [16:31:15<47:38,  1.27s/it] 95%|█████████▌| 46591/48845 [16:31:16<47:38,  1.27s/it] 95%|█████████▌| 46592/48845 [16:31:17<47:38,  1.27s/it] 95%|█████████▌| 46593/48845 [16:31:18<47:33,  1.27s/it] 95%|█████████▌| 46594/48845 [16:31:20<48:12,  1.28s/it] 95%|█████████▌| 46595/48845 [16:31:21<47:54,  1.28s/it]                                                        {'loss': 2.1834, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46595/48845 [16:31:21<47:54,  1.28s/it] 95%|█████████▌| 46596/48845 [16:31:22<47:46,  1.27s/it] 95%|█████████▌| 46597/48845 [16:31:23<47:37,  1.27s/it] 95%|█████████▌| 46598/48845 [16:31:25<47:33,  1.27s/it] 95%|█████████▌| 46599/48845 [16:31:26<47:28,  1.27s/it] 95%|█████████▌| 46600/48845 [16:31:27<47:25,  1.27s/it]                                                        {'loss': 2.0038, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46600/48845 [16:31:27<47:25,  1.27s/it] 95%|█████████▌| 46601/48845 [16:31:31<1:15:54,  2.03s/it] 95%|█████████▌| 46602/48845 [16:31:32<1:07:15,  1.80s/it] 95%|█████████▌| 46603/48845 [16:31:34<1:01:11,  1.64s/it] 95%|█████████▌| 46604/48845 [16:31:35<56:58,  1.53s/it]   95%|█████████▌| 46605/48845 [16:31:36<54:05,  1.45s/it]                                                        {'loss': 2.0915, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46605/48845 [16:31:36<54:05,  1.45s/it] 95%|█████████▌| 46606/48845 [16:31:37<52:01,  1.39s/it] 95%|█████████▌| 46607/48845 [16:31:39<50:32,  1.35s/it] 95%|█████████▌| 46608/48845 [16:31:40<49:32,  1.33s/it] 95%|█████████▌| 46609/48845 [16:31:41<48:46,  1.31s/it] 95%|█████████▌| 46610/48845 [16:31:42<48:11,  1.29s/it]                                                        {'loss': 2.2017, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46610/48845 [16:31:42<48:11,  1.29s/it] 95%|█████████▌| 46611/48845 [16:31:44<47:53,  1.29s/it] 95%|█████████▌| 46612/48845 [16:31:45<47:38,  1.28s/it] 95%|█████████▌| 46613/48845 [16:31:46<47:26,  1.28s/it] 95%|█████��███▌| 46614/48845 [16:31:47<47:19,  1.27s/it] 95%|█████████▌| 46615/48845 [16:31:49<47:10,  1.27s/it]                                                        {'loss': 2.0783, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46615/48845 [16:31:49<47:10,  1.27s/it] 95%|█████████▌| 46616/48845 [16:31:50<47:05,  1.27s/it] 95%|█████████▌| 46617/48845 [16:31:51<47:02,  1.27s/it] 95%|█████████▌| 46618/48845 [16:31:53<46:58,  1.27s/it] 95%|█████████▌| 46619/48845 [16:31:54<46:58,  1.27s/it] 95%|█████████▌| 46620/48845 [16:31:55<46:54,  1.26s/it]                                                        {'loss': 2.0504, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46620/48845 [16:31:55<46:54,  1.26s/it] 95%|█████████▌| 46621/48845 [16:31:56<46:55,  1.27s/it] 95%|█████████▌| 46622/48845 [16:31:58<46:49,  1.26s/it] 95%|█████████▌| 46623/48845 [16:31:59<46:49,  1.26s/it] 95%|█████████▌| 46624/48845 [16:32:00<46:48,  1.26s/it] 95%|█████████▌| 46625/48845 [16:32:02<48:19,  1.31s/it]                                                        {'loss': 2.04, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46625/48845 [16:32:02<48:19,  1.31s/it] 95%|█████████▌| 46626/48845 [16:32:03<47:51,  1.29s/it] 95%|█████████▌| 46627/48845 [16:32:04<47:28,  1.28s/it] 95%|█████████▌| 46628/48845 [16:32:05<47:17,  1.28s/it] 95%|█████████▌| 46629/48845 [16:32:07<47:08,  1.28s/it] 95%|█████████▌| 46630/48845 [16:32:08<46:59,  1.27s/it]                                                        {'loss': 2.3325, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46630/48845 [16:32:08<46:59,  1.27s/it] 95%|█████████▌| 46631/48845 [16:32:09<46:52,  1.27s/it] 95%|█████████▌| 46632/48845 [16:32:10<46:46,  1.27s/it] 95%|█████████▌| 46633/48845 [16:32:12<46:42,  1.27s/it] 95%|█████████▌| 46634/48845 [16:32:13<46:39,  1.27s/it] 95%|█████████▌| 46635/48845 [16:32:14<46:35,  1.26s/it]                                                        {'loss': 2.0782, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46635/48845 [16:32:14<46:35,  1.26s/it] 95%|█████████▌| 46636/48845 [16:32:15<46:32,  1.26s/it] 95%|█████████▌| 46637/48845 [16:32:17<48:21,  1.31s/it] 95%|█████████▌| 46638/48845 [16:32:18<47:47,  1.30s/it] 95%|█████████▌| 46639/48845 [16:32:19<47:22,  1.29s/it] 95%|█████████▌| 46640/48845 [16:32:21<47:02,  1.28s/it]                                                        {'loss': 2.1906, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46640/48845 [16:32:21<47:02,  1.28s/it] 95%|█████████▌| 46641/48845 [16:32:22<46:55,  1.28s/it] 95%|█████████▌| 46642/48845 [16:32:23<46:41,  1.27s/it] 95%|█████████▌| 46643/48845 [16:32:24<46:33,  1.27s/it] 95%|█████████▌| 46644/48845 [16:32:26<46:29,  1.27s/it] 95%|█████████▌| 46645/48845 [16:32:27<46:28,  1.27s/it]                                                        {'loss': 1.9016, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.77}
+ 95%|█████████▌| 46645/48845 [16:32:27<46:28,  1.27s/it] 95%|█████████▌| 46646/48845 [16:32:28<46:25,  1.27s/it] 96%|█████████▌| 46647/48845 [16:32:30<46:22,  1.27s/it] 96%|█████████▌| 46648/48845 [16:32:31<46:20,  1.27s/it] 96%|█████████▌| 46649/48845 [16:32:32<46:21,  1.27s/it] 96%|█████████▌| 46650/48845 [16:32:33<46:17,  1.27s/it]                                                        {'loss': 2.1341, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46650/48845 [16:32:33<46:17,  1.27s/it] 96%|█████████▌| 46651/48845 [16:32:35<46:14,  1.26s/it] 96%|█████████▌| 46652/48845 [16:32:36<46:09,  1.26s/it] 96%|█████████▌| 46653/48845 [16:32:37<46:10,  1.26s/it] 96%|█████████▌| 46654/48845 [16:32:38<46:12,  1.27s/it] 96%|█████████▌| 46655/48845 [16:32:40<46:07,  1.26s/it]                                                        {'loss': 2.1891, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46655/48845 [16:32:40<46:07,  1.26s/it] 96%|█████████▌| 46656/48845 [16:32:41<46:08,  1.26s/it] 96%|█████████▌| 46657/48845 [16:32:42<46:11,  1.27s/it] 96%|█████████▌| 46658/48845 [16:32:43<46:06,  1.27s/it] 96%|█████████▌| 46659/48845 [16:32:45<46:03,  1.26s/it] 96%|█████████▌| 46660/48845 [16:32:46<46:02,  1.26s/it]                                                        {'loss': 2.0716, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46660/48845 [16:32:46<46:02,  1.26s/it] 96%|█████████▌| 46661/48845 [16:32:47<46:04,  1.27s/it] 96%|█████████▌| 46662/48845 [16:32:48<46:00,  1.26s/it] 96%|█████████▌| 46663/48845 [16:32:50<45:57,  1.26s/it] 96%|█████████▌| 46664/48845 [16:32:51<45:57,  1.26s/it] 96%|█████████▌| 46665/48845 [16:32:52<45:54,  1.26s/it]                                                        {'loss': 1.9908, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46665/48845 [16:32:52<45:54,  1.26s/it] 96%|█████████▌| 46666/48845 [16:32:54<45:54,  1.26s/it] 96%|█████████▌| 46667/48845 [16:32:55<45:52,  1.26s/it] 96%|█████████▌| 46668/48845 [16:32:56<45:51,  1.26s/it] 96%|█████████▌| 46669/48845 [16:32:57<45:48,  1.26s/it] 96%|█████████▌| 46670/48845 [16:32:59<45:47,  1.26s/it]                                                        {'loss': 2.0453, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46670/48845 [16:32:59<45:47,  1.26s/it] 96%|█████████▌| 46671/48845 [16:33:00<45:46,  1.26s/it] 96%|█████████▌| 46672/48845 [16:33:01<45:45,  1.26s/it] 96%|█████████▌| 46673/48845 [16:33:03<47:24,  1.31s/it] 96%|█████████▌| 46674/48845 [16:33:04<46:53,  1.30s/it] 96%|█████████▌| 46675/48845 [16:33:05<46:31,  1.29s/it]                                                        {'loss': 2.0516, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46675/48845 [16:33:05<46:31,  1.29s/it] 96%|█████████▌| 46676/48845 [16:33:06<46:15,  1.28s/it] 96%|█████████▌| 46677/48845 [16:33:08<46:02,  1.27s/it] 96%|█████████▌| 46678/48845 [16:33:09<45:55,  1.27s/it] 96%|█████████▌| 46679/48845 [16:33:10<45:48,  1.27s/it] 96%|█████████▌| 46680/48845 [16:33:11<45:41,  1.27s/it]                                                        {'loss': 2.0775, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46680/48845 [16:33:11<45:41,  1.27s/it] 96%|█████████▌| 46681/48845 [16:33:13<45:41,  1.27s/it] 96%|█████████▌| 46682/48845 [16:33:14<45:42,  1.27s/it] 96%|█████████▌| 46683/48845 [16:33:15<45:36,  1.27s/it] 96%|█████████▌| 46684/48845 [16:33:16<45:34,  1.27s/it] 96%|█████████▌| 46685/48845 [16:33:18<45:32,  1.27s/it]                                                        {'loss': 2.0406, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46685/48845 [16:33:18<45:32,  1.27s/it] 96%|█████████▌| 46686/48845 [16:33:19<45:32,  1.27s/it] 96%|█████████▌| 46687/48845 [16:33:20<45:29,  1.26s/it] 96%|█████████▌| 46688/48845 [16:33:21<45:25,  1.26s/it] 96%|█████████▌| 46689/48845 [16:33:23<47:09,  1.31s/it] 96%|█████████▌| 46690/48845 [16:33:24<46:39,  1.30s/it]                                                        {'loss': 1.9751, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46690/48845 [16:33:24<46:39,  1.30s/it] 96%|█████████▌| 46691/48845 [16:33:25<46:17,  1.29s/it] 96%|█████████▌| 46692/48845 [16:33:27<45:56,  1.28s/it] 96%|█████████▌| 46693/48845 [16:33:28<45:45,  1.28s/it] 96%|█████████▌| 46694/48845 [16:33:29<45:36,  1.27s/it] 96%|█████████▌| 46695/48845 [16:33:30<45:29,  1.27s/it]                                                        {'loss': 1.9599, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46695/48845 [16:33:30<45:29,  1.27s/it] 96%|█████████▌| 46696/48845 [16:33:32<45:25,  1.27s/it] 96%|█████████▌| 46697/48845 [16:33:33<45:22,  1.27s/it] 96%|█████████▌| 46698/48845 [16:33:34<45:19,  1.27s/it] 96%|█████████▌| 46699/48845 [16:33:36<45:17,  1.27s/it] 96%|█████████▌| 46700/48845 [16:33:37<45:13,  1.26s/it]                                                        {'loss': 2.2581, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46700/48845 [16:33:37<45:13,  1.26s/it] 96%|█████████▌| 46701/48845 [16:33:38<45:16,  1.27s/it] 96%|█████████▌| 46702/48845 [16:33:39<45:13,  1.27s/it] 96%|█████████▌| 46703/48845 [16:33:41<45:10,  1.27s/it] 96%|█████████▌| 46704/48845 [16:33:42<45:07,  1.26s/it] 96%|█████████▌| 46705/48845 [16:33:43<45:11,  1.27s/it]                                                        {'loss': 1.9686, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46705/48845 [16:33:43<45:11,  1.27s/it] 96%|█████████▌| 46706/48845 [16:33:44<45:09,  1.27s/it] 96%|█████████▌| 46707/48845 [16:33:46<45:05,  1.27s/it] 96%|█████████▌| 46708/48845 [16:33:47<45:02,  1.26s/it] 96%|█████████▌| 46709/48845 [16:33:48<45:02,  1.27s/it] 96%|█████████▌| 46710/48845 [16:33:49<44:59,  1.26s/it]                                                        {'loss': 2.1356, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46710/48845 [16:33:49<44:59,  1.26s/it] 96%|█████████▌| 46711/48845 [16:33:51<44:59,  1.26s/it] 96%|█████████▌| 46712/48845 [16:33:52<44:58,  1.27s/it] 96%|█████████▌| 46713/48845 [16:33:53<45:00,  1.27s/it] 96%|█████████▌| 46714/48845 [16:33:55<44:58,  1.27s/it] 96%|█████████▌| 46715/48845 [16:33:56<44:59,  1.27s/it]                                                        {'loss': 2.1615, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46715/48845 [16:33:56<44:59,  1.27s/it] 96%|█████████▌| 46716/48845 [16:33:57<44:56,  1.27s/it] 96%|█████████▌| 46717/48845 [16:33:58<44:54,  1.27s/it] 96%|█████████▌| 46718/48845 [16:34:00<44:55,  1.27s/it] 96%|█████████▌| 46719/48845 [16:34:01<44:51,  1.27s/it] 96%|█████████▌| 46720/48845 [16:34:02<44:49,  1.27s/it]                                                        {'loss': 1.9743, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46720/48845 [16:34:02<44:49,  1.27s/it] 96%|█████████▌| 46721/48845 [16:34:04<46:31,  1.31s/it] 96%|█████████▌| 46722/48845 [16:34:05<45:56,  1.30s/it] 96%|█████████▌| 46723/48845 [16:34:06<45:32,  1.29s/it] 96%|█████████▌| 46724/48845 [16:34:07<45:17,  1.28s/it] 96%|█████████▌| 46725/48845 [16:34:09<45:06,  1.28s/it]                                                        {'loss': 2.1081, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46725/48845 [16:34:09<45:06,  1.28s/it] 96%|█████████▌| 46726/48845 [16:34:10<44:58,  1.27s/it] 96%|█████████▌| 46727/48845 [16:34:11<44:51,  1.27s/it] 96%|█████████▌| 46728/48845 [16:34:12<44:49,  1.27s/it] 96%|█████████▌| 46729/48845 [16:34:14<44:43,  1.27s/it] 96%|█████████▌| 46730/48845 [16:34:15<44:40,  1.27s/it]                                                        {'loss': 2.0421, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46730/48845 [16:34:15<44:40,  1.27s/it] 96%|█████████▌| 46731/48845 [16:34:16<44:37,  1.27s/it] 96%|█████████▌| 46732/48845 [16:34:17<44:34,  1.27s/it] 96%|█████████▌| 46733/48845 [16:34:19<44:32,  1.27s/it] 96%|█████████▌| 46734/48845 [16:34:20<44:31,  1.27s/it] 96%|█████████▌| 46735/48845 [16:34:21<44:27,  1.26s/it]                                                        {'loss': 2.0057, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46735/48845 [16:34:21<44:27,  1.26s/it] 96%|█████████▌| 46736/48845 [16:34:23<44:32,  1.27s/it] 96%|█████████▌| 46737/48845 [16:34:24<44:27,  1.27s/it] 96%|█████████▌| 46738/48845 [16:34:25<44:26,  1.27s/it] 96%|█████████▌| 46739/48845 [16:34:26<44:23,  1.26s/it] 96%|█████████▌| 46740/48845 [16:34:28<44:20,  1.26s/it]                                                        {'loss': 2.1264, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.78}
+ 96%|█████████▌| 46740/48845 [16:34:28<44:20,  1.26s/it] 96%|█████████▌| 46741/48845 [16:34:29<44:18,  1.26s/it] 96%|█████████▌| 46742/48845 [16:34:30<44:17,  1.26s/it] 96%|█████████▌| 46743/48845 [16:34:31<44:16,  1.26s/it] 96%|█████████▌| 46744/48845 [16:34:33<44:18,  1.27s/it] 96%|█████████▌| 46745/48845 [16:34:34<44:16,  1.27s/it]                                                        {'loss': 2.1747, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46745/48845 [16:34:34<44:16,  1.27s/it] 96%|█████████▌| 46746/48845 [16:34:35<44:13,  1.26s/it] 96%|█████████▌| 46747/48845 [16:34:36<44:11,  1.26s/it] 96%|█████████▌| 46748/48845 [16:34:38<45:49,  1.31s/it] 96%|█████████▌| 46749/48845 [16:34:39<45:18,  1.30s/it] 96%|█████████▌| 46750/48845 [16:34:40<44:57,  1.29s/it]                                                        {'loss': 2.069, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46750/48845 [16:34:40<44:57,  1.29s/it] 96%|█████████▌| 46751/48845 [16:34:42<44:40,  1.28s/it] 96%|█████████▌| 46752/48845 [16:34:43<44:28,  1.27s/it] 96%|█████████▌| 46753/48845 [16:34:44<44:20,  1.27s/it] 96%|█████████▌| 46754/48845 [16:34:45<44:17,  1.27s/it] 96%|█████████▌| 46755/48845 [16:34:47<44:11,  1.27s/it]                                                        {'loss': 1.9646, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46755/48845 [16:34:47<44:11,  1.27s/it] 96%|█████████▌| 46756/48845 [16:34:48<44:13,  1.27s/it] 96%|█████████▌| 46757/48845 [16:34:49<44:05,  1.27s/it] 96%|█████████▌| 46758/48845 [16:34:51<44:01,  1.27s/it] 96%|█████████▌| 46759/48845 [16:34:52<43:57,  1.26s/it] 96%|█████████▌| 46760/48845 [16:34:53<43:58,  1.27s/it]                                                        {'loss': 2.1088, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46760/48845 [16:34:53<43:58,  1.27s/it] 96%|█████████▌| 46761/48845 [16:34:54<43:57,  1.27s/it] 96%|█████████▌| 46762/48845 [16:34:56<43:53,  1.26s/it] 96%|█████████▌| 46763/48845 [16:34:57<43:51,  1.26s/it] 96%|█████████▌| 46764/48845 [16:34:58<44:32,  1.28s/it] 96%|█████████▌| 46765/48845 [16:34:59<44:23,  1.28s/it]                                                        {'loss': 2.303, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46765/48845 [16:34:59<44:23,  1.28s/it] 96%|█████████▌| 46766/48845 [16:35:01<44:11,  1.28s/it] 96%|█████████▌| 46767/48845 [16:35:02<44:02,  1.27s/it] 96%|█████████▌| 46768/48845 [16:35:03<43:59,  1.27s/it] 96%|█████████▌| 46769/48845 [16:35:04<43:53,  1.27s/it] 96%|█████████▌| 46770/48845 [16:35:06<43:48,  1.27s/it]                                                        {'loss': 2.0948, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46770/48845 [16:35:06<43:48,  1.27s/it] 96%|█████████▌| 46771/48845 [16:35:07<43:47,  1.27s/it] 96%|█████████▌| 46772/48845 [16:35:08<43:43,  1.27s/it] 96%|█████████▌| 46773/48845 [16:35:10<43:42,  1.27s/it] 96%|█████████▌| 46774/48845 [16:35:11<43:41,  1.27s/it] 96%|█████████▌| 46775/48845 [16:35:12<43:43,  1.27s/it]                                                        {'loss': 2.28, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46775/48845 [16:35:12<43:43,  1.27s/it] 96%|█████████▌| 46776/48845 [16:35:13<43:42,  1.27s/it] 96%|█████████▌| 46777/48845 [16:35:15<43:39,  1.27s/it] 96%|█████████▌| 46778/48845 [16:35:16<43:36,  1.27s/it] 96%|█████████▌| 46779/48845 [16:35:17<43:33,  1.27s/it] 96%|█████████▌| 46780/48845 [16:35:18<43:34,  1.27s/it]                                                        {'loss': 2.0748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46780/48845 [16:35:18<43:34,  1.27s/it] 96%|█████████▌| 46781/48845 [16:35:20<43:31,  1.27s/it] 96%|█████████▌| 46782/48845 [16:35:21<43:27,  1.26s/it] 96%|█████████▌| 46783/48845 [16:35:22<43:23,  1.26s/it] 96%|█████████▌| 46784/48845 [16:35:23<43:21,  1.26s/it] 96%|█████████▌| 46785/48845 [16:35:25<43:22,  1.26s/it]                                                        {'loss': 2.1783, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46785/48845 [16:35:25<43:22,  1.26s/it] 96%|█████████▌| 46786/48845 [16:35:26<43:24,  1.26s/it] 96%|█████████▌| 46787/48845 [16:35:27<43:21,  1.26s/it] 96%|█████████▌| 46788/48845 [16:35:29<43:21,  1.26s/it] 96%|█████████▌| 46789/48845 [16:35:30<43:20,  1.27s/it] 96%|█████████▌| 46790/48845 [16:35:31<43:19,  1.26s/it]                                                        {'loss': 2.2106, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46790/48845 [16:35:31<43:19,  1.26s/it] 96%|█████████▌| 46791/48845 [16:35:32<43:20,  1.27s/it] 96%|█████████▌| 46792/48845 [16:35:34<43:21,  1.27s/it] 96%|█████████▌| 46793/48845 [16:35:35<43:16,  1.27s/it] 96%|█████████▌| 46794/48845 [16:35:36<43:11,  1.26s/it] 96%|█████████▌| 46795/48845 [16:35:37<43:08,  1.26s/it]                                                        {'loss': 1.9258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46795/48845 [16:35:37<43:08,  1.26s/it] 96%|█████████▌| 46796/48845 [16:35:39<43:55,  1.29s/it] 96%|█████████▌| 46797/48845 [16:35:40<43:40,  1.28s/it] 96%|█████████▌| 46798/48845 [16:35:41<43:30,  1.28s/it] 96%|█████████▌| 46799/48845 [16:35:43<43:23,  1.27s/it] 96%|█████████▌| 46800/48845 [16:35:44<43:21,  1.27s/it]                                                        {'loss': 2.135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46800/48845 [16:35:44<43:21,  1.27s/it] 96%|█████████▌| 46801/48845 [16:35:48<1:09:31,  2.04s/it] 96%|█████████▌| 46802/48845 [16:35:49<1:01:32,  1.81s/it] 96%|█████████▌| 46803/48845 [16:35:50<55:55,  1.64s/it]   96%|█████████▌| 46804/48845 [16:35:51<51:59,  1.53s/it] 96%|█████████▌| 46805/48845 [16:35:53<49:14,  1.45s/it]                                                        {'loss': 2.0736, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46805/48845 [16:35:53<49:14,  1.45s/it] 96%|█████████▌| 46806/48845 [16:35:54<47:20,  1.39s/it] 96%|█████████▌| 46807/48845 [16:35:55<45:58,  1.35s/it] 96%|█████████▌| 46808/48845 [16:35:56<44:59,  1.33s/it] 96%|█████████▌| 46809/48845 [16:35:58<44:20,  1.31s/it] 96%|█████████▌| 46810/48845 [16:35:59<43:52,  1.29s/it]                                                        {'loss': 2.0223, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46810/48845 [16:35:59<43:52,  1.29s/it] 96%|█████████▌| 46811/48845 [16:36:00<43:32,  1.28s/it] 96%|█████████▌| 46812/48845 [16:36:02<43:16,  1.28s/it] 96%|█████████▌| 46813/48845 [16:36:03<43:06,  1.27s/it] 96%|█████████▌| 46814/48845 [16:36:04<43:03,  1.27s/it] 96%|█████████▌| 46815/48845 [16:36:05<42:56,  1.27s/it]                                                        {'loss': 2.2727, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46815/48845 [16:36:05<42:56,  1.27s/it] 96%|█████████▌| 46816/48845 [16:36:07<42:50,  1.27s/it] 96%|█████████▌| 46817/48845 [16:36:08<42:44,  1.26s/it] 96%|█████████▌| 46818/48845 [16:36:09<42:44,  1.27s/it] 96%|█████████▌| 46819/48845 [16:36:10<42:42,  1.26s/it] 96%|█████████▌| 46820/48845 [16:36:12<42:39,  1.26s/it]                                                        {'loss': 1.9261, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46820/48845 [16:36:12<42:39,  1.26s/it] 96%|█████████▌| 46821/48845 [16:36:13<42:38,  1.26s/it] 96%|█████████▌| 46822/48845 [16:36:14<42:35,  1.26s/it] 96%|█████████▌| 46823/48845 [16:36:15<42:33,  1.26s/it] 96%|█████████▌| 46824/48845 [16:36:17<42:30,  1.26s/it] 96%|█████████▌| 46825/48845 [16:36:18<42:31,  1.26s/it]                                                        {'loss': 2.0596, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46825/48845 [16:36:18<42:31,  1.26s/it] 96%|█████████▌| 46826/48845 [16:36:19<42:34,  1.27s/it] 96%|█████████▌| 46827/48845 [16:36:20<42:32,  1.26s/it] 96%|█████████▌| 46828/48845 [16:36:22<42:32,  1.27s/it] 96%|█████████▌| 46829/48845 [16:36:23<42:28,  1.26s/it] 96%|█████████▌| 46830/48845 [16:36:24<42:37,  1.27s/it]                                                        {'loss': 2.2439, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46830/48845 [16:36:24<42:37,  1.27s/it] 96%|█████████▌| 46831/48845 [16:36:26<42:37,  1.27s/it] 96%|█████████▌| 46832/48845 [16:36:27<42:33,  1.27s/it] 96%|█████████▌| 46833/48845 [16:36:28<42:26,  1.27s/it] 96%|█████████▌| 46834/48845 [16:36:29<42:25,  1.27s/it] 96%|█████████▌| 46835/48845 [16:36:31<42:22,  1.26s/it]                                                        {'loss': 2.2276, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46835/48845 [16:36:31<42:22,  1.26s/it] 96%|█████████▌| 46836/48845 [16:36:32<42:20,  1.26s/it] 96%|█████████▌| 46837/48845 [16:36:33<42:18,  1.26s/it] 96%|█████████▌| 46838/48845 [16:36:34<42:19,  1.27s/it] 96%|█████████▌| 46839/48845 [16:36:36<42:16,  1.26s/it] 96%|█████████▌| 46840/48845 [16:36:37<42:14,  1.26s/it]                                                        {'loss': 2.0654, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.79}
+ 96%|█████████▌| 46840/48845 [16:36:37<42:14,  1.26s/it] 96%|█████████▌| 46841/48845 [16:36:38<42:16,  1.27s/it] 96%|█████████▌| 46842/48845 [16:36:39<42:16,  1.27s/it] 96%|█████████▌| 46843/48845 [16:36:41<42:12,  1.27s/it] 96%|█████████▌| 46844/48845 [16:36:42<42:13,  1.27s/it] 96%|█████████▌| 46845/48845 [16:36:43<42:10,  1.27s/it]                                                        {'loss': 1.9729, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46845/48845 [16:36:43<42:10,  1.27s/it] 96%|█████████▌| 46846/48845 [16:36:45<42:09,  1.27s/it] 96%|█████████▌| 46847/48845 [16:36:46<42:08,  1.27s/it] 96%|█████████▌| 46848/48845 [16:36:47<42:06,  1.26s/it] 96%|█████████▌| 46849/48845 [16:36:48<42:02,  1.26s/it] 96%|█████████▌| 46850/48845 [16:36:50<42:02,  1.26s/it]                                                        {'loss': 2.1306, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46850/48845 [16:36:50<42:02,  1.26s/it] 96%|█████████▌| 46851/48845 [16:36:51<42:02,  1.26s/it] 96%|█████████▌| 46852/48845 [16:36:52<41:59,  1.26s/it] 96%|█████████▌| 46853/48845 [16:36:53<41:57,  1.26s/it] 96%|█████████▌| 46854/48845 [16:36:55<41:56,  1.26s/it] 96%|█████████▌| 46855/48845 [16:36:56<41:54,  1.26s/it]                                                        {'loss': 2.1302, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46855/48845 [16:36:56<41:54,  1.26s/it] 96%|█████████▌| 46856/48845 [16:36:57<41:56,  1.27s/it] 96%|█████████▌| 46857/48845 [16:36:58<41:55,  1.27s/it] 96%|█████████▌| 46858/48845 [16:37:00<41:55,  1.27s/it] 96%|█████████▌| 46859/48845 [16:37:01<41:54,  1.27s/it] 96%|█████████▌| 46860/48845 [16:37:02<41:51,  1.27s/it]                                                        {'loss': 1.9532, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46860/48845 [16:37:02<41:51,  1.27s/it] 96%|█████████▌| 46861/48845 [16:37:03<41:51,  1.27s/it] 96%|█████████▌| 46862/48845 [16:37:05<41:50,  1.27s/it] 96%|█████████▌| 46863/48845 [16:37:06<41:51,  1.27s/it] 96%|█████████▌| 46864/48845 [16:37:07<41:50,  1.27s/it] 96%|█████████▌| 46865/48845 [16:37:09<41:47,  1.27s/it]                                                        {'loss': 2.1184, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46865/48845 [16:37:09<41:47,  1.27s/it] 96%|█████████▌| 46866/48845 [16:37:10<41:47,  1.27s/it] 96%|█████████▌| 46867/48845 [16:37:11<41:47,  1.27s/it] 96%|█████████▌| 46868/48845 [16:37:12<41:42,  1.27s/it] 96%|█████████▌| 46869/48845 [16:37:14<41:39,  1.26s/it] 96%|█████████▌| 46870/48845 [16:37:15<41:39,  1.27s/it]                                                        {'loss': 1.9406, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46870/48845 [16:37:15<41:39,  1.27s/it] 96%|█████████▌| 46871/48845 [16:37:16<41:37,  1.27s/it] 96%|███���█████▌| 46872/48845 [16:37:17<41:36,  1.27s/it] 96%|█████████▌| 46873/48845 [16:37:19<41:35,  1.27s/it] 96%|█████████▌| 46874/48845 [16:37:20<41:32,  1.26s/it] 96%|█████████▌| 46875/48845 [16:37:21<41:31,  1.26s/it]                                                        {'loss': 2.0969, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46875/48845 [16:37:21<41:31,  1.26s/it] 96%|█████████▌| 46876/48845 [16:37:22<41:30,  1.26s/it] 96%|█████████▌| 46877/48845 [16:37:24<41:29,  1.26s/it] 96%|█████████▌| 46878/48845 [16:37:25<41:30,  1.27s/it] 96%|█████████▌| 46879/48845 [16:37:26<41:26,  1.26s/it] 96%|█████████▌| 46880/48845 [16:37:28<41:23,  1.26s/it]                                                        {'loss': 2.1014, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46880/48845 [16:37:28<41:23,  1.26s/it] 96%|█████████▌| 46881/48845 [16:37:29<41:23,  1.26s/it] 96%|█████████▌| 46882/48845 [16:37:30<41:37,  1.27s/it] 96%|█████████▌| 46883/48845 [16:37:31<41:33,  1.27s/it] 96%|█████████▌| 46884/48845 [16:37:33<41:28,  1.27s/it] 96%|█████████▌| 46885/48845 [16:37:34<41:23,  1.27s/it]                                                        {'loss': 1.9887, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46885/48845 [16:37:34<41:23,  1.27s/it] 96%|█████████▌| 46886/48845 [16:37:35<41:21,  1.27s/it] 96%|█████████▌| 46887/48845 [16:37:36<41:17,  1.27s/it] 96%|█████████▌| 46888/48845 [16:37:38<41:15,  1.27s/it] 96%|█████████▌| 46889/48845 [16:37:39<41:13,  1.26s/it] 96%|█████████▌| 46890/48845 [16:37:40<41:12,  1.26s/it]                                                        {'loss': 2.1667, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46890/48845 [16:37:40<41:12,  1.26s/it] 96%|█████████▌| 46891/48845 [16:37:41<41:13,  1.27s/it] 96%|█████████▌| 46892/48845 [16:37:43<41:09,  1.26s/it] 96%|█████████▌| 46893/48845 [16:37:44<41:10,  1.27s/it] 96%|█████████▌| 46894/48845 [16:37:45<41:12,  1.27s/it] 96%|█████████▌| 46895/48845 [16:37:47<41:08,  1.27s/it]                                                        {'loss': 2.1874, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46895/48845 [16:37:47<41:08,  1.27s/it] 96%|█████████▌| 46896/48845 [16:37:48<41:07,  1.27s/it] 96%|█████████▌| 46897/48845 [16:37:49<41:04,  1.27s/it] 96%|█████████▌| 46898/48845 [16:37:50<41:02,  1.26s/it] 96%|█████████▌| 46899/48845 [16:37:52<40:58,  1.26s/it] 96%|█████████▌| 46900/48845 [16:37:53<40:59,  1.26s/it]                                                        {'loss': 2.1406, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46900/48845 [16:37:53<40:59,  1.26s/it] 96%|█████████▌| 46901/48845 [16:37:54<40:59,  1.26s/it] 96%|█████████▌| 46902/48845 [16:37:55<40:59,  1.27s/it] 96%|█████████▌| 46903/48845 [16:37:57<40:56,  1.26s/it] 96%|█████████▌| 46904/48845 [16:37:58<40:54,  1.26s/it] 96%|█████████▌| 46905/48845 [16:37:59<40:52,  1.26s/it]                                                        {'loss': 2.164, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46905/48845 [16:37:59<40:52,  1.26s/it] 96%|█████████▌| 46906/48845 [16:38:00<40:51,  1.26s/it] 96%|█████████▌| 46907/48845 [16:38:02<40:49,  1.26s/it] 96%|█████████▌| 46908/48845 [16:38:03<40:47,  1.26s/it] 96%|█████████▌| 46909/48845 [16:38:04<40:49,  1.26s/it] 96%|█████████▌| 46910/48845 [16:38:05<40:45,  1.26s/it]                                                        {'loss': 1.9291, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46910/48845 [16:38:05<40:45,  1.26s/it] 96%|█████████▌| 46911/48845 [16:38:07<40:44,  1.26s/it] 96%|█████████▌| 46912/48845 [16:38:08<40:42,  1.26s/it] 96%|█████████▌| 46913/48845 [16:38:09<40:44,  1.27s/it] 96%|█████████▌| 46914/48845 [16:38:11<40:43,  1.27s/it] 96%|█████████▌| 46915/48845 [16:38:12<40:40,  1.26s/it]                                                        {'loss': 2.1291, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46915/48845 [16:38:12<40:40,  1.26s/it] 96%|█████████▌| 46916/48845 [16:38:13<40:38,  1.26s/it] 96%|█████████▌| 46917/48845 [16:38:14<40:39,  1.27s/it] 96%|█████████▌| 46918/48845 [16:38:16<40:37,  1.27s/it] 96%|█████████▌| 46919/48845 [16:38:17<40:36,  1.26s/it] 96%|█████████▌| 46920/48845 [16:38:18<40:38,  1.27s/it]                                                        {'loss': 2.0784, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46920/48845 [16:38:18<40:38,  1.27s/it] 96%|█████████▌| 46921/48845 [16:38:19<40:37,  1.27s/it] 96%|█████████▌| 46922/48845 [16:38:21<40:36,  1.27s/it] 96%|█████████▌| 46923/48845 [16:38:22<40:33,  1.27s/it] 96%|█████████▌| 46924/48845 [16:38:23<40:33,  1.27s/it] 96%|█████████▌| 46925/48845 [16:38:24<40:29,  1.27s/it]                                                        {'loss': 2.1203, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46925/48845 [16:38:25<40:29,  1.27s/it] 96%|█████████▌| 46926/48845 [16:38:26<41:48,  1.31s/it] 96%|█████████▌| 46927/48845 [16:38:27<41:21,  1.29s/it] 96%|█████████▌| 46928/48845 [16:38:28<41:04,  1.29s/it] 96%|█████████▌| 46929/48845 [16:38:30<40:49,  1.28s/it] 96%|█████████▌| 46930/48845 [16:38:31<40:43,  1.28s/it]                                                        {'loss': 2.0191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46930/48845 [16:38:31<40:43,  1.28s/it] 96%|█████████▌| 46931/48845 [16:38:32<40:35,  1.27s/it] 96%|█████████▌| 46932/48845 [16:38:33<40:28,  1.27s/it] 96%|█████████▌| 46933/48845 [16:38:35<40:23,  1.27s/it] 96%|█████████▌| 46934/48845 [16:38:36<40:24,  1.27s/it] 96%|█████████▌| 46935/48845 [16:38:37<40:19,  1.27s/it]                                                        {'loss': 2.1402, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46935/48845 [16:38:37<40:19,  1.27s/it] 96%|█████████▌| 46936/48845 [16:38:39<40:18,  1.27s/it] 96%|█████████▌| 46937/48845 [16:38:40<40:15,  1.27s/it] 96%|█████████▌| 46938/48845 [16:38:41<40:16,  1.27s/it] 96%|█████████▌| 46939/48845 [16:38:42<40:13,  1.27s/it] 96%|█████████▌| 46940/48845 [16:38:44<40:10,  1.27s/it]                                                        {'loss': 2.0373, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.8}
+ 96%|█████████▌| 46940/48845 [16:38:44<40:10,  1.27s/it] 96%|█████████▌| 46941/48845 [16:38:45<40:08,  1.27s/it] 96%|█████████▌| 46942/48845 [16:38:46<40:08,  1.27s/it] 96%|█████████▌| 46943/48845 [16:38:47<40:07,  1.27s/it] 96%|█████████▌| 46944/48845 [16:38:49<40:05,  1.27s/it] 96%|█████████▌| 46945/48845 [16:38:50<40:04,  1.27s/it]                                                        {'loss': 2.1487, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46945/48845 [16:38:50<40:04,  1.27s/it] 96%|█████████▌| 46946/48845 [16:38:51<40:04,  1.27s/it] 96%|█████████▌| 46947/48845 [16:38:52<40:05,  1.27s/it] 96%|█████████▌| 46948/48845 [16:38:54<40:02,  1.27s/it] 96%|█████████▌| 46949/48845 [16:38:55<40:00,  1.27s/it] 96%|█████████▌| 46950/48845 [16:38:56<40:00,  1.27s/it]                                                        {'loss': 2.0309, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46950/48845 [16:38:56<40:00,  1.27s/it] 96%|█████████▌| 46951/48845 [16:38:58<39:59,  1.27s/it] 96%|█████████▌| 46952/48845 [16:38:59<39:54,  1.26s/it] 96%|█████████▌| 46953/48845 [16:39:00<39:53,  1.26s/it] 96%|█████████▌| 46954/48845 [16:39:01<39:51,  1.26s/it] 96%|█████████▌| 46955/48845 [16:39:03<39:47,  1.26s/it]                                                        {'loss': 2.1236, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46955/48845 [16:39:03<39:47,  1.26s/it] 96%|█████████▌| 46956/48845 [16:39:04<39:47,  1.26s/it] 96%|█████████▌| 46957/48845 [16:39:05<39:47,  1.26s/it] 96%|█████████▌| 46958/48845 [16:39:06<39:46,  1.26s/it] 96%|████���████▌| 46959/48845 [16:39:08<39:48,  1.27s/it] 96%|█████████▌| 46960/48845 [16:39:09<39:48,  1.27s/it]                                                        {'loss': 2.219, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46960/48845 [16:39:09<39:48,  1.27s/it] 96%|█████████▌| 46961/48845 [16:39:10<39:45,  1.27s/it] 96%|█████████▌| 46962/48845 [16:39:11<39:47,  1.27s/it] 96%|█████████▌| 46963/48845 [16:39:13<39:42,  1.27s/it] 96%|█████████▌| 46964/48845 [16:39:14<39:38,  1.26s/it] 96%|█████████▌| 46965/48845 [16:39:15<39:36,  1.26s/it]                                                        {'loss': 2.191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46965/48845 [16:39:15<39:36,  1.26s/it] 96%|█████████▌| 46966/48845 [16:39:16<39:36,  1.26s/it] 96%|█████████▌| 46967/48845 [16:39:18<39:35,  1.27s/it] 96%|█████████▌| 46968/48845 [16:39:19<39:34,  1.27s/it] 96%|█████████▌| 46969/48845 [16:39:20<39:32,  1.26s/it] 96%|█████████▌| 46970/48845 [16:39:22<39:30,  1.26s/it]                                                        {'loss': 2.0643, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46970/48845 [16:39:22<39:30,  1.26s/it] 96%|█████████▌| 46971/48845 [16:39:23<39:33,  1.27s/it] 96%|█████████▌| 46972/48845 [16:39:24<39:28,  1.26s/it] 96%|█████████▌| 46973/48845 [16:39:25<39:24,  1.26s/it] 96%|█████████▌| 46974/48845 [16:39:27<39:21,  1.26s/it] 96%|█████████▌| 46975/48845 [16:39:28<39:22,  1.26s/it]                                                        {'loss': 2.0087, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46975/48845 [16:39:28<39:22,  1.26s/it] 96%|█████████▌| 46976/48845 [16:39:29<39:24,  1.27s/it] 96%|█████████▌| 46977/48845 [16:39:30<39:22,  1.26s/it] 96%|█████████▌| 46978/48845 [16:39:32<39:21,  1.26s/it] 96%|█████████▌| 46979/48845 [16:39:33<39:19,  1.26s/it] 96%|█████████▌| 46980/48845 [16:39:34<39:20,  1.27s/it]                                                        {'loss': 2.1665, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46980/48845 [16:39:34<39:20,  1.27s/it] 96%|█████████▌| 46981/48845 [16:39:35<39:18,  1.27s/it] 96%|█████████▌| 46982/48845 [16:39:37<39:17,  1.27s/it] 96%|█████████▌| 46983/48845 [16:39:38<39:18,  1.27s/it] 96%|█████████▌| 46984/48845 [16:39:39<39:15,  1.27s/it] 96%|█████████▌| 46985/48845 [16:39:41<39:12,  1.27s/it]                                                        {'loss': 1.988, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46985/48845 [16:39:41<39:12,  1.27s/it] 96%|█████████▌| 46986/48845 [16:39:42<39:10,  1.26s/it] 96%|█████████▌| 46987/48845 [16:39:43<39:10,  1.27s/it] 96%|█████████▌| 46988/48845 [16:39:44<39:11,  1.27s/it] 96%|█████████▌| 46989/48845 [16:39:46<39:08,  1.27s/it] 96%|█████████▌| 46990/48845 [16:39:47<39:08,  1.27s/it]                                                        {'loss': 2.2084, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46990/48845 [16:39:47<39:08,  1.27s/it] 96%|█████████▌| 46991/48845 [16:39:48<39:06,  1.27s/it] 96%|█████████▌| 46992/48845 [16:39:49<39:09,  1.27s/it] 96%|█████████▌| 46993/48845 [16:39:51<39:08,  1.27s/it] 96%|█████████▌| 46994/48845 [16:39:52<39:04,  1.27s/it] 96%|█████████▌| 46995/48845 [16:39:53<38:59,  1.26s/it]                                                        {'loss': 2.0824, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 46995/48845 [16:39:53<38:59,  1.26s/it] 96%|█████████▌| 46996/48845 [16:39:54<39:03,  1.27s/it] 96%|█████████▌| 46997/48845 [16:39:56<38:59,  1.27s/it] 96%|█████████▌| 46998/48845 [16:39:57<38:57,  1.27s/it] 96%|█████████▌| 46999/48845 [16:39:58<38:54,  1.26s/it] 96%|█████████▌| 47000/48845 [16:40:00<38:54,  1.27s/it]                                                        {'loss': 2.1032, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 47000/48845 [16:40:00<38:54,  1.27s/it] 96%|█████████▌| 47001/48845 [16:40:03<1:02:22,  2.03s/it] 96%|█████████▌| 47002/48845 [16:40:05<55:18,  1.80s/it]   96%|█████████▌| 47003/48845 [16:40:06<50:16,  1.64s/it] 96%|█████████▌| 47004/48845 [16:40:07<46:46,  1.52s/it] 96%|█████████▌| 47005/48845 [16:40:08<44:20,  1.45s/it]                                                        {'loss': 2.1557, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 47005/48845 [16:40:08<44:20,  1.45s/it] 96%|█████████▌| 47006/48845 [16:40:10<42:41,  1.39s/it] 96%|█████████▌| 47007/48845 [16:40:11<41:27,  1.35s/it] 96%|█████████▌| 47008/48845 [16:40:12<40:35,  1.33s/it] 96%|█████████▌| 47009/48845 [16:40:13<40:01,  1.31s/it] 96%|█████████▌| 47010/48845 [16:40:15<39:34,  1.29s/it]                                                        {'loss': 2.0835, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▌| 47010/48845 [16:40:15<39:34,  1.29s/it] 96%|█████████▌| 47011/48845 [16:40:16<39:19,  1.29s/it] 96%|█████████▌| 47012/48845 [16:40:17<39:07,  1.28s/it] 96%|█████████▌| 47013/48845 [16:40:19<38:57,  1.28s/it] 96%|█████████▋| 47014/48845 [16:40:20<38:50,  1.27s/it] 96%|█████████▋| 47015/48845 [16:40:21<38:43,  1.27s/it]                                                        {'loss': 2.0053, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▋| 47015/48845 [16:40:21<38:43,  1.27s/it] 96%|█████████▋| 47016/48845 [16:40:22<38:37,  1.27s/it] 96%|█████████▋| 47017/48845 [16:40:24<38:32,  1.26s/it] 96%|█████████▋| 47018/48845 [16:40:25<38:33,  1.27s/it] 96%|█████████▋| 47019/48845 [16:40:26<38:31,  1.27s/it] 96%|█████████▋| 47020/48845 [16:40:27<38:28,  1.27s/it]                                                        {'loss': 2.0046, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▋| 47020/48845 [16:40:27<38:28,  1.27s/it] 96%|█████████▋| 47021/48845 [16:40:29<38:27,  1.27s/it] 96%|█████████▋| 47022/48845 [16:40:30<38:25,  1.26s/it] 96%|█████████▋| 47023/48845 [16:40:31<38:24,  1.27s/it] 96%|█████████▋| 47024/48845 [16:40:32<38:23,  1.27s/it] 96%|█████████▋| 47025/48845 [16:40:34<38:18,  1.26s/it]                                                        {'loss': 2.1456, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▋| 47025/48845 [16:40:34<38:18,  1.26s/it] 96%|█████████▋| 47026/48845 [16:40:35<38:21,  1.27s/it] 96%|█████████▋| 47027/48845 [16:40:36<38:22,  1.27s/it] 96%|█████████▋| 47028/48845 [16:40:37<38:17,  1.26s/it] 96%|█████████▋| 47029/48845 [16:40:39<38:15,  1.26s/it] 96%|█████████▋| 47030/48845 [16:40:40<38:14,  1.26s/it]                                                        {'loss': 1.9258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▋| 47030/48845 [16:40:40<38:14,  1.26s/it] 96%|█████████▋| 47031/48845 [16:40:41<38:11,  1.26s/it] 96%|█████████▋| 47032/48845 [16:40:43<38:10,  1.26s/it] 96%|█████████▋| 47033/48845 [16:40:44<38:10,  1.26s/it] 96%|█████████▋| 47034/48845 [16:40:45<38:10,  1.26s/it] 96%|█████████▋| 47035/48845 [16:40:46<38:13,  1.27s/it]                                                        {'loss': 1.9287, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.81}
+ 96%|█████████▋| 47035/48845 [16:40:46<38:13,  1.27s/it] 96%|█████████▋| 47036/48845 [16:40:48<38:12,  1.27s/it] 96%|█████████▋| 47037/48845 [16:40:49<38:09,  1.27s/it] 96%|█████████▋| 47038/48845 [16:40:50<38:09,  1.27s/it] 96%|█████████▋| 47039/48845 [16:40:51<38:07,  1.27s/it] 96%|█████████▋| 47040/48845 [16:40:53<38:03,  1.27s/it]                                                        {'loss': 2.1191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47040/48845 [16:40:53<38:03,  1.27s/it] 96%|█████████▋| 47041/48845 [16:40:54<38:05,  1.27s/it] 96%|█████████▋| 47042/48845 [16:40:55<38:03,  1.27s/it] 96%|█████████▋| 47043/48845 [16:40:56<37:59,  1.27s/it] 96%|█████████▋| 47044/48845 [16:40:58<37:58,  1.27s/it] 96%|█████████▋| 47045/48845 [16:40:59<37:56,  1.26s/it]                                                        {'loss': 2.2459, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47045/48845 [16:40:59<37:56,  1.26s/it] 96%|█████████▋| 47046/48845 [16:41:00<38:46,  1.29s/it] 96%|█████████▋| 47047/48845 [16:41:02<38:29,  1.28s/it] 96%|█████████▋| 47048/48845 [16:41:03<38:19,  1.28s/it] 96%|█████████▋| 47049/48845 [16:41:04<38:08,  1.27s/it] 96%|█████████▋| 47050/48845 [16:41:05<38:06,  1.27s/it]                                                        {'loss': 2.1627, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47050/48845 [16:41:05<38:06,  1.27s/it] 96%|█████████▋| 47051/48845 [16:41:07<38:02,  1.27s/it] 96%|█████████▋| 47052/48845 [16:41:08<37:55,  1.27s/it] 96%|█████████▋| 47053/48845 [16:41:09<37:50,  1.27s/it] 96%|█████████▋| 47054/48845 [16:41:11<38:36,  1.29s/it] 96%|█████████▋| 47055/48845 [16:41:12<38:19,  1.28s/it]                                                        {'loss': 2.0179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47055/48845 [16:41:12<38:19,  1.28s/it] 96%|█████████▋| 47056/48845 [16:41:13<38:06,  1.28s/it] 96%|█████████▋| 47057/48845 [16:41:14<37:55,  1.27s/it] 96%|█████████▋| 47058/48845 [16:41:16<37:54,  1.27s/it] 96%|█████████▋| 47059/48845 [16:41:17<37:49,  1.27s/it] 96%|█████████▋| 47060/48845 [16:41:18<37:42,  1.27s/it]                                                        {'loss': 2.0589, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47060/48845 [16:41:18<37:42,  1.27s/it] 96%|█████████▋| 47061/48845 [16:41:19<37:42,  1.27s/it] 96%|█████████▋| 47062/48845 [16:41:21<39:04,  1.31s/it] 96%|█████████▋| 47063/48845 [16:41:22<38:37,  1.30s/it] 96%|█████████▋| 47064/48845 [16:41:23<38:14,  1.29s/it] 96%|█████████▋| 47065/48845 [16:41:25<37:59,  1.28s/it]                                                        {'loss': 2.185, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47065/48845 [16:41:25<37:59,  1.28s/it] 96%|█████████▋| 47066/48845 [16:41:26<37:51,  1.28s/it] 96%|█████████▋| 47067/48845 [16:41:27<37:41,  1.27s/it] 96%|█████████▋| 47068/48845 [16:41:28<37:36,  1.27s/it] 96%|█████████▋| 47069/48845 [16:41:30<37:30,  1.27s/it] 96%|█████████▋| 47070/48845 [16:41:31<37:28,  1.27s/it]                                                        {'loss': 1.8398, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47070/48845 [16:41:31<37:28,  1.27s/it] 96%|█████████▋| 47071/48845 [16:41:32<37:26,  1.27s/it] 96%|█████████▋| 47072/48845 [16:41:33<37:24,  1.27s/it] 96%|█████████▋| 47073/48845 [16:41:35<37:22,  1.27s/it] 96%|█████████▋| 47074/48845 [16:41:36<38:43,  1.31s/it] 96%|█████████▋| 47075/48845 [16:41:37<38:16,  1.30s/it]                                                        {'loss': 2.0044, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47075/48845 [16:41:37<38:16,  1.30s/it] 96%|█████████▋| 47076/48845 [16:41:39<37:58,  1.29s/it] 96%|█████████▋| 47077/48845 [16:41:40<37:44,  1.28s/it] 96%|█████████▋| 47078/48845 [16:41:41<37:35,  1.28s/it] 96%|█████████▋| 47079/48845 [16:41:42<37:24,  1.27s/it] 96%|█████████▋| 47080/48845 [16:41:44<37:18,  1.27s/it]                                                        {'loss': 1.9125, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47080/48845 [16:41:44<37:18,  1.27s/it] 96%|█████████▋| 47081/48845 [16:41:45<37:16,  1.27s/it] 96%|█████████▋| 47082/48845 [16:41:46<37:11,  1.27s/it] 96%|█████████▋| 47083/48845 [16:41:48<37:06,  1.26s/it] 96%|█████████▋| 47084/48845 [16:41:49<37:03,  1.26s/it] 96%|█████████▋| 47085/48845 [16:41:50<37:00,  1.26s/it]                                                        {'loss': 2.195, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47085/48845 [16:41:50<37:00,  1.26s/it] 96%|█████████▋| 47086/48845 [16:41:51<37:01,  1.26s/it] 96%|█████████▋| 47087/48845 [16:41:53<37:00,  1.26s/it] 96%|██���██████▋| 47088/48845 [16:41:54<36:58,  1.26s/it] 96%|█████████▋| 47089/48845 [16:41:55<36:57,  1.26s/it] 96%|█████████▋| 47090/48845 [16:41:56<36:57,  1.26s/it]                                                        {'loss': 2.0354, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47090/48845 [16:41:56<36:57,  1.26s/it] 96%|█████████▋| 47091/48845 [16:41:58<36:57,  1.26s/it] 96%|█████████▋| 47092/48845 [16:41:59<36:58,  1.27s/it] 96%|█████████▋| 47093/48845 [16:42:00<36:54,  1.26s/it] 96%|█████████▋| 47094/48845 [16:42:01<36:54,  1.26s/it] 96%|█████████▋| 47095/48845 [16:42:03<36:54,  1.27s/it]                                                        {'loss': 2.1521, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47095/48845 [16:42:03<36:54,  1.27s/it] 96%|█████████▋| 47096/48845 [16:42:04<36:53,  1.27s/it] 96%|█████████▋| 47097/48845 [16:42:05<36:50,  1.26s/it] 96%|█████████▋| 47098/48845 [16:42:07<37:24,  1.29s/it] 96%|█████████▋| 47099/48845 [16:42:08<37:13,  1.28s/it] 96%|█████████▋| 47100/48845 [16:42:09<37:06,  1.28s/it]                                                        {'loss': 2.2552, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47100/48845 [16:42:09<37:06,  1.28s/it] 96%|█████████▋| 47101/48845 [16:42:10<37:02,  1.27s/it] 96%|█████████▋| 47102/48845 [16:42:12<36:56,  1.27s/it] 96%|█████████▋| 47103/48845 [16:42:13<36:52,  1.27s/it] 96%|█████████▋| 47104/48845 [16:42:14<36:48,  1.27s/it] 96%|█████████▋| 47105/48845 [16:42:15<36:45,  1.27s/it]                                                        {'loss': 2.243, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47105/48845 [16:42:16<36:45,  1.27s/it] 96%|█████████▋| 47106/48845 [16:42:17<38:12,  1.32s/it] 96%|█████████▋| 47107/48845 [16:42:18<37:44,  1.30s/it] 96%|█████████▋| 47108/48845 [16:42:19<37:22,  1.29s/it] 96%|█████████▋| 47109/48845 [16:42:21<37:44,  1.30s/it] 96%|█████████▋| 47110/48845 [16:42:22<37:21,  1.29s/it]                                                        {'loss': 2.0072, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47110/48845 [16:42:22<37:21,  1.29s/it] 96%|█████████▋| 47111/48845 [16:42:23<37:06,  1.28s/it] 96%|█████████▋| 47112/48845 [16:42:25<36:54,  1.28s/it] 96%|█████████▋| 47113/48845 [16:42:26<37:11,  1.29s/it] 96%|█████████▋| 47114/48845 [16:42:27<36:57,  1.28s/it] 96%|█████████▋| 47115/48845 [16:42:28<36:47,  1.28s/it]                                                        {'loss': 2.0149, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47115/48845 [16:42:28<36:47,  1.28s/it] 96%|█████████▋| 47116/48845 [16:42:30<36:39,  1.27s/it] 96%|█████████▋| 47117/48845 [16:42:31<36:34,  1.27s/it] 96%|█████████▋| 47118/48845 [16:42:32<36:45,  1.28s/it] 96%|█████████▋| 47119/48845 [16:42:33<36:41,  1.28s/it] 96%|█████████▋| 47120/48845 [16:42:35<36:33,  1.27s/it]                                                        {'loss': 2.0514, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47120/48845 [16:42:35<36:33,  1.27s/it] 96%|█████████▋| 47121/48845 [16:42:36<36:28,  1.27s/it] 96%|█████████▋| 47122/48845 [16:42:37<36:28,  1.27s/it] 96%|█████████▋| 47123/48845 [16:42:39<36:22,  1.27s/it] 96%|█████████▋| 47124/48845 [16:42:40<36:20,  1.27s/it] 96%|█████████▋| 47125/48845 [16:42:41<36:17,  1.27s/it]                                                        {'loss': 2.1738, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47125/48845 [16:42:41<36:17,  1.27s/it] 96%|█████████▋| 47126/48845 [16:42:42<36:14,  1.27s/it] 96%|█████████▋| 47127/48845 [16:42:44<36:12,  1.26s/it] 96%|█████████▋| 47128/48845 [16:42:45<36:09,  1.26s/it] 96%|█████████▋| 47129/48845 [16:42:46<36:06,  1.26s/it] 96%|█████████▋| 47130/48845 [16:42:47<36:07,  1.26s/it]                                                        {'loss': 1.9597, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|████���████▋| 47130/48845 [16:42:47<36:07,  1.26s/it] 96%|█████████▋| 47131/48845 [16:42:49<36:06,  1.26s/it] 96%|█████████▋| 47132/48845 [16:42:50<36:05,  1.26s/it] 96%|█████████▋| 47133/48845 [16:42:51<36:04,  1.26s/it] 96%|█████████▋| 47134/48845 [16:42:52<36:05,  1.27s/it] 96%|█████████▋| 47135/48845 [16:42:54<36:01,  1.26s/it]                                                        {'loss': 1.9411, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.82}
+ 96%|█████████▋| 47135/48845 [16:42:54<36:01,  1.26s/it] 97%|█████████▋| 47136/48845 [16:42:55<36:00,  1.26s/it] 97%|█████████▋| 47137/48845 [16:42:56<35:57,  1.26s/it] 97%|█████████▋| 47138/48845 [16:42:58<36:46,  1.29s/it] 97%|█████████▋| 47139/48845 [16:42:59<36:29,  1.28s/it] 97%|█████████▋| 47140/48845 [16:43:00<36:35,  1.29s/it]                                                        {'loss': 2.1689, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47140/48845 [16:43:00<36:35,  1.29s/it] 97%|█████████▋| 47141/48845 [16:43:01<36:21,  1.28s/it] 97%|█████████▋| 47142/48845 [16:43:03<36:13,  1.28s/it] 97%|█████████▋| 47143/48845 [16:43:04<36:09,  1.27s/it] 97%|█████████▋| 47144/48845 [16:43:05<36:03,  1.27s/it] 97%|█████████▋| 47145/48845 [16:43:06<36:00,  1.27s/it]                                                        {'loss': 2.0067, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47145/48845 [16:43:06<36:00,  1.27s/it] 97%|█████████▋| 47146/48845 [16:43:08<35:56,  1.27s/it] 97%|█████████▋| 47147/48845 [16:43:09<35:53,  1.27s/it] 97%|█████████▋| 47148/48845 [16:43:10<35:49,  1.27s/it] 97%|█████████▋| 47149/48845 [16:43:12<35:44,  1.26s/it] 97%|█████████▋| 47150/48845 [16:43:13<35:44,  1.27s/it]                                                        {'loss': 2.0282, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47150/48845 [16:43:13<35:44,  1.27s/it] 97%|█████████▋| 47151/48845 [16:43:14<35:42,  1.26s/it] 97%|█████████▋| 47152/48845 [16:43:15<35:38,  1.26s/it] 97%|█████████▋| 47153/48845 [16:43:17<35:36,  1.26s/it] 97%|█████████▋| 47154/48845 [16:43:18<35:40,  1.27s/it] 97%|█████████▋| 47155/48845 [16:43:19<35:37,  1.26s/it]                                                        {'loss': 2.1016, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47155/48845 [16:43:19<35:37,  1.26s/it] 97%|█████████▋| 47156/48845 [16:43:20<35:34,  1.26s/it] 97%|█████████▋| 47157/48845 [16:43:22<35:30,  1.26s/it] 97%|█████████▋| 47158/48845 [16:43:23<35:30,  1.26s/it] 97%|█████████▋| 47159/48845 [16:43:24<35:29,  1.26s/it] 97%|█████████▋| 47160/48845 [16:43:25<35:28,  1.26s/it]                                                        {'loss': 2.2054, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47160/48845 [16:43:25<35:28,  1.26s/it] 97%|█████████▋| 47161/48845 [16:43:27<35:28,  1.26s/it] 97%|█████████▋| 47162/48845 [16:43:28<35:27,  1.26s/it] 97%|█████████▋| 47163/48845 [16:43:29<35:24,  1.26s/it] 97%|█████████▋| 47164/48845 [16:43:30<35:23,  1.26s/it] 97%|█████████▋| 47165/48845 [16:43:32<35:20,  1.26s/it]                                                        {'loss': 2.1144, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47165/48845 [16:43:32<35:20,  1.26s/it] 97%|█████████▋| 47166/48845 [16:43:33<35:22,  1.26s/it] 97%|█████████▋| 47167/48845 [16:43:34<35:20,  1.26s/it] 97%|█████████▋| 47168/48845 [16:43:36<35:20,  1.26s/it] 97%|█████████▋| 47169/48845 [16:43:37<35:18,  1.26s/it] 97%|█████████▋| 47170/48845 [16:43:38<35:21,  1.27s/it]                                                        {'loss': 2.1964, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47170/48845 [16:43:38<35:21,  1.27s/it] 97%|█████████▋| 47171/48845 [16:43:39<35:19,  1.27s/it] 97%|█████████▋| 47172/48845 [16:43:41<35:15,  1.26s/it] 97%|█████████▋| 47173/48845 [16:43:42<35:13,  1.26s/it] 97%|█████████▋| 47174/48845 [16:43:43<35:12,  1.26s/it] 97%|█████████▋| 47175/48845 [16:43:44<35:09,  1.26s/it]                                                        {'loss': 2.1275, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47175/48845 [16:43:44<35:09,  1.26s/it] 97%|█████████▋| 47176/48845 [16:43:46<35:09,  1.26s/it] 97%|█████████▋| 47177/48845 [16:43:47<35:07,  1.26s/it] 97%|█████████▋| 47178/48845 [16:43:48<35:54,  1.29s/it] 97%|█████████▋| 47179/48845 [16:43:50<35:41,  1.29s/it] 97%|█████████▋| 47180/48845 [16:43:51<35:27,  1.28s/it]                                                        {'loss': 2.0055, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47180/48845 [16:43:51<35:27,  1.28s/it] 97%|█████████▋| 47181/48845 [16:43:52<35:19,  1.27s/it] 97%|█████████▋| 47182/48845 [16:43:53<35:12,  1.27s/it] 97%|█████████▋| 47183/48845 [16:43:55<35:08,  1.27s/it] 97%|█████████▋| 47184/48845 [16:43:56<35:07,  1.27s/it] 97%|█████████▋| 47185/48845 [16:43:57<35:10,  1.27s/it]                                                        {'loss': 2.063, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47185/48845 [16:43:57<35:10,  1.27s/it] 97%|█████████▋| 47186/48845 [16:43:58<35:07,  1.27s/it] 97%|█████████▋| 47187/48845 [16:44:00<35:02,  1.27s/it] 97%|█████████▋| 47188/48845 [16:44:01<34:59,  1.27s/it] 97%|█████████▋| 47189/48845 [16:44:02<34:56,  1.27s/it] 97%|█████████▋| 47190/48845 [16:44:03<34:55,  1.27s/it]                                                        {'loss': 1.999, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47190/48845 [16:44:03<34:55,  1.27s/it] 97%|█████████▋| 47191/48845 [16:44:05<34:54,  1.27s/it] 97%|█████████▋| 47192/48845 [16:44:06<34:52,  1.27s/it] 97%|█████████▋| 47193/48845 [16:44:07<34:51,  1.27s/it] 97%|█████████▋| 47194/48845 [16:44:09<34:49,  1.27s/it] 97%|█████████▋| 47195/48845 [16:44:10<34:46,  1.26s/it]                                                        {'loss': 1.9113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47195/48845 [16:44:10<34:46,  1.26s/it] 97%|█████████▋| 47196/48845 [16:44:11<34:45,  1.26s/it] 97%|█████████▋| 47197/48845 [16:44:12<34:42,  1.26s/it] 97%|█████████▋| 47198/48845 [16:44:14<34:42,  1.26s/it] 97%|█████████▋| 47199/48845 [16:44:15<34:40,  1.26s/it] 97%|█████████▋| 47200/48845 [16:44:16<34:41,  1.27s/it]                                                        {'loss': 2.3629, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47200/48845 [16:44:16<34:41,  1.27s/it] 97%|█████████▋| 47201/48845 [16:44:20<55:38,  2.03s/it] 97%|█████████▋| 47202/48845 [16:44:21<49:17,  1.80s/it] 97%|█████████▋| 47203/48845 [16:44:22<44:51,  1.64s/it] 97%|█████████▋| 47204/48845 [16:44:24<41:43,  1.53s/it] 97%|█████████▋| 47205/48845 [16:44:25<39:32,  1.45s/it]                                                        {'loss': 2.0964, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47205/48845 [16:44:25<39:32,  1.45s/it] 97%|█████████▋| 47206/48845 [16:44:26<38:00,  1.39s/it] 97%|█████████▋| 47207/48845 [16:44:27<36:53,  1.35s/it] 97%|█████████▋| 47208/48845 [16:44:29<36:11,  1.33s/it] 97%|█████████▋| 47209/48845 [16:44:30<35:38,  1.31s/it] 97%|█████████▋| 47210/48845 [16:44:31<35:14,  1.29s/it]                                                        {'loss': 2.0943, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47210/48845 [16:44:31<35:14,  1.29s/it] 97%|█████████▋| 47211/48845 [16:44:33<34:57,  1.28s/it] 97%|█████████▋| 47212/48845 [16:44:34<34:45,  1.28s/it] 97%|█████████▋| 47213/48845 [16:44:35<34:36,  1.27s/it] 97%|█████████▋| 47214/48845 [16:44:36<34:30,  1.27s/it] 97%|█████████▋| 47215/48845 [16:44:38<34:25,  1.27s/it]                                                        {'loss': 2.1366, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47215/48845 [16:44:38<34:25,  1.27s/it] 97%|█████████▋| 47216/48845 [16:44:39<34:23,  1.27s/it] 97%|█████████▋| 47217/48845 [16:44:40<34:21,  1.27s/it] 97%|█████████▋| 47218/48845 [16:44:41<34:19,  1.27s/it] 97%|█████████▋| 47219/48845 [16:44:43<34:16,  1.26s/it] 97%|█████████▋| 47220/48845 [16:44:44<34:19,  1.27s/it]                                                        {'loss': 2.2021, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47220/48845 [16:44:44<34:19,  1.27s/it] 97%|█████████▋| 47221/48845 [16:44:45<34:15,  1.27s/it] 97%|█████████▋| 47222/48845 [16:44:46<34:10,  1.26s/it] 97%|█████████▋| 47223/48845 [16:44:48<34:08,  1.26s/it] 97%|█████████▋| 47224/48845 [16:44:49<34:06,  1.26s/it] 97%|█████████▋| 47225/48845 [16:44:50<34:05,  1.26s/it]                                                        {'loss': 2.1679, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47225/48845 [16:44:50<34:05,  1.26s/it] 97%|█████████▋| 47226/48845 [16:44:51<34:05,  1.26s/it] 97%|█████████▋| 47227/48845 [16:44:53<34:04,  1.26s/it] 97%|█████████▋| 47228/48845 [16:44:54<34:03,  1.26s/it] 97%|█████████▋| 47229/48845 [16:44:55<34:01,  1.26s/it] 97%|█████████▋| 47230/48845 [16:44:57<33:59,  1.26s/it]                                                        {'loss': 2.0765, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.83}
+ 97%|█████████▋| 47230/48845 [16:44:57<33:59,  1.26s/it] 97%|█████████▋| 47231/48845 [16:44:58<33:58,  1.26s/it] 97%|█████████▋| 47232/48845 [16:44:59<34:01,  1.27s/it] 97%|█████████▋| 47233/48845 [16:45:00<33:58,  1.26s/it] 97%|█████████▋| 47234/48845 [16:45:02<33:57,  1.27s/it] 97%|█████████▋| 47235/48845 [16:45:03<33:54,  1.26s/it]                                                        {'loss': 1.9701, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47235/48845 [16:45:03<33:54,  1.26s/it] 97%|█████████▋| 47236/48845 [16:45:04<33:55,  1.26s/it] 97%|█████████▋| 47237/48845 [16:45:05<33:51,  1.26s/it] 97%|█████████▋| 47238/48845 [16:45:07<33:49,  1.26s/it] 97%|█████████▋| 47239/48845 [16:45:08<33:49,  1.26s/it] 97%|█████████▋| 47240/48845 [16:45:09<33:48,  1.26s/it]                                                        {'loss': 1.9531, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47240/48845 [16:45:09<33:48,  1.26s/it] 97%|█████████▋| 47241/48845 [16:45:10<33:48,  1.26s/it] 97%|█████████▋| 47242/48845 [16:45:12<33:45,  1.26s/it] 97%|█████████▋| 47243/48845 [16:45:13<33:42,  1.26s/it] 97%|█████████▋| 47244/48845 [16:45:14<33:46,  1.27s/it] 97%|█████████▋| 47245/48845 [16:45:16<33:44,  1.27s/it]                                                        {'loss': 2.0059, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47245/48845 [16:45:16<33:44,  1.27s/it] 97%|█████████▋| 47246/48845 [16:45:17<33:42,  1.26s/it] 97%|█████████▋| 47247/48845 [16:45:18<33:42,  1.27s/it] 97%|█████████▋| 47248/48845 [16:45:19<33:41,  1.27s/it] 97%|█████████▋| 47249/48845 [16:45:21<33:38,  1.26s/it] 97%|█████████▋| 47250/48845 [16:45:22<33:38,  1.27s/it]                                                        {'loss': 2.0192, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47250/48845 [16:45:22<33:38,  1.27s/it] 97%|█████████▋| 47251/48845 [16:45:23<33:36,  1.26s/it] 97%|█████████▋| 47252/48845 [16:45:24<33:37,  1.27s/it] 97%|█████████▋| 47253/48845 [16:45:26<33:35,  1.27s/it] 97%|█████████▋| 47254/48845 [16:45:27<33:33,  1.27s/it] 97%|█████████▋| 47255/48845 [16:45:28<33:33,  1.27s/it]                                                        {'loss': 2.0986, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47255/48845 [16:45:28<33:33,  1.27s/it] 97%|█████████▋| 47256/48845 [16:45:29<33:34,  1.27s/it] 97%|█████████▋| 47257/48845 [16:45:31<33:31,  1.27s/it] 97%|█████████▋| 47258/48845 [16:45:32<33:27,  1.27s/it] 97%|█████████▋| 47259/48845 [16:45:33<33:25,  1.26s/it] 97%|█████████▋| 47260/48845 [16:45:34<33:26,  1.27s/it]                                                        {'loss': 2.0832, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47260/48845 [16:45:34<33:26,  1.27s/it] 97%|█████████▋| 47261/48845 [16:45:36<33:25,  1.27s/it] 97%|█████████▋| 47262/48845 [16:45:37<33:22,  1.26s/it] 97%|█████████▋| 47263/48845 [16:45:38<33:19,  1.26s/it] 97%|█████████▋| 47264/48845 [16:45:40<33:19,  1.26s/it] 97%|█████████▋| 47265/48845 [16:45:41<33:16,  1.26s/it]                                                        {'loss': 2.1435, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47265/48845 [16:45:41<33:16,  1.26s/it] 97%|█████████▋| 47266/48845 [16:45:42<33:16,  1.26s/it] 97%|█████████▋| 47267/48845 [16:45:43<33:18,  1.27s/it] 97%|█████████▋| 47268/48845 [16:45:45<33:15,  1.27s/it] 97%|█████████▋| 47269/48845 [16:45:46<33:13,  1.26s/it] 97%|█████████▋| 47270/48845 [16:45:47<33:12,  1.26s/it]                                                        {'loss': 2.091, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47270/48845 [16:45:47<33:12,  1.26s/it] 97%|█████████▋| 47271/48845 [16:45:48<33:12,  1.27s/it] 97%|█████████▋| 47272/48845 [16:45:50<33:08,  1.26s/it] 97%|█████████▋| 47273/48845 [16:45:51<33:08,  1.26s/it] 97%|█████████▋| 47274/48845 [16:45:52<33:06,  1.26s/it] 97%|█████████▋| 47275/48845 [16:45:53<33:07,  1.27s/it]                                                        {'loss': 2.0853, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47275/48845 [16:45:53<33:07,  1.27s/it] 97%|█████████▋| 47276/48845 [16:45:55<33:09,  1.27s/it] 97%|█████████▋| 47277/48845 [16:45:56<33:06,  1.27s/it] 97%|█████████▋| 47278/48845 [16:45:57<33:02,  1.27s/it] 97%|█████████▋| 47279/48845 [16:45:59<33:01,  1.27s/it] 97%|█████████▋| 47280/48845 [16:46:00<33:03,  1.27s/it]                                                        {'loss': 2.0108, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47280/48845 [16:46:00<33:03,  1.27s/it] 97%|█████████▋| 47281/48845 [16:46:01<33:01,  1.27s/it] 97%|█████████▋| 47282/48845 [16:46:02<32:59,  1.27s/it] 97%|█████████▋| 47283/48845 [16:46:04<32:57,  1.27s/it] 97%|█████████▋| 47284/48845 [16:46:05<32:55,  1.27s/it] 97%|█████████▋| 47285/48845 [16:46:06<32:52,  1.26s/it]                                                        {'loss': 2.1088, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47285/48845 [16:46:06<32:52,  1.26s/it] 97%|█████████▋| 47286/48845 [16:46:07<32:53,  1.27s/it] 97%|█████████▋| 47287/48845 [16:46:09<32:52,  1.27s/it] 97%|█████████▋| 47288/48845 [16:46:10<32:50,  1.27s/it] 97%|█████████▋| 47289/48845 [16:46:11<32:47,  1.26s/it] 97%|█████████▋| 47290/48845 [16:46:12<32:43,  1.26s/it]                                                        {'loss': 2.2544, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47290/48845 [16:46:12<32:43,  1.26s/it] 97%|█████████▋| 47291/48845 [16:46:14<32:43,  1.26s/it] 97%|█████████▋| 47292/48845 [16:46:15<32:44,  1.27s/it] 97%|█████████▋| 47293/48845 [16:46:16<32:41,  1.26s/it] 97%|█████████▋| 47294/48845 [16:46:17<32:38,  1.26s/it] 97%|█████████▋| 47295/48845 [16:46:19<32:37,  1.26s/it]                                                        {'loss': 1.976, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47295/48845 [16:46:19<32:37,  1.26s/it] 97%|█████████▋| 47296/48845 [16:46:20<32:38,  1.26s/it] 97%|█████████▋| 47297/48845 [16:46:21<32:37,  1.26s/it] 97%|█████████▋| 47298/48845 [16:46:23<32:35,  1.26s/it] 97%|█████████▋| 47299/48845 [16:46:24<32:35,  1.26s/it] 97%|█████████▋| 47300/48845 [16:46:25<32:50,  1.28s/it]                                                        {'loss': 2.0449, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47300/48845 [16:46:25<32:50,  1.28s/it] 97%|█████████▋| 47301/48845 [16:46:26<32:47,  1.27s/it] 97%|█████████▋| 47302/48845 [16:46:28<32:40,  1.27s/it] 97%|█████████▋| 47303/48845 [16:46:29<32:36,  1.27s/it] 97%|█████████▋| 47304/48845 [16:46:30<32:59,  1.28s/it] 97%|█████████▋| 47305/48845 [16:46:32<32:48,  1.28s/it]                                                        {'loss': 2.0049, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47305/48845 [16:46:32<32:48,  1.28s/it] 97%|█████████▋| 47306/48845 [16:46:33<32:40,  1.27s/it] 97%|█████████▋| 47307/48845 [16:46:34<32:34,  1.27s/it] 97%|█████████▋| 47308/48845 [16:46:35<32:32,  1.27s/it] 97%|█████████▋| 47309/48845 [16:46:37<32:27,  1.27s/it] 97%|█████████▋| 47310/48845 [16:46:38<32:24,  1.27s/it]                                                        {'loss': 2.2176, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47310/48845 [16:46:38<32:24,  1.27s/it] 97%|█████████▋| 47311/48845 [16:46:39<32:23,  1.27s/it] 97%|█████████▋| 47312/48845 [16:46:40<32:20,  1.27s/it] 97%|█████████▋| 47313/48845 [16:46:42<32:20,  1.27s/it] 97%|█████████▋| 47314/48845 [16:46:43<32:17,  1.27s/it] 97%|█████████▋| 47315/48845 [16:46:44<32:14,  1.26s/it]                                                        {'loss': 2.0452, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47315/48845 [16:46:44<32:14,  1.26s/it] 97%|█████████▋| 47316/48845 [16:46:45<32:13,  1.26s/it] 97%|█████████▋| 47317/48845 [16:46:47<32:13,  1.27s/it] 97%|█████████▋| 47318/48845 [16:46:48<32:12,  1.27s/it] 97%|█████████▋| 47319/48845 [16:46:49<32:11,  1.27s/it] 97%|█████████▋| 47320/48845 [16:46:51<32:56,  1.30s/it]                                                        {'loss': 2.1501, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47320/48845 [16:46:51<32:56,  1.30s/it] 97%|█████████▋| 47321/48845 [16:46:52<32:42,  1.29s/it] 97%|█████████▋| 47322/48845 [16:46:53<32:31,  1.28s/it] 97%|█████████▋| 47323/48845 [16:46:54<32:23,  1.28s/it] 97%|█████████▋| 47324/48845 [16:46:56<32:14,  1.27s/it] 97%|█████████▋| 47325/48845 [16:46:57<32:10,  1.27s/it]                                                        {'loss': 2.1003, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47325/48845 [16:46:57<32:10,  1.27s/it] 97%|█████████▋| 47326/48845 [16:46:58<32:08,  1.27s/it] 97%|█████████▋| 47327/48845 [16:46:59<32:03,  1.27s/it] 97%|█████████▋| 47328/48845 [16:47:01<32:00,  1.27s/it] 97%|█████████▋| 47329/48845 [16:47:02<31:58,  1.27s/it] 97%|█████████▋| 47330/48845 [16:47:03<31:56,  1.27s/it]                                                        {'loss': 2.0364, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.84}
+ 97%|█████████▋| 47330/48845 [16:47:03<31:56,  1.27s/it] 97%|█████████▋| 47331/48845 [16:47:05<31:56,  1.27s/it] 97%|█████████▋| 47332/48845 [16:47:06<32:38,  1.29s/it] 97%|█████████▋| 47333/48845 [16:47:07<32:21,  1.28s/it] 97%|█████████▋| 47334/48845 [16:47:08<32:11,  1.28s/it] 97%|█████████▋| 47335/48845 [16:47:10<32:02,  1.27s/it]                                                        {'loss': 2.0658, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47335/48845 [16:47:10<32:02,  1.27s/it] 97%|█████████▋| 47336/48845 [16:47:11<31:59,  1.27s/it] 97%|█████████▋| 47337/48845 [16:47:12<31:57,  1.27s/it] 97%|█████████▋| 47338/48845 [16:47:13<31:52,  1.27s/it] 97%|█████████▋| 47339/48845 [16:47:15<31:49,  1.27s/it] 97%|█████████▋| 47340/48845 [16:47:16<31:47,  1.27s/it]                                                        {'loss': 2.0595, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47340/48845 [16:47:16<31:47,  1.27s/it] 97%|█████████▋| 47341/48845 [16:47:17<31:45,  1.27s/it] 97%|█████████▋| 47342/48845 [16:47:19<31:41,  1.27s/it] 97%|█████████▋| 47343/48845 [16:47:20<31:39,  1.26s/it] 97%|█████████▋| 47344/48845 [16:47:21<31:38,  1.26s/it] 97%|█████████▋| 47345/48845 [16:47:22<31:36,  1.26s/it]                                                        {'loss': 2.1814, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47345/48845 [16:47:22<31:36,  1.26s/it] 97%|█████████▋| 47346/48845 [16:47:24<31:36,  1.26s/it] 97%|█████████▋| 47347/48845 [16:47:25<31:36,  1.27s/it] 97%|█████████▋| 47348/48845 [16:47:26<31:41,  1.27s/it] 97%|█████████▋| 47349/48845 [16:47:27<31:38,  1.27s/it] 97%|█████████▋| 47350/48845 [16:47:29<31:34,  1.27s/it]                                                        {'loss': 2.0295, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47350/48845 [16:47:29<31:34,  1.27s/it] 97%|█████████▋| 47351/48845 [16:47:30<31:32,  1.27s/it] 97%|█████████▋| 47352/48845 [16:47:31<31:30,  1.27s/it] 97%|█████████▋| 47353/48845 [16:47:32<31:27,  1.26s/it] 97%|█████████▋| 47354/48845 [16:47:34<31:25,  1.26s/it] 97%|█████████▋| 47355/48845 [16:47:35<31:24,  1.26s/it]                                                        {'loss': 1.9873, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47355/48845 [16:47:35<31:24,  1.26s/it] 97%|█████████▋| 47356/48845 [16:47:36<31:24,  1.27s/it] 97%|█████████▋| 47357/48845 [16:47:37<31:21,  1.26s/it] 97%|█████████▋| 47358/48845 [16:47:39<31:20,  1.26s/it] 97%|█████████▋| 47359/48845 [16:47:40<31:20,  1.27s/it] 97%|█████████▋| 47360/48845 [16:47:41<31:20,  1.27s/it]                                                        {'loss': 2.1023, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47360/48845 [16:47:41<31:20,  1.27s/it] 97%|█████████▋| 47361/48845 [16:47:43<31:21,  1.27s/it] 97%|█████████▋| 47362/48845 [16:47:44<31:17,  1.27s/it] 97%|█████████▋| 47363/48845 [16:47:45<31:16,  1.27s/it] 97%|█████████▋| 47364/48845 [16:47:46<31:14,  1.27s/it] 97%|█████████▋| 47365/48845 [16:47:48<31:13,  1.27s/it]                                                        {'loss': 2.0077, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47365/48845 [16:47:48<31:13,  1.27s/it] 97%|█████████▋| 47366/48845 [16:47:49<31:13,  1.27s/it] 97%|█████████▋| 47367/48845 [16:47:50<31:12,  1.27s/it] 97%|█████████▋| 47368/48845 [16:47:51<31:10,  1.27s/it] 97%|█████████▋| 47369/48845 [16:47:53<31:07,  1.27s/it] 97%|█████████▋| 47370/48845 [16:47:54<31:05,  1.26s/it]                                                        {'loss': 2.1134, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47370/48845 [16:47:54<31:05,  1.26s/it] 97%|█████████▋| 47371/48845 [16:47:55<31:05,  1.27s/it] 97%|█████████▋| 47372/48845 [16:47:57<31:37,  1.29s/it] 97%|█████████▋| 47373/48845 [16:47:58<31:25,  1.28s/it] 97%|█████████▋| 47374/48845 [16:47:59<31:16,  1.28s/it] 97%|█████████▋| 47375/48845 [16:48:00<31:10,  1.27s/it]                                                        {'loss': 2.0632, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47375/48845 [16:48:00<31:10,  1.27s/it] 97%|█████████▋| 47376/48845 [16:48:02<31:08,  1.27s/it] 97%|█████████▋| 47377/48845 [16:48:03<31:04,  1.27s/it] 97%|█████████▋| 47378/48845 [16:48:04<31:01,  1.27s/it] 97%|█████████▋| 47379/48845 [16:48:05<30:58,  1.27s/it] 97%|█████████▋| 47380/48845 [16:48:07<30:57,  1.27s/it]                                                        {'loss': 2.1424, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47380/48845 [16:48:07<30:57,  1.27s/it] 97%|█████████▋| 47381/48845 [16:48:08<30:55,  1.27s/it] 97%|█████████▋| 47382/48845 [16:48:09<30:53,  1.27s/it] 97%|█████████▋| 47383/48845 [16:48:10<30:52,  1.27s/it] 97%|█████████▋| 47384/48845 [16:48:12<30:49,  1.27s/it] 97%|█████████▋| 47385/48845 [16:48:13<30:47,  1.27s/it]                                                        {'loss': 2.1912, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47385/48845 [16:48:13<30:47,  1.27s/it] 97%|█████████▋| 47386/48845 [16:48:14<30:45,  1.27s/it] 97%|█████████▋| 47387/48845 [16:48:16<30:45,  1.27s/it] 97%|█████████▋| 47388/48845 [16:48:17<30:46,  1.27s/it] 97%|█████████▋| 47389/48845 [16:48:18<30:42,  1.27s/it] 97%|█████████▋| 47390/48845 [16:48:19<30:41,  1.27s/it]                                                        {'loss': 2.0457, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47390/48845 [16:48:19<30:41,  1.27s/it] 97%|█████████▋| 47391/48845 [16:48:21<30:39,  1.27s/it] 97%|█████████▋| 47392/48845 [16:48:22<31:37,  1.31s/it] 97%|█████████▋| 47393/48845 [16:48:23<31:17,  1.29s/it] 97%|█████████▋| 47394/48845 [16:48:25<31:02,  1.28s/it] 97%|█████████▋| 47395/48845 [16:48:26<30:52,  1.28s/it]                                                        {'loss': 2.0525, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47395/48845 [16:48:26<30:52,  1.28s/it] 97%|█████████▋| 47396/48845 [16:48:27<30:45,  1.27s/it] 97%|█████████▋| 47397/48845 [16:48:28<30:40,  1.27s/it] 97%|█████████▋| 47398/48845 [16:48:30<30:35,  1.27s/it] 97%|█████████▋| 47399/48845 [16:48:31<30:35,  1.27s/it] 97%|█████████▋| 47400/48845 [16:48:32<30:32,  1.27s/it]                                                        {'loss': 2.185, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47400/48845 [16:48:32<30:32,  1.27s/it] 97%|█████████▋| 47401/48845 [16:48:36<49:00,  2.04s/it] 97%|█████████▋| 47402/48845 [16:48:37<43:26,  1.81s/it] 97%|█████████▋| 47403/48845 [16:48:38<39:28,  1.64s/it] 97%|█████████▋| 47404/48845 [16:48:40<36:43,  1.53s/it] 97%|█████████▋| 47405/48845 [16:48:41<34:46,  1.45s/it]                                                        {'loss': 1.9467, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47405/48845 [16:48:41<34:46,  1.45s/it] 97%|█████████▋| 47406/48845 [16:48:42<33:27,  1.40s/it] 97%|█████████▋| 47407/48845 [16:48:44<32:29,  1.36s/it] 97%|█████████▋| 47408/48845 [16:48:45<31:48,  1.33s/it] 97%|█████████▋| 47409/48845 [16:48:46<31:18,  1.31s/it] 97%|█████████▋| 47410/48845 [16:48:47<30:57,  1.29s/it]                                                        {'loss': 2.1216, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47410/48845 [16:48:47<30:57,  1.29s/it] 97%|█████████▋| 47411/48845 [16:48:49<30:44,  1.29s/it] 97%|█████████▋| 47412/48845 [16:48:50<30:33,  1.28s/it] 97%|█████████▋| 47413/48845 [16:48:51<30:25,  1.27s/it] 97%|█████████▋| 47414/48845 [16:48:52<30:20,  1.27s/it] 97%|█████████▋| 47415/48845 [16:48:54<30:16,  1.27s/it]                                                        {'loss': 1.9411, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47415/48845 [16:48:54<30:16,  1.27s/it] 97%|█████████▋| 47416/48845 [16:48:55<30:12,  1.27s/it] 97%|█████████▋| 47417/48845 [16:48:56<30:09,  1.27s/it] 97%|█████████▋| 47418/48845 [16:48:57<30:09,  1.27s/it] 97%|█████████▋| 47419/48845 [16:48:59<30:05,  1.27s/it] 97%|█████████▋| 47420/48845 [16:49:00<30:01,  1.26s/it]                                                        {'loss': 1.9879, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47420/48845 [16:49:00<30:01,  1.26s/it] 97%|█████████▋| 47421/48845 [16:49:01<30:00,  1.26s/it] 97%|█████████▋| 47422/48845 [16:49:03<30:36,  1.29s/it] 97%|█████████▋| 47423/48845 [16:49:04<30:22,  1.28s/it] 97%|█████████▋| 47424/48845 [16:49:05<30:12,  1.28s/it] 97%|█████████▋| 47425/48845 [16:49:06<30:04,  1.27s/it]                                                        {'loss': 2.2283, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.85}
+ 97%|█████████▋| 47425/48845 [16:49:06<30:04,  1.27s/it] 97%|█████████▋| 47426/48845 [16:49:08<30:02,  1.27s/it] 97%|█████████▋| 47427/48845 [16:49:09<29:58,  1.27s/it] 97%|█████████▋| 47428/48845 [16:49:10<29:55,  1.27s/it] 97%|█████████▋| 47429/48845 [16:49:11<29:51,  1.27s/it] 97%|█████████▋| 47430/48845 [16:49:13<29:50,  1.27s/it]                                                        {'loss': 2.0645, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47430/48845 [16:49:13<29:50,  1.27s/it] 97%|█████████▋| 47431/48845 [16:49:14<29:49,  1.27s/it] 97%|█████████▋| 47432/48845 [16:49:15<29:47,  1.27s/it] 97%|█████████▋| 47433/48845 [16:49:17<29:47,  1.27s/it] 97%|█████████▋| 47434/48845 [16:49:18<29:45,  1.27s/it] 97%|█████████▋| 47435/48845 [16:49:19<29:46,  1.27s/it]                                                        {'loss': 1.9739, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47435/48845 [16:49:19<29:46,  1.27s/it] 97%|█████████▋| 47436/48845 [16:49:20<29:45,  1.27s/it] 97%|█████████▋| 47437/48845 [16:49:22<29:45,  1.27s/it] 97%|█████████▋| 47438/48845 [16:49:23<29:48,  1.27s/it] 97%|█████████▋| 47439/48845 [16:49:24<29:46,  1.27s/it] 97%|█████████▋| 47440/48845 [16:49:25<29:48,  1.27s/it]                                                        {'loss': 2.1195, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47440/48845 [16:49:25<29:48,  1.27s/it] 97%|█████████▋| 47441/48845 [16:49:27<29:44,  1.27s/it] 97%|█████████▋| 47442/48845 [16:49:28<29:40,  1.27s/it] 97%|█████████▋| 47443/48845 [16:49:29<29:37,  1.27s/it] 97%|█████████▋| 47444/48845 [16:49:30<29:35,  1.27s/it] 97%|█████████▋| 47445/48845 [16:49:32<29:34,  1.27s/it]                                                        {'loss': 2.1216, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47445/48845 [16:49:32<29:34,  1.27s/it] 97%|█████████▋| 47446/48845 [16:49:33<29:33,  1.27s/it] 97%|█████████▋| 47447/48845 [16:49:34<29:29,  1.27s/it] 97%|█████████▋| 47448/48845 [16:49:36<29:28,  1.27s/it] 97%|█████████▋| 47449/48845 [16:49:37<29:26,  1.27s/it] 97%|█████████▋| 47450/48845 [16:49:38<30:36,  1.32s/it]                                                        {'loss': 2.0873, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47450/48845 [16:49:38<30:36,  1.32s/it] 97%|█████████▋| 47451/48845 [16:49:39<30:14,  1.30s/it] 97%|█████████▋| 47452/48845 [16:49:41<29:57,  1.29s/it] 97%|█████████▋| 47453/48845 [16:49:42<29:44,  1.28s/it] 97%|█████████▋| 47454/48845 [16:49:43<29:37,  1.28s/it] 97%|█████████▋| 47455/48845 [16:49:45<29:30,  1.27s/it]                                                        {'loss': 2.2641, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47455/48845 [16:49:45<29:30,  1.27s/it] 97%|█████████▋| 47456/48845 [16:49:46<29:25,  1.27s/it] 97%|█████████▋| 47457/48845 [16:49:47<29:24,  1.27s/it] 97%|█████████▋| 47458/48845 [16:49:48<29:21,  1.27s/it] 97%|█████████▋| 47459/48845 [16:49:50<29:17,  1.27s/it] 97%|█████████▋| 47460/48845 [16:49:51<29:14,  1.27s/it]                                                        {'loss': 2.1375, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47460/48845 [16:49:51<29:14,  1.27s/it] 97%|█████████▋| 47461/48845 [16:49:52<29:12,  1.27s/it] 97%|█████████▋| 47462/48845 [16:49:53<29:13,  1.27s/it] 97%|█████████▋| 47463/48845 [16:49:55<29:11,  1.27s/it] 97%|█████████▋| 47464/48845 [16:49:56<29:07,  1.27s/it] 97%|█████████▋| 47465/48845 [16:49:57<29:04,  1.26s/it]                                                        {'loss': 2.0692, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47465/48845 [16:49:57<29:04,  1.26s/it] 97%|█████████▋| 47466/48845 [16:49:58<29:12,  1.27s/it] 97%|█████████▋| 47467/48845 [16:50:00<29:07,  1.27s/it] 97%|█████████▋| 47468/48845 [16:50:01<29:04,  1.27s/it] 97%|█████████▋| 47469/48845 [16:50:02<29:01,  1.27s/it] 97%|█████████▋| 47470/48845 [16:50:04<29:00,  1.27s/it]                                                        {'loss': 2.2179, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47470/48845 [16:50:04<29:00,  1.27s/it] 97%|█████████▋| 47471/48845 [16:50:05<29:02,  1.27s/it] 97%|█████████▋| 47472/48845 [16:50:06<29:00,  1.27s/it] 97%|█████████▋| 47473/48845 [16:50:07<28:56,  1.27s/it] 97%|█████████▋| 47474/48845 [16:50:09<28:55,  1.27s/it] 97%|█████████▋| 47475/48845 [16:50:10<28:52,  1.26s/it]                                                        {'loss': 2.0727, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47475/48845 [16:50:10<28:52,  1.26s/it] 97%|█████████▋| 47476/48845 [16:50:11<28:49,  1.26s/it] 97%|█████████▋| 47477/48845 [16:50:12<28:47,  1.26s/it] 97%|█████████▋| 47478/48845 [16:50:14<28:49,  1.27s/it] 97%|█████████▋| 47479/48845 [16:50:15<28:47,  1.26s/it] 97%|█████████▋| 47480/48845 [16:50:16<28:45,  1.26s/it]                                                        {'loss': 2.1903, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47480/48845 [16:50:16<28:45,  1.26s/it] 97%|█████████▋| 47481/48845 [16:50:17<28:44,  1.26s/it] 97%|█████████▋| 47482/48845 [16:50:19<28:43,  1.26s/it] 97%|█████████▋| 47483/48845 [16:50:20<28:42,  1.26s/it] 97%|█████████▋| 47484/48845 [16:50:21<28:40,  1.26s/it] 97%|█████████▋| 47485/48845 [16:50:23<28:38,  1.26s/it]                                                        {'loss': 2.0037, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47485/48845 [16:50:23<28:38,  1.26s/it] 97%|█████████▋| 47486/48845 [16:50:24<28:38,  1.26s/it] 97%|█████████▋| 47487/48845 [16:50:25<28:36,  1.26s/it] 97%|█████████▋| 47488/48845 [16:50:26<28:36,  1.27s/it] 97%|█████████▋| 47489/48845 [16:50:28<28:34,  1.26s/it] 97%|█████████▋| 47490/48845 [16:50:29<28:35,  1.27s/it]                                                        {'loss': 2.1218, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47490/48845 [16:50:29<28:35,  1.27s/it] 97%|█████████▋| 47491/48845 [16:50:30<28:34,  1.27s/it] 97%|█████████▋| 47492/48845 [16:50:31<28:32,  1.27s/it] 97%|█████████▋| 47493/48845 [16:50:33<28:30,  1.27s/it] 97%|█████████▋| 47494/48845 [16:50:34<28:30,  1.27s/it] 97%|█████████▋| 47495/48845 [16:50:35<28:28,  1.27s/it]                                                        {'loss': 2.1231, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47495/48845 [16:50:35<28:28,  1.27s/it] 97%|█████████▋| 47496/48845 [16:50:36<28:26,  1.27s/it] 97%|█████████▋| 47497/48845 [16:50:38<28:26,  1.27s/it] 97%|█████████▋| 47498/48845 [16:50:39<29:24,  1.31s/it] 97%|█████████▋| 47499/48845 [16:50:40<29:03,  1.30s/it] 97%|█████████▋| 47500/48845 [16:50:42<28:50,  1.29s/it]                                                        {'loss': 2.0091, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47500/48845 [16:50:42<28:50,  1.29s/it] 97%|█████████▋| 47501/48845 [16:50:43<28:39,  1.28s/it] 97%|█████████▋| 47502/48845 [16:50:44<28:33,  1.28s/it] 97%|█████████▋| 47503/48845 [16:50:45<28:26,  1.27s/it] 97%|█████████▋| 47504/48845 [16:50:47<28:23,  1.27s/it] 97%|█████████▋| 47505/48845 [16:50:48<28:22,  1.27s/it]                                                        {'loss': 1.9903, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47505/48845 [16:50:48<28:22,  1.27s/it] 97%|█████████▋| 47506/48845 [16:50:49<28:17,  1.27s/it] 97%|█████████▋| 47507/48845 [16:50:51<29:00,  1.30s/it] 97%|█████████▋| 47508/48845 [16:50:52<28:43,  1.29s/it] 97%|█████████▋| 47509/48845 [16:50:53<28:31,  1.28s/it] 97%|█████████▋| 47510/48845 [16:50:54<28:23,  1.28s/it]                                                        {'loss': 2.1392, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47510/48845 [16:50:54<28:23,  1.28s/it] 97%|█████████▋| 47511/48845 [16:50:56<28:23,  1.28s/it] 97%|█████████▋| 47512/48845 [16:50:57<28:17,  1.27s/it] 97%|█████████▋| 47513/48845 [16:50:58<28:13,  1.27s/it] 97%|█████████▋| 47514/48845 [16:50:59<28:07,  1.27s/it] 97%|█████████▋| 47515/48845 [16:51:01<28:15,  1.28s/it]                                                        {'loss': 2.0757, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47515/48845 [16:51:01<28:15,  1.28s/it] 97%|█████████▋| 47516/48845 [16:51:02<28:10,  1.27s/it] 97%|█████████▋| 47517/48845 [16:51:03<28:04,  1.27s/it] 97%|█████████▋| 47518/48845 [16:51:05<28:03,  1.27s/it] 97%|█████████▋| 47519/48845 [16:51:06<28:00,  1.27s/it] 97%|█████████▋| 47520/48845 [16:51:07<27:56,  1.27s/it]                                                        {'loss': 2.1275, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47520/48845 [16:51:07<27:56,  1.27s/it] 97%|█████████▋| 47521/48845 [16:51:08<27:54,  1.26s/it] 97%|█████████▋| 47522/48845 [16:51:10<27:51,  1.26s/it] 97%|█████████▋| 47523/48845 [16:51:11<27:52,  1.27s/it] 97%|█████████▋| 47524/48845 [16:51:12<27:51,  1.27s/it] 97%|█████████▋| 47525/48845 [16:51:13<27:48,  1.26s/it]                                                        {'loss': 2.0399, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.86}
+ 97%|█████████▋| 47525/48845 [16:51:13<27:48,  1.26s/it] 97%|█████████▋| 47526/48845 [16:51:15<27:46,  1.26s/it] 97%|█████████▋| 47527/48845 [16:51:16<27:46,  1.26s/it] 97%|█████████▋| 47528/48845 [16:51:17<27:45,  1.26s/it] 97%|█████████▋| 47529/48845 [16:51:18<27:44,  1.26s/it] 97%|█████████▋| 47530/48845 [16:51:20<27:42,  1.26s/it]                                                        {'loss': 1.9357, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47530/48845 [16:51:20<27:42,  1.26s/it] 97%|█████████▋| 47531/48845 [16:51:21<27:42,  1.27s/it] 97%|█████████▋| 47532/48845 [16:51:22<27:39,  1.26s/it] 97%|█████████▋| 47533/48845 [16:51:24<27:38,  1.26s/it] 97%|█████████▋| 47534/48845 [16:51:25<27:36,  1.26s/it] 97%|█████████▋| 47535/48845 [16:51:26<27:38,  1.27s/it]                                                        {'loss': 2.1225, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47535/48845 [16:51:26<27:38,  1.27s/it] 97%|█████████▋| 47536/48845 [16:51:27<27:36,  1.27s/it] 97%|█████████▋| 47537/48845 [16:51:29<27:33,  1.26s/it] 97%|█████████▋| 47538/48845 [16:51:30<27:30,  1.26s/it] 97%|█████████▋| 47539/48845 [16:51:31<27:30,  1.26s/it] 97%|█████████▋| 47540/48845 [16:51:32<27:27,  1.26s/it]                                                        {'loss': 1.9666, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47540/48845 [16:51:32<27:27,  1.26s/it] 97%|█████████▋| 47541/48845 [16:51:34<27:27,  1.26s/it] 97%|█████████▋| 47542/48845 [16:51:35<27:27,  1.26s/it] 97%|█████████▋| 47543/48845 [16:51:36<27:26,  1.26s/it] 97%|█████████▋| 47544/48845 [16:51:37<27:26,  1.27s/it] 97%|█████████▋| 47545/48845 [16:51:39<27:23,  1.26s/it]                                                        {'loss': 2.3049, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47545/48845 [16:51:39<27:23,  1.26s/it] 97%|█████████▋| 47546/48845 [16:51:40<27:20,  1.26s/it] 97%|█████████▋| 47547/48845 [16:51:41<27:22,  1.27s/it] 97%|█████████▋| 47548/48845 [16:51:42<27:21,  1.27s/it] 97%|█████████▋| 47549/48845 [16:51:44<27:20,  1.27s/it] 97%|█████████▋| 47550/48845 [16:51:45<27:18,  1.27s/it]                                                        {'loss': 2.1053, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47550/48845 [16:51:45<27:18,  1.27s/it] 97%|█████████▋| 47551/48845 [16:51:46<28:11,  1.31s/it] 97%|█████████▋| 47552/48845 [16:51:48<27:53,  1.29s/it] 97%|█████████▋| 47553/48845 [16:51:49<27:39,  1.28s/it] 97%|█████████▋| 47554/48845 [16:51:50<27:30,  1.28s/it] 97%|█████████▋| 47555/48845 [16:51:52<28:13,  1.31s/it]                                                        {'loss': 2.2138, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47555/48845 [16:51:52<28:13,  1.31s/it] 97%|█████████▋| 47556/48845 [16:51:53<27:53,  1.30s/it] 97%|█████████▋| 47557/48845 [16:51:54<27:38,  1.29s/it] 97%|█████████▋| 47558/48845 [16:51:55<27:26,  1.28s/it] 97%|█████████▋| 47559/48845 [16:51:57<27:22,  1.28s/it] 97%|█████████▋| 47560/48845 [16:51:58<27:16,  1.27s/it]                                                        {'loss': 2.0331, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47560/48845 [16:51:58<27:16,  1.27s/it] 97%|█████████▋| 47561/48845 [16:51:59<27:12,  1.27s/it] 97%|█████████▋| 47562/48845 [16:52:00<27:09,  1.27s/it] 97%|█████████▋| 47563/48845 [16:52:02<27:04,  1.27s/it] 97%|█████████▋| 47564/48845 [16:52:03<27:02,  1.27s/it] 97%|█████████▋| 47565/48845 [16:52:04<26:58,  1.26s/it]                                                        {'loss': 2.0118, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47565/48845 [16:52:04<26:58,  1.26s/it] 97%|█████████▋| 47566/48845 [16:52:06<26:56,  1.26s/it] 97%|█████████▋| 47567/48845 [16:52:07<26:55,  1.26s/it] 97%|█████████▋| 47568/48845 [16:52:08<26:54,  1.26s/it] 97%|█████████▋| 47569/48845 [16:52:09<26:52,  1.26s/it] 97%|█████████▋| 47570/48845 [16:52:11<26:49,  1.26s/it]                                                        {'loss': 1.9951, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47570/48845 [16:52:11<26:49,  1.26s/it] 97%|█████████▋| 47571/48845 [16:52:12<26:49,  1.26s/it] 97%|█████████▋| 47572/48845 [16:52:13<26:48,  1.26s/it] 97%|█████████▋| 47573/48845 [16:52:14<26:48,  1.26s/it] 97%|█████████▋| 47574/48845 [16:52:16<26:46,  1.26s/it] 97%|█████████▋| 47575/48845 [16:52:17<27:06,  1.28s/it]                                                        {'loss': 2.1102, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47575/48845 [16:52:17<27:06,  1.28s/it] 97%|█████████▋| 47576/48845 [16:52:18<26:59,  1.28s/it] 97%|█████████▋| 47577/48845 [16:52:19<26:52,  1.27s/it] 97%|█████████▋| 47578/48845 [16:52:21<27:00,  1.28s/it] 97%|█████████▋| 47579/48845 [16:52:22<26:52,  1.27s/it] 97%|█████████▋| 47580/48845 [16:52:23<26:46,  1.27s/it]                                                        {'loss': 2.0355, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47580/48845 [16:52:23<26:46,  1.27s/it] 97%|█████████▋| 47581/48845 [16:52:25<26:43,  1.27s/it] 97%|█████████▋| 47582/48845 [16:52:26<26:40,  1.27s/it] 97%|█████████▋| 47583/48845 [16:52:27<26:39,  1.27s/it] 97%|█████████▋| 47584/48845 [16:52:28<26:37,  1.27s/it] 97%|█████████▋| 47585/48845 [16:52:30<26:34,  1.27s/it]                                                        {'loss': 2.2063, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47585/48845 [16:52:30<26:34,  1.27s/it] 97%|█████████▋| 47586/48845 [16:52:31<26:34,  1.27s/it] 97%|█████████▋| 47587/48845 [16:52:32<26:32,  1.27s/it] 97%|█████████▋| 47588/48845 [16:52:33<26:28,  1.26s/it] 97%|█████████▋| 47589/48845 [16:52:35<26:29,  1.27s/it] 97%|█████████▋| 47590/48845 [16:52:36<26:26,  1.26s/it]                                                        {'loss': 2.0316, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47590/48845 [16:52:36<26:26,  1.26s/it] 97%|█████████▋| 47591/48845 [16:52:37<27:16,  1.31s/it] 97%|█████████▋| 47592/48845 [16:52:39<27:00,  1.29s/it] 97%|█████████▋| 47593/48845 [16:52:40<26:51,  1.29s/it] 97%|█████████▋| 47594/48845 [16:52:41<26:41,  1.28s/it] 97%|█████████▋| 47595/48845 [16:52:42<26:35,  1.28s/it]                                                        {'loss': 2.1038, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47595/48845 [16:52:42<26:35,  1.28s/it] 97%|█████████▋| 47596/48845 [16:52:44<29:10,  1.40s/it] 97%|█████████▋| 47597/48845 [16:52:45<28:17,  1.36s/it] 97%|█████████▋| 47598/48845 [16:52:47<27:41,  1.33s/it] 97%|█████████▋| 47599/48845 [16:52:48<27:26,  1.32s/it] 97%|█████████▋| 47600/48845 [16:52:49<27:04,  1.30s/it]                                                        {'loss': 2.0978, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47600/48845 [16:52:49<27:04,  1.30s/it] 97%|█████████▋| 47601/48845 [16:52:53<42:47,  2.06s/it] 97%|█████████▋| 47602/48845 [16:52:54<37:47,  1.82s/it] 97%|█████████▋| 47603/48845 [16:52:56<34:15,  1.65s/it] 97%|█████████▋| 47604/48845 [16:52:57<31:52,  1.54s/it] 97%|█████████▋| 47605/48845 [16:52:58<30:09,  1.46s/it]                                                        {'loss': 2.0422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47605/48845 [16:52:58<30:09,  1.46s/it] 97%|█████████▋| 47606/48845 [16:52:59<28:55,  1.40s/it] 97%|█████████▋| 47607/48845 [16:53:01<28:03,  1.36s/it] 97%|█████████▋| 47608/48845 [16:53:02<27:26,  1.33s/it] 97%|█████████▋| 47609/48845 [16:53:03<26:59,  1.31s/it] 97%|█████████▋| 47610/48845 [16:53:04<26:40,  1.30s/it]                                                        {'loss': 1.9748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47610/48845 [16:53:04<26:40,  1.30s/it] 97%|█████████▋| 47611/48845 [16:53:06<26:26,  1.29s/it] 97%|█████████▋| 47612/48845 [16:53:07<26:17,  1.28s/it] 97%|█████████▋| 47613/48845 [16:53:08<26:10,  1.27s/it] 97%|█████████▋| 47614/48845 [16:53:09<26:04,  1.27s/it] 97%|█████████▋| 47615/48845 [16:53:11<25:59,  1.27s/it]                                                        {'loss': 1.9958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47615/48845 [16:53:11<25:59,  1.27s/it] 97%|█████████▋| 47616/48845 [16:53:12<25:57,  1.27s/it] 97%|█████████▋| 47617/48845 [16:53:13<25:56,  1.27s/it] 97%|█████████▋| 47618/48845 [16:53:15<25:53,  1.27s/it] 97%|█████████▋| 47619/48845 [16:53:16<25:52,  1.27s/it] 97%|█████████▋| 47620/48845 [16:53:17<25:49,  1.27s/it]                                                        {'loss': 2.0055, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.87}
+ 97%|█████████▋| 47620/48845 [16:53:17<25:49,  1.27s/it] 97%|█████████▋| 47621/48845 [16:53:18<25:47,  1.26s/it] 97%|█████████▋| 47622/48845 [16:53:20<25:45,  1.26s/it] 97%|█████████▋| 47623/48845 [16:53:21<25:45,  1.26s/it] 98%|█████████▊| 47624/48845 [16:53:22<25:41,  1.26s/it] 98%|█████████▊| 47625/48845 [16:53:23<25:42,  1.26s/it]                                                        {'loss': 2.2654, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47625/48845 [16:53:23<25:42,  1.26s/it] 98%|█████████▊| 47626/48845 [16:53:25<25:40,  1.26s/it] 98%|█████████▊| 47627/48845 [16:53:26<25:38,  1.26s/it] 98%|█████████▊| 47628/48845 [16:53:27<25:38,  1.26s/it] 98%|█████████▊| 47629/48845 [16:53:28<25:36,  1.26s/it] 98%|█████████▊| 47630/48845 [16:53:30<25:35,  1.26s/it]                                                        {'loss': 2.0414, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47630/48845 [16:53:30<25:35,  1.26s/it] 98%|█████████▊| 47631/48845 [16:53:31<25:37,  1.27s/it] 98%|█████████▊| 47632/48845 [16:53:32<25:33,  1.26s/it] 98%|█████████▊| 47633/48845 [16:53:33<25:33,  1.27s/it] 98%|█████████▊| 47634/48845 [16:53:35<25:31,  1.26s/it] 98%|█████████▊| 47635/48845 [16:53:36<25:29,  1.26s/it]                                                        {'loss': 2.2013, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47635/48845 [16:53:36<25:29,  1.26s/it] 98%|█████████▊| 47636/48845 [16:53:37<25:29,  1.26s/it] 98%|█████████▊| 47637/48845 [16:53:39<26:20,  1.31s/it] 98%|█████████▊| 47638/48845 [16:53:40<26:03,  1.30s/it] 98%|█████████▊| 47639/48845 [16:53:41<25:50,  1.29s/it] 98%|█████████▊| 47640/48845 [16:53:42<25:40,  1.28s/it]                                                        {'loss': 2.0376, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47640/48845 [16:53:42<25:40,  1.28s/it] 98%|█████████▊| 47641/48845 [16:53:44<25:35,  1.28s/it] 98%|█████████▊| 47642/48845 [16:53:45<25:32,  1.27s/it] 98%|█████████▊| 47643/48845 [16:53:46<25:26,  1.27s/it] 98%|█████████▊| 47644/48845 [16:53:48<25:22,  1.27s/it] 98%|█████████▊| 47645/48845 [16:53:49<25:21,  1.27s/it]                                                        {'loss': 2.2237, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47645/48845 [16:53:49<25:21,  1.27s/it] 98%|█████████▊| 47646/48845 [16:53:50<25:20,  1.27s/it] 98%|█████████▊| 47647/48845 [16:53:51<25:17,  1.27s/it] 98%|█████████▊| 47648/48845 [16:53:53<25:15,  1.27s/it] 98%|█████████▊| 47649/48845 [16:53:54<25:47,  1.29s/it] 98%|█████████▊| 47650/48845 [16:53:55<25:35,  1.29s/it]                                                        {'loss': 1.9659, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47650/48845 [16:53:55<25:35,  1.29s/it] 98%|█████████▊| 47651/48845 [16:53:56<25:29,  1.28s/it] 98%|█████████▊| 47652/48845 [16:53:58<25:21,  1.28s/it] 98%|█████████▊| 47653/48845 [16:53:59<25:16,  1.27s/it] 98%|█████████▊| 47654/48845 [16:54:00<25:11,  1.27s/it] 98%|█████████▊| 47655/48845 [16:54:02<25:07,  1.27s/it]                                                        {'loss': 2.041, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47655/48845 [16:54:02<25:07,  1.27s/it] 98%|█████████▊| 47656/48845 [16:54:03<25:04,  1.27s/it] 98%|█████████▊| 47657/48845 [16:54:04<25:03,  1.27s/it] 98%|█████████▊| 47658/48845 [16:54:05<24:59,  1.26s/it] 98%|█████████▊| 47659/48845 [16:54:07<24:58,  1.26s/it] 98%|█████████▊| 47660/48845 [16:54:08<24:57,  1.26s/it]                                                        {'loss': 2.0341, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47660/48845 [16:54:08<24:57,  1.26s/it] 98%|█████████▊| 47661/48845 [16:54:09<24:57,  1.26s/it] 98%|█████████▊| 47662/48845 [16:54:10<24:56,  1.27s/it] 98%|█████████▊| 47663/48845 [16:54:12<24:56,  1.27s/it] 98%|█████████▊| 47664/48845 [16:54:13<24:53,  1.26s/it] 98%|█████████▊| 47665/48845 [16:54:14<24:51,  1.26s/it]                                                        {'loss': 2.1064, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47665/48845 [16:54:14<24:51,  1.26s/it] 98%|█████████▊| 47666/48845 [16:54:15<24:50,  1.26s/it] 98%|█████████▊| 47667/48845 [16:54:17<24:47,  1.26s/it] 98%|█████████▊| 47668/48845 [16:54:18<24:45,  1.26s/it] 98%|█████████▊| 47669/48845 [16:54:19<24:46,  1.26s/it] 98%|█████████▊| 47670/48845 [16:54:21<24:44,  1.26s/it]                                                        {'loss': 2.0975, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47670/48845 [16:54:21<24:44,  1.26s/it] 98%|█████████▊| 47671/48845 [16:54:22<24:43,  1.26s/it] 98%|█████████▊| 47672/48845 [16:54:23<24:41,  1.26s/it] 98%|█████████▊| 47673/48845 [16:54:24<24:41,  1.26s/it] 98%|█████████▊| 47674/48845 [16:54:26<24:40,  1.26s/it] 98%|█████████▊| 47675/48845 [16:54:27<24:38,  1.26s/it]                                                        {'loss': 2.1557, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47675/48845 [16:54:27<24:38,  1.26s/it] 98%|█████████▊| 47676/48845 [16:54:28<24:38,  1.26s/it] 98%|█████████▊| 47677/48845 [16:54:29<24:37,  1.26s/it] 98%|█████████▊| 47678/48845 [16:54:31<24:35,  1.26s/it] 98%|█████████▊| 47679/48845 [16:54:32<24:34,  1.26s/it] 98%|█████████▊| 47680/48845 [16:54:33<24:33,  1.26s/it]                                                        {'loss': 2.2056, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47680/48845 [16:54:33<24:33,  1.26s/it] 98%|█████████▊| 47681/48845 [16:54:34<24:40,  1.27s/it] 98%|█████████▊| 47682/48845 [16:54:36<24:35,  1.27s/it] 98%|█████████▊| 47683/48845 [16:54:37<24:32,  1.27s/it] 98%|█████████▊| 47684/48845 [16:54:38<24:30,  1.27s/it] 98%|█████████▊| 47685/48845 [16:54:39<24:27,  1.27s/it]                                                        {'loss': 1.9465, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47685/48845 [16:54:39<24:27,  1.27s/it] 98%|█████████▊| 47686/48845 [16:54:41<24:25,  1.26s/it] 98%|█████████▊| 47687/48845 [16:54:42<24:23,  1.26s/it] 98%|█████████▊| 47688/48845 [16:54:43<24:20,  1.26s/it] 98%|█████████▊| 47689/48845 [16:54:45<24:53,  1.29s/it] 98%|█████████▊| 47690/48845 [16:54:46<24:40,  1.28s/it]                                                        {'loss': 2.2636, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47690/48845 [16:54:46<24:40,  1.28s/it] 98%|█████████▊| 47691/48845 [16:54:47<24:34,  1.28s/it] 98%|█████████▊| 47692/48845 [16:54:48<24:30,  1.28s/it] 98%|█████████▊| 47693/48845 [16:54:50<24:25,  1.27s/it] 98%|█████████▊| 47694/48845 [16:54:51<24:21,  1.27s/it] 98%|█████████▊| 47695/48845 [16:54:52<24:17,  1.27s/it]                                                        {'loss': 2.0395, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47695/48845 [16:54:52<24:17,  1.27s/it] 98%|█████████▊| 47696/48845 [16:54:53<24:15,  1.27s/it] 98%|█████████▊| 47697/48845 [16:54:55<24:17,  1.27s/it] 98%|█████████▊| 47698/48845 [16:54:56<24:14,  1.27s/it] 98%|█████████▊| 47699/48845 [16:54:57<24:14,  1.27s/it] 98%|█████████▊| 47700/48845 [16:54:59<24:10,  1.27s/it]                                                        {'loss': 2.2399, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47700/48845 [16:54:59<24:10,  1.27s/it] 98%|█████████▊| 47701/48845 [16:55:00<24:49,  1.30s/it] 98%|█████████▊| 47702/48845 [16:55:01<24:34,  1.29s/it] 98%|█████████▊| 47703/48845 [16:55:02<24:24,  1.28s/it] 98%|█████████▊| 47704/48845 [16:55:04<24:17,  1.28s/it] 98%|█████████▊| 47705/48845 [16:55:05<24:30,  1.29s/it]                                                        {'loss': 2.0233, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47705/48845 [16:55:05<24:30,  1.29s/it] 98%|█████████▊| 47706/48845 [16:55:06<24:22,  1.28s/it] 98%|█████████▊| 47707/48845 [16:55:08<24:12,  1.28s/it] 98%|█████████▊| 47708/48845 [16:55:09<24:07,  1.27s/it] 98%|█████████▊| 47709/48845 [16:55:10<24:23,  1.29s/it] 98%|█████████▊| 47710/48845 [16:55:11<24:14,  1.28s/it]                                                        {'loss': 2.0696, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47710/48845 [16:55:11<24:14,  1.28s/it] 98%|█████████▊| 47711/48845 [16:55:13<24:07,  1.28s/it] 98%|█████████▊| 47712/48845 [16:55:14<24:01,  1.27s/it] 98%|█████████▊| 47713/48845 [16:55:15<24:18,  1.29s/it] 98%|█████████▊| 47714/48845 [16:55:17<24:09,  1.28s/it] 98%|█████████▊| 47715/48845 [16:55:18<24:02,  1.28s/it]                                                        {'loss': 2.0855, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47715/48845 [16:55:18<24:02,  1.28s/it] 98%|█████████▊| 47716/48845 [16:55:19<23:55,  1.27s/it] 98%|█████████▊| 47717/48845 [16:55:20<24:30,  1.30s/it] 98%|█████████▊| 47718/48845 [16:55:22<24:15,  1.29s/it] 98%|█████████▊| 47719/48845 [16:55:23<24:04,  1.28s/it] 98%|█████████▊| 47720/48845 [16:55:24<23:55,  1.28s/it]                                                        {'loss': 2.1122, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.88}
+ 98%|█████████▊| 47720/48845 [16:55:24<23:55,  1.28s/it] 98%|█████████▊| 47721/48845 [16:55:26<24:18,  1.30s/it] 98%|█████████▊| 47722/48845 [16:55:27<24:06,  1.29s/it] 98%|█████████▊| 47723/48845 [16:55:28<23:55,  1.28s/it] 98%|█████████▊| 47724/48845 [16:55:29<23:48,  1.27s/it] 98%|█████████▊| 47725/48845 [16:55:31<23:42,  1.27s/it]                                                        {'loss': 2.2637, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47725/48845 [16:55:31<23:42,  1.27s/it] 98%|█████████▊| 47726/48845 [16:55:32<23:37,  1.27s/it] 98%|█████████▊| 47727/48845 [16:55:33<23:34,  1.27s/it] 98%|█████████▊| 47728/48845 [16:55:34<23:32,  1.26s/it] 98%|█████████▊| 47729/48845 [16:55:36<23:59,  1.29s/it] 98%|█████████▊| 47730/48845 [16:55:37<23:49,  1.28s/it]                                                        {'loss': 2.0373, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47730/48845 [16:55:37<23:49,  1.28s/it] 98%|█████████▊| 47731/48845 [16:55:38<23:40,  1.28s/it] 98%|█████████▊| 47732/48845 [16:55:40<23:34,  1.27s/it] 98%|█████████▊| 47733/48845 [16:55:41<23:54,  1.29s/it] 98%|█████████▊| 47734/48845 [16:55:42<23:44,  1.28s/it] 98%|█████████▊| 47735/48845 [16:55:43<23:35,  1.27s/it]                                                        {'loss': 2.0896, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47735/48845 [16:55:43<23:35,  1.27s/it] 98%|█████████▊| 47736/48845 [16:55:45<23:31,  1.27s/it] 98%|█████████▊| 47737/48845 [16:55:46<23:25,  1.27s/it] 98%|█████████▊| 47738/48845 [16:55:47<23:23,  1.27s/it] 98%|█████████▊| 47739/48845 [16:55:48<23:21,  1.27s/it] 98%|█████████▊| 47740/48845 [16:55:50<23:20,  1.27s/it]                                                        {'loss': 2.1277, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47740/48845 [16:55:50<23:20,  1.27s/it] 98%|█████████▊| 47741/48845 [16:55:51<24:06,  1.31s/it] 98%|█████████▊| 47742/48845 [16:55:52<23:48,  1.30s/it] 98%|█████████▊| 47743/48845 [16:55:54<23:35,  1.28s/it] 98%|█████████▊| 47744/48845 [16:55:55<23:25,  1.28s/it] 98%|█████████▊| 47745/48845 [16:55:56<23:26,  1.28s/it]                                                        {'loss': 2.0113, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47745/48845 [16:55:56<23:26,  1.28s/it] 98%|█████████▊| 47746/48845 [16:55:57<23:19,  1.27s/it] 98%|█████████▊| 47747/48845 [16:55:59<23:14,  1.27s/it] 98%|█████████▊| 47748/48845 [16:56:00<23:10,  1.27s/it] 98%|█████████▊| 47749/48845 [16:56:01<23:09,  1.27s/it] 98%|█████████▊| 47750/48845 [16:56:03<23:06,  1.27s/it]                                                        {'loss': 1.7677, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47750/48845 [16:56:03<23:06,  1.27s/it] 98%|█████████▊| 47751/48845 [16:56:04<23:03,  1.26s/it] 98%|█████████▊| 47752/48845 [16:56:05<23:01,  1.26s/it] 98%|█████████▊| 47753/48845 [16:56:06<23:01,  1.27s/it] 98%|█████████▊| 47754/48845 [16:56:08<23:00,  1.26s/it] 98%|█████████▊| 47755/48845 [16:56:09<22:57,  1.26s/it]                                                        {'loss': 2.2965, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47755/48845 [16:56:09<22:57,  1.26s/it] 98%|█████████▊| 47756/48845 [16:56:10<22:56,  1.26s/it] 98%|█████████▊| 47757/48845 [16:56:11<22:54,  1.26s/it] 98%|█████████▊| 47758/48845 [16:56:13<22:55,  1.26s/it] 98%|█████████▊| 47759/48845 [16:56:14<22:53,  1.26s/it] 98%|█████████▊| 47760/48845 [16:56:15<22:51,  1.26s/it]                                                        {'loss': 1.9777, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47760/48845 [16:56:15<22:51,  1.26s/it] 98%|█████████▊| 47761/48845 [16:56:16<22:50,  1.26s/it] 98%|█████████▊| 47762/48845 [16:56:18<22:49,  1.26s/it] 98%|█████████▊| 47763/48845 [16:56:19<22:48,  1.26s/it] 98%|█████████▊| 47764/48845 [16:56:20<22:47,  1.26s/it] 98%|█████████▊| 47765/48845 [16:56:22<23:35,  1.31s/it]                                                        {'loss': 2.1003, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47765/48845 [16:56:22<23:35,  1.31s/it] 98%|█████████▊| 47766/48845 [16:56:23<23:18,  1.30s/it] 98%|█████████▊| 47767/48845 [16:56:24<23:06,  1.29s/it] 98%|█████████▊| 47768/48845 [16:56:25<22:58,  1.28s/it] 98%|█████████▊| 47769/48845 [16:56:27<22:51,  1.27s/it] 98%|█████████▊| 47770/48845 [16:56:28<22:45,  1.27s/it]                                                        {'loss': 2.1812, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47770/48845 [16:56:28<22:45,  1.27s/it] 98%|█████████▊| 47771/48845 [16:56:29<22:42,  1.27s/it] 98%|█████████▊| 47772/48845 [16:56:30<22:39,  1.27s/it] 98%|█████████▊| 47773/48845 [16:56:32<22:36,  1.27s/it] 98%|█████████▊| 47774/48845 [16:56:33<22:34,  1.26s/it] 98%|█████████▊| 47775/48845 [16:56:34<22:33,  1.26s/it]                                                        {'loss': 2.1447, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47775/48845 [16:56:34<22:33,  1.26s/it] 98%|█████████▊| 47776/48845 [16:56:36<22:31,  1.26s/it] 98%|█████████▊| 47777/48845 [16:56:37<22:31,  1.27s/it] 98%|█████████▊| 47778/48845 [16:56:38<22:29,  1.27s/it] 98%|█████████▊| 47779/48845 [16:56:39<22:27,  1.26s/it] 98%|█████████▊| 47780/48845 [16:56:41<22:26,  1.26s/it]                                                        {'loss': 2.2262, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47780/48845 [16:56:41<22:26,  1.26s/it] 98%|█████████▊| 47781/48845 [16:56:42<22:25,  1.26s/it] 98%|█████████▊| 47782/48845 [16:56:43<22:24,  1.26s/it] 98%|█████████▊| 47783/48845 [16:56:44<22:23,  1.26s/it] 98%|█████████▊| 47784/48845 [16:56:46<22:21,  1.26s/it] 98%|█████████▊| 47785/48845 [16:56:47<22:19,  1.26s/it]                                                        {'loss': 2.0751, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47785/48845 [16:56:47<22:19,  1.26s/it] 98%|█████████▊| 47786/48845 [16:56:48<22:19,  1.26s/it] 98%|█████████▊| 47787/48845 [16:56:49<22:17,  1.26s/it] 98%|█████████▊| 47788/48845 [16:56:51<22:15,  1.26s/it] 98%|█████████▊| 47789/48845 [16:56:52<22:38,  1.29s/it] 98%|█████████▊| 47790/48845 [16:56:53<22:29,  1.28s/it]                                                        {'loss': 2.1574, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47790/48845 [16:56:53<22:29,  1.28s/it] 98%|█████████▊| 47791/48845 [16:56:55<22:24,  1.28s/it] 98%|█████████▊| 47792/48845 [16:56:56<22:19,  1.27s/it] 98%|█████████▊| 47793/48845 [16:56:57<22:16,  1.27s/it] 98%|█████████▊| 47794/48845 [16:56:58<22:14,  1.27s/it] 98%|█████████▊| 47795/48845 [16:57:00<22:10,  1.27s/it]                                                        {'loss': 2.1828, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47795/48845 [16:57:00<22:10,  1.27s/it] 98%|█████████▊| 47796/48845 [16:57:01<22:09,  1.27s/it] 98%|█████████▊| 47797/48845 [16:57:02<22:07,  1.27s/it] 98%|█████████▊| 47798/48845 [16:57:03<22:04,  1.27s/it] 98%|█████████▊| 47799/48845 [16:57:05<22:03,  1.27s/it] 98%|█████████▊| 47800/48845 [16:57:06<22:01,  1.26s/it]                                                        {'loss': 1.9998, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47800/48845 [16:57:06<22:01,  1.26s/it] 98%|█████████▊| 47801/48845 [16:57:10<35:38,  2.05s/it] 98%|█████████▊| 47802/48845 [16:57:11<31:30,  1.81s/it] 98%|█████████▊| 47803/48845 [16:57:12<28:37,  1.65s/it] 98%|█████████▊| 47804/48845 [16:57:14<26:34,  1.53s/it] 98%|█████████▊| 47805/48845 [16:57:15<25:09,  1.45s/it]                                                        {'loss': 2.0474, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47805/48845 [16:57:15<25:09,  1.45s/it] 98%|█████████▊| 47806/48845 [16:57:16<24:10,  1.40s/it] 98%|█████████▊| 47807/48845 [16:57:17<23:43,  1.37s/it] 98%|█████████▊| 47808/48845 [16:57:19<23:07,  1.34s/it] 98%|█████████▊| 47809/48845 [16:57:20<22:41,  1.31s/it] 98%|█████████▊| 47810/48845 [16:57:21<22:23,  1.30s/it]                                                        {'loss': 1.9619, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47810/48845 [16:57:21<22:23,  1.30s/it] 98%|█████████▊| 47811/48845 [16:57:23<22:10,  1.29s/it] 98%|█████████▊| 47812/48845 [16:57:24<22:00,  1.28s/it] 98%|█████████▊| 47813/48845 [16:57:25<21:56,  1.28s/it] 98%|█████████▊| 47814/48845 [16:57:26<21:50,  1.27s/it] 98%|█████████▊| 47815/48845 [16:57:28<21:48,  1.27s/it]                                                        {'loss': 2.01, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.89}
+ 98%|█████████▊| 47815/48845 [16:57:28<21:48,  1.27s/it] 98%|█████████▊| 47816/48845 [16:57:29<21:47,  1.27s/it] 98%|█████████▊| 47817/48845 [16:57:30<21:44,  1.27s/it] 98%|█████████▊| 47818/48845 [16:57:31<21:41,  1.27s/it] 98%|█████████▊| 47819/48845 [16:57:33<21:39,  1.27s/it] 98%|█████████▊| 47820/48845 [16:57:34<21:37,  1.27s/it]                                                        {'loss': 2.3052, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47820/48845 [16:57:34<21:37,  1.27s/it] 98%|█████████▊| 47821/48845 [16:57:35<21:34,  1.26s/it] 98%|█████████▊| 47822/48845 [16:57:36<21:31,  1.26s/it] 98%|█████████▊| 47823/48845 [16:57:38<22:05,  1.30s/it] 98%|█████████▊| 47824/48845 [16:57:39<21:52,  1.29s/it] 98%|█████████▊| 47825/48845 [16:57:40<21:43,  1.28s/it]                                                        {'loss': 2.2013, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47825/48845 [16:57:40<21:43,  1.28s/it] 98%|█████████▊| 47826/48845 [16:57:42<21:37,  1.27s/it] 98%|█████████▊| 47827/48845 [16:57:43<21:35,  1.27s/it] 98%|█████████▊| 47828/48845 [16:57:44<21:30,  1.27s/it] 98%|█████████▊| 47829/48845 [16:57:45<21:28,  1.27s/it] 98%|█████████▊| 47830/48845 [16:57:47<21:25,  1.27s/it]                                                        {'loss': 2.2459, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47830/48845 [16:57:47<21:25,  1.27s/it] 98%|█████████▊| 47831/48845 [16:57:48<21:24,  1.27s/it] 98%|█████████▊| 47832/48845 [16:57:49<21:21,  1.27s/it] 98%|█████████▊| 47833/48845 [16:57:50<21:20,  1.27s/it] 98%|█████████▊| 47834/48845 [16:57:52<21:18,  1.26s/it] 98%|█████████▊| 47835/48845 [16:57:53<21:15,  1.26s/it]                                                        {'loss': 2.2748, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47835/48845 [16:57:53<21:15,  1.26s/it] 98%|█████████▊| 47836/48845 [16:57:54<21:15,  1.26s/it] 98%|█████████▊| 47837/48845 [16:57:55<21:13,  1.26s/it] 98%|█████████▊| 47838/48845 [16:57:57<21:12,  1.26s/it] 98%|█████████▊| 47839/48845 [16:57:58<21:11,  1.26s/it] 98%|█████████▊| 47840/48845 [16:57:59<21:12,  1.27s/it]                                                        {'loss': 2.1723, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47840/48845 [16:57:59<21:12,  1.27s/it] 98%|█████████▊| 47841/48845 [16:58:01<21:11,  1.27s/it] 98%|█████████▊| 47842/48845 [16:58:02<21:09,  1.27s/it] 98%|█████████▊| 47843/48845 [16:58:03<21:08,  1.27s/it] 98%|█████████▊| 47844/48845 [16:58:04<21:05,  1.26s/it] 98%|█████████▊| 47845/48845 [16:58:06<21:04,  1.26s/it]                                                        {'loss': 2.1384, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47845/48845 [16:58:06<21:04,  1.26s/it] 98%|█████████▊| 47846/48845 [16:58:07<21:03,  1.26s/it] 98%|█████████▊| 47847/48845 [16:58:08<21:02,  1.27s/it] 98%|█████████▊| 47848/48845 [16:58:09<21:00,  1.26s/it] 98%|█████████▊| 47849/48845 [16:58:11<20:59,  1.26s/it] 98%|█████████▊| 47850/48845 [16:58:12<20:57,  1.26s/it]                                                        {'loss': 2.0862, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47850/48845 [16:58:12<20:57,  1.26s/it] 98%|█████████▊| 47851/48845 [16:58:13<21:15,  1.28s/it] 98%|█████████▊| 47852/48845 [16:58:15<21:09,  1.28s/it] 98%|█████████▊| 47853/48845 [16:58:16<24:03,  1.46s/it] 98%|█████████▊| 47854/48845 [16:58:18<23:05,  1.40s/it] 98%|█████████▊| 47855/48845 [16:58:19<22:26,  1.36s/it]                                                        {'loss': 2.1264, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47855/48845 [16:58:19<22:26,  1.36s/it] 98%|█████████▊| 47856/48845 [16:58:20<21:55,  1.33s/it] 98%|█████████▊| 47857/48845 [16:58:21<21:32,  1.31s/it] 98%|█████████▊| 47858/48845 [16:58:23<21:17,  1.29s/it] 98%|█████████▊| 47859/48845 [16:58:24<21:07,  1.29s/it] 98%|█████████▊| 47860/48845 [16:58:25<20:59,  1.28s/it]                                                        {'loss': 2.0586, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47860/48845 [16:58:25<20:59,  1.28s/it] 98%|█████████▊| 47861/48845 [16:58:26<20:53,  1.27s/it] 98%|█████████▊| 47862/48845 [16:58:28<20:49,  1.27s/it] 98%|█████████▊| 47863/48845 [16:58:29<20:45,  1.27s/it] 98%|█████████▊| 47864/48845 [16:58:30<20:43,  1.27s/it] 98%|█████████▊| 47865/48845 [16:58:32<20:40,  1.27s/it]                                                        {'loss': 2.1061, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47865/48845 [16:58:32<20:40,  1.27s/it] 98%|█████████▊| 47866/48845 [16:58:33<20:37,  1.26s/it] 98%|█████████▊| 47867/48845 [16:58:34<21:04,  1.29s/it] 98%|█████████▊| 47868/48845 [16:58:35<20:53,  1.28s/it] 98%|█████████▊| 47869/48845 [16:58:37<20:45,  1.28s/it] 98%|█████████▊| 47870/48845 [16:58:38<20:39,  1.27s/it]                                                        {'loss': 2.1202, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47870/48845 [16:58:38<20:39,  1.27s/it] 98%|█████████▊| 47871/48845 [16:58:39<20:37,  1.27s/it] 98%|█████████▊| 47872/48845 [16:58:40<20:34,  1.27s/it] 98%|█████████▊| 47873/48845 [16:58:42<20:30,  1.27s/it] 98%|█████████▊| 47874/48845 [16:58:43<20:28,  1.26s/it] 98%|█████████▊| 47875/48845 [16:58:44<20:28,  1.27s/it]                                                        {'loss': 1.9839, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47875/48845 [16:58:44<20:28,  1.27s/it] 98%|█████████▊| 47876/48845 [16:58:46<20:26,  1.27s/it] 98%|█████████▊| 47877/48845 [16:58:47<20:23,  1.26s/it] 98%|█████████▊| 47878/48845 [16:58:48<20:21,  1.26s/it] 98%|█████████▊| 47879/48845 [16:58:49<20:20,  1.26s/it] 98%|█████████▊| 47880/48845 [16:58:51<20:20,  1.26s/it]                                                        {'loss': 2.0081, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47880/48845 [16:58:51<20:20,  1.26s/it] 98%|█████████▊| 47881/48845 [16:58:52<20:19,  1.27s/it] 98%|█████████▊| 47882/48845 [16:58:53<20:16,  1.26s/it] 98%|█████████▊| 47883/48845 [16:58:54<20:17,  1.27s/it] 98%|█████████▊| 47884/48845 [16:58:56<20:16,  1.27s/it] 98%|█████████▊| 47885/48845 [16:58:57<20:14,  1.27s/it]                                                        {'loss': 2.2328, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47885/48845 [16:58:57<20:14,  1.27s/it] 98%|█████████▊| 47886/48845 [16:58:58<20:12,  1.26s/it] 98%|█████████▊| 47887/48845 [16:58:59<20:10,  1.26s/it] 98%|█████████▊| 47888/48845 [16:59:01<20:10,  1.26s/it] 98%|█████████▊| 47889/48845 [16:59:02<20:08,  1.26s/it] 98%|█████████▊| 47890/48845 [16:59:03<20:06,  1.26s/it]                                                        {'loss': 2.0918, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47890/48845 [16:59:03<20:06,  1.26s/it] 98%|█████████▊| 47891/48845 [16:59:05<20:55,  1.32s/it] 98%|█████████▊| 47892/48845 [16:59:06<20:38,  1.30s/it] 98%|█████████▊| 47893/48845 [16:59:07<20:26,  1.29s/it] 98%|█████████▊| 47894/48845 [16:59:08<20:17,  1.28s/it] 98%|█████████▊| 47895/48845 [16:59:10<20:11,  1.28s/it]                                                        {'loss': 2.1581, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47895/48845 [16:59:10<20:11,  1.28s/it] 98%|█████████▊| 47896/48845 [16:59:11<20:07,  1.27s/it] 98%|█████████▊| 47897/48845 [16:59:12<20:03,  1.27s/it] 98%|█████████▊| 47898/48845 [16:59:14<19:59,  1.27s/it] 98%|█████████▊| 47899/48845 [16:59:15<19:58,  1.27s/it] 98%|█████████▊| 47900/48845 [16:59:16<19:57,  1.27s/it]                                                        {'loss': 2.11, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47900/48845 [16:59:16<19:57,  1.27s/it] 98%|█████████▊| 47901/48845 [16:59:17<19:54,  1.27s/it] 98%|█████████▊| 47902/48845 [16:59:19<19:57,  1.27s/it] 98%|█████████▊| 47903/48845 [16:59:20<19:54,  1.27s/it] 98%|█████████▊| 47904/48845 [16:59:21<19:51,  1.27s/it] 98%|█████████▊| 47905/48845 [16:59:22<19:50,  1.27s/it]                                                        {'loss': 2.0819, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47905/48845 [16:59:22<19:50,  1.27s/it] 98%|█████████▊| 47906/48845 [16:59:24<19:48,  1.27s/it] 98%|█████████▊| 47907/48845 [16:59:25<19:48,  1.27s/it] 98%|█████████▊| 47908/48845 [16:59:26<19:45,  1.27s/it] 98%|█████████▊| 47909/48845 [16:59:27<19:44,  1.27s/it] 98%|█████████▊| 47910/48845 [16:59:29<19:43,  1.27s/it]                                                        {'loss': 2.1599, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47910/48845 [16:59:29<19:43,  1.27s/it] 98%|█████████▊| 47911/48845 [16:59:30<19:44,  1.27s/it] 98%|█████████▊| 47912/48845 [16:59:31<19:43,  1.27s/it] 98%|█████████▊| 47913/48845 [16:59:33<19:42,  1.27s/it] 98%|█████████▊| 47914/48845 [16:59:34<19:40,  1.27s/it] 98%|█████████▊| 47915/48845 [16:59:35<19:40,  1.27s/it]                                                        {'loss': 2.114, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.9}
+ 98%|█████████▊| 47915/48845 [16:59:35<19:40,  1.27s/it] 98%|█████████▊| 47916/48845 [16:59:36<19:36,  1.27s/it] 98%|█████████▊| 47917/48845 [16:59:38<19:34,  1.27s/it] 98%|█████████▊| 47918/48845 [16:59:39<19:32,  1.26s/it] 98%|█████████▊| 47919/48845 [16:59:40<19:31,  1.26s/it] 98%|█████████▊| 47920/48845 [16:59:41<19:31,  1.27s/it]                                                        {'loss': 1.9929, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47920/48845 [16:59:41<19:31,  1.27s/it] 98%|█████████▊| 47921/48845 [16:59:43<19:30,  1.27s/it] 98%|█████████▊| 47922/48845 [16:59:44<19:28,  1.27s/it] 98%|█████████▊| 47923/48845 [16:59:45<19:28,  1.27s/it] 98%|█████████▊| 47924/48845 [16:59:46<19:25,  1.27s/it] 98%|█████████▊| 47925/48845 [16:59:48<19:23,  1.26s/it]                                                        {'loss': 2.0837, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47925/48845 [16:59:48<19:23,  1.26s/it] 98%|█████████▊| 47926/48845 [16:59:49<19:21,  1.26s/it] 98%|█████████▊| 47927/48845 [16:59:50<19:21,  1.27s/it] 98%|█████████▊| 47928/48845 [16:59:52<19:20,  1.27s/it] 98%|█████████▊| 47929/48845 [16:59:53<19:17,  1.26s/it] 98%|█████████▊| 47930/48845 [16:59:54<19:14,  1.26s/it]                                                        {'loss': 1.9631, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47930/48845 [16:59:54<19:14,  1.26s/it] 98%|█████████▊| 47931/48845 [16:59:55<19:17,  1.27s/it] 98%|█████████▊| 47932/48845 [16:59:57<19:15,  1.27s/it] 98%|█████████▊| 47933/48845 [16:59:58<19:13,  1.27s/it] 98%|█████████▊| 47934/48845 [16:59:59<19:12,  1.26s/it] 98%|█████████▊| 47935/48845 [17:00:00<19:11,  1.27s/it]                                                        {'loss': 1.9844, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47935/48845 [17:00:00<19:11,  1.27s/it] 98%|█████████▊| 47936/48845 [17:00:02<19:09,  1.26s/it] 98%|█████████▊| 47937/48845 [17:00:03<19:07,  1.26s/it] 98%|█████████▊| 47938/48845 [17:00:04<19:07,  1.27s/it] 98%|█████████▊| 47939/48845 [17:00:05<19:06,  1.26s/it] 98%|█████████▊| 47940/48845 [17:00:07<19:03,  1.26s/it]                                                        {'loss': 2.0169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47940/48845 [17:00:07<19:03,  1.26s/it] 98%|█████████▊| 47941/48845 [17:00:08<19:02,  1.26s/it] 98%|█████████▊| 47942/48845 [17:00:09<19:00,  1.26s/it] 98%|█████████▊| 47943/48845 [17:00:11<19:13,  1.28s/it] 98%|█████████▊| 47944/48845 [17:00:12<19:08,  1.27s/it] 98%|█████████▊| 47945/48845 [17:00:13<19:03,  1.27s/it]                                                        {'loss': 1.9921, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47945/48845 [17:00:13<19:03,  1.27s/it] 98%|█████████▊| 47946/48845 [17:00:14<19:00,  1.27s/it] 98%|█████████▊| 47947/48845 [17:00:16<19:26,  1.30s/it] 98%|█████████▊| 47948/48845 [17:00:17<19:16,  1.29s/it] 98%|█████████▊| 47949/48845 [17:00:18<19:09,  1.28s/it] 98%|█████████▊| 47950/48845 [17:00:19<19:01,  1.28s/it]                                                        {'loss': 1.983, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47950/48845 [17:00:19<19:01,  1.28s/it] 98%|█████████▊| 47951/48845 [17:00:21<18:59,  1.28s/it] 98%|█████████▊| 47952/48845 [17:00:22<18:55,  1.27s/it] 98%|█████████▊| 47953/48845 [17:00:23<18:51,  1.27s/it] 98%|█████████▊| 47954/48845 [17:00:25<18:48,  1.27s/it] 98%|█████████▊| 47955/48845 [17:00:26<18:47,  1.27s/it]                                                        {'loss': 1.9824, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47955/48845 [17:00:26<18:47,  1.27s/it] 98%|█████████▊| 47956/48845 [17:00:27<18:46,  1.27s/it] 98%|█████████▊| 47957/48845 [17:00:28<18:45,  1.27s/it] 98%|█████████▊| 47958/48845 [17:00:30<18:44,  1.27s/it] 98%|█████████▊| 47959/48845 [17:00:31<18:43,  1.27s/it] 98%|█████████▊| 47960/48845 [17:00:32<18:40,  1.27s/it]                                                        {'loss': 2.1881, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47960/48845 [17:00:32<18:40,  1.27s/it] 98%|█████████▊| 47961/48845 [17:00:33<18:39,  1.27s/it] 98%|█████████▊| 47962/48845 [17:00:35<18:38,  1.27s/it] 98%|█████████▊| 47963/48845 [17:00:36<18:37,  1.27s/it] 98%|█████████▊| 47964/48845 [17:00:37<18:35,  1.27s/it] 98%|█████████▊| 47965/48845 [17:00:38<18:33,  1.27s/it]                                                        {'loss': 2.0541, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47965/48845 [17:00:38<18:33,  1.27s/it] 98%|█████████▊| 47966/48845 [17:00:40<18:32,  1.27s/it] 98%|█████████▊| 47967/48845 [17:00:41<18:57,  1.30s/it] 98%|█████████▊| 47968/48845 [17:00:42<18:48,  1.29s/it] 98%|█████████▊| 47969/48845 [17:00:44<18:41,  1.28s/it] 98%|█████████▊| 47970/48845 [17:00:45<18:36,  1.28s/it]                                                        {'loss': 2.0045, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47970/48845 [17:00:45<18:36,  1.28s/it] 98%|█████████▊| 47971/48845 [17:00:46<18:33,  1.27s/it] 98%|█████████▊| 47972/48845 [17:00:47<18:29,  1.27s/it] 98%|█████████▊| 47973/48845 [17:00:49<18:26,  1.27s/it] 98%|█████████▊| 47974/48845 [17:00:50<18:23,  1.27s/it] 98%|█████████▊| 47975/48845 [17:00:51<18:22,  1.27s/it]                                                        {'loss': 2.0929, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47975/48845 [17:00:51<18:22,  1.27s/it] 98%|█████████▊| 47976/48845 [17:00:52<18:21,  1.27s/it] 98%|█████████▊| 47977/48845 [17:00:54<18:20,  1.27s/it] 98%|█████████▊| 47978/48845 [17:00:55<18:18,  1.27s/it] 98%|█████████▊| 47979/48845 [17:00:56<18:16,  1.27s/it] 98%|█████████▊| 47980/48845 [17:00:58<18:14,  1.27s/it]                                                        {'loss': 2.129, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47980/48845 [17:00:58<18:14,  1.27s/it] 98%|█████████▊| 47981/48845 [17:00:59<18:14,  1.27s/it] 98%|█████████▊| 47982/48845 [17:01:00<18:11,  1.27s/it] 98%|█████████▊| 47983/48845 [17:01:01<18:10,  1.27s/it] 98%|█████████▊| 47984/48845 [17:01:03<18:10,  1.27s/it] 98%|█████████▊| 47985/48845 [17:01:04<18:08,  1.27s/it]                                                        {'loss': 1.9994, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47985/48845 [17:01:04<18:08,  1.27s/it] 98%|█████████▊| 47986/48845 [17:01:05<18:06,  1.26s/it] 98%|█████████▊| 47987/48845 [17:01:06<18:04,  1.26s/it] 98%|█████████▊| 47988/48845 [17:01:08<18:02,  1.26s/it] 98%|█████████▊| 47989/48845 [17:01:09<18:03,  1.27s/it] 98%|█████████▊| 47990/48845 [17:01:10<18:00,  1.26s/it]                                                        {'loss': 2.0191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47990/48845 [17:01:10<18:00,  1.26s/it] 98%|█████████▊| 47991/48845 [17:01:11<18:00,  1.26s/it] 98%|█████████▊| 47992/48845 [17:01:13<17:58,  1.26s/it] 98%|█████████▊| 47993/48845 [17:01:14<17:56,  1.26s/it] 98%|█████████▊| 47994/48845 [17:01:15<17:55,  1.26s/it] 98%|█████████▊| 47995/48845 [17:01:17<18:06,  1.28s/it]                                                        {'loss': 1.9672, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 47995/48845 [17:01:17<18:06,  1.28s/it] 98%|█████████▊| 47996/48845 [17:01:18<18:03,  1.28s/it] 98%|█████████▊| 47997/48845 [17:01:19<17:57,  1.27s/it] 98%|█████████▊| 47998/48845 [17:01:20<17:54,  1.27s/it] 98%|█████████▊| 47999/48845 [17:01:22<17:54,  1.27s/it] 98%|█████████▊| 48000/48845 [17:01:23<17:51,  1.27s/it]                                                        {'loss': 2.0193, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 48000/48845 [17:01:23<17:51,  1.27s/it] 98%|█████████▊| 48001/48845 [17:01:27<28:43,  2.04s/it] 98%|█████████▊| 48002/48845 [17:01:28<25:24,  1.81s/it] 98%|█████████▊| 48003/48845 [17:01:29<23:04,  1.64s/it] 98%|█████████▊| 48004/48845 [17:01:31<21:27,  1.53s/it] 98%|█████████▊| 48005/48845 [17:01:32<20:17,  1.45s/it]                                                        {'loss': 2.1814, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 48005/48845 [17:01:32<20:17,  1.45s/it] 98%|█████████▊| 48006/48845 [17:01:33<19:30,  1.39s/it] 98%|█████████▊| 48007/48845 [17:01:34<18:55,  1.36s/it] 98%|█████████▊| 48008/48845 [17:01:36<18:31,  1.33s/it] 98%|█████████▊| 48009/48845 [17:01:37<18:14,  1.31s/it] 98%|█████████▊| 48010/48845 [17:01:38<18:03,  1.30s/it]                                                        {'loss': 1.9546, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.91}
+ 98%|█████████▊| 48010/48845 [17:01:38<18:03,  1.30s/it] 98%|█████████▊| 48011/48845 [17:01:39<17:53,  1.29s/it] 98%|█████████▊| 48012/48845 [17:01:41<17:45,  1.28s/it] 98%|█████████▊| 48013/48845 [17:01:42<18:11,  1.31s/it] 98%|█████████▊| 48014/48845 [17:01:43<17:58,  1.30s/it] 98%|█████████▊| 48015/48845 [17:01:45<17:49,  1.29s/it]                                                        {'loss': 2.1362, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48015/48845 [17:01:45<17:49,  1.29s/it] 98%|█████████▊| 48016/48845 [17:01:46<17:42,  1.28s/it] 98%|█████████▊| 48017/48845 [17:01:47<18:09,  1.32s/it] 98%|█████████▊| 48018/48845 [17:01:48<17:55,  1.30s/it] 98%|█████████▊| 48019/48845 [17:01:50<17:44,  1.29s/it] 98%|█████████▊| 48020/48845 [17:01:51<17:36,  1.28s/it]                                                        {'loss': 2.1191, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48020/48845 [17:01:51<17:36,  1.28s/it] 98%|█████████▊| 48021/48845 [17:01:52<17:34,  1.28s/it] 98%|█████████▊| 48022/48845 [17:01:54<17:28,  1.27s/it] 98%|█████████▊| 48023/48845 [17:01:55<17:27,  1.27s/it] 98%|█████████▊| 48024/48845 [17:01:56<17:23,  1.27s/it] 98%|█████████▊| 48025/48845 [17:01:57<17:19,  1.27s/it]                                                        {'loss': 2.0416, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48025/48845 [17:01:57<17:19,  1.27s/it] 98%|█████████▊| 48026/48845 [17:01:59<17:16,  1.27s/it] 98%|█████████▊| 48027/48845 [17:02:00<17:14,  1.26s/it] 98%|█████████▊| 48028/48845 [17:02:01<17:13,  1.27s/it] 98%|█████████▊| 48029/48845 [17:02:02<17:11,  1.26s/it] 98%|█████████▊| 48030/48845 [17:02:04<17:08,  1.26s/it]                                                        {'loss': 2.1522, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48030/48845 [17:02:04<17:08,  1.26s/it] 98%|█████████▊| 48031/48845 [17:02:05<17:09,  1.26s/it] 98%|█████████▊| 48032/48845 [17:02:06<17:07,  1.26s/it] 98%|█████████▊| 48033/48845 [17:02:08<17:31,  1.29s/it] 98%|█████████▊| 48034/48845 [17:02:09<17:22,  1.28s/it] 98%|█████████▊| 48035/48845 [17:02:10<17:15,  1.28s/it]                                                        {'loss': 2.1513, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48035/48845 [17:02:10<17:15,  1.28s/it] 98%|█████████▊| 48036/48845 [17:02:11<17:14,  1.28s/it] 98%|█████████▊| 48037/48845 [17:02:13<17:09,  1.27s/it] 98%|█████████▊| 48038/48845 [17:02:14<17:05,  1.27s/it] 98%|█████████▊| 48039/48845 [17:02:15<17:01,  1.27s/it] 98%|█████████▊| 48040/48845 [17:02:16<17:00,  1.27s/it]                                                        {'loss': 2.0688, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48040/48845 [17:02:16<17:00,  1.27s/it] 98%|█████████▊| 48041/48845 [17:02:18<16:58,  1.27s/it] 98%|█████████▊| 48042/48845 [17:02:19<16:56,  1.27s/it] 98%|█████████▊| 48043/48845 [17:02:20<16:55,  1.27s/it] 98%|█████████▊| 48044/48845 [17:02:21<16:53,  1.26s/it] 98%|█████████▊| 48045/48845 [17:02:23<16:50,  1.26s/it]                                                        {'loss': 2.0169, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48045/48845 [17:02:23<16:50,  1.26s/it] 98%|█████████▊| 48046/48845 [17:02:24<16:48,  1.26s/it] 98%|█████████▊| 48047/48845 [17:02:25<16:48,  1.26s/it] 98%|█████████▊| 48048/48845 [17:02:27<16:46,  1.26s/it] 98%|█████████▊| 48049/48845 [17:02:28<16:47,  1.27s/it] 98%|█████████▊| 48050/48845 [17:02:29<16:44,  1.26s/it]                                                        {'loss': 2.1064, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48050/48845 [17:02:29<16:44,  1.26s/it] 98%|█████████▊| 48051/48845 [17:02:30<16:44,  1.27s/it] 98%|█████████▊| 48052/48845 [17:02:32<16:43,  1.27s/it] 98%|█████████▊| 48053/48845 [17:02:33<16:41,  1.27s/it] 98%|█████████▊| 48054/48845 [17:02:34<16:39,  1.26s/it] 98%|█████████▊| 48055/48845 [17:02:35<16:37,  1.26s/it]                                                        {'loss': 2.1993, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48055/48845 [17:02:35<16:37,  1.26s/it] 98%|█████████▊| 48056/48845 [17:02:37<16:35,  1.26s/it] 98%|█████████▊| 48057/48845 [17:02:38<16:34,  1.26s/it] 98%|█████████▊| 48058/48845 [17:02:39<16:33,  1.26s/it] 98%|█████████▊| 48059/48845 [17:02:40<16:32,  1.26s/it] 98%|█████████▊| 48060/48845 [17:02:42<16:31,  1.26s/it]                                                        {'loss': 2.0735, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48060/48845 [17:02:42<16:31,  1.26s/it] 98%|█████████▊| 48061/48845 [17:02:43<16:32,  1.27s/it] 98%|█████████▊| 48062/48845 [17:02:44<16:29,  1.26s/it] 98%|█████████▊| 48063/48845 [17:02:45<16:29,  1.27s/it] 98%|█████████▊| 48064/48845 [17:02:47<16:27,  1.26s/it] 98%|█████████▊| 48065/48845 [17:02:48<16:25,  1.26s/it]                                                        {'loss': 2.1621, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48065/48845 [17:02:48<16:25,  1.26s/it] 98%|█████████▊| 48066/48845 [17:02:49<16:24,  1.26s/it] 98%|█████████▊| 48067/48845 [17:02:51<16:53,  1.30s/it] 98%|█████████▊| 48068/48845 [17:02:52<16:42,  1.29s/it] 98%|█████████▊| 48069/48845 [17:02:53<16:35,  1.28s/it] 98%|█████████▊| 48070/48845 [17:02:54<16:29,  1.28s/it]                                                        {'loss': 2.0315, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48070/48845 [17:02:55<16:29,  1.28s/it] 98%|█████████▊| 48071/48845 [17:02:56<16:41,  1.29s/it] 98%|█████████▊| 48072/48845 [17:02:57<16:33,  1.28s/it] 98%|█████████▊| 48073/48845 [17:02:58<16:27,  1.28s/it] 98%|█████████▊| 48074/48845 [17:03:00<16:22,  1.27s/it] 98%|█████████▊| 48075/48845 [17:03:01<16:18,  1.27s/it]                                                        {'loss': 2.1183, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48075/48845 [17:03:01<16:18,  1.27s/it] 98%|█████████▊| 48076/48845 [17:03:02<16:16,  1.27s/it] 98%|█████████▊| 48077/48845 [17:03:03<16:16,  1.27s/it] 98%|█████████▊| 48078/48845 [17:03:05<16:13,  1.27s/it] 98%|█████████▊| 48079/48845 [17:03:06<16:12,  1.27s/it] 98%|█████████▊| 48080/48845 [17:03:07<16:10,  1.27s/it]                                                        {'loss': 2.1033, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48080/48845 [17:03:07<16:10,  1.27s/it] 98%|█████████▊| 48081/48845 [17:03:08<16:07,  1.27s/it] 98%|█████████▊| 48082/48845 [17:03:10<16:05,  1.27s/it] 98%|█████████▊| 48083/48845 [17:03:11<16:04,  1.27s/it] 98%|█████████▊| 48084/48845 [17:03:12<16:02,  1.26s/it] 98%|█████████▊| 48085/48845 [17:03:13<16:00,  1.26s/it]                                                        {'loss': 2.1798, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48085/48845 [17:03:14<16:00,  1.26s/it] 98%|█████████▊| 48086/48845 [17:03:15<15:58,  1.26s/it] 98%|█████████▊| 48087/48845 [17:03:16<15:58,  1.26s/it] 98%|█████████▊| 48088/48845 [17:03:17<15:57,  1.26s/it] 98%|█████████▊| 48089/48845 [17:03:19<15:55,  1.26s/it] 98%|█████████▊| 48090/48845 [17:03:20<15:53,  1.26s/it]                                                        {'loss': 2.0649, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48090/48845 [17:03:20<15:53,  1.26s/it] 98%|█████████▊| 48091/48845 [17:03:21<15:53,  1.27s/it] 98%|█████████▊| 48092/48845 [17:03:22<15:52,  1.26s/it] 98%|█████████▊| 48093/48845 [17:03:24<15:50,  1.26s/it] 98%|█████████▊| 48094/48845 [17:03:25<15:50,  1.27s/it] 98%|█████████▊| 48095/48845 [17:03:26<15:49,  1.27s/it]                                                        {'loss': 2.1272, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48095/48845 [17:03:26<15:49,  1.27s/it] 98%|█████████▊| 48096/48845 [17:03:27<15:47,  1.27s/it] 98%|█████████▊| 48097/48845 [17:03:29<15:45,  1.26s/it] 98%|█████████▊| 48098/48845 [17:03:30<15:43,  1.26s/it] 98%|█████████▊| 48099/48845 [17:03:31<16:11,  1.30s/it] 98%|█████████▊| 48100/48845 [17:03:33<16:02,  1.29s/it]                                                        {'loss': 2.1653, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48100/48845 [17:03:33<16:02,  1.29s/it] 98%|█████████▊| 48101/48845 [17:03:34<15:54,  1.28s/it] 98%|█████████▊| 48102/48845 [17:03:35<15:48,  1.28s/it] 98%|█████████▊| 48103/48845 [17:03:36<15:44,  1.27s/it] 98%|█████████▊| 48104/48845 [17:03:38<15:40,  1.27s/it] 98%|█████████▊| 48105/48845 [17:03:39<15:37,  1.27s/it]                                                        {'loss': 2.1014, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48105/48845 [17:03:39<15:37,  1.27s/it] 98%|█████████▊| 48106/48845 [17:03:40<15:35,  1.27s/it] 98%|█████████▊| 48107/48845 [17:03:41<15:33,  1.26s/it] 98%|█████████▊| 48108/48845 [17:03:43<15:32,  1.27s/it] 98%|█████████▊| 48109/48845 [17:03:44<15:30,  1.26s/it] 98%|█████████▊| 48110/48845 [17:03:45<15:29,  1.27s/it]                                                        {'loss': 2.0735, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.92}
+ 98%|█████████▊| 48110/48845 [17:03:45<15:29,  1.27s/it] 98%|█████████▊| 48111/48845 [17:03:47<15:30,  1.27s/it] 98%|█████████▊| 48112/48845 [17:03:48<15:28,  1.27s/it] 99%|█████████▊| 48113/48845 [17:03:49<15:25,  1.26s/it] 99%|█████████▊| 48114/48845 [17:03:50<15:24,  1.26s/it] 99%|█████████▊| 48115/48845 [17:03:52<15:23,  1.26s/it]                                                        {'loss': 2.005, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48115/48845 [17:03:52<15:23,  1.26s/it] 99%|█████████▊| 48116/48845 [17:03:53<15:38,  1.29s/it] 99%|█████████▊| 48117/48845 [17:03:54<15:32,  1.28s/it] 99%|█████████▊| 48118/48845 [17:03:55<15:26,  1.27s/it] 99%|█████████▊| 48119/48845 [17:03:57<15:23,  1.27s/it] 99%|█████████▊| 48120/48845 [17:03:58<15:20,  1.27s/it]                                                        {'loss': 2.127, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48120/48845 [17:03:58<15:20,  1.27s/it] 99%|█████████▊| 48121/48845 [17:03:59<15:18,  1.27s/it] 99%|█████████▊| 48122/48845 [17:04:00<15:15,  1.27s/it] 99%|█████████▊| 48123/48845 [17:04:02<15:13,  1.27s/it] 99%|█████████▊| 48124/48845 [17:04:03<15:11,  1.26s/it] 99%|█████████▊| 48125/48845 [17:04:04<15:10,  1.27s/it]                                                        {'loss': 2.1655, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48125/48845 [17:04:04<15:10,  1.27s/it] 99%|█████████▊| 48126/48845 [17:04:06<15:09,  1.27s/it] 99%|█████████▊| 48127/48845 [17:04:07<15:09,  1.27s/it] 99%|█████████▊| 48128/48845 [17:04:08<15:08,  1.27s/it] 99%|█████████▊| 48129/48845 [17:04:09<15:06,  1.27s/it] 99%|█████████▊| 48130/48845 [17:04:11<15:03,  1.26s/it]                                                        {'loss': 2.1239, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48130/48845 [17:04:11<15:03,  1.26s/it] 99%|█████████▊| 48131/48845 [17:04:12<15:03,  1.27s/it] 99%|█████████▊| 48132/48845 [17:04:13<15:02,  1.27s/it] 99%|█████████▊| 48133/48845 [17:04:14<15:01,  1.27s/it] 99%|█████████▊| 48134/48845 [17:04:16<14:59,  1.27s/it] 99%|█████████▊| 48135/48845 [17:04:17<14:59,  1.27s/it]                                                        {'loss': 2.1415, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48135/48845 [17:04:17<14:59,  1.27s/it] 99%|█████████▊| 48136/48845 [17:04:18<14:57,  1.27s/it] 99%|█████████▊| 48137/48845 [17:04:19<14:56,  1.27s/it] 99%|█████████▊| 48138/48845 [17:04:21<14:55,  1.27s/it] 99%|█████████▊| 48139/48845 [17:04:22<15:10,  1.29s/it] 99%|█████████▊| 48140/48845 [17:04:23<15:03,  1.28s/it]                                                        {'loss': 2.0688, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48140/48845 [17:04:23<15:03,  1.28s/it] 99%|█████████▊| 48141/48845 [17:04:25<14:58,  1.28s/it] 99%|█████████▊| 48142/48845 [17:04:26<14:54,  1.27s/it] 99%|█████████▊| 48143/48845 [17:04:27<14:53,  1.27s/it] 99%|█████████▊| 48144/48845 [17:04:28<14:49,  1.27s/it] 99%|█████████▊| 48145/48845 [17:04:30<14:46,  1.27s/it]                                                        {'loss': 2.0422, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48145/48845 [17:04:30<14:46,  1.27s/it] 99%|█████████▊| 48146/48845 [17:04:31<14:45,  1.27s/it] 99%|█████████▊| 48147/48845 [17:04:32<14:43,  1.27s/it] 99%|█████████▊| 48148/48845 [17:04:33<14:42,  1.27s/it] 99%|█████████▊| 48149/48845 [17:04:35<14:40,  1.26s/it] 99%|█████████▊| 48150/48845 [17:04:36<14:39,  1.27s/it]                                                        {'loss': 2.097, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48150/48845 [17:04:36<14:39,  1.27s/it] 99%|█████████▊| 48151/48845 [17:04:37<14:39,  1.27s/it] 99%|█████████▊| 48152/48845 [17:04:39<14:36,  1.27s/it] 99%|█████████▊| 48153/48845 [17:04:40<14:34,  1.26s/it] 99%|█████████▊| 48154/48845 [17:04:41<14:33,  1.26s/it] 99%|█████████▊| 48155/48845 [17:04:42<14:32,  1.26s/it]                                                        {'loss': 1.9499, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48155/48845 [17:04:42<14:32,  1.26s/it] 99%|█████████▊| 48156/48845 [17:04:44<14:30,  1.26s/it] 99%|█████████▊| 48157/48845 [17:04:45<14:29,  1.26s/it] 99%|█████████▊| 48158/48845 [17:04:46<14:29,  1.27s/it] 99%|█████████▊| 48159/48845 [17:04:47<14:29,  1.27s/it] 99%|█████████▊| 48160/48845 [17:04:49<14:28,  1.27s/it]                                                        {'loss': 2.1738, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48160/48845 [17:04:49<14:28,  1.27s/it] 99%|█████████▊| 48161/48845 [17:04:50<14:26,  1.27s/it] 99%|█████████▊| 48162/48845 [17:04:51<14:24,  1.27s/it] 99%|█████████▊| 48163/48845 [17:04:52<14:23,  1.27s/it] 99%|█████████▊| 48164/48845 [17:04:54<14:21,  1.27s/it] 99%|█████████▊| 48165/48845 [17:04:55<14:20,  1.27s/it]                                                        {'loss': 2.1412, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48165/48845 [17:04:55<14:20,  1.27s/it] 99%|█████████▊| 48166/48845 [17:04:56<14:18,  1.26s/it] 99%|█████████▊| 48167/48845 [17:04:57<14:17,  1.26s/it] 99%|█████████▊| 48168/48845 [17:04:59<14:16,  1.26s/it] 99%|█████████▊| 48169/48845 [17:05:00<14:15,  1.27s/it] 99%|█████████▊| 48170/48845 [17:05:01<14:13,  1.26s/it]                                                        {'loss': 2.2896, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48170/48845 [17:05:01<14:13,  1.26s/it] 99%|█████████▊| 48171/48845 [17:05:03<14:39,  1.31s/it] 99%|█████████▊| 48172/48845 [17:05:04<14:31,  1.29s/it] 99%|█████████▊| 48173/48845 [17:05:05<14:22,  1.28s/it] 99%|█████████▊| 48174/48845 [17:05:06<14:17,  1.28s/it] 99%|█████████▊| 48175/48845 [17:05:08<14:13,  1.27s/it]                                                        {'loss': 1.938, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48175/48845 [17:05:08<14:13,  1.27s/it] 99%|█████████▊| 48176/48845 [17:05:09<14:09,  1.27s/it] 99%|█████████▊| 48177/48845 [17:05:10<14:07,  1.27s/it] 99%|█████████▊| 48178/48845 [17:05:12<14:05,  1.27s/it] 99%|█████████▊| 48179/48845 [17:05:13<14:03,  1.27s/it] 99%|█████████▊| 48180/48845 [17:05:14<14:01,  1.27s/it]                                                        {'loss': 2.1076, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48180/48845 [17:05:14<14:01,  1.27s/it] 99%|█████████▊| 48181/48845 [17:05:15<13:59,  1.26s/it] 99%|█████████▊| 48182/48845 [17:05:17<13:57,  1.26s/it] 99%|█████████▊| 48183/48845 [17:05:18<13:57,  1.26s/it] 99%|█████████▊| 48184/48845 [17:05:19<13:55,  1.26s/it] 99%|█████████▊| 48185/48845 [17:05:20<13:53,  1.26s/it]                                                        {'loss': 1.9765, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48185/48845 [17:05:20<13:53,  1.26s/it] 99%|█████████▊| 48186/48845 [17:05:22<13:53,  1.26s/it] 99%|█████████▊| 48187/48845 [17:05:23<13:52,  1.27s/it] 99%|█████████▊| 48188/48845 [17:05:24<13:50,  1.26s/it] 99%|█████████▊| 48189/48845 [17:05:25<13:49,  1.26s/it] 99%|█████████▊| 48190/48845 [17:05:27<13:47,  1.26s/it]                                                        {'loss': 1.9907, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48190/48845 [17:05:27<13:47,  1.26s/it] 99%|█████████▊| 48191/48845 [17:05:28<13:46,  1.26s/it] 99%|█████████▊| 48192/48845 [17:05:29<13:45,  1.26s/it] 99%|█████████▊| 48193/48845 [17:05:31<13:44,  1.26s/it] 99%|█████████▊| 48194/48845 [17:05:32<13:42,  1.26s/it] 99%|█████████▊| 48195/48845 [17:05:33<13:42,  1.27s/it]                                                        {'loss': 2.1155, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48195/48845 [17:05:33<13:42,  1.27s/it] 99%|█████████▊| 48196/48845 [17:05:34<13:40,  1.26s/it] 99%|█████████▊| 48197/48845 [17:05:36<13:38,  1.26s/it] 99%|█████████▊| 48198/48845 [17:05:37<13:37,  1.26s/it] 99%|█████████▊| 48199/48845 [17:05:38<13:37,  1.27s/it] 99%|█████████▊| 48200/48845 [17:05:39<13:36,  1.27s/it]                                                        {'loss': 2.0091, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48200/48845 [17:05:39<13:36,  1.27s/it] 99%|█████████▊| 48201/48845 [17:05:43<21:58,  2.05s/it] 99%|█████████▊| 48202/48845 [17:05:44<19:24,  1.81s/it] 99%|█████████▊| 48203/48845 [17:05:46<17:37,  1.65s/it] 99%|█████████▊| 48204/48845 [17:05:47<16:21,  1.53s/it] 99%|█████████▊| 48205/48845 [17:05:48<15:27,  1.45s/it]                                                        {'loss': 2.0563, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48205/48845 [17:05:48<15:27,  1.45s/it] 99%|█████████▊| 48206/48845 [17:05:50<14:51,  1.39s/it] 99%|█████████▊| 48207/48845 [17:05:51<14:24,  1.36s/it] 99%|█████████▊| 48208/48845 [17:05:52<14:05,  1.33s/it] 99%|█████████▊| 48209/48845 [17:05:53<13:51,  1.31s/it] 99%|█████████▊| 48210/48845 [17:05:55<13:41,  1.29s/it]                                                        {'loss': 2.0323, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.93}
+ 99%|█████████▊| 48210/48845 [17:05:55<13:41,  1.29s/it] 99%|█████████▊| 48211/48845 [17:05:56<13:34,  1.28s/it] 99%|█████████▊| 48212/48845 [17:05:57<13:28,  1.28s/it] 99%|█████████▊| 48213/48845 [17:05:58<13:24,  1.27s/it] 99%|█████████▊| 48214/48845 [17:06:00<13:20,  1.27s/it] 99%|█████████▊| 48215/48845 [17:06:01<13:17,  1.27s/it]                                                        {'loss': 2.254, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▊| 48215/48845 [17:06:01<13:17,  1.27s/it] 99%|█████████▊| 48216/48845 [17:06:02<13:15,  1.26s/it] 99%|█████████▊| 48217/48845 [17:06:03<13:16,  1.27s/it] 99%|█████████▊| 48218/48845 [17:06:05<13:13,  1.27s/it] 99%|█████████▊| 48219/48845 [17:06:06<13:11,  1.26s/it] 99%|█████████▊| 48220/48845 [17:06:07<13:09,  1.26s/it]                                                        {'loss': 2.1849, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▊| 48220/48845 [17:06:07<13:09,  1.26s/it] 99%|█████████▊| 48221/48845 [17:06:08<13:09,  1.26s/it] 99%|█████████▊| 48222/48845 [17:06:10<13:07,  1.26s/it] 99%|█████████▊| 48223/48845 [17:06:11<13:06,  1.26s/it] 99%|█████████▊| 48224/48845 [17:06:12<13:05,  1.26s/it] 99%|█████████▊| 48225/48845 [17:06:14<13:03,  1.26s/it]                                                        {'loss': 2.0141, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▊| 48225/48845 [17:06:14<13:03,  1.26s/it] 99%|█████████▊| 48226/48845 [17:06:15<13:02,  1.26s/it] 99%|█████████▊| 48227/48845 [17:06:16<13:00,  1.26s/it] 99%|█████████▊| 48228/48845 [17:06:17<12:59,  1.26s/it] 99%|█████████▊| 48229/48845 [17:06:19<12:58,  1.26s/it] 99%|█████████▊| 48230/48845 [17:06:20<12:56,  1.26s/it]                                                        {'loss': 1.9918, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▊| 48230/48845 [17:06:20<12:56,  1.26s/it] 99%|█████████▊| 48231/48845 [17:06:21<12:55,  1.26s/it] 99%|█████████▊| 48232/48845 [17:06:22<12:54,  1.26s/it] 99%|█████████▊| 48233/48845 [17:06:24<12:54,  1.27s/it] 99%|█████████▊| 48234/48845 [17:06:25<12:53,  1.27s/it] 99%|█████████▉| 48235/48845 [17:06:26<12:51,  1.26s/it]                                                        {'loss': 2.0499, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48235/48845 [17:06:26<12:51,  1.26s/it] 99%|█████████▉| 48236/48845 [17:06:27<12:49,  1.26s/it] 99%|█████████▉| 48237/48845 [17:06:29<12:48,  1.26s/it] 99%|█████████▉| 48238/48845 [17:06:30<12:46,  1.26s/it] 99%|█████████▉| 48239/48845 [17:06:31<12:46,  1.26s/it] 99%|█████████▉| 48240/48845 [17:06:32<12:44,  1.26s/it]                                                        {'loss': 2.0703, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48240/48845 [17:06:32<12:44,  1.26s/it] 99%|█████████▉| 48241/48845 [17:06:34<12:43,  1.26s/it] 99%|█████████▉| 48242/48845 [17:06:35<12:42,  1.26s/it] 99%|█████████▉| 48243/48845 [17:06:36<12:44,  1.27s/it] 99%|█████████▉| 48244/48845 [17:06:38<12:42,  1.27s/it] 99%|█████████▉| 48245/48845 [17:06:39<12:40,  1.27s/it]                                                        {'loss': 2.1258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48245/48845 [17:06:39<12:40,  1.27s/it] 99%|█████████▉| 48246/48845 [17:06:40<12:38,  1.27s/it] 99%|█████████▉| 48247/48845 [17:06:41<12:37,  1.27s/it] 99%|█████████▉| 48248/48845 [17:06:43<12:35,  1.26s/it] 99%|█████████▉| 48249/48845 [17:06:44<12:34,  1.27s/it] 99%|█████████▉| 48250/48845 [17:06:45<12:32,  1.26s/it]                                                        {'loss': 1.9889, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48250/48845 [17:06:45<12:32,  1.26s/it] 99%|█████████▉| 48251/48845 [17:06:46<12:32,  1.27s/it] 99%|█████████▉| 48252/48845 [17:06:48<12:30,  1.26s/it] 99%|█████████▉| 48253/48845 [17:06:49<12:28,  1.26s/it] 99%|█████████▉| 48254/48845 [17:06:50<12:27,  1.26s/it] 99%|█████████▉| 48255/48845 [17:06:51<12:25,  1.26s/it]                                                        {'loss': 2.2646, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48255/48845 [17:06:51<12:25,  1.26s/it] 99%|█████████▉| 48256/48845 [17:06:53<12:24,  1.26s/it] 99%|█████████▉| 48257/48845 [17:06:54<12:24,  1.27s/it] 99%|█████████▉| 48258/48845 [17:06:55<12:23,  1.27s/it] 99%|█████████▉| 48259/48845 [17:06:57<12:21,  1.27s/it] 99%|█████████▉| 48260/48845 [17:06:58<12:19,  1.26s/it]                                                        {'loss': 2.0692, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48260/48845 [17:06:58<12:19,  1.26s/it] 99%|█████████▉| 48261/48845 [17:06:59<12:45,  1.31s/it] 99%|█████████▉| 48262/48845 [17:07:00<12:36,  1.30s/it] 99%|█████████▉| 48263/48845 [17:07:02<12:28,  1.29s/it] 99%|█████████▉| 48264/48845 [17:07:03<12:24,  1.28s/it] 99%|█████████▉| 48265/48845 [17:07:04<12:20,  1.28s/it]                                                        {'loss': 2.0243, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48265/48845 [17:07:04<12:20,  1.28s/it] 99%|█████████▉| 48266/48845 [17:07:06<12:16,  1.27s/it] 99%|█████████▉| 48267/48845 [17:07:07<12:13,  1.27s/it] 99%|█████████▉| 48268/48845 [17:07:08<12:11,  1.27s/it] 99%|█████████▉| 48269/48845 [17:07:09<12:09,  1.27s/it] 99%|█████████▉| 48270/48845 [17:07:11<12:08,  1.27s/it]                                                        {'loss': 2.0837, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48270/48845 [17:07:11<12:08,  1.27s/it] 99%|█████████▉| 48271/48845 [17:07:12<12:06,  1.27s/it] 99%|█████████▉| 48272/48845 [17:07:13<12:05,  1.27s/it] 99%|█████████▉| 48273/48845 [17:07:14<12:03,  1.26s/it] 99%|█████████▉| 48274/48845 [17:07:16<12:02,  1.27s/it] 99%|█████████▉| 48275/48845 [17:07:17<12:00,  1.26s/it]                                                        {'loss': 2.1228, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48275/48845 [17:07:17<12:00,  1.26s/it] 99%|█████████▉| 48276/48845 [17:07:18<11:59,  1.27s/it] 99%|█████████▉| 48277/48845 [17:07:19<11:58,  1.26s/it] 99%|█████████▉| 48278/48845 [17:07:21<11:57,  1.27s/it] 99%|█████████▉| 48279/48845 [17:07:22<11:55,  1.26s/it] 99%|█████████▉| 48280/48845 [17:07:23<11:54,  1.26s/it]                                                        {'loss': 2.1337, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48280/48845 [17:07:23<11:54,  1.26s/it] 99%|█████████▉| 48281/48845 [17:07:25<11:53,  1.26s/it] 99%|█████████▉| 48282/48845 [17:07:26<11:52,  1.26s/it] 99%|█████████▉| 48283/48845 [17:07:27<11:51,  1.27s/it] 99%|█████████▉| 48284/48845 [17:07:28<11:49,  1.26s/it] 99%|█████████▉| 48285/48845 [17:07:30<11:47,  1.26s/it]                                                        {'loss': 2.0712, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48285/48845 [17:07:30<11:47,  1.26s/it] 99%|█████████▉| 48286/48845 [17:07:31<11:46,  1.26s/it] 99%|█████████▉| 48287/48845 [17:07:32<11:45,  1.26s/it] 99%|█████████▉| 48288/48845 [17:07:33<11:44,  1.26s/it] 99%|█████████▉| 48289/48845 [17:07:35<11:43,  1.26s/it] 99%|█████████▉| 48290/48845 [17:07:36<11:55,  1.29s/it]                                                        {'loss': 2.0778, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48290/48845 [17:07:36<11:55,  1.29s/it] 99%|█████████▉| 48291/48845 [17:07:37<11:50,  1.28s/it] 99%|█████████▉| 48292/48845 [17:07:39<11:46,  1.28s/it] 99%|█████████▉| 48293/48845 [17:07:40<11:42,  1.27s/it] 99%|█████████▉| 48294/48845 [17:07:41<11:39,  1.27s/it] 99%|█████████▉| 48295/48845 [17:07:42<11:38,  1.27s/it]                                                        {'loss': 2.1019, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48295/48845 [17:07:42<11:38,  1.27s/it] 99%|█████████▉| 48296/48845 [17:07:44<11:36,  1.27s/it] 99%|█████████▉| 48297/48845 [17:07:45<11:33,  1.27s/it] 99%|█████████▉| 48298/48845 [17:07:46<12:00,  1.32s/it] 99%|█████████▉| 48299/48845 [17:07:48<11:50,  1.30s/it] 99%|█████████▉| 48300/48845 [17:07:49<11:42,  1.29s/it]                                                        {'loss': 1.8555, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48300/48845 [17:07:49<11:42,  1.29s/it] 99%|█████████▉| 48301/48845 [17:07:50<11:37,  1.28s/it] 99%|█████████▉| 48302/48845 [17:07:51<11:33,  1.28s/it] 99%|█████████▉| 48303/48845 [17:07:53<11:29,  1.27s/it] 99%|█████████▉| 48304/48845 [17:07:54<11:26,  1.27s/it] 99%|█████████▉| 48305/48845 [17:07:55<11:24,  1.27s/it]                                                        {'loss': 2.0005, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.94}
+ 99%|█████████▉| 48305/48845 [17:07:55<11:24,  1.27s/it] 99%|█████████▉| 48306/48845 [17:07:56<11:24,  1.27s/it] 99%|█████████▉| 48307/48845 [17:07:58<11:21,  1.27s/it] 99%|█████████▉| 48308/48845 [17:07:59<11:19,  1.27s/it] 99%|█████████▉| 48309/48845 [17:08:00<11:18,  1.26s/it] 99%|█████████▉| 48310/48845 [17:08:01<11:16,  1.26s/it]                                                        {'loss': 2.0747, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48310/48845 [17:08:01<11:16,  1.26s/it] 99%|█████████▉| 48311/48845 [17:08:03<11:15,  1.26s/it] 99%|█████████▉| 48312/48845 [17:08:04<11:13,  1.26s/it] 99%|█████████▉| 48313/48845 [17:08:05<11:12,  1.26s/it] 99%|█████████▉| 48314/48845 [17:08:06<11:11,  1.27s/it] 99%|█████████▉| 48315/48845 [17:08:08<11:11,  1.27s/it]                                                        {'loss': 2.0092, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48315/48845 [17:08:08<11:11,  1.27s/it] 99%|█████████▉| 48316/48845 [17:08:09<11:10,  1.27s/it] 99%|█████████▉| 48317/48845 [17:08:10<11:08,  1.27s/it] 99%|█████████▉| 48318/48845 [17:08:12<11:29,  1.31s/it] 99%|█████████▉| 48319/48845 [17:08:13<11:20,  1.29s/it] 99%|█████████▉| 48320/48845 [17:08:14<11:15,  1.29s/it]                                                        {'loss': 1.9087, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48320/48845 [17:08:14<11:15,  1.29s/it] 99%|█████████▉| 48321/48845 [17:08:15<11:10,  1.28s/it] 99%|█████████▉| 48322/48845 [17:08:17<11:07,  1.28s/it] 99%|█████████▉| 48323/48845 [17:08:18<11:04,  1.27s/it] 99%|█████████▉| 48324/48845 [17:08:19<11:02,  1.27s/it] 99%|█████████▉| 48325/48845 [17:08:21<10:59,  1.27s/it]                                                        {'loss': 2.135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48325/48845 [17:08:21<10:59,  1.27s/it] 99%|█████████▉| 48326/48845 [17:08:22<10:58,  1.27s/it] 99%|█████████▉| 48327/48845 [17:08:23<10:56,  1.27s/it] 99%|█████████▉| 48328/48845 [17:08:24<10:54,  1.27s/it] 99%|█████████▉| 48329/48845 [17:08:26<10:52,  1.26s/it] 99%|█████████▉| 48330/48845 [17:08:27<11:14,  1.31s/it]                                                        {'loss': 2.0312, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48330/48845 [17:08:27<11:14,  1.31s/it] 99%|█████████▉| 48331/48845 [17:08:28<11:06,  1.30s/it] 99%|█████████▉| 48332/48845 [17:08:30<11:01,  1.29s/it] 99%|█████████▉| 48333/48845 [17:08:31<10:56,  1.28s/it] 99%|█████████▉| 48334/48845 [17:08:32<10:52,  1.28s/it] 99%|█████████▉| 48335/48845 [17:08:33<10:49,  1.27s/it]                                                        {'loss': 2.0562, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48335/48845 [17:08:33<10:49,  1.27s/it] 99%|█████████▉| 48336/48845 [17:08:35<10:47,  1.27s/it] 99%|█████████▉| 48337/48845 [17:08:36<10:44,  1.27s/it] 99%|█████████▉| 48338/48845 [17:08:37<10:43,  1.27s/it] 99%|█████████▉| 48339/48845 [17:08:38<10:41,  1.27s/it] 99%|█████████▉| 48340/48845 [17:08:40<10:39,  1.27s/it]                                                        {'loss': 2.1426, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48340/48845 [17:08:40<10:39,  1.27s/it] 99%|█████████▉| 48341/48845 [17:08:41<10:37,  1.27s/it] 99%|█████████▉| 48342/48845 [17:08:42<10:37,  1.27s/it] 99%|█████████▉| 48343/48845 [17:08:43<10:34,  1.26s/it] 99%|█████████▉| 48344/48845 [17:08:45<10:34,  1.27s/it] 99%|█████████▉| 48345/48845 [17:08:46<10:31,  1.26s/it]                                                        {'loss': 2.1967, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48345/48845 [17:08:46<10:31,  1.26s/it] 99%|█████████▉| 48346/48845 [17:08:47<10:31,  1.27s/it] 99%|█████████▉| 48347/48845 [17:08:49<10:30,  1.27s/it] 99%|█████████▉| 48348/48845 [17:08:50<10:28,  1.26s/it] 99%|█████████▉| 48349/48845 [17:08:51<10:26,  1.26s/it] 99%|█████████▉| 48350/48845 [17:08:52<10:25,  1.26s/it]                                                        {'loss': 2.026, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48350/48845 [17:08:52<10:25,  1.26s/it] 99%|█████████▉| 48351/48845 [17:08:54<10:24,  1.26s/it] 99%|█████████▉| 48352/48845 [17:08:55<10:22,  1.26s/it] 99%|█████████▉| 48353/48845 [17:08:56<10:21,  1.26s/it] 99%|█████████▉| 48354/48845 [17:08:57<10:19,  1.26s/it] 99%|█████████▉| 48355/48845 [17:08:59<10:18,  1.26s/it]                                                        {'loss': 2.0404, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48355/48845 [17:08:59<10:18,  1.26s/it] 99%|█████████▉| 48356/48845 [17:09:00<10:18,  1.26s/it] 99%|█████████▉| 48357/48845 [17:09:01<10:16,  1.26s/it] 99%|█████████▉| 48358/48845 [17:09:02<10:15,  1.26s/it] 99%|█████████▉| 48359/48845 [17:09:04<10:13,  1.26s/it] 99%|█████████▉| 48360/48845 [17:09:05<10:12,  1.26s/it]                                                        {'loss': 2.0687, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48360/48845 [17:09:05<10:12,  1.26s/it] 99%|█████████▉| 48361/48845 [17:09:06<10:11,  1.26s/it] 99%|█████████▉| 48362/48845 [17:09:07<10:09,  1.26s/it] 99%|█████████▉| 48363/48845 [17:09:09<10:08,  1.26s/it] 99%|█████████▉| 48364/48845 [17:09:10<10:07,  1.26s/it] 99%|█████████▉| 48365/48845 [17:09:11<10:05,  1.26s/it]                                                        {'loss': 2.1701, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48365/48845 [17:09:11<10:05,  1.26s/it] 99%|█████████▉| 48366/48845 [17:09:13<10:27,  1.31s/it] 99%|█████████▉| 48367/48845 [17:09:14<10:19,  1.30s/it] 99%|█████████▉| 48368/48845 [17:09:15<10:13,  1.29s/it] 99%|█████████▉| 48369/48845 [17:09:17<10:09,  1.28s/it] 99%|█████████▉| 48370/48845 [17:09:18<10:07,  1.28s/it]                                                        {'loss': 2.046, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48370/48845 [17:09:18<10:07,  1.28s/it] 99%|█████████▉| 48371/48845 [17:09:19<10:03,  1.27s/it] 99%|█████████▉| 48372/48845 [17:09:20<10:00,  1.27s/it] 99%|█████████▉| 48373/48845 [17:09:22<09:58,  1.27s/it] 99%|█████████▉| 48374/48845 [17:09:23<09:56,  1.27s/it] 99%|█████████▉| 48375/48845 [17:09:24<09:54,  1.27s/it]                                                        {'loss': 2.0586, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48375/48845 [17:09:24<09:54,  1.27s/it] 99%|█████████▉| 48376/48845 [17:09:25<09:53,  1.27s/it] 99%|█████████▉| 48377/48845 [17:09:27<09:52,  1.27s/it] 99%|█████████▉| 48378/48845 [17:09:28<09:51,  1.27s/it] 99%|█████████▉| 48379/48845 [17:09:29<09:50,  1.27s/it] 99%|█████████▉| 48380/48845 [17:09:30<09:48,  1.27s/it]                                                        {'loss': 2.0316, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48380/48845 [17:09:30<09:48,  1.27s/it] 99%|█████████▉| 48381/48845 [17:09:32<09:47,  1.27s/it] 99%|█████████▉| 48382/48845 [17:09:33<09:46,  1.27s/it] 99%|█████████▉| 48383/48845 [17:09:34<09:44,  1.27s/it] 99%|█████████▉| 48384/48845 [17:09:35<09:43,  1.26s/it] 99%|█████████▉| 48385/48845 [17:09:37<09:42,  1.27s/it]                                                        {'loss': 2.0081, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48385/48845 [17:09:37<09:42,  1.27s/it] 99%|█████████▉| 48386/48845 [17:09:38<09:42,  1.27s/it] 99%|█████████▉| 48387/48845 [17:09:39<09:40,  1.27s/it] 99%|█████████▉| 48388/48845 [17:09:41<09:39,  1.27s/it] 99%|█████████▉| 48389/48845 [17:09:42<09:37,  1.27s/it] 99%|█████████▉| 48390/48845 [17:09:43<09:36,  1.27s/it]                                                        {'loss': 2.0278, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48390/48845 [17:09:43<09:36,  1.27s/it] 99%|█████████▉| 48391/48845 [17:09:44<09:35,  1.27s/it] 99%|█████████▉| 48392/48845 [17:09:46<09:32,  1.26s/it] 99%|█████████▉| 48393/48845 [17:09:47<09:31,  1.26s/it] 99%|█████████▉| 48394/48845 [17:09:48<09:31,  1.27s/it] 99%|█████████▉| 48395/48845 [17:09:49<09:30,  1.27s/it]                                                        {'loss': 2.0172, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48395/48845 [17:09:49<09:30,  1.27s/it] 99%|█████████▉| 48396/48845 [17:09:51<09:28,  1.27s/it] 99%|█████████▉| 48397/48845 [17:09:52<09:27,  1.27s/it] 99%|█████████▉| 48398/48845 [17:09:53<09:26,  1.27s/it] 99%|█████████▉| 48399/48845 [17:09:54<09:24,  1.27s/it] 99%|█████████▉| 48400/48845 [17:09:56<09:22,  1.27s/it]                                                        {'loss': 1.9946, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48400/48845 [17:09:56<09:22,  1.27s/it] 99%|█████████▉| 48401/48845 [17:10:00<15:01,  2.03s/it] 99%|█████████▉| 48402/48845 [17:10:01<13:17,  1.80s/it] 99%|█████████▉| 48403/48845 [17:10:02<12:03,  1.64s/it] 99%|█████████▉| 48404/48845 [17:10:03<11:11,  1.52s/it] 99%|█████████▉| 48405/48845 [17:10:05<10:35,  1.44s/it]                                                        {'loss': 2.0953, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.95}
+ 99%|█████████▉| 48405/48845 [17:10:05<10:35,  1.44s/it] 99%|█████████▉| 48406/48845 [17:10:06<10:10,  1.39s/it] 99%|█████████▉| 48407/48845 [17:10:07<09:52,  1.35s/it] 99%|█████████▉| 48408/48845 [17:10:08<09:39,  1.33s/it] 99%|█████████▉| 48409/48845 [17:10:10<09:29,  1.31s/it] 99%|█████████▉| 48410/48845 [17:10:11<09:21,  1.29s/it]                                                        {'loss': 2.1109, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48410/48845 [17:10:11<09:21,  1.29s/it] 99%|█████████▉| 48411/48845 [17:10:12<09:16,  1.28s/it] 99%|█████████▉| 48412/48845 [17:10:13<09:13,  1.28s/it] 99%|█████████▉| 48413/48845 [17:10:15<09:09,  1.27s/it] 99%|█████████▉| 48414/48845 [17:10:16<09:06,  1.27s/it] 99%|█████████▉| 48415/48845 [17:10:17<09:05,  1.27s/it]                                                        {'loss': 2.2451, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48415/48845 [17:10:17<09:05,  1.27s/it] 99%|█████████▉| 48416/48845 [17:10:19<09:06,  1.27s/it] 99%|█████████▉| 48417/48845 [17:10:20<09:03,  1.27s/it] 99%|█████████▉| 48418/48845 [17:10:21<09:01,  1.27s/it] 99%|█████████▉| 48419/48845 [17:10:22<08:59,  1.27s/it] 99%|█████████▉| 48420/48845 [17:10:24<08:59,  1.27s/it]                                                        {'loss': 2.1066, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48420/48845 [17:10:24<08:59,  1.27s/it] 99%|█████████▉| 48421/48845 [17:10:25<08:57,  1.27s/it] 99%|█████████▉| 48422/48845 [17:10:26<08:55,  1.26s/it] 99%|█████████▉| 48423/48845 [17:10:27<08:53,  1.26s/it] 99%|█████████▉| 48424/48845 [17:10:29<09:04,  1.29s/it] 99%|█████��███▉| 48425/48845 [17:10:30<08:59,  1.28s/it]                                                        {'loss': 1.9747, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48425/48845 [17:10:30<08:59,  1.28s/it] 99%|█████████▉| 48426/48845 [17:10:31<08:55,  1.28s/it] 99%|█████████▉| 48427/48845 [17:10:33<08:52,  1.27s/it] 99%|█████████▉| 48428/48845 [17:10:34<08:50,  1.27s/it] 99%|█████████▉| 48429/48845 [17:10:35<08:49,  1.27s/it] 99%|█████████▉| 48430/48845 [17:10:36<08:46,  1.27s/it]                                                        {'loss': 2.1698, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48430/48845 [17:10:36<08:46,  1.27s/it] 99%|█████████▉| 48431/48845 [17:10:38<08:44,  1.27s/it] 99%|█████████▉| 48432/48845 [17:10:39<08:51,  1.29s/it] 99%|█████████▉| 48433/48845 [17:10:40<08:46,  1.28s/it] 99%|█████████▉| 48434/48845 [17:10:41<08:43,  1.27s/it] 99%|█████████▉| 48435/48845 [17:10:43<08:41,  1.27s/it]                                                        {'loss': 2.0778, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48435/48845 [17:10:43<08:41,  1.27s/it] 99%|█████████▉| 48436/48845 [17:10:44<08:39,  1.27s/it] 99%|█████████▉| 48437/48845 [17:10:45<08:37,  1.27s/it] 99%|█████████▉| 48438/48845 [17:10:47<08:36,  1.27s/it] 99%|█████████▉| 48439/48845 [17:10:48<08:34,  1.27s/it] 99%|█████████▉| 48440/48845 [17:10:49<08:32,  1.27s/it]                                                        {'loss': 2.004, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48440/48845 [17:10:49<08:32,  1.27s/it] 99%|█████████▉| 48441/48845 [17:10:50<08:31,  1.27s/it] 99%|█████████▉| 48442/48845 [17:10:52<08:29,  1.26s/it] 99%|█████████▉| 48443/48845 [17:10:53<08:28,  1.26s/it] 99%|█████████▉| 48444/48845 [17:10:54<08:27,  1.27s/it] 99%|█████████▉| 48445/48845 [17:10:55<08:25,  1.26s/it]                                                        {'loss': 2.0911, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48445/48845 [17:10:55<08:25,  1.26s/it] 99%|█████████▉| 48446/48845 [17:10:57<08:24,  1.27s/it] 99%|█████████▉| 48447/48845 [17:10:58<08:29,  1.28s/it] 99%|█████████▉| 48448/48845 [17:10:59<08:41,  1.31s/it] 99%|█████████▉| 48449/48845 [17:11:01<08:34,  1.30s/it] 99%|█████████▉| 48450/48845 [17:11:02<08:28,  1.29s/it]                                                        {'loss': 2.1565, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48450/48845 [17:11:02<08:28,  1.29s/it] 99%|█████████▉| 48451/48845 [17:11:03<08:24,  1.28s/it] 99%|█████████▉| 48452/48845 [17:11:04<08:21,  1.28s/it] 99%|█████████▉| 48453/48845 [17:11:06<08:19,  1.28s/it] 99%|█████████▉| 48454/48845 [17:11:07<08:17,  1.27s/it] 99%|█████████▉| 48455/48845 [17:11:08<08:15,  1.27s/it]                                                        {'loss': 1.9881, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48455/48845 [17:11:08<08:15,  1.27s/it] 99%|█████████▉| 48456/48845 [17:11:10<08:33,  1.32s/it] 99%|█████████▉| 48457/48845 [17:11:11<08:25,  1.30s/it] 99%|█████████▉| 48458/48845 [17:11:12<08:19,  1.29s/it] 99%|█████████▉| 48459/48845 [17:11:13<08:15,  1.28s/it] 99%|█████████▉| 48460/48845 [17:11:15<08:18,  1.29s/it]                                                        {'loss': 2.2085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48460/48845 [17:11:15<08:18,  1.29s/it] 99%|█████████▉| 48461/48845 [17:11:16<08:13,  1.29s/it] 99%|█████████▉| 48462/48845 [17:11:17<08:09,  1.28s/it] 99%|█████████▉| 48463/48845 [17:11:19<08:22,  1.32s/it] 99%|█████████▉| 48464/48845 [17:11:20<08:16,  1.30s/it] 99%|█████████▉| 48465/48845 [17:11:21<08:10,  1.29s/it]                                                        {'loss': 2.1425, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48465/48845 [17:11:21<08:10,  1.29s/it] 99%|█████████▉| 48466/48845 [17:11:22<08:06,  1.28s/it] 99%|███████��█▉| 48467/48845 [17:11:24<08:03,  1.28s/it] 99%|█████████▉| 48468/48845 [17:11:25<08:01,  1.28s/it] 99%|█████████▉| 48469/48845 [17:11:26<07:58,  1.27s/it] 99%|█████████▉| 48470/48845 [17:11:28<07:56,  1.27s/it]                                                        {'loss': 2.1031, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48470/48845 [17:11:28<07:56,  1.27s/it] 99%|█████████▉| 48471/48845 [17:11:29<07:54,  1.27s/it] 99%|█████████▉| 48472/48845 [17:11:30<07:52,  1.27s/it] 99%|█████████▉| 48473/48845 [17:11:31<07:50,  1.27s/it] 99%|█████████▉| 48474/48845 [17:11:33<07:49,  1.27s/it] 99%|█████████▉| 48475/48845 [17:11:34<07:48,  1.27s/it]                                                        {'loss': 2.0903, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48475/48845 [17:11:34<07:48,  1.27s/it] 99%|█████████▉| 48476/48845 [17:11:35<07:47,  1.27s/it] 99%|█████████▉| 48477/48845 [17:11:36<07:45,  1.26s/it] 99%|█████████▉| 48478/48845 [17:11:38<07:43,  1.26s/it] 99%|█████████▉| 48479/48845 [17:11:39<07:42,  1.26s/it] 99%|█████████▉| 48480/48845 [17:11:40<07:41,  1.27s/it]                                                        {'loss': 1.9958, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48480/48845 [17:11:40<07:41,  1.27s/it] 99%|█████████▉| 48481/48845 [17:11:41<07:40,  1.26s/it] 99%|█████████▉| 48482/48845 [17:11:43<07:38,  1.26s/it] 99%|█████████▉| 48483/48845 [17:11:44<07:36,  1.26s/it] 99%|█████████▉| 48484/48845 [17:11:45<07:35,  1.26s/it] 99%|█████████▉| 48485/48845 [17:11:46<07:34,  1.26s/it]                                                        {'loss': 2.2687, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48485/48845 [17:11:46<07:34,  1.26s/it] 99%|█████████▉| 48486/48845 [17:11:48<07:34,  1.27s/it] 99%|█████████▉| 48487/48845 [17:11:49<07:32,  1.26s/it] 99%|█████████▉| 48488/48845 [17:11:50<07:31,  1.27s/it] 99%|█████████▉| 48489/48845 [17:11:52<07:30,  1.26s/it] 99%|█████████▉| 48490/48845 [17:11:53<07:28,  1.26s/it]                                                        {'loss': 2.0078, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48490/48845 [17:11:53<07:28,  1.26s/it] 99%|█████████▉| 48491/48845 [17:11:54<07:27,  1.27s/it] 99%|█████████▉| 48492/48845 [17:11:55<07:26,  1.27s/it] 99%|█████████▉| 48493/48845 [17:11:57<07:24,  1.26s/it] 99%|█████████▉| 48494/48845 [17:11:58<07:23,  1.26s/it] 99%|█████████▉| 48495/48845 [17:11:59<07:22,  1.26s/it]                                                        {'loss': 2.0843, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48495/48845 [17:11:59<07:22,  1.26s/it] 99%|█████████▉| 48496/48845 [17:12:00<07:21,  1.27s/it] 99%|█████████▉| 48497/48845 [17:12:02<07:20,  1.27s/it] 99%|█████████▉| 48498/48845 [17:12:03<07:19,  1.27s/it] 99%|█████████▉| 48499/48845 [17:12:04<07:17,  1.26s/it] 99%|█████████▉| 48500/48845 [17:12:05<07:16,  1.26s/it]                                                        {'loss': 1.9977, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.96}
+ 99%|█████████▉| 48500/48845 [17:12:05<07:16,  1.26s/it] 99%|█████████▉| 48501/48845 [17:12:07<07:14,  1.26s/it] 99%|█████████▉| 48502/48845 [17:12:08<07:13,  1.26s/it] 99%|█████████▉| 48503/48845 [17:12:09<07:12,  1.26s/it] 99%|█████████▉| 48504/48845 [17:12:11<07:10,  1.26s/it] 99%|█████████▉| 48505/48845 [17:12:12<07:09,  1.26s/it]                                                        {'loss': 2.0085, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48505/48845 [17:12:12<07:09,  1.26s/it] 99%|█████████▉| 48506/48845 [17:12:13<07:08,  1.26s/it] 99%|█████████▉| 48507/48845 [17:12:14<07:07,  1.27s/it] 99%|█████████▉| 48508/48845 [17:12:16<07:16,  1.30s/it] 99%|█████████▉| 48509/48845 [17:12:17<07:12,  1.29s/it] 99%|█████████▉| 48510/48845 [17:12:18<07:08,  1.28s/it]                                                        {'loss': 2.1737, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48510/48845 [17:12:18<07:08,  1.28s/it] 99%|█████████▉| 48511/48845 [17:12:19<07:05,  1.27s/it] 99%|█████████▉| 48512/48845 [17:12:21<07:03,  1.27s/it] 99%|█████████▉| 48513/48845 [17:12:22<07:00,  1.27s/it] 99%|█████████▉| 48514/48845 [17:12:23<06:59,  1.27s/it] 99%|█████████▉| 48515/48845 [17:12:25<06:57,  1.26s/it]                                                        {'loss': 2.2407, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48515/48845 [17:12:25<06:57,  1.26s/it] 99%|█████████▉| 48516/48845 [17:12:26<06:56,  1.27s/it] 99%|█████████▉| 48517/48845 [17:12:27<06:55,  1.27s/it] 99%|█████████▉| 48518/48845 [17:12:28<06:53,  1.27s/it] 99%|█████████▉| 48519/48845 [17:12:30<06:52,  1.27s/it] 99%|█████████▉| 48520/48845 [17:12:31<06:50,  1.26s/it]                                                        {'loss': 2.1196, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48520/48845 [17:12:31<06:50,  1.26s/it] 99%|█████████▉| 48521/48845 [17:12:32<06:59,  1.29s/it] 99%|█████████▉| 48522/48845 [17:12:33<06:54,  1.28s/it] 99%|█████████▉| 48523/48845 [17:12:35<06:51,  1.28s/it] 99%|█████████▉| 48524/48845 [17:12:36<06:48,  1.27s/it] 99%|█████████▉| 48525/48845 [17:12:37<06:47,  1.27s/it]                                                        {'loss': 2.1007, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48525/48845 [17:12:37<06:47,  1.27s/it] 99%|█████████▉| 48526/48845 [17:12:39<06:45,  1.27s/it] 99%|█████████▉| 48527/48845 [17:12:40<06:43,  1.27s/it] 99%|█████████▉| 48528/48845 [17:12:41<06:42,  1.27s/it] 99%|█████████▉| 48529/48845 [17:12:42<06:40,  1.27s/it] 99%|█████████▉| 48530/48845 [17:12:44<06:39,  1.27s/it]                                                        {'loss': 2.2025, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48530/48845 [17:12:44<06:39,  1.27s/it] 99%|█████████▉| 48531/48845 [17:12:45<06:37,  1.27s/it] 99%|█████████▉| 48532/48845 [17:12:46<06:36,  1.27s/it] 99%|█████████▉| 48533/48845 [17:12:47<06:35,  1.27s/it] 99%|█████████▉| 48534/48845 [17:12:49<06:33,  1.26s/it] 99%|█████████▉| 48535/48845 [17:12:50<06:31,  1.26s/it]                                                        {'loss': 2.0137, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48535/48845 [17:12:50<06:31,  1.26s/it] 99%|█████████▉| 48536/48845 [17:12:51<06:30,  1.26s/it] 99%|█████████▉| 48537/48845 [17:12:52<06:29,  1.26s/it] 99%|█████████▉| 48538/48845 [17:12:54<06:28,  1.26s/it] 99%|█████████▉| 48539/48845 [17:12:55<06:26,  1.26s/it] 99%|█████████▉| 48540/48845 [17:12:56<06:25,  1.26s/it]                                                        {'loss': 2.153, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48540/48845 [17:12:56<06:25,  1.26s/it] 99%|█████████▉| 48541/48845 [17:12:58<06:24,  1.27s/it] 99%|█████████▉| 48542/48845 [17:12:59<06:23,  1.27s/it] 99%|█████████▉| 48543/48845 [17:13:00<06:21,  1.26s/it] 99%|█████████▉| 48544/48845 [17:13:01<06:20,  1.27s/it] 99%|█████████▉| 48545/48845 [17:13:03<06:19,  1.26s/it]                                                        {'loss': 2.0809, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48545/48845 [17:13:03<06:19,  1.26s/it] 99%|█████████▉| 48546/48845 [17:13:04<06:18,  1.26s/it] 99%|█████████▉| 48547/48845 [17:13:05<06:17,  1.27s/it] 99%|█████████▉| 48548/48845 [17:13:06<06:15,  1.27s/it] 99%|█████████▉| 48549/48845 [17:13:08<06:14,  1.27s/it] 99%|█████████▉| 48550/48845 [17:13:09<06:13,  1.27s/it]                                                        {'loss': 1.9243, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48550/48845 [17:13:09<06:13,  1.27s/it] 99%|█████████▉| 48551/48845 [17:13:10<06:11,  1.27s/it] 99%|█████████▉| 48552/48845 [17:13:11<06:10,  1.26s/it] 99%|█████████▉| 48553/48845 [17:13:13<06:09,  1.27s/it] 99%|█████████▉| 48554/48845 [17:13:14<06:07,  1.26s/it] 99%|█████████▉| 48555/48845 [17:13:15<06:06,  1.26s/it]                                                        {'loss': 2.0258, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48555/48845 [17:13:15<06:06,  1.26s/it] 99%|█████████▉| 48556/48845 [17:13:16<06:06,  1.27s/it] 99%|█████████▉| 48557/48845 [17:13:18<06:04,  1.27s/it] 99%|█████████▉| 48558/48845 [17:13:19<06:03,  1.27s/it] 99%|█████████▉| 48559/48845 [17:13:20<06:01,  1.26s/it] 99%|█████████▉| 48560/48845 [17:13:22<06:00,  1.27s/it]                                                        {'loss': 2.051, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48560/48845 [17:13:22<06:00,  1.27s/it] 99%|█████████▉| 48561/48845 [17:13:23<05:59,  1.27s/it] 99%|█████████▉| 48562/48845 [17:13:24<05:57,  1.26s/it] 99%|█████████▉| 48563/48845 [17:13:25<05:56,  1.26s/it] 99%|█████████▉| 48564/48845 [17:13:27<05:55,  1.26s/it] 99%|█████████▉| 48565/48845 [17:13:28<05:54,  1.27s/it]                                                        {'loss': 2.0524, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48565/48845 [17:13:28<05:54,  1.27s/it] 99%|█████████▉| 48566/48845 [17:13:29<05:53,  1.27s/it] 99%|█████████▉| 48567/48845 [17:13:30<05:51,  1.27s/it] 99%|█████████▉| 48568/48845 [17:13:32<05:50,  1.26s/it] 99%|█████████▉| 48569/48845 [17:13:33<05:49,  1.27s/it] 99%|█████████▉| 48570/48845 [17:13:34<05:47,  1.27s/it]                                                        {'loss': 2.1274, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48570/48845 [17:13:34<05:47,  1.27s/it] 99%|█████████▉| 48571/48845 [17:13:35<05:46,  1.26s/it] 99%|█████████▉| 48572/48845 [17:13:37<05:45,  1.26s/it] 99%|█████████▉| 48573/48845 [17:13:38<05:43,  1.26s/it] 99%|█████████▉| 48574/48845 [17:13:39<05:42,  1.26s/it] 99%|█████████▉| 48575/48845 [17:13:41<05:41,  1.27s/it]                                                        {'loss': 2.0135, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48575/48845 [17:13:41<05:41,  1.27s/it] 99%|█████████▉| 48576/48845 [17:13:42<05:40,  1.27s/it] 99%|█████████▉| 48577/48845 [17:13:43<05:39,  1.27s/it] 99%|█████████▉| 48578/48845 [17:13:44<05:37,  1.27s/it] 99%|█████████▉| 48579/48845 [17:13:46<05:36,  1.27s/it] 99%|█████████▉| 48580/48845 [17:13:47<05:35,  1.26s/it]                                                        {'loss': 2.1625, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48580/48845 [17:13:47<05:35,  1.26s/it] 99%|█████████▉| 48581/48845 [17:13:48<05:34,  1.27s/it] 99%|█████████▉| 48582/48845 [17:13:49<05:32,  1.27s/it] 99%|█████████▉| 48583/48845 [17:13:51<05:31,  1.27s/it] 99%|█████████▉| 48584/48845 [17:13:52<05:30,  1.27s/it] 99%|█████████▉| 48585/48845 [17:13:53<05:29,  1.27s/it]                                                        {'loss': 2.034, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48585/48845 [17:13:53<05:29,  1.27s/it] 99%|█████████▉| 48586/48845 [17:13:54<05:27,  1.26s/it] 99%|█████████▉| 48587/48845 [17:13:56<05:26,  1.26s/it] 99%|█████████▉| 48588/48845 [17:13:57<05:25,  1.27s/it] 99%|█████████▉| 48589/48845 [17:13:58<05:25,  1.27s/it] 99%|█████████▉| 48590/48845 [17:14:00<05:23,  1.27s/it]                                                        {'loss': 2.1077, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48590/48845 [17:14:00<05:23,  1.27s/it] 99%|█████████▉| 48591/48845 [17:14:01<05:21,  1.27s/it] 99%|█████████▉| 48592/48845 [17:14:02<05:20,  1.27s/it] 99%|█████████▉| 48593/48845 [17:14:03<05:19,  1.27s/it] 99%|█████████▉| 48594/48845 [17:14:05<05:18,  1.27s/it] 99%|█████████▉| 48595/48845 [17:14:06<05:16,  1.27s/it]                                                        {'loss': 2.1684, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48595/48845 [17:14:06<05:16,  1.27s/it] 99%|██████���██▉| 48596/48845 [17:14:07<05:15,  1.27s/it] 99%|█████████▉| 48597/48845 [17:14:08<05:14,  1.27s/it] 99%|█████████▉| 48598/48845 [17:14:10<05:12,  1.27s/it] 99%|█████████▉| 48599/48845 [17:14:11<05:11,  1.27s/it] 99%|█████████▉| 48600/48845 [17:14:12<05:10,  1.27s/it]                                                        {'loss': 2.2331, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.97}
+ 99%|█████████▉| 48600/48845 [17:14:12<05:10,  1.27s/it]100%|█████████▉| 48601/48845 [17:14:16<08:16,  2.03s/it]100%|█████████▉| 48602/48845 [17:14:17<07:18,  1.80s/it]100%|█████████▉| 48603/48845 [17:14:19<06:37,  1.64s/it]100%|█████████▉| 48604/48845 [17:14:20<06:08,  1.53s/it]100%|█████████▉| 48605/48845 [17:14:21<05:47,  1.45s/it]                                                        {'loss': 2.0708, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48605/48845 [17:14:21<05:47,  1.45s/it]100%|█████████▉| 48606/48845 [17:14:22<05:33,  1.39s/it]100%|█████████▉| 48607/48845 [17:14:24<05:31,  1.39s/it]100%|█████████▉| 48608/48845 [17:14:25<05:21,  1.35s/it]100%|█████████▉| 48609/48845 [17:14:26<05:13,  1.33s/it]100%|█████████▉| 48610/48845 [17:14:28<05:07,  1.31s/it]                                                        {'loss': 2.1637, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48610/48845 [17:14:28<05:07,  1.31s/it]100%|█████████▉| 48611/48845 [17:14:29<05:03,  1.30s/it]100%|█████████▉| 48612/48845 [17:14:30<05:00,  1.29s/it]100%|█████████▉| 48613/48845 [17:14:31<04:57,  1.28s/it]100%|█████████▉| 48614/48845 [17:14:33<04:54,  1.28s/it]100%|█████████▉| 48615/48845 [17:14:34<04:52,  1.27s/it]                                                        {'loss': 2.0487, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48615/48845 [17:14:34<04:52,  1.27s/it]100%|█████████▉| 48616/48845 [17:14:35<04:51,  1.27s/it]100%|█████████▉| 48617/48845 [17:14:36<04:49,  1.27s/it]100%|█████████▉| 48618/48845 [17:14:38<04:48,  1.27s/it]100%|█████████▉| 48619/48845 [17:14:39<04:46,  1.27s/it]100%|█████████▉| 48620/48845 [17:14:40<04:45,  1.27s/it]                                                        {'loss': 2.0842, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48620/48845 [17:14:40<04:45,  1.27s/it]100%|█████████▉| 48621/48845 [17:14:41<04:43,  1.27s/it]100%|█████████▉| 48622/48845 [17:14:43<04:42,  1.27s/it]100%|█████████▉| 48623/48845 [17:14:44<04:41,  1.27s/it]100%|█████████▉| 48624/48845 [17:14:45<04:40,  1.27s/it]100%|█████████▉| 48625/48845 [17:14:47<04:38,  1.27s/it]                                                        {'loss': 2.0362, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48625/48845 [17:14:47<04:38,  1.27s/it]100%|█████████▉| 48626/48845 [17:14:48<04:37,  1.27s/it]100%|█████████▉| 48627/48845 [17:14:49<04:35,  1.26s/it]100%|█████████▉| 48628/48845 [17:14:50<04:34,  1.26s/it]100%|█████████▉| 48629/48845 [17:14:52<04:33,  1.26s/it]100%|█████████▉| 48630/48845 [17:14:53<04:31,  1.26s/it]                                                        {'loss': 2.3262, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48630/48845 [17:14:53<04:31,  1.26s/it]100%|█████████▉| 48631/48845 [17:14:54<04:31,  1.27s/it]100%|█████████▉| 48632/48845 [17:14:55<04:29,  1.27s/it]100%|█████████▉| 48633/48845 [17:14:57<04:28,  1.26s/it]100%|█████████▉| 48634/48845 [17:14:58<04:26,  1.26s/it]100%|█████████▉| 48635/48845 [17:14:59<04:25,  1.26s/it]                                                        {'loss': 2.0619, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48635/48845 [17:14:59<04:25,  1.26s/it]100%|█████████▉| 48636/48845 [17:15:00<04:24,  1.26s/it]100%|█████████▉| 48637/48845 [17:15:02<04:23,  1.27s/it]100%|█████████▉| 48638/48845 [17:15:03<04:21,  1.26s/it]100%|█████████▉| 48639/48845 [17:15:04<04:20,  1.26s/it]100%|█████████▉| 48640/48845 [17:15:05<04:18,  1.26s/it]                                                        {'loss': 2.0023, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48640/48845 [17:15:05<04:18,  1.26s/it]100%|█████████▉| 48641/48845 [17:15:07<04:18,  1.26s/it]100%|█████████▉| 48642/48845 [17:15:08<04:16,  1.26s/it]100%|█████████▉| 48643/48845 [17:15:09<04:15,  1.26s/it]100%|█████████▉| 48644/48845 [17:15:11<04:13,  1.26s/it]100%|█████████▉| 48645/48845 [17:15:12<04:12,  1.26s/it]                                                        {'loss': 2.0103, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48645/48845 [17:15:12<04:12,  1.26s/it]100%|█████████▉| 48646/48845 [17:15:13<04:11,  1.26s/it]100%|█████████▉| 48647/48845 [17:15:14<04:10,  1.27s/it]100%|█████████▉| 48648/48845 [17:15:16<04:09,  1.27s/it]100%|█████████▉| 48649/48845 [17:15:17<04:08,  1.27s/it]100%|█████████▉| 48650/48845 [17:15:18<04:06,  1.27s/it]                                                        {'loss': 2.0576, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48650/48845 [17:15:18<04:06,  1.27s/it]100%|█████████▉| 48651/48845 [17:15:19<04:05,  1.27s/it]100%|█████████▉| 48652/48845 [17:15:21<04:04,  1.27s/it]100%|█████████▉| 48653/48845 [17:15:22<04:03,  1.27s/it]100%|█████████▉| 48654/48845 [17:15:23<04:01,  1.27s/it]100%|█████████▉| 48655/48845 [17:15:24<04:00,  1.27s/it]                                                        {'loss': 2.0656, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48655/48845 [17:15:24<04:00,  1.27s/it]100%|█████████▉| 48656/48845 [17:15:26<03:59,  1.27s/it]100%|█████████▉| 48657/48845 [17:15:27<03:57,  1.26s/it]100%|█████████▉| 48658/48845 [17:15:28<03:56,  1.27s/it]100%|█████████▉| 48659/48845 [17:15:30<04:03,  1.31s/it]100%|█████████▉| 48660/48845 [17:15:31<03:59,  1.30s/it]                                                        {'loss': 2.1108, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48660/48845 [17:15:31<03:59,  1.30s/it]100%|█████████▉| 48661/48845 [17:15:32<03:56,  1.29s/it]100%|█████████▉| 48662/48845 [17:15:33<03:54,  1.28s/it]100%|█████████▉| 48663/48845 [17:15:35<03:52,  1.28s/it]100%|█████████▉| 48664/48845 [17:15:36<03:50,  1.27s/it]100%|█████████▉| 48665/48845 [17:15:37<03:48,  1.27s/it]                                                        {'loss': 2.1369, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48665/48845 [17:15:37<03:48,  1.27s/it]100%|█████████▉| 48666/48845 [17:15:39<03:47,  1.27s/it]100%|█████████▉| 48667/48845 [17:15:40<03:45,  1.27s/it]100%|█████████▉| 48668/48845 [17:15:41<03:44,  1.27s/it]100%|█████████▉| 48669/48845 [17:15:42<03:42,  1.27s/it]100%|█████████▉| 48670/48845 [17:15:44<03:41,  1.27s/it]                                                        {'loss': 1.9253, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48670/48845 [17:15:44<03:41,  1.27s/it]100%|█████████▉| 48671/48845 [17:15:45<03:40,  1.27s/it]100%|█████████▉| 48672/48845 [17:15:46<03:39,  1.27s/it]100%|█████████▉| 48673/48845 [17:15:47<03:38,  1.27s/it]100%|█████████▉| 48674/48845 [17:15:49<03:36,  1.27s/it]100%|█████████▉| 48675/48845 [17:15:50<03:35,  1.27s/it]                                                        {'loss': 2.2362, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48675/48845 [17:15:50<03:35,  1.27s/it]100%|█████████▉| 48676/48845 [17:15:51<03:33,  1.27s/it]100%|█████████▉| 48677/48845 [17:15:52<03:32,  1.27s/it]100%|█████████▉| 48678/48845 [17:15:54<03:31,  1.26s/it]100%|█████████▉| 48679/48845 [17:15:55<03:30,  1.27s/it]100%|█████████▉| 48680/48845 [17:15:56<03:28,  1.27s/it]                                                        {'loss': 2.0974, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48680/48845 [17:15:56<03:28,  1.27s/it]100%|█████████▉| 48681/48845 [17:15:58<03:27,  1.27s/it]100%|█████████▉| 48682/48845 [17:15:59<03:26,  1.27s/it]100%|██���██████▉| 48683/48845 [17:16:00<03:25,  1.27s/it]100%|█████████▉| 48684/48845 [17:16:01<03:24,  1.27s/it]100%|█████████▉| 48685/48845 [17:16:03<03:22,  1.27s/it]                                                        {'loss': 2.0715, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48685/48845 [17:16:03<03:22,  1.27s/it]100%|█████████▉| 48686/48845 [17:16:04<03:21,  1.27s/it]100%|█████████▉| 48687/48845 [17:16:05<03:20,  1.27s/it]100%|█████████▉| 48688/48845 [17:16:06<03:18,  1.27s/it]100%|█████████▉| 48689/48845 [17:16:08<03:17,  1.27s/it]100%|█████████▉| 48690/48845 [17:16:09<03:15,  1.26s/it]                                                        {'loss': 2.0818, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48690/48845 [17:16:09<03:15,  1.26s/it]100%|█████████▉| 48691/48845 [17:16:10<03:18,  1.29s/it]100%|█████████▉| 48692/48845 [17:16:12<03:16,  1.28s/it]100%|█████████▉| 48693/48845 [17:16:13<03:14,  1.28s/it]100%|█████████▉| 48694/48845 [17:16:14<03:12,  1.27s/it]100%|█████████▉| 48695/48845 [17:16:15<03:10,  1.27s/it]                                                        {'loss': 2.0871, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.98}
+100%|█████████▉| 48695/48845 [17:16:15<03:10,  1.27s/it]100%|█████████▉| 48696/48845 [17:16:17<03:09,  1.27s/it]100%|█████████▉| 48697/48845 [17:16:18<03:08,  1.27s/it]100%|█████████▉| 48698/48845 [17:16:19<03:06,  1.27s/it]100%|█████████▉| 48699/48845 [17:16:20<03:05,  1.27s/it]100%|█████████▉| 48700/48845 [17:16:22<03:03,  1.27s/it]                                                        {'loss': 2.0956, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48700/48845 [17:16:22<03:03,  1.27s/it]100%|█████████▉| 48701/48845 [17:16:23<03:02,  1.27s/it]100%|█████████▉| 48702/48845 [17:16:24<03:01,  1.27s/it]100%|█████████▉| 48703/48845 [17:16:26<03:08,  1.33s/it]100%|█████████▉| 48704/48845 [17:16:27<03:04,  1.31s/it]100%|█████████▉| 48705/48845 [17:16:28<03:00,  1.29s/it]                                                        {'loss': 2.0929, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48705/48845 [17:16:28<03:00,  1.29s/it]100%|█████████▉| 48706/48845 [17:16:29<02:58,  1.29s/it]100%|█████████▉| 48707/48845 [17:16:31<02:56,  1.28s/it]100%|█████████▉| 48708/48845 [17:16:32<02:54,  1.28s/it]100%|█████████▉| 48709/48845 [17:16:33<02:53,  1.27s/it]100%|█████████▉| 48710/48845 [17:16:35<02:51,  1.27s/it]                                                        {'loss': 2.0835, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48710/48845 [17:16:35<02:51,  1.27s/it]100%|█████████▉| 48711/48845 [17:16:36<02:50,  1.27s/it]100%|█████████▉| 48712/48845 [17:16:37<02:48,  1.27s/it]100%|█████████▉| 48713/48845 [17:16:38<02:47,  1.27s/it]100%|█████████▉| 48714/48845 [17:16:40<02:45,  1.27s/it]100%|█████████▉| 48715/48845 [17:16:41<02:44,  1.27s/it]                                                        {'loss': 1.8836, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48715/48845 [17:16:41<02:44,  1.27s/it]100%|█████████▉| 48716/48845 [17:16:42<02:43,  1.27s/it]100%|█████████▉| 48717/48845 [17:16:43<02:42,  1.27s/it]100%|█████████▉| 48718/48845 [17:16:45<02:40,  1.26s/it]100%|█████████▉| 48719/48845 [17:16:46<02:39,  1.27s/it]100%|█████████▉| 48720/48845 [17:16:47<02:38,  1.27s/it]                                                        {'loss': 2.1127, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48720/48845 [17:16:47<02:38,  1.27s/it]100%|█████████▉| 48721/48845 [17:16:48<02:37,  1.27s/it]100%|█████████▉| 48722/48845 [17:16:50<02:35,  1.27s/it]100%|█████████▉| 48723/48845 [17:16:51<02:34,  1.27s/it]100%|█████████▉| 48724/48845 [17:16:52<02:33,  1.27s/it]100%|█████████▉| 48725/48845 [17:16:54<02:32,  1.27s/it]                                                        {'loss': 2.1296, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48725/48845 [17:16:54<02:32,  1.27s/it]100%|█████████▉| 48726/48845 [17:16:55<02:30,  1.27s/it]100%|█████████▉| 48727/48845 [17:16:56<02:29,  1.27s/it]100%|█████████▉| 48728/48845 [17:16:57<02:28,  1.27s/it]100%|█████████▉| 48729/48845 [17:16:59<02:26,  1.27s/it]100%|█████████▉| 48730/48845 [17:17:00<02:25,  1.26s/it]                                                        {'loss': 1.9948, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48730/48845 [17:17:00<02:25,  1.26s/it]100%|█████████▉| 48731/48845 [17:17:01<02:24,  1.27s/it]100%|█████████▉| 48732/48845 [17:17:02<02:23,  1.27s/it]100%|█████████▉| 48733/48845 [17:17:04<02:21,  1.27s/it]100%|█████████▉| 48734/48845 [17:17:05<02:20,  1.27s/it]100%|█████████▉| 48735/48845 [17:17:06<02:19,  1.27s/it]                                                        {'loss': 2.215, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48735/48845 [17:17:06<02:19,  1.27s/it]100%|█████████▉| 48736/48845 [17:17:07<02:17,  1.26s/it]100%|█████████▉| 48737/48845 [17:17:09<02:16,  1.26s/it]100%|█████████▉| 48738/48845 [17:17:10<02:15,  1.26s/it]100%|█████████▉| 48739/48845 [17:17:11<02:14,  1.27s/it]100%|█████████▉| 48740/48845 [17:17:13<02:12,  1.27s/it]                                                        {'loss': 2.014, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48740/48845 [17:17:13<02:12,  1.27s/it]100%|█████████▉| 48741/48845 [17:17:14<02:11,  1.26s/it]100%|█████████▉| 48742/48845 [17:17:15<02:10,  1.26s/it]100%|█████████▉| 48743/48845 [17:17:16<02:08,  1.26s/it]100%|█████████▉| 48744/48845 [17:17:18<02:07,  1.26s/it]100%|█████████▉| 48745/48845 [17:17:19<02:06,  1.26s/it]                                                        {'loss': 1.9444, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48745/48845 [17:17:19<02:06,  1.26s/it]100%|█████████▉| 48746/48845 [17:17:20<02:05,  1.26s/it]100%|█████████▉| 48747/48845 [17:17:21<02:03,  1.27s/it]100%|█████████▉| 48748/48845 [17:17:23<02:02,  1.26s/it]100%|█████████▉| 48749/48845 [17:17:24<02:01,  1.26s/it]100%|█████████▉| 48750/48845 [17:17:25<02:00,  1.26s/it]                                                        {'loss': 2.0918, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48750/48845 [17:17:25<02:00,  1.26s/it]100%|█████████▉| 48751/48845 [17:17:26<01:58,  1.26s/it]100%|█████████▉| 48752/48845 [17:17:28<01:57,  1.26s/it]100%|█████████▉| 48753/48845 [17:17:29<01:56,  1.26s/it]100%|█████████▉| 48754/48845 [17:17:30<01:55,  1.26s/it]100%|█████████▉| 48755/48845 [17:17:31<01:53,  1.26s/it]                                                        {'loss': 1.9698, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48755/48845 [17:17:31<01:53,  1.26s/it]100%|█████████▉| 48756/48845 [17:17:33<01:52,  1.27s/it]100%|█████████▉| 48757/48845 [17:17:34<01:51,  1.27s/it]100%|█████████▉| 48758/48845 [17:17:35<01:50,  1.27s/it]100%|█████████▉| 48759/48845 [17:17:37<01:48,  1.27s/it]100%|█████████▉| 48760/48845 [17:17:38<01:47,  1.27s/it]                                                        {'loss': 2.0928, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48760/48845 [17:17:38<01:47,  1.27s/it]100%|█████████▉| 48761/48845 [17:17:39<01:46,  1.27s/it]100%|█████████▉| 48762/48845 [17:17:40<01:45,  1.27s/it]100%|█████████▉| 48763/48845 [17:17:42<01:43,  1.27s/it]100%|█████████▉| 48764/48845 [17:17:43<01:42,  1.27s/it]100%|█████████▉| 48765/48845 [17:17:44<01:43,  1.29s/it]                                                        {'loss': 2.2067, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48765/48845 [17:17:44<01:43,  1.29s/it]100%|█████████▉| 48766/48845 [17:17:45<01:41,  1.28s/it]100%|█████████▉| 48767/48845 [17:17:47<01:39,  1.28s/it]100%|█████████▉| 48768/48845 [17:17:48<01:38,  1.27s/it]100%|█████████▉| 48769/48845 [17:17:49<01:38,  1.29s/it]100%|█████████▉| 48770/48845 [17:17:51<01:36,  1.28s/it]                                                        {'loss': 2.1594, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48770/48845 [17:17:51<01:36,  1.28s/it]100%|█████████▉| 48771/48845 [17:17:52<01:34,  1.28s/it]100%|█████████▉| 48772/48845 [17:17:53<01:33,  1.28s/it]100%|█████████▉| 48773/48845 [17:17:54<01:31,  1.27s/it]100%|█████████▉| 48774/48845 [17:17:56<01:30,  1.27s/it]100%|█████████▉| 48775/48845 [17:17:57<01:28,  1.27s/it]                                                        {'loss': 2.1492, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48775/48845 [17:17:57<01:28,  1.27s/it]100%|█████████▉| 48776/48845 [17:17:58<01:27,  1.27s/it]100%|█████████▉| 48777/48845 [17:18:00<01:26,  1.28s/it]100%|█████████▉| 48778/48845 [17:18:01<01:25,  1.27s/it]100%|█████████▉| 48779/48845 [17:18:02<01:23,  1.27s/it]100%|█████████▉| 48780/48845 [17:18:03<01:22,  1.27s/it]                                                        {'loss': 2.0663, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48780/48845 [17:18:03<01:22,  1.27s/it]100%|█████████▉| 48781/48845 [17:18:05<01:21,  1.27s/it]100%|█████████▉| 48782/48845 [17:18:06<01:19,  1.27s/it]100%|█████████▉| 48783/48845 [17:18:07<01:18,  1.27s/it]100%|█████████▉| 48784/48845 [17:18:08<01:17,  1.27s/it]100%|█████████▉| 48785/48845 [17:18:10<01:15,  1.27s/it]                                                        {'loss': 2.1112, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48785/48845 [17:18:10<01:15,  1.27s/it]100%|█████████▉| 48786/48845 [17:18:11<01:14,  1.27s/it]100%|█████████▉| 48787/48845 [17:18:12<01:13,  1.27s/it]100%|█████████▉| 48788/48845 [17:18:13<01:12,  1.26s/it]100%|█████████▉| 48789/48845 [17:18:15<01:10,  1.27s/it]100%|█████████▉| 48790/48845 [17:18:16<01:09,  1.27s/it]                                                        {'loss': 1.8508, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48790/48845 [17:18:16<01:09,  1.27s/it]100%|█████████▉| 48791/48845 [17:18:17<01:08,  1.27s/it]100%|█████████▉| 48792/48845 [17:18:18<01:07,  1.26s/it]100%|█████████▉| 48793/48845 [17:18:20<01:05,  1.27s/it]100%|█████████▉| 48794/48845 [17:18:21<01:04,  1.27s/it]100%|█████████▉| 48795/48845 [17:18:22<01:03,  1.27s/it]                                                        {'loss': 2.0431, 'learning_rate': 4.1080188750734856e-05, 'epoch': 4.99}
+100%|█████████▉| 48795/48845 [17:18:22<01:03,  1.27s/it]100%|█████████▉| 48796/48845 [17:18:24<01:02,  1.27s/it]100%|█████████▉| 48797/48845 [17:18:25<01:00,  1.27s/it]100%|█████████▉| 48798/48845 [17:18:26<00:59,  1.27s/it]100%|█████████▉| 48799/48845 [17:18:27<00:58,  1.26s/it]100%|█████████▉| 48800/48845 [17:18:29<00:56,  1.26s/it]                                                        {'loss': 2.0129, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48800/48845 [17:18:29<00:56,  1.26s/it]100%|█████████▉| 48801/48845 [17:18:33<01:30,  2.05s/it]100%|█████████▉| 48802/48845 [17:18:34<01:18,  1.81s/it]100%|█████████▉| 48803/48845 [17:18:35<01:09,  1.65s/it]100%|█████████▉| 48804/48845 [17:18:36<01:02,  1.53s/it]100%|█████████▉| 48805/48845 [17:18:38<00:58,  1.45s/it]                                                        {'loss': 2.0121, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48805/48845 [17:18:38<00:58,  1.45s/it]100%|█████████▉| 48806/48845 [17:18:39<00:54,  1.39s/it]100%|█████████▉| 48807/48845 [17:18:40<00:51,  1.35s/it]100%|█████████▉| 48808/48845 [17:18:41<00:49,  1.33s/it]100%|█████████▉| 48809/48845 [17:18:43<00:47,  1.31s/it]100%|█████████▉| 48810/48845 [17:18:44<00:45,  1.29s/it]                                                        {'loss': 2.0681, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48810/48845 [17:18:44<00:45,  1.29s/it]100%|█████████▉| 48811/48845 [17:18:45<00:43,  1.29s/it]100%|█��███████▉| 48812/48845 [17:18:46<00:42,  1.28s/it]100%|█████████▉| 48813/48845 [17:18:48<00:40,  1.27s/it]100%|█████████▉| 48814/48845 [17:18:49<00:39,  1.27s/it]100%|█████████▉| 48815/48845 [17:18:50<00:38,  1.29s/it]                                                        {'loss': 1.94, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48815/48845 [17:18:50<00:38,  1.29s/it]100%|█████████▉| 48816/48845 [17:18:52<00:37,  1.28s/it]100%|█████████▉| 48817/48845 [17:18:53<00:35,  1.28s/it]100%|█████████▉| 48818/48845 [17:18:54<00:34,  1.27s/it]100%|█████████▉| 48819/48845 [17:18:55<00:33,  1.27s/it]100%|█████████▉| 48820/48845 [17:18:57<00:31,  1.27s/it]                                                        {'loss': 2.1824, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48820/48845 [17:18:57<00:31,  1.27s/it]100%|█████████▉| 48821/48845 [17:18:58<00:30,  1.27s/it]100%|█████████▉| 48822/48845 [17:18:59<00:29,  1.27s/it]100%|█████████▉| 48823/48845 [17:19:00<00:27,  1.26s/it]100%|█████████▉| 48824/48845 [17:19:02<00:26,  1.26s/it]100%|█████████▉| 48825/48845 [17:19:03<00:25,  1.26s/it]                                                        {'loss': 2.2241, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48825/48845 [17:19:03<00:25,  1.26s/it]100%|█████████▉| 48826/48845 [17:19:04<00:24,  1.26s/it]100%|█████████▉| 48827/48845 [17:19:05<00:22,  1.26s/it]100%|█████████▉| 48828/48845 [17:19:07<00:21,  1.26s/it]100%|█████████▉| 48829/48845 [17:19:08<00:20,  1.26s/it]100%|█████████▉| 48830/48845 [17:19:09<00:18,  1.26s/it]                                                        {'loss': 2.0115, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48830/48845 [17:19:09<00:18,  1.26s/it]100%|█████████▉| 48831/48845 [17:19:10<00:17,  1.27s/it]100%|█████████▉| 48832/48845 [17:19:12<00:16,  1.27s/it]100%|█████████▉| 48833/48845 [17:19:13<00:15,  1.27s/it]100%|█████████▉| 48834/48845 [17:19:14<00:13,  1.27s/it]100%|█████████▉| 48835/48845 [17:19:16<00:12,  1.27s/it]                                                        {'loss': 2.0222, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48835/48845 [17:19:16<00:12,  1.27s/it]100%|█████████▉| 48836/48845 [17:19:17<00:11,  1.27s/it]100%|█████████▉| 48837/48845 [17:19:18<00:10,  1.27s/it]100%|█████████▉| 48838/48845 [17:19:19<00:08,  1.26s/it]100%|█████████▉| 48839/48845 [17:19:21<00:07,  1.27s/it]100%|█████████▉| 48840/48845 [17:19:22<00:06,  1.27s/it]                                                        {'loss': 2.108, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|█████████▉| 48840/48845 [17:19:22<00:06,  1.27s/it]100%|█████████▉| 48841/48845 [17:19:23<00:05,  1.27s/it]100%|█████████▉| 48842/48845 [17:19:24<00:03,  1.27s/it]100%|█████████▉| 48843/48845 [17:19:26<00:02,  1.29s/it]100%|█████████▉| 48844/48845 [17:19:27<00:01,  1.28s/it]100%|██████████| 48845/48845 [17:19:28<00:00,  1.28s/it]                                                        {'loss': 2.1006, 'learning_rate': 4.1080188750734856e-05, 'epoch': 5.0}
+100%|██████████| 48845/48845 [17:19:28<00:00,  1.28s/it]Time: 62368.99
+Samples/second: 9.40
+GPU memory occupied: 44856 MB.
+Exception in thread                                                         Thread-2:
+{'train_runtime': 62368.8388, 'train_samples_per_second': 9.398, 'train_steps_per_second': 0.783, 'train_loss': 1.9699220259780954, 'epoch': 5.0}
+Traceback (most recent call last):
+100%|██████████| 48845/48845 [17:19:28<00:00,  1.28s/it]  File "/usr/lib/python3.8/threading.py", line 932, in _bootstrap_inner
+    self.run()
+  File "/home/user/.local/lib/python3.8/site-packages/tensorboard/summary/writer/event_file_writer.py", line 233, in run
+    self._record_writer.write(data)
+  File "/home/user/.local/lib/python3.8/site-packages/tensorboard/summary/writer/record_writer.py", line 40, in write
+    self._writer.write(header + header_crc + data + footer_crc)
+  File "/home/user/.local/lib/python3.8/site-packages/tensorboard/compat/tensorflow_stub/io/gfile.py", line 766, in write
+    self.fs.append(self.filename, file_content, self.binary_mode)
+  File "/home/user/.local/lib/python3.8/site-packages/tensorboard/compat/tensorflow_stub/io/gfile.py", line 160, in append
+    self._write(filename, file_content, "ab" if binary_mode else "a")
+  File "/home/user/.local/lib/python3.8/site-packages/tensorboard/compat/tensorflow_stub/io/gfile.py", line 164, in _write
+    with io.open(filename, mode, encoding=encoding) as f:
+FileNotFoundError: [Errno 2] No such file or directory: b'./logs/events.out.tfevents.1671360863.7459dae3-a471-4828-975b-f8e23ae7ab31.2056.1'
+100%|██████████| 48845/48845 [17:19:28<00:00,  1.28s/it]
+Time: 62368.84
+Samples/second: 9.40
+GPU memory occupied: 44856 MB.
+Traceback (most recent call last):
+  File "tune_gpt.py", line 220, in <module>
+    shutil.move(os.path.join(pwd_path, "output.log"), os.path.join(final_save_dir))
+  File "/usr/lib/python3.8/shutil.py", line 789, in move
+    raise Error("Destination path '%s' already exists" % real_dst)
+shutil.Error: Destination path 'experiments/2022-12-19-fdf21cd1874b02afe17fee417ba59c79dadadd87f9b5944402c89d476acb4861/output.log' already exists
+[2022-12-19 04:13:54,430] [INFO] [launch.py:318:sigkill_handler] Killing subprocess 2056
+[2022-12-19 04:13:54,430] [INFO] [launch.py:318:sigkill_handler] Killing subprocess 2057
+[2022-12-19 04:13:55,051] [ERROR] [launch.py:324:sigkill_handler] ['/usr/bin/python3', '-u', 'tune_gpt.py', '--local_rank=1', '--deepspeed', 'deepspeed.json', '--upload-model'] exits with return code = 1