diff --git "a/train_job_output.txt" "b/train_job_output.txt"
--- "a/train_job_output.txt"
+++ "b/train_job_output.txt"
@@ -1,4 +1,4 @@
-slurm submission log: 2024-05-19 16:02:34.779470
+slurm submission log: 2024-05-19 16:02:35.308376
 created following sbatch script: 
 
 ###############################
@@ -9,11 +9,11 @@ created following sbatch script:
 #SBATCH --cpus-per-task=16
 #SBATCH --dependency=afterok:7632874
 #SBATCH --gres=gpu:1
-#SBATCH --job-name=tthrush-job-1789646
+#SBATCH --job-name=tthrush-job-780288
 #SBATCH --mem=100G
 #SBATCH --nodelist=sphinx2
 #SBATCH --open-mode=append
-#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_4/train_job_output.txt
+#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_5/train_job_output.txt
 #SBATCH --partition=sphinx
 #SBATCH --time=14-0
 
@@ -24,7 +24,7 @@ created following sbatch script:
 cd .
 
 # launch commands
-srun --unbuffered run_as_child_processes 'torchrun --master_port 29520 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_4 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 4 --num_train_epochs 0.2'
+srun --unbuffered run_as_child_processes 'torchrun --master_port 29521 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_5 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 5 --num_train_epochs 0.2'
 
 ###############################
 
@@ -34,13 +34,13 @@ submission to slurm complete!
 ###############################
 slurm submission output
 
-Submitted batch job 7632890
+Submitted batch job 7632893
 
 
 
 ###############################
 
-/var/lib/slurm/slurmd/job7632890/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
+/var/lib/slurm/slurmd/job7632893/slurm_script: line 16: /nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/etc/profile.d/conda.sh: No such file or directory
 
 CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.
 To initialize your shell, run
@@ -61,293 +61,293 @@ IMPORTANT: You may need to close and restart your shell after running 'conda ini
 
 
 ###############################
-start time: 2024-05-19 22:48:06.176918
+start time: 2024-05-19 23:05:29.816537
 machine: sphinx2
 conda env: pretraining-coreset-selection
 ###############################
 running following processes
 
-	torchrun --master_port 29520 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_4 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 4 --num_train_epochs 0.2
+	torchrun --master_port 29521 --nproc_per_node=1 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_5 --output_hub_id pythia-14m_piqa --model_id EleutherAI/pythia-14m --learning_rate 6e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 1 --per_device_train_batch_size 320 --seed 5 --num_train_epochs 0.2
 
 
 ###############################
 command outputs: 
 
 
-05/19/2024 22:48:42 - INFO - __main__ - Script parameters ScriptArguments(seed=4, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_4', output_hub_id='pythia-14m_piqa', hf_hub_token=True, model_id='EleutherAI/pythia-14m', per_device_train_batch_size=320, num_train_epochs=0.2, learning_rate=0.006, gradient_accumulation_steps=1, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
+05/19/2024 23:05:39 - INFO - __main__ - Script parameters ScriptArguments(seed=5, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/train_data_more_data_test_normalized/piqa', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/llms_more_data_test_normalized/pythia-14m_piqa_5', output_hub_id='pythia-14m_piqa', hf_hub_token=True, model_id='EleutherAI/pythia-14m', per_device_train_batch_size=320, num_train_epochs=0.2, learning_rate=0.006, gradient_accumulation_steps=1, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
   0%|          | 0/6844 [00:00<?, ?it/s][rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
-  0%|          | 1/6844 [00:01<2:56:50,  1.55s/it]  0%|          | 2/6844 [00:02<1:45:25,  1.08it/s]  0%|          | 3/6844 [00:02<1:25:51,  1.33it/s]  0%|          | 4/6844 [00:02<1:02:47,  1.82it/s]  0%|          | 5/6844 [00:03<49:59,  2.28it/s]    0%|          | 6/6844 [00:03<42:15,  2.70it/s]  0%|          | 7/6844 [00:03<37:19,  3.05it/s]  0%|          | 8/6844 [00:03<34:07,  3.34it/s]  0%|          | 9/6844 [00:04<31:57,  3.56it/s]  0%|          | 10/6844 [00:04<30:30,  3.73it/s]  0%|          | 11/6844 [00:04<29:30,  3.86it/s]  0%|          | 12/6844 [00:04<28:48,  3.95it/s]  0%|          | 13/6844 [00:04<28:17,  4.02it/s]  0%|          | 14/6844 [00:05<27:56,  4.08it/s]  0%|          | 15/6844 [00:05<27:40,  4.11it/s]  0%|          | 16/6844 [00:05<27:30,  4.14it/s]  0%|          | 17/6844 [00:05<27:22,  4.16it/s]  0%|          | 18/6844 [00:06<27:15,  4.17it/s]  0%|          | 19/6844 [00:06<27:12,  4.18it/s]  0%|          | 20/6844 [00:06<27:09,  4.19it/s]  0%|          | 21/6844 [00:06<27:08,  4.19it/s]  0%|          | 22/6844 [00:07<27:07,  4.19it/s]  0%|          | 23/6844 [00:07<27:06,  4.19it/s]  0%|          | 24/6844 [00:07<27:05,  4.20it/s]  0%|          | 25/6844 [00:07<27:03,  4.20it/s]{'loss': 10.6605, 'grad_norm': 0.718885064125061, 'learning_rate': 0.00021897810218978101, 'epoch': 0.0}
-                                                   0%|          | 25/6844 [00:07<27:03,  4.20it/s]  0%|          | 26/6844 [00:08<27:19,  4.16it/s]  0%|          | 27/6844 [00:08<27:15,  4.17it/s]  0%|          | 28/6844 [00:08<27:10,  4.18it/s]  0%|          | 29/6844 [00:08<27:05,  4.19it/s]  0%|          | 30/6844 [00:09<27:04,  4.19it/s]  0%|          | 31/6844 [00:09<34:26,  3.30it/s]  0%|          | 32/6844 [00:09<32:11,  3.53it/s]  0%|          | 33/6844 [00:09<30:37,  3.71it/s]  0%|          | 34/6844 [00:10<29:33,  3.84it/s]  1%|          | 35/6844 [00:10<28:46,  3.94it/s]  1%|          | 36/6844 [00:10<28:13,  4.02it/s]  1%|          | 37/6844 [00:10<27:51,  4.07it/s]  1%|          | 38/6844 [00:11<27:36,  4.11it/s]  1%|          | 39/6844 [00:11<27:22,  4.14it/s]  1%|          | 40/6844 [00:11<27:16,  4.16it/s]  1%|          | 41/6844 [00:11<27:08,  4.18it/s]  1%|          | 42/6844 [00:12<27:06,  4.18it/s]  1%|          | 43/6844 [00:12<27:06,  4.18it/s]  1%|          | 44/6844 [00:12<27:04,  4.19it/s]  1%|          | 45/6844 [00:12<27:03,  4.19it/s]  1%|          | 46/6844 [00:13<27:03,  4.19it/s]  1%|          | 47/6844 [00:13<27:04,  4.18it/s]  1%|          | 48/6844 [00:13<27:03,  4.19it/s]  1%|          | 49/6844 [00:13<27:01,  4.19it/s]  1%|          | 50/6844 [00:14<26:57,  4.20it/s]{'loss': 9.9002, 'grad_norm': 0.7846378684043884, 'learning_rate': 0.00043795620437956203, 'epoch': 0.0}
-                                                   1%|          | 50/6844 [00:14<26:57,  4.20it/s]  1%|          | 51/6844 [00:14<27:00,  4.19it/s]  1%|          | 52/6844 [00:14<26:58,  4.20it/s]  1%|          | 53/6844 [00:14<26:57,  4.20it/s]  1%|          | 54/6844 [00:14<26:55,  4.20it/s]  1%|          | 55/6844 [00:15<26:56,  4.20it/s]  1%|          | 56/6844 [00:15<26:57,  4.20it/s]  1%|          | 57/6844 [00:15<26:56,  4.20it/s]  1%|          | 58/6844 [00:15<26:54,  4.20it/s]  1%|          | 59/6844 [00:16<26:53,  4.21it/s]  1%|          | 60/6844 [00:16<26:52,  4.21it/s]  1%|          | 61/6844 [00:16<26:54,  4.20it/s]  1%|          | 62/6844 [00:16<26:53,  4.20it/s]  1%|          | 63/6844 [00:17<26:52,  4.21it/s]  1%|          | 64/6844 [00:17<26:49,  4.21it/s]  1%|          | 65/6844 [00:17<26:49,  4.21it/s]  1%|          | 66/6844 [00:17<26:50,  4.21it/s]  1%|          | 67/6844 [00:18<26:48,  4.21it/s]  1%|          | 68/6844 [00:18<26:49,  4.21it/s]  1%|          | 69/6844 [00:18<26:49,  4.21it/s]  1%|          | 70/6844 [00:18<26:48,  4.21it/s]  1%|          | 71/6844 [00:19<26:48,  4.21it/s]  1%|          | 72/6844 [00:19<26:47,  4.21it/s]  1%|          | 73/6844 [00:19<26:48,  4.21it/s]  1%|          | 74/6844 [00:19<26:47,  4.21it/s]  1%|          | 75/6844 [00:19<26:47,  4.21it/s]                                                 {'loss': 8.8105, 'grad_norm': 0.737129807472229, 'learning_rate': 0.0006569343065693431, 'epoch': 0.0}
-  1%|          | 75/6844 [00:19<26:47,  4.21it/s]  1%|          | 76/6844 [00:20<27:01,  4.17it/s]  1%|          | 77/6844 [00:20<26:58,  4.18it/s]  1%|          | 78/6844 [00:20<26:56,  4.19it/s]  1%|          | 79/6844 [00:20<26:51,  4.20it/s]  1%|          | 80/6844 [00:21<26:47,  4.21it/s]  1%|          | 81/6844 [00:21<26:46,  4.21it/s]  1%|          | 82/6844 [00:21<26:45,  4.21it/s]  1%|          | 83/6844 [00:21<26:44,  4.21it/s]  1%|          | 84/6844 [00:22<26:44,  4.21it/s]  1%|          | 85/6844 [00:22<26:44,  4.21it/s]  1%|▏         | 86/6844 [00:22<26:43,  4.22it/s]  1%|▏         | 87/6844 [00:22<26:42,  4.22it/s]  1%|▏         | 88/6844 [00:23<26:42,  4.22it/s]  1%|▏         | 89/6844 [00:23<26:42,  4.21it/s]  1%|▏         | 90/6844 [00:23<26:45,  4.21it/s]  1%|▏         | 91/6844 [00:23<26:44,  4.21it/s]  1%|▏         | 92/6844 [00:23<26:41,  4.22it/s]  1%|▏         | 93/6844 [00:24<26:38,  4.22it/s]  1%|▏         | 94/6844 [00:24<26:39,  4.22it/s]  1%|▏         | 95/6844 [00:24<26:38,  4.22it/s]  1%|▏         | 96/6844 [00:24<26:38,  4.22it/s]  1%|▏         | 97/6844 [00:25<26:38,  4.22it/s]  1%|▏         | 98/6844 [00:25<26:36,  4.22it/s]  1%|▏         | 99/6844 [00:25<26:35,  4.23it/s]  1%|▏         | 100/6844 [00:25<26:37,  4.22it/s]{'loss': 8.0037, 'grad_norm': 0.5934417247772217, 'learning_rate': 0.0008759124087591241, 'epoch': 0.0}                                                  
-  1%|▏         | 100/6844 [00:25<26:37,  4.22it/s]  1%|▏         | 101/6844 [00:26<26:41,  4.21it/s]  1%|▏         | 102/6844 [00:26<26:38,  4.22it/s]  2%|▏         | 103/6844 [00:26<26:37,  4.22it/s]  2%|▏         | 104/6844 [00:26<26:35,  4.22it/s]  2%|▏         | 105/6844 [00:27<26:36,  4.22it/s]  2%|▏         | 106/6844 [00:27<26:35,  4.22it/s]  2%|▏         | 107/6844 [00:27<26:33,  4.23it/s]  2%|▏         | 108/6844 [00:27<26:34,  4.23it/s]  2%|▏         | 109/6844 [00:28<26:32,  4.23it/s]  2%|▏         | 110/6844 [00:28<26:33,  4.23it/s]  2%|▏         | 111/6844 [00:28<26:34,  4.22it/s]  2%|▏         | 112/6844 [00:28<26:33,  4.22it/s]  2%|▏         | 113/6844 [00:28<26:33,  4.22it/s]  2%|▏         | 114/6844 [00:29<26:32,  4.23it/s]  2%|▏         | 115/6844 [00:29<26:30,  4.23it/s]  2%|▏         | 116/6844 [00:29<26:30,  4.23it/s]  2%|▏         | 117/6844 [00:29<26:30,  4.23it/s]  2%|▏         | 118/6844 [00:30<26:30,  4.23it/s]  2%|▏         | 119/6844 [00:30<26:27,  4.24it/s]  2%|▏         | 120/6844 [00:30<26:28,  4.23it/s]  2%|▏         | 121/6844 [00:30<26:35,  4.21it/s]  2%|▏         | 122/6844 [00:31<26:32,  4.22it/s]  2%|▏         | 123/6844 [00:31<26:29,  4.23it/s]  2%|▏         | 124/6844 [00:31<26:30,  4.23it/s]  2%|▏         | 125/6844 [00:31<26:30,  4.22it/s]{'loss': 7.4362, 'grad_norm': 0.33009952306747437, 'learning_rate': 0.0010948905109489052, 'epoch': 0.0}
-                                                    2%|▏         | 125/6844 [00:31<26:30,  4.22it/s]  2%|▏         | 126/6844 [00:32<26:32,  4.22it/s]  2%|▏         | 127/6844 [00:32<26:32,  4.22it/s]  2%|▏         | 128/6844 [00:32<26:29,  4.23it/s]  2%|▏         | 129/6844 [00:32<26:28,  4.23it/s]  2%|▏         | 130/6844 [00:32<26:28,  4.23it/s]  2%|▏         | 131/6844 [00:33<26:28,  4.23it/s]  2%|▏         | 132/6844 [00:33<26:28,  4.23it/s]  2%|▏         | 133/6844 [00:33<26:27,  4.23it/s]  2%|▏         | 134/6844 [00:33<26:25,  4.23it/s]  2%|▏         | 135/6844 [00:34<26:28,  4.22it/s]  2%|▏         | 136/6844 [00:34<26:25,  4.23it/s]  2%|▏         | 137/6844 [00:34<26:24,  4.23it/s]  2%|▏         | 138/6844 [00:34<26:24,  4.23it/s]  2%|▏         | 139/6844 [00:35<26:26,  4.23it/s]  2%|▏         | 140/6844 [00:35<26:25,  4.23it/s]  2%|▏         | 141/6844 [00:35<26:24,  4.23it/s]  2%|▏         | 142/6844 [00:35<26:25,  4.23it/s]  2%|▏         | 143/6844 [00:36<26:24,  4.23it/s]  2%|▏         | 144/6844 [00:36<26:21,  4.24it/s]  2%|▏         | 145/6844 [00:36<26:19,  4.24it/s]  2%|▏         | 146/6844 [00:36<26:19,  4.24it/s]  2%|▏         | 147/6844 [00:37<26:18,  4.24it/s]  2%|▏         | 148/6844 [00:37<26:17,  4.24it/s]  2%|▏         | 149/6844 [00:37<26:18,  4.24it/s]  2%|▏         | 150/6844 [00:37<26:16,  4.24it/s]                                                  {'loss': 6.9849, 'grad_norm': 0.34919747710227966, 'learning_rate': 0.0013138686131386862, 'epoch': 0.0}
-  2%|▏         | 150/6844 [00:37<26:16,  4.24it/s]  2%|▏         | 151/6844 [00:37<26:20,  4.23it/s]  2%|▏         | 152/6844 [00:38<26:20,  4.23it/s]  2%|▏         | 153/6844 [00:38<26:19,  4.24it/s]  2%|▏         | 154/6844 [00:38<26:18,  4.24it/s]  2%|▏         | 155/6844 [00:38<26:17,  4.24it/s]  2%|▏         | 156/6844 [00:39<26:16,  4.24it/s]  2%|▏         | 157/6844 [00:39<26:16,  4.24it/s]  2%|▏         | 158/6844 [00:39<26:16,  4.24it/s]  2%|▏         | 159/6844 [00:39<26:16,  4.24it/s]  2%|▏         | 160/6844 [00:40<26:16,  4.24it/s]  2%|▏         | 161/6844 [00:40<26:15,  4.24it/s]  2%|▏         | 162/6844 [00:40<26:15,  4.24it/s]  2%|▏         | 163/6844 [00:40<26:16,  4.24it/s]  2%|▏         | 164/6844 [00:41<26:16,  4.24it/s]  2%|▏         | 165/6844 [00:41<26:20,  4.22it/s]  2%|▏         | 166/6844 [00:41<26:20,  4.22it/s]  2%|▏         | 167/6844 [00:41<26:22,  4.22it/s]  2%|▏         | 168/6844 [00:41<26:21,  4.22it/s]  2%|▏         | 169/6844 [00:42<26:21,  4.22it/s]  2%|▏         | 170/6844 [00:42<26:21,  4.22it/s]  2%|▏         | 171/6844 [00:42<26:22,  4.22it/s]  3%|▎         | 172/6844 [00:42<26:20,  4.22it/s]  3%|▎         | 173/6844 [00:43<26:19,  4.22it/s]  3%|▎         | 174/6844 [00:43<26:19,  4.22it/s]  3%|▎         | 175/6844 [00:43<26:17,  4.23it/s]{'loss': 6.6774, 'grad_norm': 0.4191943407058716, 'learning_rate': 0.0015328467153284673, 'epoch': 0.01}
-                                                    3%|▎         | 175/6844 [00:43<26:17,  4.23it/s]  3%|▎         | 176/6844 [00:43<26:21,  4.22it/s]  3%|▎         | 177/6844 [00:44<26:24,  4.21it/s]  3%|▎         | 178/6844 [00:44<26:21,  4.22it/s]  3%|▎         | 179/6844 [00:44<26:16,  4.23it/s]  3%|▎         | 180/6844 [00:44<26:15,  4.23it/s]  3%|▎         | 181/6844 [00:45<26:13,  4.23it/s]  3%|▎         | 182/6844 [00:45<27:09,  4.09it/s]  3%|▎         | 183/6844 [00:45<27:48,  3.99it/s]  3%|▎         | 184/6844 [00:45<27:59,  3.97it/s]  3%|▎         | 185/6844 [00:46<27:29,  4.04it/s]  3%|▎         | 186/6844 [00:46<27:07,  4.09it/s]  3%|▎         | 187/6844 [00:46<26:53,  4.13it/s]  3%|▎         | 188/6844 [00:46<26:41,  4.16it/s]  3%|▎         | 189/6844 [00:47<26:34,  4.17it/s]  3%|▎         | 190/6844 [00:47<26:26,  4.19it/s]  3%|▎         | 191/6844 [00:47<26:22,  4.20it/s]  3%|▎         | 192/6844 [00:47<26:19,  4.21it/s]  3%|▎         | 193/6844 [00:47<26:16,  4.22it/s]  3%|▎         | 194/6844 [00:48<26:13,  4.23it/s]  3%|▎         | 195/6844 [00:48<26:11,  4.23it/s]  3%|▎         | 196/6844 [00:48<26:12,  4.23it/s]  3%|▎         | 197/6844 [00:48<26:11,  4.23it/s]  3%|▎         | 198/6844 [00:49<26:10,  4.23it/s]  3%|▎         | 199/6844 [00:49<26:10,  4.23it/s]  3%|▎         | 200/6844 [00:49<26:08,  4.24it/s]                                                  {'loss': 6.4324, 'grad_norm': 0.36519160866737366, 'learning_rate': 0.0017518248175182481, 'epoch': 0.01}
-  3%|▎         | 200/6844 [00:49<26:08,  4.24it/s]  3%|▎         | 201/6844 [00:49<26:14,  4.22it/s]  3%|▎         | 202/6844 [00:50<26:13,  4.22it/s]  3%|▎         | 203/6844 [00:50<26:12,  4.22it/s]  3%|▎         | 204/6844 [00:50<26:12,  4.22it/s]  3%|▎         | 205/6844 [00:50<26:11,  4.23it/s]  3%|▎         | 206/6844 [00:51<26:08,  4.23it/s]  3%|▎         | 207/6844 [00:51<26:07,  4.23it/s]  3%|▎         | 208/6844 [00:51<26:06,  4.24it/s]  3%|▎         | 209/6844 [00:51<26:06,  4.24it/s]  3%|▎         | 210/6844 [00:51<26:06,  4.24it/s]  3%|▎         | 211/6844 [00:52<26:06,  4.23it/s]  3%|▎         | 212/6844 [00:52<26:05,  4.24it/s]  3%|▎         | 213/6844 [00:52<26:04,  4.24it/s]  3%|▎         | 214/6844 [00:52<26:03,  4.24it/s]  3%|▎         | 215/6844 [00:53<26:02,  4.24it/s]  3%|▎         | 216/6844 [00:53<26:01,  4.24it/s]  3%|▎         | 217/6844 [00:53<26:03,  4.24it/s]  3%|▎         | 218/6844 [00:53<26:02,  4.24it/s]  3%|▎         | 219/6844 [00:54<26:02,  4.24it/s]  3%|▎         | 220/6844 [00:54<26:00,  4.24it/s]  3%|▎         | 221/6844 [00:54<25:58,  4.25it/s]  3%|▎         | 222/6844 [00:54<26:00,  4.24it/s]  3%|▎         | 223/6844 [00:55<25:59,  4.24it/s]  3%|▎         | 224/6844 [00:55<25:59,  4.24it/s]  3%|▎         | 225/6844 [00:55<26:00,  4.24it/s]                                                  {'loss': 6.2412, 'grad_norm': 0.3967660665512085, 'learning_rate': 0.001970802919708029, 'epoch': 0.01}
-  3%|▎         | 225/6844 [00:55<26:00,  4.24it/s]  3%|▎         | 226/6844 [00:55<26:05,  4.23it/s]  3%|▎         | 227/6844 [00:55<26:04,  4.23it/s]  3%|▎         | 228/6844 [00:56<26:02,  4.23it/s]  3%|▎         | 229/6844 [00:56<26:00,  4.24it/s]  3%|▎         | 230/6844 [00:56<25:59,  4.24it/s]  3%|▎         | 231/6844 [00:56<25:58,  4.24it/s]  3%|▎         | 232/6844 [00:57<25:55,  4.25it/s]  3%|▎         | 233/6844 [00:57<25:54,  4.25it/s]  3%|▎         | 234/6844 [00:57<25:55,  4.25it/s]  3%|▎         | 235/6844 [00:57<25:55,  4.25it/s]  3%|▎         | 236/6844 [00:58<25:59,  4.24it/s]  3%|▎         | 237/6844 [00:58<26:02,  4.23it/s]  3%|▎         | 238/6844 [00:58<26:01,  4.23it/s]  3%|���         | 239/6844 [00:58<26:01,  4.23it/s]  4%|▎         | 240/6844 [00:59<26:01,  4.23it/s]  4%|▎         | 241/6844 [00:59<25:59,  4.23it/s]  4%|▎         | 242/6844 [00:59<25:57,  4.24it/s]  4%|▎         | 243/6844 [00:59<25:57,  4.24it/s]  4%|▎         | 244/6844 [00:59<25:58,  4.23it/s]  4%|▎         | 245/6844 [01:00<25:58,  4.23it/s]  4%|▎         | 246/6844 [01:00<25:57,  4.24it/s]  4%|▎         | 247/6844 [01:00<25:56,  4.24it/s]  4%|▎         | 248/6844 [01:00<25:56,  4.24it/s]  4%|▎         | 249/6844 [01:01<25:57,  4.23it/s]  4%|▎         | 250/6844 [01:01<25:55,  4.24it/s]{'loss': 6.096, 'grad_norm': 0.5323662161827087, 'learning_rate': 0.0021897810218978104, 'epoch': 0.01}
-                                                    4%|▎         | 250/6844 [01:01<25:55,  4.24it/s]  4%|▎         | 251/6844 [01:01<26:00,  4.23it/s]  4%|▎         | 252/6844 [01:01<25:58,  4.23it/s]  4%|▎         | 253/6844 [01:02<25:57,  4.23it/s]  4%|▎         | 254/6844 [01:02<25:57,  4.23it/s]  4%|▎         | 255/6844 [01:02<25:56,  4.23it/s]  4%|▎         | 256/6844 [01:02<25:54,  4.24it/s]  4%|▍         | 257/6844 [01:03<25:53,  4.24it/s]  4%|▍         | 258/6844 [01:03<25:53,  4.24it/s]  4%|▍         | 259/6844 [01:03<25:52,  4.24it/s]  4%|▍         | 260/6844 [01:03<25:51,  4.24it/s]  4%|▍         | 261/6844 [01:04<25:51,  4.24it/s]  4%|▍         | 262/6844 [01:04<25:53,  4.24it/s]  4%|▍         | 263/6844 [01:04<25:51,  4.24it/s]  4%|▍         | 264/6844 [01:04<25:49,  4.25it/s]  4%|▍         | 265/6844 [01:04<25:50,  4.24it/s]  4%|▍         | 266/6844 [01:05<25:50,  4.24it/s]  4%|▍         | 267/6844 [01:05<25:50,  4.24it/s]  4%|▍         | 268/6844 [01:05<25:54,  4.23it/s]  4%|▍         | 269/6844 [01:05<25:52,  4.24it/s]  4%|▍         | 270/6844 [01:06<25:52,  4.24it/s]  4%|▍         | 271/6844 [01:06<25:53,  4.23it/s]  4%|▍         | 272/6844 [01:06<25:52,  4.23it/s]  4%|▍         | 273/6844 [01:06<25:52,  4.23it/s]  4%|▍         | 274/6844 [01:07<25:50,  4.24it/s]  4%|▍         | 275/6844 [01:07<25:50,  4.24it/s]{'loss': 5.9664, 'grad_norm': 0.3777804970741272, 'learning_rate': 0.0024087591240875912, 'epoch': 0.01}
-                                                    4%|▍         | 275/6844 [01:07<25:50,  4.24it/s]  4%|▍         | 276/6844 [01:07<25:54,  4.22it/s]  4%|▍         | 277/6844 [01:07<25:53,  4.23it/s]  4%|▍         | 278/6844 [01:08<25:51,  4.23it/s]  4%|▍         | 279/6844 [01:08<25:54,  4.22it/s]  4%|▍         | 280/6844 [01:08<25:52,  4.23it/s]  4%|▍         | 281/6844 [01:08<25:51,  4.23it/s]  4%|▍         | 282/6844 [01:08<25:50,  4.23it/s]  4%|▍         | 283/6844 [01:09<25:49,  4.23it/s]  4%|▍         | 284/6844 [01:09<25:47,  4.24it/s]  4%|▍         | 285/6844 [01:09<25:46,  4.24it/s]  4%|▍         | 286/6844 [01:09<25:46,  4.24it/s]  4%|▍         | 287/6844 [01:10<25:45,  4.24it/s]  4%|▍         | 288/6844 [01:10<25:45,  4.24it/s]  4%|▍         | 289/6844 [01:10<25:44,  4.24it/s]  4%|▍         | 290/6844 [01:10<25:46,  4.24it/s]  4%|▍         | 291/6844 [01:11<25:45,  4.24it/s]  4%|▍         | 292/6844 [01:11<25:45,  4.24it/s]  4%|▍         | 293/6844 [01:11<25:46,  4.24it/s]  4%|▍         | 294/6844 [01:11<25:47,  4.23it/s]  4%|▍         | 295/6844 [01:12<25:47,  4.23it/s]  4%|▍         | 296/6844 [01:12<25:47,  4.23it/s]  4%|▍         | 297/6844 [01:12<25:47,  4.23it/s]  4%|▍         | 298/6844 [01:12<25:48,  4.23it/s]  4%|▍         | 299/6844 [01:12<25:46,  4.23it/s]  4%|▍         | 300/6844 [01:13<25:47,  4.23it/s]                                                  {'loss': 5.8695, 'grad_norm': 0.3280305862426758, 'learning_rate': 0.0026277372262773725, 'epoch': 0.01}
-  4%|▍         | 300/6844 [01:13<25:47,  4.23it/s]  4%|▍         | 301/6844 [01:13<25:51,  4.22it/s]  4%|▍         | 302/6844 [01:13<25:51,  4.22it/s]  4%|▍         | 303/6844 [01:13<25:50,  4.22it/s]  4%|▍         | 304/6844 [01:14<25:49,  4.22it/s]  4%|▍         | 305/6844 [01:14<25:49,  4.22it/s]  4%|▍         | 306/6844 [01:14<25:48,  4.22it/s]  4%|▍         | 307/6844 [01:14<25:47,  4.23it/s]  5%|▍         | 308/6844 [01:15<25:46,  4.23it/s]  5%|▍         | 309/6844 [01:15<26:41,  4.08it/s]  5%|▍         | 310/6844 [01:15<26:33,  4.10it/s]  5%|▍         | 311/6844 [01:15<26:15,  4.15it/s]  5%|▍         | 312/6844 [01:16<26:03,  4.18it/s]  5%|▍         | 313/6844 [01:16<25:59,  4.19it/s]  5%|▍         | 314/6844 [01:16<25:53,  4.20it/s]  5%|▍         | 315/6844 [01:16<25:48,  4.22it/s]  5%|▍         | 316/6844 [01:17<25:44,  4.23it/s]  5%|▍         | 317/6844 [01:17<25:41,  4.23it/s]  5%|▍         | 318/6844 [01:17<25:39,  4.24it/s]  5%|▍         | 319/6844 [01:17<25:38,  4.24it/s]  5%|▍         | 320/6844 [01:17<25:34,  4.25it/s]  5%|▍         | 321/6844 [01:18<25:34,  4.25it/s]  5%|▍         | 322/6844 [01:18<25:33,  4.25it/s]  5%|▍         | 323/6844 [01:18<25:33,  4.25it/s]  5%|▍         | 324/6844 [01:18<25:37,  4.24it/s]  5%|▍         | 325/6844 [01:19<25:36,  4.24it/s]                                                  {'loss': 5.7645, 'grad_norm': 0.3713994324207306, 'learning_rate': 0.0028467153284671533, 'epoch': 0.01}
-  5%|▍         | 325/6844 [01:19<25:36,  4.24it/s]  5%|▍         | 326/6844 [01:19<25:39,  4.23it/s]  5%|▍         | 327/6844 [01:19<25:35,  4.24it/s]  5%|▍         | 328/6844 [01:19<25:34,  4.25it/s]  5%|▍         | 329/6844 [01:20<25:33,  4.25it/s]  5%|▍         | 330/6844 [01:20<25:34,  4.25it/s]  5%|▍         | 331/6844 [01:20<25:35,  4.24it/s]  5%|▍         | 332/6844 [01:20<25:35,  4.24it/s]  5%|▍         | 333/6844 [01:21<25:35,  4.24it/s]  5%|▍         | 334/6844 [01:21<25:34,  4.24it/s]  5%|▍         | 335/6844 [01:21<25:35,  4.24it/s]  5%|▍         | 336/6844 [01:21<25:36,  4.24it/s]  5%|▍         | 337/6844 [01:21<25:35,  4.24it/s]  5%|▍         | 338/6844 [01:22<25:35,  4.24it/s]  5%|▍         | 339/6844 [01:22<25:35,  4.24it/s]  5%|▍         | 340/6844 [01:22<25:37,  4.23it/s]  5%|▍         | 341/6844 [01:22<25:38,  4.23it/s]  5%|▍         | 342/6844 [01:23<25:35,  4.23it/s]  5%|▌         | 343/6844 [01:23<25:34,  4.24it/s]  5%|▌         | 344/6844 [01:23<25:31,  4.24it/s]  5%|▌         | 345/6844 [01:23<25:30,  4.25it/s]  5%|▌         | 346/6844 [01:24<25:32,  4.24it/s]  5%|▌         | 347/6844 [01:24<25:33,  4.24it/s]  5%|▌         | 348/6844 [01:24<25:34,  4.23it/s]  5%|▌         | 349/6844 [01:24<25:34,  4.23it/s]  5%|▌         | 350/6844 [01:25<25:34,  4.23it/s]                                                  {'loss': 5.6889, 'grad_norm': 0.3388362526893616, 'learning_rate': 0.0030656934306569346, 'epoch': 0.01}
-  5%|▌         | 350/6844 [01:25<25:34,  4.23it/s]  5%|▌         | 351/6844 [01:25<25:38,  4.22it/s]  5%|▌         | 352/6844 [01:25<25:36,  4.23it/s]  5%|▌         | 353/6844 [01:25<25:33,  4.23it/s]  5%|▌         | 354/6844 [01:25<25:32,  4.24it/s]  5%|▌         | 355/6844 [01:26<25:33,  4.23it/s]  5%|▌         | 356/6844 [01:26<25:35,  4.23it/s]  5%|▌         | 357/6844 [01:26<25:33,  4.23it/s]  5%|▌         | 358/6844 [01:26<25:33,  4.23it/s]  5%|▌         | 359/6844 [01:27<25:31,  4.23it/s]  5%|▌         | 360/6844 [01:27<25:34,  4.23it/s]  5%|▌         | 361/6844 [01:27<25:33,  4.23it/s]  5%|▌         | 362/6844 [01:27<25:33,  4.23it/s]  5%|▌         | 363/6844 [01:28<25:36,  4.22it/s]  5%|▌         | 364/6844 [01:28<25:34,  4.22it/s]  5%|▌         | 365/6844 [01:28<25:32,  4.23it/s]  5%|▌         | 366/6844 [01:28<25:32,  4.23it/s]  5%|▌         | 367/6844 [01:29<25:30,  4.23it/s]  5%|▌         | 368/6844 [01:29<25:27,  4.24it/s]  5%|▌         | 369/6844 [01:29<25:25,  4.25it/s]  5%|▌         | 370/6844 [01:29<25:26,  4.24it/s]  5%|▌         | 371/6844 [01:30<25:27,  4.24it/s]  5%|▌         | 372/6844 [01:30<25:28,  4.23it/s]  5%|▌         | 373/6844 [01:30<25:27,  4.24it/s]  5%|▌         | 374/6844 [01:30<25:28,  4.23it/s]  5%|▌         | 375/6844 [01:30<25:29,  4.23it/s]{'loss': 5.6041, 'grad_norm': 0.32912731170654297, 'learning_rate': 0.0032846715328467154, 'epoch': 0.01}                                                  
-  5%|▌         | 375/6844 [01:30<25:29,  4.23it/s]  5%|▌         | 376/6844 [01:31<25:35,  4.21it/s]  6%|▌         | 377/6844 [01:31<25:32,  4.22it/s]  6%|▌         | 378/6844 [01:31<25:29,  4.23it/s]  6%|▌         | 379/6844 [01:31<25:28,  4.23it/s]  6%|▌         | 380/6844 [01:32<25:27,  4.23it/s]  6%|▌         | 381/6844 [01:32<25:28,  4.23it/s]  6%|▌         | 382/6844 [01:32<25:27,  4.23it/s]  6%|▌         | 383/6844 [01:32<25:26,  4.23it/s]  6%|▌         | 384/6844 [01:33<25:25,  4.23it/s]  6%|▌         | 385/6844 [01:33<25:23,  4.24it/s]  6%|▌         | 386/6844 [01:33<25:22,  4.24it/s]  6%|▌         | 387/6844 [01:33<25:23,  4.24it/s]  6%|▌         | 388/6844 [01:34<25:22,  4.24it/s]  6%|▌         | 389/6844 [01:34<25:24,  4.23it/s]  6%|▌         | 390/6844 [01:34<25:24,  4.23it/s]  6%|▌         | 391/6844 [01:34<25:24,  4.23it/s]  6%|▌         | 392/6844 [01:34<25:25,  4.23it/s]  6%|▌         | 393/6844 [01:35<25:22,  4.24it/s]  6%|▌         | 394/6844 [01:35<25:19,  4.24it/s]  6%|▌         | 395/6844 [01:35<25:19,  4.24it/s]  6%|▌         | 396/6844 [01:35<25:17,  4.25it/s]  6%|▌         | 397/6844 [01:36<25:17,  4.25it/s]  6%|▌         | 398/6844 [01:36<25:18,  4.25it/s]  6%|▌         | 399/6844 [01:36<25:16,  4.25it/s]  6%|▌         | 400/6844 [01:36<25:17,  4.25it/s]                                                  {'loss': 5.5542, 'grad_norm': 0.29193541407585144, 'learning_rate': 0.0035036496350364962, 'epoch': 0.01}
-  6%|▌         | 400/6844 [01:36<25:17,  4.25it/s]  6%|▌         | 401/6844 [01:37<25:22,  4.23it/s]  6%|▌         | 402/6844 [01:37<25:20,  4.24it/s]  6%|▌         | 403/6844 [01:37<25:17,  4.24it/s]  6%|▌         | 404/6844 [01:37<25:16,  4.25it/s]  6%|▌         | 405/6844 [01:38<25:16,  4.25it/s]  6%|▌         | 406/6844 [01:38<25:17,  4.24it/s]  6%|▌         | 407/6844 [01:38<25:17,  4.24it/s]  6%|▌         | 408/6844 [01:38<25:17,  4.24it/s]  6%|▌         | 409/6844 [01:38<25:17,  4.24it/s]  6%|▌         | 410/6844 [01:39<25:17,  4.24it/s]  6%|▌         | 411/6844 [01:39<25:16,  4.24it/s]  6%|▌         | 412/6844 [01:39<25:15,  4.24it/s]  6%|▌         | 413/6844 [01:39<25:15,  4.24it/s]  6%|▌         | 414/6844 [01:40<25:16,  4.24it/s]  6%|▌         | 415/6844 [01:40<25:17,  4.24it/s]  6%|▌         | 416/6844 [01:40<25:17,  4.24it/s]  6%|▌         | 417/6844 [01:40<25:16,  4.24it/s]  6%|▌         | 418/6844 [01:41<25:14,  4.24it/s]  6%|▌         | 419/6844 [01:41<25:12,  4.25it/s]  6%|▌         | 420/6844 [01:41<25:13,  4.25it/s]  6%|▌         | 421/6844 [01:41<25:13,  4.24it/s]  6%|▌         | 422/6844 [01:42<25:13,  4.24it/s]  6%|▌         | 423/6844 [01:42<25:14,  4.24it/s]  6%|▌         | 424/6844 [01:42<25:14,  4.24it/s]  6%|▌         | 425/6844 [01:42<25:12,  4.24it/s]                                                  {'loss': 5.4953, 'grad_norm': 0.35702043771743774, 'learning_rate': 0.0037226277372262775, 'epoch': 0.01}
-  6%|▌         | 425/6844 [01:42<25:12,  4.24it/s]  6%|▌         | 426/6844 [01:42<25:16,  4.23it/s]  6%|▌         | 427/6844 [01:43<25:16,  4.23it/s]  6%|▋         | 428/6844 [01:43<25:13,  4.24it/s]  6%|▋         | 429/6844 [01:43<25:12,  4.24it/s]  6%|▋         | 430/6844 [01:43<25:12,  4.24it/s]  6%|▋         | 431/6844 [01:44<25:17,  4.23it/s]  6%|▋         | 432/6844 [01:44<25:15,  4.23it/s]  6%|▋         | 433/6844 [01:44<25:13,  4.24it/s]  6%|▋         | 434/6844 [01:44<25:10,  4.24it/s]  6%|▋         | 435/6844 [01:45<25:09,  4.25it/s]  6%|▋         | 436/6844 [01:45<25:11,  4.24it/s]  6%|▋         | 437/6844 [01:45<25:09,  4.25it/s]  6%|▋         | 438/6844 [01:45<25:10,  4.24it/s]  6%|▋         | 439/6844 [01:46<25:09,  4.24it/s]  6%|▋         | 440/6844 [01:46<25:07,  4.25it/s]  6%|▋         | 441/6844 [01:46<25:09,  4.24it/s]  6%|▋         | 442/6844 [01:46<25:07,  4.25it/s]  6%|▋         | 443/6844 [01:46<25:07,  4.24it/s]  6%|▋         | 444/6844 [01:47<25:08,  4.24it/s]  7%|▋         | 445/6844 [01:47<25:11,  4.23it/s]  7%|▋         | 446/6844 [01:47<25:11,  4.23it/s]  7%|▋         | 447/6844 [01:47<25:11,  4.23it/s]  7%|▋         | 448/6844 [01:48<25:09,  4.24it/s]  7%|▋         | 449/6844 [01:48<25:09,  4.24it/s]  7%|▋         | 450/6844 [01:48<25:09,  4.24it/s]                                                  {'loss': 5.454, 'grad_norm': 0.25442641973495483, 'learning_rate': 0.003941605839416058, 'epoch': 0.01}
-  7%|▋         | 450/6844 [01:48<25:09,  4.24it/s]  7%|▋         | 451/6844 [01:48<25:13,  4.22it/s]  7%|▋         | 452/6844 [01:49<25:10,  4.23it/s]  7%|▋         | 453/6844 [01:49<25:08,  4.24it/s]  7%|▋         | 454/6844 [01:49<25:06,  4.24it/s]  7%|▋         | 455/6844 [01:49<25:05,  4.24it/s]  7%|▋         | 456/6844 [01:50<25:08,  4.24it/s]  7%|▋         | 457/6844 [01:50<25:07,  4.24it/s]  7%|▋         | 458/6844 [01:50<25:07,  4.24it/s]  7%|▋         | 459/6844 [01:50<25:06,  4.24it/s]  7%|▋         | 460/6844 [01:51<25:07,  4.23it/s]  7%|▋         | 461/6844 [01:51<25:07,  4.23it/s]  7%|▋         | 462/6844 [01:51<25:06,  4.24it/s]  7%|▋         | 463/6844 [01:51<25:05,  4.24it/s]  7%|▋         | 464/6844 [01:51<25:04,  4.24it/s]  7%|▋         | 465/6844 [01:52<25:06,  4.23it/s]  7%|▋         | 466/6844 [01:52<25:03,  4.24it/s]  7%|▋         | 467/6844 [01:52<25:02,  4.25it/s]  7%|▋         | 468/6844 [01:52<25:02,  4.24it/s]  7%|▋         | 469/6844 [01:53<25:01,  4.25it/s]  7%|▋         | 470/6844 [01:53<25:03,  4.24it/s]  7%|▋         | 471/6844 [01:53<25:04,  4.24it/s]  7%|▋         | 472/6844 [01:53<25:03,  4.24it/s]  7%|▋         | 473/6844 [01:54<25:04,  4.23it/s]  7%|▋         | 474/6844 [01:54<25:02,  4.24it/s]  7%|▋         | 475/6844 [01:54<25:02,  4.24it/s]                                                  {'loss': 5.4297, 'grad_norm': 0.27459168434143066, 'learning_rate': 0.00416058394160584, 'epoch': 0.01}
-  7%|▋         | 475/6844 [01:54<25:02,  4.24it/s]  7%|▋         | 476/6844 [01:54<25:06,  4.23it/s]  7%|▋         | 477/6844 [01:55<25:04,  4.23it/s]  7%|▋         | 478/6844 [01:55<25:02,  4.24it/s]  7%|▋         | 479/6844 [01:55<25:01,  4.24it/s]  7%|▋         | 480/6844 [01:55<25:00,  4.24it/s]  7%|▋         | 481/6844 [01:55<25:01,  4.24it/s]  7%|▋         | 482/6844 [01:56<25:00,  4.24it/s]  7%|▋         | 483/6844 [01:56<25:00,  4.24it/s]  7%|▋         | 484/6844 [01:56<25:00,  4.24it/s]  7%|▋         | 485/6844 [01:56<25:01,  4.24it/s]  7%|▋         | 486/6844 [01:57<24:59,  4.24it/s]  7%|▋         | 487/6844 [01:57<25:00,  4.24it/s]  7%|▋         | 488/6844 [01:57<24:59,  4.24it/s]  7%|���         | 489/6844 [01:57<25:00,  4.24it/s]  7%|▋         | 490/6844 [01:58<24:59,  4.24it/s]  7%|▋         | 491/6844 [01:58<24:59,  4.24it/s]  7%|▋         | 492/6844 [01:58<24:59,  4.24it/s]  7%|▋         | 493/6844 [01:58<24:59,  4.24it/s]  7%|▋         | 494/6844 [01:59<24:56,  4.24it/s]  7%|▋         | 495/6844 [01:59<24:56,  4.24it/s]  7%|▋         | 496/6844 [01:59<24:56,  4.24it/s]  7%|▋         | 497/6844 [01:59<24:56,  4.24it/s]  7%|▋         | 498/6844 [01:59<24:56,  4.24it/s]  7%|▋         | 499/6844 [02:00<24:57,  4.24it/s]  7%|▋         | 500/6844 [02:00<24:55,  4.24it/s]                                                  {'loss': 5.3769, 'grad_norm': 0.3026946783065796, 'learning_rate': 0.004379562043795621, 'epoch': 0.01}
-  7%|▋         | 500/6844 [02:00<24:55,  4.24it/s]  7%|▋         | 501/6844 [02:00<24:58,  4.23it/s]  7%|▋         | 502/6844 [02:00<24:57,  4.23it/s]  7%|▋         | 503/6844 [02:01<24:54,  4.24it/s]  7%|▋         | 504/6844 [02:01<24:52,  4.25it/s]  7%|▋         | 505/6844 [02:01<24:51,  4.25it/s]  7%|▋         | 506/6844 [02:01<24:53,  4.24it/s]  7%|▋         | 507/6844 [02:02<24:54,  4.24it/s]  7%|▋         | 508/6844 [02:02<24:52,  4.24it/s]  7%|▋         | 509/6844 [02:02<24:53,  4.24it/s]  7%|▋         | 510/6844 [02:02<24:52,  4.25it/s]  7%|▋         | 511/6844 [02:03<24:50,  4.25it/s]  7%|▋         | 512/6844 [02:03<24:51,  4.25it/s]  7%|▋         | 513/6844 [02:03<24:49,  4.25it/s]  8%|▊         | 514/6844 [02:03<24:51,  4.24it/s]  8%|▊         | 515/6844 [02:03<24:51,  4.24it/s]  8%|▊         | 516/6844 [02:04<24:53,  4.24it/s]  8%|▊         | 517/6844 [02:04<24:51,  4.24it/s]  8%|▊         | 518/6844 [02:04<24:50,  4.24it/s]  8%|▊         | 519/6844 [02:04<24:48,  4.25it/s]  8%|▊         | 520/6844 [02:05<24:49,  4.25it/s]  8%|▊         | 521/6844 [02:05<24:53,  4.23it/s]  8%|▊         | 522/6844 [02:05<24:56,  4.22it/s]  8%|▊         | 523/6844 [02:05<24:54,  4.23it/s]  8%|▊         | 524/6844 [02:06<24:52,  4.24it/s]  8%|▊         | 525/6844 [02:06<24:50,  4.24it/s]{'loss': 5.3481, 'grad_norm': 0.26218104362487793, 'learning_rate': 0.004598540145985402, 'epoch': 0.02}
-                                                    8%|▊         | 525/6844 [02:06<24:50,  4.24it/s]  8%|▊         | 526/6844 [02:06<24:53,  4.23it/s]  8%|▊         | 527/6844 [02:06<24:52,  4.23it/s]  8%|▊         | 528/6844 [02:07<24:50,  4.24it/s]  8%|▊         | 529/6844 [02:07<24:51,  4.23it/s]  8%|▊         | 530/6844 [02:07<24:52,  4.23it/s]  8%|▊         | 531/6844 [02:07<24:51,  4.23it/s]  8%|▊         | 532/6844 [02:08<24:50,  4.24it/s]  8%|▊         | 533/6844 [02:08<24:49,  4.24it/s]  8%|▊         | 534/6844 [02:08<24:47,  4.24it/s]  8%|▊         | 535/6844 [02:08<24:47,  4.24it/s]  8%|▊         | 536/6844 [02:08<24:46,  4.24it/s]  8%|▊         | 537/6844 [02:09<24:45,  4.25it/s]  8%|▊         | 538/6844 [02:09<24:42,  4.25it/s]  8%|▊         | 539/6844 [02:09<24:44,  4.25it/s]  8%|▊         | 540/6844 [02:09<24:43,  4.25it/s]  8%|▊         | 541/6844 [02:10<24:43,  4.25it/s]  8%|▊         | 542/6844 [02:10<24:48,  4.23it/s]  8%|▊         | 543/6844 [02:10<24:47,  4.24it/s]  8%|▊         | 544/6844 [02:10<24:45,  4.24it/s]  8%|▊         | 545/6844 [02:11<24:42,  4.25it/s]  8%|▊         | 546/6844 [02:11<24:40,  4.26it/s]  8%|▊         | 547/6844 [02:11<24:40,  4.25it/s]  8%|▊         | 548/6844 [02:11<24:42,  4.25it/s]  8%|▊         | 549/6844 [02:12<24:43,  4.24it/s]  8%|▊         | 550/6844 [02:12<24:43,  4.24it/s]{'loss': 5.3217, 'grad_norm': 0.2406788468360901, 'learning_rate': 0.0048175182481751825, 'epoch': 0.02}                                                  
-  8%|▊         | 550/6844 [02:12<24:43,  4.24it/s]  8%|▊         | 551/6844 [02:12<24:48,  4.23it/s]  8%|▊         | 552/6844 [02:12<24:48,  4.23it/s]  8%|▊         | 553/6844 [02:12<24:46,  4.23it/s]  8%|▊         | 554/6844 [02:13<24:44,  4.24it/s]  8%|▊         | 555/6844 [02:13<24:44,  4.24it/s]  8%|▊         | 556/6844 [02:13<24:45,  4.23it/s]  8%|▊         | 557/6844 [02:13<24:44,  4.23it/s]  8%|▊         | 558/6844 [02:14<24:44,  4.23it/s]  8%|▊         | 559/6844 [02:14<24:44,  4.23it/s]  8%|▊         | 560/6844 [02:14<24:42,  4.24it/s]  8%|▊         | 561/6844 [02:14<24:41,  4.24it/s]  8%|▊         | 562/6844 [02:15<24:40,  4.24it/s]  8%|▊         | 563/6844 [02:15<25:33,  4.09it/s]  8%|▊         | 564/6844 [02:15<25:15,  4.14it/s]  8%|▊         | 565/6844 [02:15<25:05,  4.17it/s]  8%|▊         | 566/6844 [02:16<24:57,  4.19it/s]  8%|▊         | 567/6844 [02:16<24:54,  4.20it/s]  8%|▊         | 568/6844 [02:16<24:48,  4.22it/s]  8%|▊         | 569/6844 [02:16<24:43,  4.23it/s]  8%|▊         | 570/6844 [02:16<24:41,  4.24it/s]  8%|▊         | 571/6844 [02:17<24:39,  4.24it/s]  8%|▊         | 572/6844 [02:17<24:38,  4.24it/s]  8%|▊         | 573/6844 [02:17<24:37,  4.24it/s]  8%|▊         | 574/6844 [02:17<24:38,  4.24it/s]  8%|▊         | 575/6844 [02:18<24:37,  4.24it/s]                                                  {'loss': 5.2947, 'grad_norm': 0.2322518229484558, 'learning_rate': 0.005036496350364963, 'epoch': 0.02}
-  8%|▊         | 575/6844 [02:18<24:37,  4.24it/s]  8%|▊         | 576/6844 [02:18<24:41,  4.23it/s]  8%|▊         | 577/6844 [02:18<24:36,  4.24it/s]  8%|▊         | 578/6844 [02:18<24:37,  4.24it/s]  8%|▊         | 579/6844 [02:19<24:35,  4.25it/s]  8%|▊         | 580/6844 [02:19<24:36,  4.24it/s]  8%|▊         | 581/6844 [02:19<24:35,  4.24it/s]  9%|▊         | 582/6844 [02:19<24:36,  4.24it/s]  9%|▊         | 583/6844 [02:20<24:37,  4.24it/s]  9%|▊         | 584/6844 [02:20<24:37,  4.24it/s]  9%|▊         | 585/6844 [02:20<24:36,  4.24it/s]  9%|▊         | 586/6844 [02:20<24:35,  4.24it/s]  9%|▊         | 587/6844 [02:20<24:34,  4.24it/s]  9%|▊         | 588/6844 [02:21<24:34,  4.24it/s]  9%|▊         | 589/6844 [02:21<24:34,  4.24it/s]  9%|▊         | 590/6844 [02:21<24:34,  4.24it/s]  9%|▊         | 591/6844 [02:21<24:34,  4.24it/s]  9%|▊         | 592/6844 [02:22<24:33,  4.24it/s]  9%|▊         | 593/6844 [02:22<24:31,  4.25it/s]  9%|▊         | 594/6844 [02:22<24:32,  4.25it/s]  9%|▊         | 595/6844 [02:22<24:32,  4.24it/s]  9%|▊         | 596/6844 [02:23<24:31,  4.25it/s]  9%|▊         | 597/6844 [02:23<24:30,  4.25it/s]  9%|▊         | 598/6844 [02:23<24:29,  4.25it/s]  9%|▉         | 599/6844 [02:23<24:28,  4.25it/s]  9%|▉         | 600/6844 [02:24<24:32,  4.24it/s]                                                  {'loss': 5.2623, 'grad_norm': 0.23563922941684723, 'learning_rate': 0.005255474452554745, 'epoch': 0.02}
-  9%|▉         | 600/6844 [02:24<24:32,  4.24it/s]  9%|▉         | 601/6844 [02:24<24:35,  4.23it/s]  9%|▉         | 602/6844 [02:24<24:31,  4.24it/s]  9%|▉         | 603/6844 [02:24<24:28,  4.25it/s]  9%|▉         | 604/6844 [02:24<24:27,  4.25it/s]  9%|▉         | 605/6844 [02:25<24:27,  4.25it/s]  9%|▉         | 606/6844 [02:25<24:27,  4.25it/s]  9%|▉         | 607/6844 [02:25<24:26,  4.25it/s]  9%|▉         | 608/6844 [02:25<24:29,  4.24it/s]  9%|▉         | 609/6844 [02:26<24:29,  4.24it/s]  9%|▉         | 610/6844 [02:26<24:28,  4.24it/s]  9%|▉         | 611/6844 [02:26<24:28,  4.25it/s]  9%|▉         | 612/6844 [02:26<24:28,  4.24it/s]  9%|▉         | 613/6844 [02:27<24:28,  4.24it/s]  9%|▉         | 614/6844 [02:27<24:26,  4.25it/s]  9%|▉         | 615/6844 [02:27<24:26,  4.25it/s]  9%|▉         | 616/6844 [02:27<24:26,  4.25it/s]  9%|▉         | 617/6844 [02:28<24:29,  4.24it/s]  9%|▉         | 618/6844 [02:28<24:28,  4.24it/s]  9%|▉         | 619/6844 [02:28<24:25,  4.25it/s]  9%|▉         | 620/6844 [02:28<24:22,  4.25it/s]  9%|▉         | 621/6844 [02:29<24:25,  4.25it/s]  9%|▉         | 622/6844 [02:29<24:25,  4.25it/s]  9%|▉         | 623/6844 [02:29<24:26,  4.24it/s]  9%|▉         | 624/6844 [02:29<24:25,  4.24it/s]  9%|▉         | 625/6844 [02:29<24:27,  4.24it/s]                                                  {'loss': 5.2333, 'grad_norm': 0.20611032843589783, 'learning_rate': 0.005474452554744526, 'epoch': 0.02}
-  9%|▉         | 625/6844 [02:29<24:27,  4.24it/s]  9%|▉         | 626/6844 [02:30<24:32,  4.22it/s]  9%|▉         | 627/6844 [02:30<24:30,  4.23it/s]  9%|▉         | 628/6844 [02:30<24:27,  4.23it/s]  9%|▉         | 629/6844 [02:30<24:26,  4.24it/s]  9%|▉         | 630/6844 [02:31<24:25,  4.24it/s]  9%|▉         | 631/6844 [02:31<24:26,  4.24it/s]  9%|▉         | 632/6844 [02:31<24:24,  4.24it/s]  9%|▉         | 633/6844 [02:31<24:22,  4.25it/s]  9%|▉         | 634/6844 [02:32<24:26,  4.24it/s]  9%|▉         | 635/6844 [02:32<24:24,  4.24it/s]  9%|▉         | 636/6844 [02:32<24:23,  4.24it/s]  9%|▉         | 637/6844 [02:32<24:23,  4.24it/s]  9%|▉         | 638/6844 [02:33<24:22,  4.24it/s]  9%|▉         | 639/6844 [02:33<24:21,  4.25it/s]  9%|▉         | 640/6844 [02:33<24:21,  4.25it/s]  9%|▉         | 641/6844 [02:33<24:20,  4.25it/s]  9%|▉         | 642/6844 [02:33<24:19,  4.25it/s]  9%|▉         | 643/6844 [02:34<24:22,  4.24it/s]  9%|▉         | 644/6844 [02:34<24:20,  4.25it/s]  9%|▉         | 645/6844 [02:34<24:19,  4.25it/s]  9%|▉         | 646/6844 [02:34<24:22,  4.24it/s]  9%|▉         | 647/6844 [02:35<24:23,  4.23it/s]  9%|▉         | 648/6844 [02:35<24:22,  4.24it/s]  9%|▉         | 649/6844 [02:35<24:19,  4.24it/s]  9%|▉         | 650/6844 [02:35<24:17,  4.25it/s]{'loss': 5.2278, 'grad_norm': 0.24426136910915375, 'learning_rate': 0.005693430656934307, 'epoch': 0.02}
-                                                    9%|▉         | 650/6844 [02:35<24:17,  4.25it/s] 10%|▉         | 651/6844 [02:36<24:22,  4.23it/s] 10%|▉         | 652/6844 [02:36<32:45,  3.15it/s] 10%|▉         | 653/6844 [02:36<30:13,  3.41it/s] 10%|▉         | 654/6844 [02:37<28:27,  3.62it/s] 10%|▉         | 655/6844 [02:37<27:12,  3.79it/s] 10%|▉         | 656/6844 [02:37<26:19,  3.92it/s] 10%|▉         | 657/6844 [02:37<25:41,  4.01it/s] 10%|▉         | 658/6844 [02:37<25:14,  4.09it/s] 10%|▉         | 659/6844 [02:38<24:57,  4.13it/s] 10%|▉         | 660/6844 [02:38<24:42,  4.17it/s] 10%|▉         | 661/6844 [02:38<24:32,  4.20it/s] 10%|▉         | 662/6844 [02:38<24:29,  4.21it/s] 10%|▉         | 663/6844 [02:39<24:25,  4.22it/s] 10%|▉         | 664/6844 [02:39<24:20,  4.23it/s] 10%|▉         | 665/6844 [02:39<24:19,  4.23it/s] 10%|▉         | 666/6844 [02:39<24:18,  4.24it/s] 10%|▉         | 667/6844 [02:40<24:18,  4.24it/s] 10%|▉         | 668/6844 [02:40<24:17,  4.24it/s] 10%|▉         | 669/6844 [02:40<24:15,  4.24it/s] 10%|▉         | 670/6844 [02:40<24:14,  4.25it/s] 10%|▉         | 671/6844 [02:41<24:12,  4.25it/s] 10%|▉         | 672/6844 [02:41<24:11,  4.25it/s] 10%|▉         | 673/6844 [02:41<24:10,  4.25it/s] 10%|▉         | 674/6844 [02:41<24:11,  4.25it/s] 10%|▉         | 675/6844 [02:42<24:18,  4.23it/s]{'loss': 5.2146, 'grad_norm': 0.25563061237335205, 'learning_rate': 0.0059124087591240874, 'epoch': 0.02}                                                  
- 10%|▉         | 675/6844 [02:42<24:18,  4.23it/s] 10%|▉         | 676/6844 [02:42<24:23,  4.21it/s] 10%|▉         | 677/6844 [02:42<24:20,  4.22it/s] 10%|▉         | 678/6844 [02:42<24:17,  4.23it/s] 10%|▉         | 679/6844 [02:42<24:16,  4.23it/s] 10%|▉         | 680/6844 [02:43<24:15,  4.23it/s] 10%|▉         | 681/6844 [02:43<24:16,  4.23it/s] 10%|▉         | 682/6844 [02:43<24:15,  4.23it/s] 10%|▉         | 683/6844 [02:43<24:15,  4.23it/s] 10%|▉         | 684/6844 [02:44<24:14,  4.24it/s] 10%|█         | 685/6844 [02:44<24:14,  4.23it/s] 10%|█         | 686/6844 [02:44<24:11,  4.24it/s] 10%|█         | 687/6844 [02:44<24:11,  4.24it/s] 10%|█         | 688/6844 [02:45<24:10,  4.24it/s] 10%|█         | 689/6844 [02:45<25:03,  4.09it/s] 10%|█         | 690/6844 [02:45<25:39,  4.00it/s] 10%|█         | 691/6844 [02:45<26:01,  3.94it/s] 10%|█         | 692/6844 [02:46<26:27,  3.88it/s] 10%|█         | 693/6844 [02:46<26:39,  3.85it/s] 10%|█         | 694/6844 [02:46<26:37,  3.85it/s] 10%|█         | 695/6844 [02:46<26:38,  3.85it/s] 10%|█         | 696/6844 [02:47<27:00,  3.79it/s] 10%|█         | 697/6844 [02:47<26:23,  3.88it/s] 10%|█         | 698/6844 [02:47<25:43,  3.98it/s] 10%|█         | 699/6844 [02:47<25:16,  4.05it/s] 10%|█         | 700/6844 [02:48<24:56,  4.11it/s]{'loss': 5.1956, 'grad_norm': 0.2092759907245636, 'learning_rate': 0.005999912188580909, 'epoch': 0.02}
-                                                   10%|█         | 700/6844 [02:48<24:56,  4.11it/s] 10%|█         | 701/6844 [02:48<24:47,  4.13it/s] 10%|█         | 702/6844 [02:48<24:35,  4.16it/s] 10%|█         | 703/6844 [02:48<24:26,  4.19it/s] 10%|█         | 704/6844 [02:49<24:20,  4.20it/s] 10%|█         | 705/6844 [02:49<24:15,  4.22it/s] 10%|█         | 706/6844 [02:49<24:11,  4.23it/s] 10%|█         | 707/6844 [02:49<24:10,  4.23it/s] 10%|█         | 708/6844 [02:50<24:10,  4.23it/s] 10%|█         | 709/6844 [02:50<24:07,  4.24it/s] 10%|█         | 710/6844 [02:50<24:05,  4.24it/s] 10%|█         | 711/6844 [02:50<24:04,  4.25it/s] 10%|█         | 712/6844 [02:50<24:03,  4.25it/s] 10%|█         | 713/6844 [02:51<24:01,  4.25it/s] 10%|█         | 714/6844 [02:51<24:00,  4.26it/s] 10%|█         | 715/6844 [02:51<24:01,  4.25it/s] 10%|█         | 716/6844 [02:51<24:00,  4.25it/s] 10%|█         | 717/6844 [02:52<24:02,  4.25it/s] 10%|█         | 718/6844 [02:52<24:02,  4.25it/s] 11%|█         | 719/6844 [02:52<24:03,  4.24it/s] 11%|█         | 720/6844 [02:52<24:04,  4.24it/s] 11%|█         | 721/6844 [02:53<24:02,  4.24it/s] 11%|█         | 722/6844 [02:53<24:00,  4.25it/s] 11%|█         | 723/6844 [02:53<24:00,  4.25it/s] 11%|█         | 724/6844 [02:53<24:06,  4.23it/s] 11%|█         | 725/6844 [02:54<24:04,  4.24it/s]                                                  {'loss': 5.1572, 'grad_norm': 0.18508745729923248, 'learning_rate': 0.005999375581857942, 'epoch': 0.02}
- 11%|█         | 725/6844 [02:54<24:04,  4.24it/s] 11%|█         | 726/6844 [02:54<24:08,  4.22it/s] 11%|█         | 727/6844 [02:54<24:04,  4.23it/s] 11%|█         | 728/6844 [02:54<24:05,  4.23it/s] 11%|█         | 729/6844 [02:54<24:01,  4.24it/s] 11%|█         | 730/6844 [02:55<24:00,  4.24it/s] 11%|█         | 731/6844 [02:55<24:01,  4.24it/s] 11%|█         | 732/6844 [02:55<24:01,  4.24it/s] 11%|█         | 733/6844 [02:55<24:00,  4.24it/s] 11%|█         | 734/6844 [02:56<24:00,  4.24it/s] 11%|█         | 735/6844 [02:56<24:00,  4.24it/s] 11%|█         | 736/6844 [02:56<23:58,  4.25it/s] 11%|█         | 737/6844 [02:56<23:57,  4.25it/s] 11%|█         | 738/6844 [02:57<23:57,  4.25it/s] 11%|█         | 739/6844 [02:57<23:56,  4.25it/s] 11%|█         | 740/6844 [02:57<23:56,  4.25it/s] 11%|█         | 741/6844 [02:57<23:55,  4.25it/s] 11%|█         | 742/6844 [02:58<23:54,  4.25it/s] 11%|█         | 743/6844 [02:58<23:53,  4.26it/s] 11%|█         | 744/6844 [02:58<23:53,  4.26it/s] 11%|█         | 745/6844 [02:58<23:52,  4.26it/s] 11%|█         | 746/6844 [02:58<23:53,  4.25it/s] 11%|█         | 747/6844 [02:59<23:53,  4.25it/s] 11%|█         | 748/6844 [02:59<23:53,  4.25it/s] 11%|█         | 749/6844 [02:59<23:53,  4.25it/s] 11%|█         | 750/6844 [02:59<23:51,  4.26it/s]{'loss': 5.1338, 'grad_norm': 0.174918070435524, 'learning_rate': 0.005998351239686821, 'epoch': 0.02}                                                  
- 11%|█         | 750/6844 [02:59<23:51,  4.26it/s] 11%|█         | 751/6844 [03:00<23:55,  4.24it/s] 11%|█         | 752/6844 [03:00<23:53,  4.25it/s] 11%|█         | 753/6844 [03:00<23:51,  4.26it/s] 11%|█         | 754/6844 [03:00<23:51,  4.25it/s] 11%|█         | 755/6844 [03:01<23:51,  4.25it/s] 11%|█         | 756/6844 [03:01<23:49,  4.26it/s] 11%|█         | 757/6844 [03:01<23:49,  4.26it/s] 11%|█         | 758/6844 [03:01<23:50,  4.25it/s] 11%|█         | 759/6844 [03:02<23:51,  4.25it/s] 11%|█         | 760/6844 [03:02<23:50,  4.25it/s] 11%|█         | 761/6844 [03:02<23:51,  4.25it/s] 11%|█         | 762/6844 [03:02<23:51,  4.25it/s] 11%|█         | 763/6844 [03:02<23:50,  4.25it/s] 11%|█         | 764/6844 [03:03<24:01,  4.22it/s] 11%|█         | 765/6844 [03:03<23:56,  4.23it/s] 11%|█         | 766/6844 [03:03<23:54,  4.24it/s] 11%|█         | 767/6844 [03:03<23:51,  4.25it/s] 11%|█         | 768/6844 [03:04<23:49,  4.25it/s] 11%|█         | 769/6844 [03:04<23:51,  4.24it/s] 11%|█▏        | 770/6844 [03:04<23:50,  4.24it/s] 11%|█▏        | 771/6844 [03:04<23:49,  4.25it/s] 11%|█▏        | 772/6844 [03:05<23:50,  4.24it/s] 11%|█▏        | 773/6844 [03:05<23:55,  4.23it/s] 11%|█▏        | 774/6844 [03:05<23:54,  4.23it/s] 11%|█▏        | 775/6844 [03:05<23:52,  4.24it/s]                                                  {'loss': 5.123, 'grad_norm': 0.19390137493610382, 'learning_rate': 0.005996839328638209, 'epoch': 0.02}
- 11%|█▏        | 775/6844 [03:05<23:52,  4.24it/s] 11%|█▏        | 776/6844 [03:06<23:56,  4.22it/s] 11%|█▏        | 777/6844 [03:06<23:56,  4.22it/s] 11%|█▏        | 778/6844 [03:06<23:55,  4.23it/s] 11%|█▏        | 779/6844 [03:06<23:53,  4.23it/s] 11%|█▏        | 780/6844 [03:06<23:50,  4.24it/s] 11%|█▏        | 781/6844 [03:07<23:50,  4.24it/s] 11%|█▏        | 782/6844 [03:07<23:48,  4.24it/s] 11%|█▏        | 783/6844 [03:07<23:47,  4.25it/s] 11%|█▏        | 784/6844 [03:07<23:45,  4.25it/s] 11%|█▏        | 785/6844 [03:08<23:45,  4.25it/s] 11%|█▏        | 786/6844 [03:08<23:48,  4.24it/s] 11%|█▏        | 787/6844 [03:08<23:48,  4.24it/s] 12%|█▏        | 788/6844 [03:08<23:47,  4.24it/s] 12%|█▏        | 789/6844 [03:09<23:47,  4.24it/s] 12%|█▏        | 790/6844 [03:09<23:46,  4.25it/s] 12%|█▏        | 791/6844 [03:09<23:47,  4.24it/s] 12%|█▏        | 792/6844 [03:09<23:45,  4.25it/s] 12%|█▏        | 793/6844 [03:10<23:43,  4.25it/s] 12%|█▏        | 794/6844 [03:10<23:44,  4.25it/s] 12%|█▏        | 795/6844 [03:10<23:43,  4.25it/s] 12%|█▏        | 796/6844 [03:10<23:42,  4.25it/s] 12%|█▏        | 797/6844 [03:10<23:42,  4.25it/s] 12%|█▏        | 798/6844 [03:11<23:45,  4.24it/s] 12%|█▏        | 799/6844 [03:11<23:43,  4.25it/s] 12%|█▏        | 800/6844 [03:11<23:43,  4.25it/s]{'loss': 5.0853, 'grad_norm': 0.1828240156173706, 'learning_rate': 0.005994840094567485, 'epoch': 0.02}                                                  
- 12%|█▏        | 800/6844 [03:11<23:43,  4.25it/s] 12%|█▏        | 801/6844 [03:11<23:48,  4.23it/s] 12%|█▏        | 802/6844 [03:12<23:47,  4.23it/s] 12%|█▏        | 803/6844 [03:12<23:47,  4.23it/s] 12%|█▏        | 804/6844 [03:12<23:46,  4.23it/s] 12%|█▏        | 805/6844 [03:12<23:47,  4.23it/s] 12%|█▏        | 806/6844 [03:13<23:46,  4.23it/s] 12%|█▏        | 807/6844 [03:13<23:44,  4.24it/s] 12%|█▏        | 808/6844 [03:13<23:43,  4.24it/s] 12%|█▏        | 809/6844 [03:13<23:44,  4.24it/s] 12%|█▏        | 810/6844 [03:14<23:43,  4.24it/s] 12%|█▏        | 811/6844 [03:14<23:42,  4.24it/s] 12%|█▏        | 812/6844 [03:14<23:43,  4.24it/s] 12%|█▏        | 813/6844 [03:14<23:43,  4.24it/s] 12%|█▏        | 814/6844 [03:15<23:42,  4.24it/s] 12%|█▏        | 815/6844 [03:15<24:32,  4.10it/s] 12%|█▏        | 816/6844 [03:15<24:56,  4.03it/s] 12%|█▏        | 817/6844 [03:15<25:18,  3.97it/s] 12%|█▏        | 818/6844 [03:16<25:39,  3.91it/s] 12%|█▏        | 819/6844 [03:16<25:57,  3.87it/s] 12%|█▏        | 820/6844 [03:16<26:01,  3.86it/s] 12%|█▏        | 821/6844 [03:16<26:17,  3.82it/s] 12%|█▏        | 822/6844 [03:17<26:23,  3.80it/s] 12%|█▏        | 823/6844 [03:17<25:33,  3.93it/s] 12%|█▏        | 824/6844 [03:17<24:57,  4.02it/s] 12%|█▏        | 825/6844 [03:17<24:34,  4.08it/s]                                                  {'loss': 5.0692, 'grad_norm': 0.16765372455120087, 'learning_rate': 0.005992353862574757, 'epoch': 0.02}
- 12%|█▏        | 825/6844 [03:17<24:34,  4.08it/s] 12%|█▏        | 826/6844 [03:18<24:19,  4.12it/s] 12%|█▏        | 827/6844 [03:18<24:06,  4.16it/s] 12%|█▏        | 828/6844 [03:18<23:57,  4.19it/s] 12%|█▏        | 829/6844 [03:18<23:50,  4.20it/s] 12%|█▏        | 830/6844 [03:18<23:47,  4.21it/s] 12%|█▏        | 831/6844 [03:19<23:43,  4.22it/s] 12%|█▏        | 832/6844 [03:19<23:42,  4.23it/s] 12%|█▏        | 833/6844 [03:19<23:40,  4.23it/s] 12%|█▏        | 834/6844 [03:19<23:38,  4.24it/s] 12%|█▏        | 835/6844 [03:20<23:37,  4.24it/s] 12%|█▏        | 836/6844 [03:20<23:36,  4.24it/s] 12%|█▏        | 837/6844 [03:20<23:35,  4.24it/s] 12%|█▏        | 838/6844 [03:20<23:33,  4.25it/s] 12%|█▏        | 839/6844 [03:21<23:31,  4.25it/s] 12%|█▏        | 840/6844 [03:21<23:31,  4.25it/s] 12%|█▏        | 841/6844 [03:21<23:32,  4.25it/s] 12%|█▏        | 842/6844 [03:21<23:32,  4.25it/s] 12%|█▏        | 843/6844 [03:22<23:31,  4.25it/s] 12%|█▏        | 844/6844 [03:22<23:32,  4.25it/s] 12%|█▏        | 845/6844 [03:22<23:32,  4.25it/s] 12%|█▏        | 846/6844 [03:22<23:32,  4.25it/s] 12%|█▏        | 847/6844 [03:22<23:30,  4.25it/s] 12%|█▏        | 848/6844 [03:23<23:31,  4.25it/s] 12%|█▏        | 849/6844 [03:23<23:34,  4.24it/s] 12%|█▏        | 850/6844 [03:23<23:34,  4.24it/s]                                                  {'loss': 5.0615, 'grad_norm': 0.1702553629875183, 'learning_rate': 0.005989381036951998, 'epoch': 0.02}
- 12%|█▏        | 850/6844 [03:23<23:34,  4.24it/s] 12%|█▏        | 851/6844 [03:23<23:37,  4.23it/s] 12%|█▏        | 852/6844 [03:24<23:35,  4.23it/s] 12%|█▏        | 853/6844 [03:24<23:35,  4.23it/s] 12%|█▏        | 854/6844 [03:24<23:34,  4.23it/s] 12%|█▏        | 855/6844 [03:24<23:33,  4.24it/s] 13%|█▎        | 856/6844 [03:25<23:32,  4.24it/s] 13%|█▎        | 857/6844 [03:25<23:32,  4.24it/s] 13%|█▎        | 858/6844 [03:25<23:32,  4.24it/s] 13%|█▎        | 859/6844 [03:25<23:32,  4.24it/s] 13%|█▎        | 860/6844 [03:26<23:32,  4.24it/s] 13%|█▎        | 861/6844 [03:26<23:31,  4.24it/s] 13%|█▎        | 862/6844 [03:26<23:31,  4.24it/s] 13%|█▎        | 863/6844 [03:26<23:29,  4.24it/s] 13%|█▎        | 864/6844 [03:27<23:28,  4.24it/s] 13%|█▎        | 865/6844 [03:27<23:29,  4.24it/s] 13%|█▎        | 866/6844 [03:27<23:28,  4.24it/s] 13%|█▎        | 867/6844 [03:27<23:29,  4.24it/s] 13%|█▎        | 868/6844 [03:27<23:33,  4.23it/s] 13%|█▎        | 869/6844 [03:28<23:29,  4.24it/s] 13%|█▎        | 870/6844 [03:28<23:28,  4.24it/s] 13%|█▎        | 871/6844 [03:28<23:25,  4.25it/s] 13%|█▎        | 872/6844 [03:28<23:27,  4.24it/s] 13%|█▎        | 873/6844 [03:29<23:25,  4.25it/s] 13%|█▎        | 874/6844 [03:29<23:26,  4.25it/s] 13%|█▎        | 875/6844 [03:29<23:28,  4.24it/s]                                                  {'loss': 5.0295, 'grad_norm': 0.17229898273944855, 'learning_rate': 0.005985922101117307, 'epoch': 0.03}
- 13%|█▎        | 875/6844 [03:29<23:28,  4.24it/s] 13%|█▎        | 876/6844 [03:29<23:34,  4.22it/s] 13%|█▎        | 877/6844 [03:30<23:30,  4.23it/s] 13%|█▎        | 878/6844 [03:30<23:28,  4.24it/s] 13%|█▎        | 879/6844 [03:30<23:24,  4.25it/s] 13%|█▎        | 880/6844 [03:30<23:24,  4.25it/s] 13%|█▎        | 881/6844 [03:31<23:24,  4.24it/s] 13%|█▎        | 882/6844 [03:31<23:24,  4.24it/s] 13%|█▎        | 883/6844 [03:31<23:24,  4.24it/s] 13%|█▎        | 884/6844 [03:31<23:23,  4.25it/s] 13%|█▎        | 885/6844 [03:31<23:22,  4.25it/s] 13%|█▎        | 886/6844 [03:32<23:21,  4.25it/s] 13%|█▎        | 887/6844 [03:32<23:20,  4.25it/s] 13%|█▎        | 888/6844 [03:32<23:22,  4.25it/s] 13%|█▎        | 889/6844 [03:32<23:22,  4.24it/s] 13%|█▎        | 890/6844 [03:33<23:22,  4.25it/s] 13%|█▎        | 891/6844 [03:33<23:24,  4.24it/s] 13%|█▎        | 892/6844 [03:33<23:23,  4.24it/s] 13%|█▎        | 893/6844 [03:33<23:23,  4.24it/s] 13%|█▎        | 894/6844 [03:34<23:22,  4.24it/s] 13%|█▎        | 895/6844 [03:34<23:21,  4.24it/s] 13%|█▎        | 896/6844 [03:34<23:22,  4.24it/s] 13%|█▎        | 897/6844 [03:34<23:20,  4.25it/s] 13%|█▎        | 898/6844 [03:35<23:19,  4.25it/s] 13%|█▎        | 899/6844 [03:35<23:20,  4.25it/s] 13%|█▎        | 900/6844 [03:35<23:21,  4.24it/s]{'loss': 5.0154, 'grad_norm': 0.17268504202365875, 'learning_rate': 0.005981977617536292, 'epoch': 0.03}                                                  
- 13%|█▎        | 900/6844 [03:35<23:21,  4.24it/s] 13%|█▎        | 901/6844 [03:35<23:26,  4.23it/s] 13%|█▎        | 902/6844 [03:35<23:24,  4.23it/s] 13%|█▎        | 903/6844 [03:36<23:23,  4.23it/s] 13%|█▎        | 904/6844 [03:36<23:22,  4.23it/s] 13%|█▎        | 905/6844 [03:36<23:19,  4.24it/s] 13%|█▎        | 906/6844 [03:36<23:18,  4.25it/s] 13%|█▎        | 907/6844 [03:37<23:18,  4.24it/s] 13%|█▎        | 908/6844 [03:37<23:18,  4.24it/s] 13%|█▎        | 909/6844 [03:37<23:20,  4.24it/s] 13%|█▎        | 910/6844 [03:37<23:19,  4.24it/s] 13%|█▎        | 911/6844 [03:38<23:21,  4.23it/s] 13%|█▎        | 912/6844 [03:38<23:18,  4.24it/s] 13%|█▎        | 913/6844 [03:38<23:17,  4.24it/s] 13%|█▎        | 914/6844 [03:38<23:15,  4.25it/s] 13%|█▎        | 915/6844 [03:39<23:18,  4.24it/s] 13%|█▎        | 916/6844 [03:39<23:17,  4.24it/s] 13%|█▎        | 917/6844 [03:39<23:16,  4.24it/s] 13%|█▎        | 918/6844 [03:39<23:16,  4.24it/s] 13%|█▎        | 919/6844 [03:39<23:19,  4.23it/s] 13%|█▎        | 920/6844 [03:40<23:17,  4.24it/s] 13%|█▎        | 921/6844 [03:40<23:16,  4.24it/s] 13%|█▎        | 922/6844 [03:40<23:15,  4.24it/s] 13%|█▎        | 923/6844 [03:40<23:14,  4.25it/s] 14%|█▎        | 924/6844 [03:41<23:14,  4.24it/s] 14%|█▎        | 925/6844 [03:41<23:13,  4.25it/s]{'loss': 5.0063, 'grad_norm': 0.1592070758342743, 'learning_rate': 0.0059775482276306175, 'epoch': 0.03}                                                  
- 14%|█▎        | 925/6844 [03:41<23:13,  4.25it/s] 14%|█▎        | 926/6844 [03:41<23:19,  4.23it/s] 14%|█▎        | 927/6844 [03:41<23:19,  4.23it/s] 14%|█▎        | 928/6844 [03:42<23:15,  4.24it/s] 14%|█▎        | 929/6844 [03:42<23:14,  4.24it/s] 14%|█▎        | 930/6844 [03:42<23:13,  4.24it/s] 14%|█▎        | 931/6844 [03:42<23:12,  4.25it/s] 14%|█▎        | 932/6844 [03:43<23:11,  4.25it/s] 14%|█▎        | 933/6844 [03:43<23:11,  4.25it/s] 14%|█▎        | 934/6844 [03:43<23:11,  4.25it/s] 14%|█▎        | 935/6844 [03:43<23:13,  4.24it/s] 14%|█▎        | 936/6844 [03:43<23:13,  4.24it/s] 14%|█▎        | 937/6844 [03:44<23:11,  4.24it/s] 14%|█▎        | 938/6844 [03:44<23:10,  4.25it/s] 14%|█▎        | 939/6844 [03:44<23:11,  4.24it/s] 14%|█▎        | 940/6844 [03:44<23:10,  4.25it/s] 14%|█▎        | 941/6844 [03:45<23:10,  4.25it/s] 14%|█▍        | 942/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 943/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 944/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 945/6844 [03:46<23:10,  4.24it/s] 14%|█▍        | 946/6844 [03:46<23:10,  4.24it/s] 14%|█▍        | 947/6844 [03:46<23:08,  4.25it/s] 14%|█▍        | 948/6844 [03:46<23:06,  4.25it/s] 14%|█▍        | 949/6844 [03:47<23:06,  4.25it/s] 14%|█▍        | 950/6844 [03:47<23:06,  4.25it/s]{'loss': 4.9879, 'grad_norm': 0.16127359867095947, 'learning_rate': 0.005972634651673689, 'epoch': 0.03}
-                                                   14%|█▍        | 950/6844 [03:47<23:06,  4.25it/s] 14%|█▍        | 951/6844 [03:47<23:10,  4.24it/s] 14%|█▍        | 952/6844 [03:47<23:09,  4.24it/s] 14%|█▍        | 953/6844 [03:47<23:09,  4.24it/s] 14%|█▍        | 954/6844 [03:48<23:07,  4.24it/s] 14%|█▍        | 955/6844 [03:48<23:06,  4.25it/s] 14%|█▍        | 956/6844 [03:48<23:04,  4.25it/s] 14%|█▍        | 957/6844 [03:48<23:01,  4.26it/s] 14%|█▍        | 958/6844 [03:49<23:02,  4.26it/s] 14%|█▍        | 959/6844 [03:49<23:03,  4.25it/s] 14%|█▍        | 960/6844 [03:49<23:03,  4.25it/s] 14%|█▍        | 961/6844 [03:49<23:04,  4.25it/s] 14%|█▍        | 962/6844 [03:50<23:05,  4.25it/s] 14%|█▍        | 963/6844 [03:50<23:07,  4.24it/s] 14%|█▍        | 964/6844 [03:50<23:06,  4.24it/s] 14%|█▍        | 965/6844 [03:50<23:05,  4.24it/s] 14%|█▍        | 966/6844 [03:51<23:05,  4.24it/s] 14%|█▍        | 967/6844 [03:51<23:03,  4.25it/s] 14%|█▍        | 968/6844 [03:51<23:01,  4.25it/s] 14%|█▍        | 969/6844 [03:51<22:59,  4.26it/s] 14%|█▍        | 970/6844 [03:51<23:00,  4.26it/s] 14%|█▍        | 971/6844 [03:52<23:01,  4.25it/s] 14%|█▍        | 972/6844 [03:52<23:00,  4.25it/s] 14%|█▍        | 973/6844 [03:52<23:01,  4.25it/s] 14%|█▍        | 974/6844 [03:52<22:59,  4.25it/s] 14%|█▍        | 975/6844 [03:53<22:59,  4.25it/s]{'loss': 4.9728, 'grad_norm': 0.1514226198196411, 'learning_rate': 0.005967237688673535, 'epoch': 0.03}
-                                                   14%|█▍        | 975/6844 [03:53<22:59,  4.25it/s] 14%|█▍        | 976/6844 [03:53<23:04,  4.24it/s] 14%|█▍        | 977/6844 [03:53<23:06,  4.23it/s] 14%|█▍        | 978/6844 [03:53<23:06,  4.23it/s] 14%|█▍        | 979/6844 [03:54<23:04,  4.24it/s] 14%|█▍        | 980/6844 [03:54<23:03,  4.24it/s] 14%|█▍        | 981/6844 [03:54<23:03,  4.24it/s] 14%|█▍        | 982/6844 [03:54<23:01,  4.24it/s] 14%|█▍        | 983/6844 [03:55<22:58,  4.25it/s] 14%|█▍        | 984/6844 [03:55<22:59,  4.25it/s] 14%|█▍        | 985/6844 [03:55<23:00,  4.24it/s] 14%|█▍        | 986/6844 [03:55<23:01,  4.24it/s] 14%|█▍        | 987/6844 [03:55<22:59,  4.25it/s] 14%|█▍        | 988/6844 [03:56<22:58,  4.25it/s] 14%|█▍        | 989/6844 [03:56<23:00,  4.24it/s] 14%|█▍        | 990/6844 [03:56<22:59,  4.24it/s] 14%|█▍        | 991/6844 [03:56<22:58,  4.24it/s] 14%|█▍        | 992/6844 [03:57<22:56,  4.25it/s] 15%|█▍        | 993/6844 [03:57<22:57,  4.25it/s] 15%|█▍        | 994/6844 [03:57<22:58,  4.25it/s] 15%|█▍        | 995/6844 [03:57<22:58,  4.24it/s] 15%|█▍        | 996/6844 [03:58<22:58,  4.24it/s] 15%|█▍        | 997/6844 [03:58<22:57,  4.25it/s] 15%|█▍        | 998/6844 [03:58<22:55,  4.25it/s] 15%|█▍        | 999/6844 [03:58<22:53,  4.25it/s] 15%|█▍        | 1000/6844 [03:59<22:53,  4.26it/s]{'loss': 4.9658, 'grad_norm': 0.1526053547859192, 'learning_rate': 0.005961358216242879, 'epoch': 0.03}
-                                                    15%|█▍        | 1000/6844 [03:59<22:53,  4.26it/s] 15%|█▍        | 1001/6844 [03:59<22:58,  4.24it/s] 15%|█▍        | 1002/6844 [03:59<22:58,  4.24it/s] 15%|█▍        | 1003/6844 [03:59<22:57,  4.24it/s] 15%|█▍        | 1004/6844 [03:59<22:57,  4.24it/s] 15%|█▍        | 1005/6844 [04:00<22:55,  4.25it/s] 15%|█▍        | 1006/6844 [04:00<22:54,  4.25it/s] 15%|█▍        | 1007/6844 [04:00<22:55,  4.24it/s] 15%|█▍        | 1008/6844 [04:00<22:53,  4.25it/s] 15%|█▍        | 1009/6844 [04:01<22:53,  4.25it/s] 15%|█▍        | 1010/6844 [04:01<22:54,  4.25it/s] 15%|█▍        | 1011/6844 [04:01<22:54,  4.24it/s] 15%|█▍        | 1012/6844 [04:01<22:56,  4.24it/s] 15%|█▍        | 1013/6844 [04:02<22:55,  4.24it/s] 15%|█▍        | 1014/6844 [04:02<22:54,  4.24it/s] 15%|█▍        | 1015/6844 [04:02<22:52,  4.25it/s] 15%|█▍        | 1016/6844 [04:02<22:51,  4.25it/s] 15%|█▍        | 1017/6844 [04:03<22:51,  4.25it/s] 15%|█▍        | 1018/6844 [04:03<22:51,  4.25it/s] 15%|█▍        | 1019/6844 [04:03<22:54,  4.24it/s] 15%|█▍        | 1020/6844 [04:03<22:54,  4.24it/s] 15%|█▍        | 1021/6844 [04:04<22:50,  4.25it/s] 15%|█▍        | 1022/6844 [04:04<22:50,  4.25it/s] 15%|█▍        | 1023/6844 [04:04<22:49,  4.25it/s] 15%|█▍        | 1024/6844 [04:04<22:52,  4.24it/s] 15%|█▍        | 1025/6844 [04:04<22:51,  4.24it/s]                                                   {'loss': 4.9473, 'grad_norm': 0.15946181118488312, 'learning_rate': 0.005954997190456422, 'epoch': 0.03}
- 15%|█▍        | 1025/6844 [04:04<22:51,  4.24it/s] 15%|█▍        | 1026/6844 [04:05<22:55,  4.23it/s] 15%|█▌        | 1027/6844 [04:05<22:55,  4.23it/s] 15%|█▌        | 1028/6844 [04:05<22:54,  4.23it/s] 15%|█▌        | 1029/6844 [04:05<22:51,  4.24it/s] 15%|█▌        | 1030/6844 [04:06<22:49,  4.25it/s] 15%|█▌        | 1031/6844 [04:06<22:49,  4.25it/s] 15%|█▌        | 1032/6844 [04:06<22:48,  4.25it/s] 15%|█▌        | 1033/6844 [04:06<22:50,  4.24it/s] 15%|█▌        | 1034/6844 [04:07<22:49,  4.24it/s] 15%|█▌        | 1035/6844 [04:07<22:49,  4.24it/s] 15%|█▌        | 1036/6844 [04:07<22:48,  4.24it/s] 15%|█▌        | 1037/6844 [04:07<22:46,  4.25it/s] 15%|█▌        | 1038/6844 [04:08<22:46,  4.25it/s] 15%|█▌        | 1039/6844 [04:08<22:44,  4.25it/s] 15%|█▌        | 1040/6844 [04:08<22:46,  4.25it/s] 15%|█▌        | 1041/6844 [04:08<22:46,  4.25it/s] 15%|█▌        | 1042/6844 [04:08<22:48,  4.24it/s] 15%|█▌        | 1043/6844 [04:09<22:48,  4.24it/s] 15%|█▌        | 1044/6844 [04:09<22:46,  4.24it/s] 15%|█▌        | 1045/6844 [04:09<22:43,  4.25it/s] 15%|█▌        | 1046/6844 [04:09<22:43,  4.25it/s] 15%|█▌        | 1047/6844 [04:10<22:43,  4.25it/s] 15%|█▌        | 1048/6844 [04:10<22:44,  4.25it/s] 15%|█▌        | 1049/6844 [04:10<22:44,  4.25it/s] 15%|█▌        | 1050/6844 [04:10<22:45,  4.24it/s]{'loss': 4.9368, 'grad_norm': 0.14748410880565643, 'learning_rate': 0.0059481556456953836, 'epoch': 0.03}                                                   
- 15%|█▌        | 1050/6844 [04:10<22:45,  4.24it/s] 15%|█▌        | 1051/6844 [04:11<22:48,  4.23it/s] 15%|█▌        | 1052/6844 [04:11<22:44,  4.24it/s] 15%|█▌        | 1053/6844 [04:11<22:45,  4.24it/s] 15%|█▌        | 1054/6844 [04:11<22:44,  4.24it/s] 15%|█▌        | 1055/6844 [04:12<22:42,  4.25it/s] 15%|█▌        | 1056/6844 [04:12<22:40,  4.25it/s] 15%|█▌        | 1057/6844 [04:12<22:41,  4.25it/s] 15%|█▌        | 1058/6844 [04:12<22:42,  4.25it/s] 15%|█▌        | 1059/6844 [04:12<22:41,  4.25it/s] 15%|█▌        | 1060/6844 [04:13<22:39,  4.25it/s] 16%|█▌        | 1061/6844 [04:13<22:39,  4.25it/s] 16%|█▌        | 1062/6844 [04:13<22:39,  4.25it/s] 16%|█▌        | 1063/6844 [04:13<22:39,  4.25it/s] 16%|█▌        | 1064/6844 [04:14<22:40,  4.25it/s] 16%|█▌        | 1065/6844 [04:14<22:41,  4.24it/s] 16%|█▌        | 1066/6844 [04:14<22:42,  4.24it/s] 16%|█▌        | 1067/6844 [04:14<22:40,  4.25it/s] 16%|█▌        | 1068/6844 [04:15<22:38,  4.25it/s] 16%|█▌        | 1069/6844 [04:15<23:25,  4.11it/s] 16%|█▌        | 1070/6844 [04:15<23:36,  4.08it/s] 16%|█▌        | 1071/6844 [04:15<23:16,  4.13it/s] 16%|█▌        | 1072/6844 [04:16<23:04,  4.17it/s] 16%|█▌        | 1073/6844 [04:16<22:56,  4.19it/s] 16%|█▌        | 1074/6844 [04:16<22:51,  4.21it/s] 16%|█▌        | 1075/6844 [04:16<22:47,  4.22it/s]                                                   {'loss': 4.9315, 'grad_norm': 0.14914406836032867, 'learning_rate': 0.0059408346944792864, 'epoch': 0.03}
- 16%|█▌        | 1075/6844 [04:16<22:47,  4.22it/s] 16%|█▌        | 1076/6844 [04:16<22:50,  4.21it/s] 16%|█▌        | 1077/6844 [04:17<22:46,  4.22it/s] 16%|█▌        | 1078/6844 [04:17<22:41,  4.24it/s] 16%|█▌        | 1079/6844 [04:17<22:39,  4.24it/s] 16%|█▌        | 1080/6844 [04:17<22:42,  4.23it/s] 16%|█▌        | 1081/6844 [04:18<22:40,  4.24it/s] 16%|█▌        | 1082/6844 [04:18<22:37,  4.24it/s] 16%|█▌        | 1083/6844 [04:18<22:36,  4.25it/s] 16%|█▌        | 1084/6844 [04:18<22:35,  4.25it/s] 16%|█▌        | 1085/6844 [04:19<22:34,  4.25it/s] 16%|█▌        | 1086/6844 [04:19<22:33,  4.25it/s] 16%|█▌        | 1087/6844 [04:19<22:33,  4.25it/s] 16%|█▌        | 1088/6844 [04:19<22:32,  4.26it/s] 16%|█▌        | 1089/6844 [04:20<22:32,  4.26it/s] 16%|█▌        | 1090/6844 [04:20<22:31,  4.26it/s] 16%|█▌        | 1091/6844 [04:20<22:30,  4.26it/s] 16%|█▌        | 1092/6844 [04:20<22:30,  4.26it/s] 16%|█▌        | 1093/6844 [04:20<22:29,  4.26it/s] 16%|█▌        | 1094/6844 [04:21<22:28,  4.27it/s] 16%|█▌        | 1095/6844 [04:21<22:31,  4.25it/s] 16%|█▌        | 1096/6844 [04:21<22:32,  4.25it/s] 16%|█▌        | 1097/6844 [04:21<22:31,  4.25it/s] 16%|█▌        | 1098/6844 [04:22<22:28,  4.26it/s] 16%|█▌        | 1099/6844 [04:22<22:32,  4.25it/s] 16%|█▌        | 1100/6844 [04:22<22:31,  4.25it/s]                                                   {'loss': 4.9251, 'grad_norm': 0.16247428953647614, 'learning_rate': 0.005933035527285059, 'epoch': 0.03}
- 16%|█▌        | 1100/6844 [04:22<22:31,  4.25it/s] 16%|█▌        | 1101/6844 [04:22<22:32,  4.25it/s] 16%|█▌        | 1102/6844 [04:23<22:30,  4.25it/s] 16%|█▌        | 1103/6844 [04:23<22:29,  4.25it/s] 16%|█▌        | 1104/6844 [04:23<22:29,  4.25it/s] 16%|█▌        | 1105/6844 [04:23<22:32,  4.24it/s] 16%|█▌        | 1106/6844 [04:24<22:30,  4.25it/s] 16%|█▌        | 1107/6844 [04:24<22:29,  4.25it/s] 16%|█▌        | 1108/6844 [04:24<22:28,  4.25it/s] 16%|█▌        | 1109/6844 [04:24<22:27,  4.25it/s] 16%|█▌        | 1110/6844 [04:24<22:27,  4.25it/s] 16%|█▌        | 1111/6844 [04:25<22:29,  4.25it/s] 16%|█▌        | 1112/6844 [04:25<22:28,  4.25it/s] 16%|█▋        | 1113/6844 [04:25<22:27,  4.25it/s] 16%|█▋        | 1114/6844 [04:25<22:27,  4.25it/s] 16%|█▋        | 1115/6844 [04:26<22:26,  4.25it/s] 16%|█▋        | 1116/6844 [04:26<22:25,  4.26it/s] 16%|█▋        | 1117/6844 [04:26<22:24,  4.26it/s] 16%|█▋        | 1118/6844 [04:26<22:26,  4.25it/s] 16%|█▋        | 1119/6844 [04:27<22:26,  4.25it/s] 16%|█▋        | 1120/6844 [04:27<22:25,  4.25it/s] 16%|█▋        | 1121/6844 [04:27<22:24,  4.26it/s] 16%|█▋        | 1122/6844 [04:27<22:24,  4.26it/s] 16%|█▋        | 1123/6844 [04:28<22:23,  4.26it/s] 16%|█▋        | 1124/6844 [04:28<22:22,  4.26it/s] 16%|█▋        | 1125/6844 [04:28<22:22,  4.26it/s]                                                   {'loss': 4.9035, 'grad_norm': 0.1472211629152298, 'learning_rate': 0.00592475941235344, 'epoch': 0.03}
- 16%|█▋        | 1125/6844 [04:28<22:22,  4.26it/s] 16%|█▋        | 1126/6844 [04:28<22:27,  4.24it/s] 16%|█▋        | 1127/6844 [04:28<22:26,  4.25it/s] 16%|█▋        | 1128/6844 [04:29<22:25,  4.25it/s] 16%|█▋        | 1129/6844 [04:29<22:24,  4.25it/s] 17%|█▋        | 1130/6844 [04:29<22:22,  4.26it/s] 17%|█▋        | 1131/6844 [04:29<22:22,  4.25it/s] 17%|█▋        | 1132/6844 [04:30<22:22,  4.25it/s] 17%|█▋        | 1133/6844 [04:30<22:25,  4.25it/s] 17%|█▋        | 1134/6844 [04:30<22:25,  4.24it/s] 17%|█▋        | 1135/6844 [04:30<22:23,  4.25it/s] 17%|█▋        | 1136/6844 [04:31<22:22,  4.25it/s] 17%|█▋        | 1137/6844 [04:31<22:22,  4.25it/s] 17%|█▋        | 1138/6844 [04:31<22:21,  4.25it/s] 17%|█▋        | 1139/6844 [04:31<22:20,  4.25it/s] 17%|█▋        | 1140/6844 [04:32<22:19,  4.26it/s] 17%|█▋        | 1141/6844 [04:32<22:19,  4.26it/s] 17%|█▋        | 1142/6844 [04:32<22:18,  4.26it/s] 17%|█▋        | 1143/6844 [04:32<22:19,  4.26it/s] 17%|█▋        | 1144/6844 [04:32<22:21,  4.25it/s] 17%|█▋        | 1145/6844 [04:33<22:21,  4.25it/s] 17%|█▋        | 1146/6844 [04:33<22:21,  4.25it/s] 17%|█▋        | 1147/6844 [04:33<22:19,  4.25it/s] 17%|█▋        | 1148/6844 [04:33<22:22,  4.24it/s] 17%|█▋        | 1149/6844 [04:34<22:21,  4.24it/s] 17%|█▋        | 1150/6844 [04:34<22:20,  4.25it/s]{'loss': 4.8859, 'grad_norm': 0.1483246237039566, 'learning_rate': 0.005916007695482751, 'epoch': 0.03}                                                   
- 17%|█▋        | 1150/6844 [04:34<22:20,  4.25it/s] 17%|█▋        | 1151/6844 [04:34<22:26,  4.23it/s] 17%|█▋        | 1152/6844 [04:34<22:24,  4.23it/s] 17%|█▋        | 1153/6844 [04:35<22:21,  4.24it/s] 17%|█▋        | 1154/6844 [04:35<22:19,  4.25it/s] 17%|█▋        | 1155/6844 [04:35<22:17,  4.25it/s] 17%|█▋        | 1156/6844 [04:35<22:17,  4.25it/s] 17%|█▋        | 1157/6844 [04:36<22:17,  4.25it/s] 17%|█▋        | 1158/6844 [04:36<22:16,  4.26it/s] 17%|█▋        | 1159/6844 [04:36<22:15,  4.26it/s] 17%|█▋        | 1160/6844 [04:36<22:16,  4.25it/s] 17%|█▋        | 1161/6844 [04:36<22:14,  4.26it/s] 17%|█▋        | 1162/6844 [04:37<22:13,  4.26it/s] 17%|█▋        | 1163/6844 [04:37<22:15,  4.26it/s] 17%|█▋        | 1164/6844 [04:37<22:13,  4.26it/s] 17%|█▋        | 1165/6844 [04:37<22:13,  4.26it/s] 17%|█▋        | 1166/6844 [04:38<22:15,  4.25it/s] 17%|█▋        | 1167/6844 [04:38<22:16,  4.25it/s] 17%|█▋        | 1168/6844 [04:38<22:13,  4.26it/s] 17%|█▋        | 1169/6844 [04:38<22:13,  4.26it/s] 17%|█▋        | 1170/6844 [04:39<22:14,  4.25it/s] 17%|█▋        | 1171/6844 [04:39<22:13,  4.25it/s] 17%|█▋        | 1172/6844 [04:39<22:13,  4.25it/s] 17%|█▋        | 1173/6844 [04:39<22:12,  4.26it/s] 17%|█▋        | 1174/6844 [04:40<22:12,  4.26it/s] 17%|█▋        | 1175/6844 [04:40<22:12,  4.25it/s]{'loss': 4.8861, 'grad_norm': 0.14415842294692993, 'learning_rate': 0.005906781799810053, 'epoch': 0.03}                                                   
- 17%|█▋        | 1175/6844 [04:40<22:12,  4.25it/s] 17%|█▋        | 1176/6844 [04:40<22:17,  4.24it/s] 17%|█▋        | 1177/6844 [04:40<22:17,  4.24it/s] 17%|█▋        | 1178/6844 [04:40<22:18,  4.23it/s] 17%|█▋        | 1179/6844 [04:41<22:15,  4.24it/s] 17%|█▋        | 1180/6844 [04:41<22:11,  4.25it/s] 17%|█▋        | 1181/6844 [04:41<22:12,  4.25it/s] 17%|█▋        | 1182/6844 [04:41<22:12,  4.25it/s] 17%|█▋        | 1183/6844 [04:42<22:11,  4.25it/s] 17%|█▋        | 1184/6844 [04:42<22:09,  4.26it/s] 17%|█▋        | 1185/6844 [04:42<22:08,  4.26it/s] 17%|█▋        | 1186/6844 [04:42<22:08,  4.26it/s] 17%|█▋        | 1187/6844 [04:43<22:08,  4.26it/s] 17%|█▋        | 1188/6844 [04:43<22:06,  4.26it/s] 17%|█▋        | 1189/6844 [04:43<22:09,  4.25it/s] 17%|█▋        | 1190/6844 [04:43<22:06,  4.26it/s] 17%|█▋        | 1191/6844 [04:44<22:04,  4.27it/s] 17%|█▋        | 1192/6844 [04:44<22:06,  4.26it/s] 17%|█▋        | 1193/6844 [04:44<22:09,  4.25it/s] 17%|█▋        | 1194/6844 [04:44<22:07,  4.25it/s] 17%|█▋        | 1195/6844 [04:44<22:06,  4.26it/s] 17%|█▋        | 1196/6844 [04:45<22:16,  4.23it/s] 17%|█▋        | 1197/6844 [04:45<23:02,  4.09it/s] 18%|█▊        | 1198/6844 [04:45<22:56,  4.10it/s] 18%|█▊        | 1199/6844 [04:45<22:42,  4.14it/s] 18%|█▊        | 1200/6844 [04:46<22:32,  4.17it/s]{'loss': 4.8651, 'grad_norm': 0.15432311594486237, 'learning_rate': 0.005897083225579728, 'epoch': 0.04}
-                                                    18%|█▊        | 1200/6844 [04:46<22:32,  4.17it/s] 18%|█▊        | 1201/6844 [04:46<22:31,  4.18it/s] 18%|█▊        | 1202/6844 [04:46<22:23,  4.20it/s] 18%|█▊        | 1203/6844 [04:46<22:18,  4.21it/s] 18%|█▊        | 1204/6844 [04:47<22:16,  4.22it/s] 18%|█▊        | 1205/6844 [04:47<22:12,  4.23it/s] 18%|█▊        | 1206/6844 [04:47<22:11,  4.23it/s] 18%|█▊        | 1207/6844 [04:47<22:10,  4.24it/s] 18%|█▊        | 1208/6844 [04:48<22:08,  4.24it/s] 18%|█▊        | 1209/6844 [04:48<22:07,  4.25it/s] 18%|█▊        | 1210/6844 [04:48<22:04,  4.25it/s] 18%|█▊        | 1211/6844 [04:48<22:02,  4.26it/s] 18%|█▊        | 1212/6844 [04:49<22:04,  4.25it/s] 18%|█▊        | 1213/6844 [04:49<22:03,  4.25it/s] 18%|█▊        | 1214/6844 [04:49<22:05,  4.25it/s] 18%|█▊        | 1215/6844 [04:49<22:08,  4.24it/s] 18%|█▊        | 1216/6844 [04:49<22:07,  4.24it/s] 18%|█▊        | 1217/6844 [04:50<22:05,  4.25it/s] 18%|█▊        | 1218/6844 [04:50<22:04,  4.25it/s] 18%|█▊        | 1219/6844 [04:50<22:04,  4.25it/s] 18%|█▊        | 1220/6844 [04:50<22:04,  4.25it/s] 18%|█▊        | 1221/6844 [04:51<22:03,  4.25it/s] 18%|█▊        | 1222/6844 [04:51<22:03,  4.25it/s] 18%|█▊        | 1223/6844 [04:51<22:00,  4.26it/s] 18%|█▊        | 1224/6844 [04:51<21:59,  4.26it/s] 18%|█▊        | 1225/6844 [04:52<21:59,  4.26it/s]                                                   {'loss': 4.8769, 'grad_norm': 0.1359625607728958, 'learning_rate': 0.005886913549899513, 'epoch': 0.04}
- 18%|█▊        | 1225/6844 [04:52<21:59,  4.26it/s] 18%|█▊        | 1226/6844 [04:52<22:02,  4.25it/s] 18%|█▊        | 1227/6844 [04:52<22:00,  4.25it/s] 18%|█▊        | 1228/6844 [04:52<21:59,  4.26it/s] 18%|█▊        | 1229/6844 [04:53<21:58,  4.26it/s] 18%|█▊        | 1230/6844 [04:53<21:59,  4.26it/s] 18%|█▊        | 1231/6844 [04:53<21:58,  4.26it/s] 18%|█▊        | 1232/6844 [04:53<21:57,  4.26it/s] 18%|█▊        | 1233/6844 [04:53<21:58,  4.26it/s] 18%|█▊        | 1234/6844 [04:54<21:59,  4.25it/s] 18%|█▊        | 1235/6844 [04:54<22:00,  4.25it/s] 18%|█▊        | 1236/6844 [04:54<21:58,  4.25it/s] 18%|█▊        | 1237/6844 [04:54<21:58,  4.25it/s] 18%|█▊        | 1238/6844 [04:55<21:57,  4.25it/s] 18%|█▊        | 1239/6844 [04:55<21:57,  4.26it/s] 18%|█▊        | 1240/6844 [04:55<21:55,  4.26it/s] 18%|█▊        | 1241/6844 [04:55<21:53,  4.26it/s] 18%|█▊        | 1242/6844 [04:56<21:53,  4.26it/s] 18%|█▊        | 1243/6844 [04:56<21:53,  4.26it/s] 18%|█▊        | 1244/6844 [04:56<21:53,  4.26it/s] 18%|█▊        | 1245/6844 [04:56<21:56,  4.25it/s] 18%|█▊        | 1246/6844 [04:57<21:54,  4.26it/s] 18%|█▊        | 1247/6844 [04:57<21:52,  4.26it/s] 18%|█▊        | 1248/6844 [04:57<21:52,  4.26it/s] 18%|█▊        | 1249/6844 [04:57<21:48,  4.27it/s] 18%|█▊        | 1250/6844 [04:57<21:50,  4.27it/s]                                                   {'loss': 4.8482, 'grad_norm': 0.14976482093334198, 'learning_rate': 0.005876274426484057, 'epoch': 0.04}
- 18%|█▊        | 1250/6844 [04:57<21:50,  4.27it/s] 18%|█▊        | 1251/6844 [04:58<21:54,  4.25it/s] 18%|█▊        | 1252/6844 [04:58<21:55,  4.25it/s] 18%|█▊        | 1253/6844 [04:58<21:55,  4.25it/s] 18%|█▊        | 1254/6844 [04:58<21:54,  4.25it/s] 18%|█▊        | 1255/6844 [04:59<21:53,  4.26it/s] 18%|█▊        | 1256/6844 [04:59<21:55,  4.25it/s] 18%|█▊        | 1257/6844 [04:59<21:53,  4.25it/s] 18%|█▊        | 1258/6844 [04:59<21:52,  4.26it/s] 18%|█▊        | 1259/6844 [05:00<21:51,  4.26it/s] 18%|█▊        | 1260/6844 [05:00<21:53,  4.25it/s] 18%|█▊        | 1261/6844 [05:00<21:53,  4.25it/s] 18%|█▊        | 1262/6844 [05:00<21:54,  4.25it/s] 18%|█▊        | 1263/6844 [05:01<21:54,  4.25it/s] 18%|█▊        | 1264/6844 [05:01<21:54,  4.25it/s] 18%|█▊        | 1265/6844 [05:01<21:54,  4.24it/s] 18%|█▊        | 1266/6844 [05:01<21:53,  4.25it/s] 19%|█▊        | 1267/6844 [05:01<21:53,  4.25it/s] 19%|█▊        | 1268/6844 [05:02<21:52,  4.25it/s] 19%|█▊        | 1269/6844 [05:02<21:53,  4.25it/s] 19%|█▊        | 1270/6844 [05:02<21:50,  4.25it/s] 19%|█▊        | 1271/6844 [05:02<21:50,  4.25it/s] 19%|█▊        | 1272/6844 [05:03<21:49,  4.25it/s] 19%|█▊        | 1273/6844 [05:03<21:48,  4.26it/s] 19%|█▊        | 1274/6844 [05:03<21:49,  4.25it/s] 19%|█▊        | 1275/6844 [05:03<21:51,  4.25it/s]{'loss': 4.8521, 'grad_norm': 0.13675685226917267, 'learning_rate': 0.005865167585385992, 'epoch': 0.04}                                                   
- 19%|█▊        | 1275/6844 [05:03<21:51,  4.25it/s] 19%|█▊        | 1276/6844 [05:04<21:54,  4.24it/s] 19%|█▊        | 1277/6844 [05:04<21:53,  4.24it/s] 19%|█▊        | 1278/6844 [05:04<21:52,  4.24it/s] 19%|█▊        | 1279/6844 [05:04<21:51,  4.24it/s] 19%|█▊        | 1280/6844 [05:05<21:49,  4.25it/s] 19%|█▊        | 1281/6844 [05:05<21:49,  4.25it/s] 19%|█▊        | 1282/6844 [05:05<21:51,  4.24it/s] 19%|█▊        | 1283/6844 [05:05<21:52,  4.24it/s] 19%|█▉        | 1284/6844 [05:05<21:50,  4.24it/s] 19%|█▉        | 1285/6844 [05:06<21:49,  4.25it/s] 19%|█▉        | 1286/6844 [05:06<21:49,  4.24it/s] 19%|█▉        | 1287/6844 [05:06<21:47,  4.25it/s] 19%|█▉        | 1288/6844 [05:06<21:47,  4.25it/s] 19%|█▉        | 1289/6844 [05:07<21:48,  4.25it/s] 19%|█▉        | 1290/6844 [05:07<21:48,  4.24it/s] 19%|█▉        | 1291/6844 [05:07<21:48,  4.24it/s] 19%|█▉        | 1292/6844 [05:07<21:48,  4.24it/s] 19%|█▉        | 1293/6844 [05:08<21:48,  4.24it/s] 19%|█▉        | 1294/6844 [05:08<21:47,  4.24it/s] 19%|█▉        | 1295/6844 [05:08<21:47,  4.24it/s] 19%|█▉        | 1296/6844 [05:08<21:47,  4.24it/s] 19%|█▉        | 1297/6844 [05:09<21:47,  4.24it/s] 19%|█▉        | 1298/6844 [05:09<21:47,  4.24it/s] 19%|█▉        | 1299/6844 [05:09<21:47,  4.24it/s] 19%|█▉        | 1300/6844 [05:09<21:48,  4.24it/s]                                                   {'loss': 4.8486, 'grad_norm': 0.14221210777759552, 'learning_rate': 0.005853594832714617, 'epoch': 0.04}
- 19%|█▉        | 1300/6844 [05:09<21:48,  4.24it/s] 19%|█▉        | 1301/6844 [05:09<21:52,  4.22it/s] 19%|█▉        | 1302/6844 [05:10<21:48,  4.24it/s] 19%|█▉        | 1303/6844 [05:10<21:47,  4.24it/s] 19%|█▉        | 1304/6844 [05:10<21:47,  4.24it/s] 19%|█▉        | 1305/6844 [05:10<21:46,  4.24it/s] 19%|█▉        | 1306/6844 [05:11<21:44,  4.24it/s] 19%|█▉        | 1307/6844 [05:11<21:42,  4.25it/s] 19%|█▉        | 1308/6844 [05:11<21:43,  4.25it/s] 19%|█▉        | 1309/6844 [05:11<21:43,  4.25it/s] 19%|█▉        | 1310/6844 [05:12<21:43,  4.25it/s] 19%|█▉        | 1311/6844 [05:12<21:43,  4.24it/s] 19%|█▉        | 1312/6844 [05:12<21:42,  4.25it/s] 19%|█▉        | 1313/6844 [05:12<21:41,  4.25it/s] 19%|█▉        | 1314/6844 [05:13<21:40,  4.25it/s] 19%|█▉        | 1315/6844 [05:13<21:40,  4.25it/s] 19%|█▉        | 1316/6844 [05:13<21:37,  4.26it/s] 19%|█▉        | 1317/6844 [05:13<21:37,  4.26it/s] 19%|█▉        | 1318/6844 [05:13<21:38,  4.25it/s] 19%|█▉        | 1319/6844 [05:14<21:39,  4.25it/s] 19%|█▉        | 1320/6844 [05:14<21:40,  4.25it/s] 19%|█▉        | 1321/6844 [05:14<21:39,  4.25it/s] 19%|█▉        | 1322/6844 [05:14<21:40,  4.25it/s] 19%|█▉        | 1323/6844 [05:15<21:40,  4.25it/s] 19%|█▉        | 1324/6844 [05:15<21:37,  4.26it/s] 19%|█▉        | 1325/6844 [05:15<21:35,  4.26it/s]                                                   {'loss': 4.8335, 'grad_norm': 0.14231234788894653, 'learning_rate': 0.00584155805034219, 'epoch': 0.04}
- 19%|█▉        | 1325/6844 [05:15<21:35,  4.26it/s] 19%|█▉        | 1326/6844 [05:15<21:41,  4.24it/s] 19%|█▉        | 1327/6844 [05:16<21:43,  4.23it/s] 19%|█▉        | 1328/6844 [05:16<21:43,  4.23it/s] 19%|█▉        | 1329/6844 [05:16<21:39,  4.24it/s] 19%|█▉        | 1330/6844 [05:16<21:37,  4.25it/s] 19%|█▉        | 1331/6844 [05:17<21:36,  4.25it/s] 19%|█▉        | 1332/6844 [05:17<21:36,  4.25it/s] 19%|█▉        | 1333/6844 [05:17<21:36,  4.25it/s] 19%|█▉        | 1334/6844 [05:17<21:36,  4.25it/s] 20%|█▉        | 1335/6844 [05:17<21:36,  4.25it/s] 20%|█▉        | 1336/6844 [05:18<21:36,  4.25it/s] 20%|█▉        | 1337/6844 [05:18<21:35,  4.25it/s] 20%|█▉        | 1338/6844 [05:18<21:34,  4.25it/s] 20%|█▉        | 1339/6844 [05:18<21:32,  4.26it/s] 20%|█▉        | 1340/6844 [05:19<21:32,  4.26it/s] 20%|█▉        | 1341/6844 [05:19<21:36,  4.24it/s] 20%|█▉        | 1342/6844 [05:19<21:36,  4.25it/s] 20%|█▉        | 1343/6844 [05:19<21:34,  4.25it/s] 20%|█▉        | 1344/6844 [05:20<21:34,  4.25it/s] 20%|█▉        | 1345/6844 [05:20<21:35,  4.24it/s] 20%|█▉        | 1346/6844 [05:20<21:33,  4.25it/s] 20%|█▉        | 1347/6844 [05:20<21:33,  4.25it/s] 20%|█▉        | 1348/6844 [05:21<21:34,  4.25it/s] 20%|█▉        | 1349/6844 [05:21<21:34,  4.25it/s] 20%|█▉        | 1350/6844 [05:21<21:32,  4.25it/s]{'loss': 4.825, 'grad_norm': 0.14397118985652924, 'learning_rate': 0.005829059195597926, 'epoch': 0.04}                                                   
- 20%|█▉        | 1350/6844 [05:21<21:32,  4.25it/s] 20%|█▉        | 1351/6844 [05:21<21:37,  4.23it/s] 20%|█▉        | 1352/6844 [05:21<21:35,  4.24it/s] 20%|█▉        | 1353/6844 [05:22<21:34,  4.24it/s] 20%|█▉        | 1354/6844 [05:22<21:34,  4.24it/s] 20%|█▉        | 1355/6844 [05:22<21:31,  4.25it/s] 20%|█▉        | 1356/6844 [05:22<21:30,  4.25it/s] 20%|█▉        | 1357/6844 [05:23<21:29,  4.26it/s] 20%|█▉        | 1358/6844 [05:23<21:28,  4.26it/s] 20%|█▉        | 1359/6844 [05:23<21:27,  4.26it/s] 20%|█▉        | 1360/6844 [05:23<21:26,  4.26it/s] 20%|█▉        | 1361/6844 [05:24<21:25,  4.26it/s] 20%|█▉        | 1362/6844 [05:24<21:25,  4.26it/s] 20%|█▉        | 1363/6844 [05:24<21:29,  4.25it/s] 20%|█▉        | 1364/6844 [05:24<21:28,  4.25it/s] 20%|█▉        | 1365/6844 [05:25<21:28,  4.25it/s] 20%|█▉        | 1366/6844 [05:25<21:28,  4.25it/s] 20%|█▉        | 1367/6844 [05:25<21:29,  4.25it/s] 20%|█▉        | 1368/6844 [05:25<21:27,  4.25it/s] 20%|██        | 1369/6844 [05:25<21:28,  4.25it/s] 20%|██        | 1370/6844 [05:26<21:29,  4.25it/s] 20%|██        | 1371/6844 [05:26<21:30,  4.24it/s] 20%|██        | 1372/6844 [05:26<21:28,  4.25it/s] 20%|██        | 1373/6844 [05:26<21:28,  4.25it/s] 20%|██        | 1374/6844 [05:27<21:28,  4.24it/s] 20%|██        | 1375/6844 [05:27<21:27,  4.25it/s]                                                   {'loss': 4.8115, 'grad_norm': 0.13004982471466064, 'learning_rate': 0.0058161003009496995, 'epoch': 0.04}
- 20%|██        | 1375/6844 [05:27<21:27,  4.25it/s] 20%|██        | 1376/6844 [05:27<21:31,  4.23it/s] 20%|██        | 1377/6844 [05:27<21:29,  4.24it/s] 20%|██        | 1378/6844 [05:28<21:28,  4.24it/s] 20%|██        | 1379/6844 [05:28<21:27,  4.24it/s] 20%|██        | 1380/6844 [05:28<21:25,  4.25it/s] 20%|██        | 1381/6844 [05:28<21:24,  4.25it/s] 20%|██        | 1382/6844 [05:29<21:23,  4.25it/s] 20%|██        | 1383/6844 [05:29<21:23,  4.26it/s] 20%|██        | 1384/6844 [05:29<21:23,  4.26it/s] 20%|██        | 1385/6844 [05:29<21:25,  4.25it/s] 20%|██        | 1386/6844 [05:29<21:25,  4.25it/s] 20%|██        | 1387/6844 [05:30<21:46,  4.18it/s] 20%|██        | 1388/6844 [05:30<21:43,  4.19it/s] 20%|██        | 1389/6844 [05:30<21:36,  4.21it/s] 20%|██        | 1390/6844 [05:30<21:30,  4.23it/s] 20%|██        | 1391/6844 [05:31<21:27,  4.24it/s] 20%|██        | 1392/6844 [05:31<21:24,  4.24it/s] 20%|██        | 1393/6844 [05:31<21:24,  4.24it/s] 20%|██        | 1394/6844 [05:31<21:21,  4.25it/s] 20%|██        | 1395/6844 [05:32<21:21,  4.25it/s] 20%|██        | 1396/6844 [05:32<21:23,  4.24it/s] 20%|██        | 1397/6844 [05:32<21:22,  4.25it/s] 20%|██        | 1398/6844 [05:32<21:21,  4.25it/s] 20%|██        | 1399/6844 [05:33<21:20,  4.25it/s] 20%|██        | 1400/6844 [05:33<21:20,  4.25it/s]                                                   {'loss': 4.7896, 'grad_norm': 0.13838784396648407, 'learning_rate': 0.0058026834736735495, 'epoch': 0.04}
- 20%|██        | 1400/6844 [05:33<21:20,  4.25it/s] 20%|██        | 1401/6844 [05:33<21:24,  4.24it/s] 20%|██        | 1402/6844 [05:33<21:24,  4.24it/s] 20%|██        | 1403/6844 [05:33<21:23,  4.24it/s] 21%|██        | 1404/6844 [05:34<21:23,  4.24it/s] 21%|██        | 1405/6844 [05:34<21:21,  4.24it/s] 21%|██        | 1406/6844 [05:34<21:20,  4.25it/s] 21%|██        | 1407/6844 [05:34<21:22,  4.24it/s] 21%|██        | 1408/6844 [05:35<21:20,  4.25it/s] 21%|██        | 1409/6844 [05:35<21:20,  4.25it/s] 21%|██        | 1410/6844 [05:35<21:19,  4.25it/s] 21%|██        | 1411/6844 [05:35<21:20,  4.24it/s] 21%|██        | 1412/6844 [05:36<21:20,  4.24it/s] 21%|██        | 1413/6844 [05:36<21:18,  4.25it/s] 21%|██        | 1414/6844 [05:36<21:17,  4.25it/s] 21%|██        | 1415/6844 [05:36<21:17,  4.25it/s] 21%|██        | 1416/6844 [05:37<21:17,  4.25it/s] 21%|██        | 1417/6844 [05:37<21:16,  4.25it/s] 21%|██        | 1418/6844 [05:37<21:17,  4.25it/s] 21%|██        | 1419/6844 [05:37<21:15,  4.25it/s] 21%|██        | 1420/6844 [05:37<21:16,  4.25it/s] 21%|██        | 1421/6844 [05:38<21:15,  4.25it/s] 21%|██        | 1422/6844 [05:38<21:15,  4.25it/s] 21%|██        | 1423/6844 [05:38<21:14,  4.25it/s] 21%|██        | 1424/6844 [05:38<21:14,  4.25it/s] 21%|██        | 1425/6844 [05:39<21:16,  4.25it/s]{'loss': 4.7948, 'grad_norm': 0.13751238584518433, 'learning_rate': 0.005788810895511002, 'epoch': 0.04}
-                                                    21%|██        | 1425/6844 [05:39<21:16,  4.25it/s] 21%|██        | 1426/6844 [05:39<21:18,  4.24it/s] 21%|██        | 1427/6844 [05:39<21:15,  4.25it/s] 21%|██        | 1428/6844 [05:39<21:14,  4.25it/s] 21%|██        | 1429/6844 [05:40<21:14,  4.25it/s] 21%|██        | 1430/6844 [05:40<21:13,  4.25it/s] 21%|██        | 1431/6844 [05:40<21:14,  4.25it/s] 21%|██        | 1432/6844 [05:40<21:14,  4.24it/s] 21%|██        | 1433/6844 [05:41<21:14,  4.25it/s] 21%|██        | 1434/6844 [05:41<21:13,  4.25it/s] 21%|██        | 1435/6844 [05:41<21:12,  4.25it/s] 21%|██        | 1436/6844 [05:41<21:13,  4.25it/s] 21%|██        | 1437/6844 [05:41<21:12,  4.25it/s] 21%|██        | 1438/6844 [05:42<21:12,  4.25it/s] 21%|██        | 1439/6844 [05:42<21:12,  4.25it/s] 21%|██        | 1440/6844 [05:42<21:11,  4.25it/s] 21%|██        | 1441/6844 [05:42<21:10,  4.25it/s] 21%|██        | 1442/6844 [05:43<21:08,  4.26it/s] 21%|██        | 1443/6844 [05:43<21:09,  4.26it/s] 21%|██        | 1444/6844 [05:43<21:09,  4.25it/s] 21%|██        | 1445/6844 [05:43<21:09,  4.25it/s] 21%|██        | 1446/6844 [05:44<21:09,  4.25it/s] 21%|██        | 1447/6844 [05:44<21:08,  4.25it/s] 21%|██        | 1448/6844 [05:44<21:09,  4.25it/s] 21%|██        | 1449/6844 [05:44<21:08,  4.25it/s] 21%|██        | 1450/6844 [05:45<21:09,  4.25it/s]{'loss': 4.7936, 'grad_norm': 0.13480030000209808, 'learning_rate': 0.005774484822314299, 'epoch': 0.04}
-                                                    21%|██        | 1450/6844 [05:45<21:09,  4.25it/s] 21%|██        | 1451/6844 [05:45<21:58,  4.09it/s] 21%|██        | 1452/6844 [05:45<22:39,  3.97it/s] 21%|██        | 1453/6844 [05:45<22:11,  4.05it/s] 21%|██        | 1454/6844 [05:46<21:55,  4.10it/s] 21%|██▏       | 1455/6844 [05:46<21:40,  4.14it/s] 21%|██▏       | 1456/6844 [05:46<21:30,  4.17it/s] 21%|██▏       | 1457/6844 [05:46<21:23,  4.20it/s] 21%|██▏       | 1458/6844 [05:47<21:20,  4.21it/s] 21%|██▏       | 1459/6844 [05:47<21:16,  4.22it/s] 21%|██▏       | 1460/6844 [05:47<21:15,  4.22it/s] 21%|██▏       | 1461/6844 [05:47<21:12,  4.23it/s] 21%|██▏       | 1462/6844 [05:47<21:10,  4.24it/s] 21%|██▏       | 1463/6844 [05:48<21:08,  4.24it/s] 21%|██▏       | 1464/6844 [05:48<21:06,  4.25it/s] 21%|██▏       | 1465/6844 [05:48<21:07,  4.24it/s] 21%|██▏       | 1466/6844 [05:48<21:05,  4.25it/s] 21%|██▏       | 1467/6844 [05:49<21:03,  4.26it/s] 21%|██▏       | 1468/6844 [05:49<21:02,  4.26it/s] 21%|██▏       | 1469/6844 [05:49<21:03,  4.25it/s] 21%|██▏       | 1470/6844 [05:49<21:04,  4.25it/s] 21%|██▏       | 1471/6844 [05:50<21:05,  4.25it/s] 22%|██▏       | 1472/6844 [05:50<21:07,  4.24it/s] 22%|██▏       | 1473/6844 [05:50<21:06,  4.24it/s] 22%|██▏       | 1474/6844 [05:50<21:05,  4.24it/s] 22%|██▏       | 1475/6844 [05:51<21:04,  4.25it/s]                                                   {'loss': 4.7785, 'grad_norm': 0.1526261270046234, 'learning_rate': 0.005759707583679564, 'epoch': 0.04}
- 22%|██▏       | 1475/6844 [05:51<21:04,  4.25it/s] 22%|██▏       | 1476/6844 [05:51<21:07,  4.24it/s] 22%|██▏       | 1477/6844 [05:51<21:03,  4.25it/s] 22%|██▏       | 1478/6844 [05:51<21:03,  4.25it/s] 22%|██▏       | 1479/6844 [05:51<21:03,  4.25it/s] 22%|██▏       | 1480/6844 [05:52<21:03,  4.25it/s] 22%|██▏       | 1481/6844 [05:52<21:02,  4.25it/s] 22%|██▏       | 1482/6844 [05:52<21:00,  4.26it/s] 22%|██▏       | 1483/6844 [05:52<21:01,  4.25it/s] 22%|██▏       | 1484/6844 [05:53<21:02,  4.25it/s] 22%|██▏       | 1485/6844 [05:53<21:01,  4.25it/s] 22%|██▏       | 1486/6844 [05:53<21:00,  4.25it/s] 22%|██▏       | 1487/6844 [05:53<21:02,  4.24it/s] 22%|██▏       | 1488/6844 [05:54<21:00,  4.25it/s] 22%|██▏       | 1489/6844 [05:54<21:00,  4.25it/s] 22%|██▏       | 1490/6844 [05:54<21:01,  4.25it/s] 22%|██▏       | 1491/6844 [05:54<20:59,  4.25it/s] 22%|██▏       | 1492/6844 [05:55<20:57,  4.26it/s] 22%|██▏       | 1493/6844 [05:55<20:56,  4.26it/s] 22%|██▏       | 1494/6844 [05:55<21:00,  4.25it/s] 22%|██▏       | 1495/6844 [05:55<20:58,  4.25it/s] 22%|██▏       | 1496/6844 [05:55<20:58,  4.25it/s] 22%|██▏       | 1497/6844 [05:56<21:00,  4.24it/s] 22%|██▏       | 1498/6844 [05:56<20:59,  4.25it/s] 22%|██▏       | 1499/6844 [05:56<20:56,  4.25it/s] 22%|██▏       | 1500/6844 [05:56<20:54,  4.26it/s]                                                   {'loss': 4.7888, 'grad_norm': 0.13698770105838776, 'learning_rate': 0.005744481582567984, 'epoch': 0.04}
- 22%|██▏       | 1500/6844 [05:56<20:54,  4.26it/s] 22%|██▏       | 1501/6844 [05:57<20:57,  4.25it/s] 22%|██▏       | 1502/6844 [05:57<20:56,  4.25it/s] 22%|██▏       | 1503/6844 [05:57<20:56,  4.25it/s] 22%|██▏       | 1504/6844 [05:57<20:57,  4.25it/s] 22%|██▏       | 1505/6844 [05:58<20:57,  4.25it/s] 22%|██▏       | 1506/6844 [05:58<20:57,  4.24it/s] 22%|██▏       | 1507/6844 [05:58<20:56,  4.25it/s] 22%|██▏       | 1508/6844 [05:58<20:55,  4.25it/s] 22%|██▏       | 1509/6844 [05:59<20:52,  4.26it/s] 22%|██▏       | 1510/6844 [05:59<20:53,  4.26it/s] 22%|██▏       | 1511/6844 [05:59<20:51,  4.26it/s] 22%|██▏       | 1512/6844 [05:59<20:54,  4.25it/s] 22%|██▏       | 1513/6844 [05:59<20:55,  4.25it/s] 22%|██▏       | 1514/6844 [06:00<20:55,  4.25it/s] 22%|██▏       | 1515/6844 [06:00<20:54,  4.25it/s] 22%|██▏       | 1516/6844 [06:00<20:55,  4.24it/s] 22%|██▏       | 1517/6844 [06:00<20:53,  4.25it/s] 22%|██▏       | 1518/6844 [06:01<20:53,  4.25it/s] 22%|██▏       | 1519/6844 [06:01<20:53,  4.25it/s] 22%|██▏       | 1520/6844 [06:01<20:55,  4.24it/s] 22%|██▏       | 1521/6844 [06:01<20:55,  4.24it/s] 22%|██▏       | 1522/6844 [06:02<20:54,  4.24it/s] 22%|██▏       | 1523/6844 [06:02<20:56,  4.23it/s] 22%|██▏       | 1524/6844 [06:02<20:56,  4.24it/s] 22%|██▏       | 1525/6844 [06:02<20:53,  4.24it/s]                                                   {'loss': 4.772, 'grad_norm': 0.135597363114357, 'learning_rate': 0.005728809294915058, 'epoch': 0.04}
- 22%|██▏       | 1525/6844 [06:02<20:53,  4.24it/s] 22%|██▏       | 1526/6844 [06:03<20:55,  4.24it/s] 22%|██▏       | 1527/6844 [06:03<20:53,  4.24it/s] 22%|██▏       | 1528/6844 [06:03<20:54,  4.24it/s] 22%|██▏       | 1529/6844 [06:03<20:53,  4.24it/s] 22%|██▏       | 1530/6844 [06:03<20:52,  4.24it/s] 22%|██▏       | 1531/6844 [06:04<20:52,  4.24it/s] 22%|██▏       | 1532/6844 [06:04<20:50,  4.25it/s] 22%|██▏       | 1533/6844 [06:04<20:48,  4.25it/s] 22%|██▏       | 1534/6844 [06:04<20:48,  4.25it/s] 22%|██▏       | 1535/6844 [06:05<20:48,  4.25it/s] 22%|██▏       | 1536/6844 [06:05<20:49,  4.25it/s] 22%|██▏       | 1537/6844 [06:05<20:48,  4.25it/s] 22%|██▏       | 1538/6844 [06:05<20:49,  4.25it/s] 22%|██▏       | 1539/6844 [06:06<20:49,  4.25it/s] 23%|██▎       | 1540/6844 [06:06<20:48,  4.25it/s] 23%|██▎       | 1541/6844 [06:06<20:48,  4.25it/s] 23%|██▎       | 1542/6844 [06:06<20:49,  4.24it/s] 23%|██▎       | 1543/6844 [06:07<20:50,  4.24it/s] 23%|██▎       | 1544/6844 [06:07<20:50,  4.24it/s] 23%|██▎       | 1545/6844 [06:07<20:53,  4.23it/s] 23%|██▎       | 1546/6844 [06:07<20:51,  4.23it/s] 23%|██▎       | 1547/6844 [06:07<20:50,  4.24it/s] 23%|██▎       | 1548/6844 [06:08<20:47,  4.25it/s] 23%|██▎       | 1549/6844 [06:08<20:44,  4.25it/s] 23%|██▎       | 1550/6844 [06:08<20:46,  4.25it/s]{'loss': 4.7626, 'grad_norm': 0.13564643263816833, 'learning_rate': 0.005712693269227977, 'epoch': 0.05}
-                                                    23%|██▎       | 1550/6844 [06:08<20:46,  4.25it/s] 23%|██▎       | 1551/6844 [06:08<20:51,  4.23it/s] 23%|██▎       | 1552/6844 [06:09<20:51,  4.23it/s] 23%|██▎       | 1553/6844 [06:09<20:51,  4.23it/s] 23%|██▎       | 1554/6844 [06:09<20:48,  4.24it/s] 23%|██▎       | 1555/6844 [06:09<20:46,  4.24it/s] 23%|██▎       | 1556/6844 [06:10<20:45,  4.25it/s] 23%|██▎       | 1557/6844 [06:10<20:44,  4.25it/s] 23%|██▎       | 1558/6844 [06:10<20:44,  4.25it/s] 23%|██▎       | 1559/6844 [06:10<20:43,  4.25it/s] 23%|██▎       | 1560/6844 [06:11<20:43,  4.25it/s] 23%|██▎       | 1561/6844 [06:11<20:42,  4.25it/s] 23%|██▎       | 1562/6844 [06:11<20:41,  4.25it/s] 23%|██▎       | 1563/6844 [06:11<20:46,  4.24it/s] 23%|██▎       | 1564/6844 [06:11<20:44,  4.24it/s] 23%|██▎       | 1565/6844 [06:12<20:43,  4.25it/s] 23%|██▎       | 1566/6844 [06:12<20:43,  4.24it/s] 23%|██▎       | 1567/6844 [06:12<20:44,  4.24it/s] 23%|██▎       | 1568/6844 [06:12<20:44,  4.24it/s] 23%|██▎       | 1569/6844 [06:13<20:42,  4.25it/s] 23%|██▎       | 1570/6844 [06:13<20:41,  4.25it/s] 23%|██▎       | 1571/6844 [06:13<20:41,  4.25it/s] 23%|██▎       | 1572/6844 [06:13<20:42,  4.24it/s] 23%|██▎       | 1573/6844 [06:14<20:41,  4.24it/s] 23%|██▎       | 1574/6844 [06:14<20:42,  4.24it/s] 23%|██▎       | 1575/6844 [06:14<20:41,  4.24it/s]                                                   {'loss': 4.7554, 'grad_norm': 0.1398194432258606, 'learning_rate': 0.005696136126171209, 'epoch': 0.05}
- 23%|██▎       | 1575/6844 [06:14<20:41,  4.24it/s] 23%|██▎       | 1576/6844 [06:14<20:44,  4.23it/s] 23%|██▎       | 1577/6844 [06:15<20:42,  4.24it/s] 23%|██▎       | 1578/6844 [06:15<21:25,  4.10it/s] 23%|██▎       | 1579/6844 [06:15<21:53,  4.01it/s] 23%|██▎       | 1580/6844 [06:15<21:27,  4.09it/s] 23%|██▎       | 1581/6844 [06:16<21:13,  4.13it/s] 23%|██▎       | 1582/6844 [06:16<21:01,  4.17it/s] 23%|██▎       | 1583/6844 [06:16<20:51,  4.20it/s] 23%|██▎       | 1584/6844 [06:16<20:45,  4.22it/s] 23%|██▎       | 1585/6844 [06:16<20:42,  4.23it/s] 23%|██▎       | 1586/6844 [06:17<20:41,  4.23it/s] 23%|██▎       | 1587/6844 [06:17<20:39,  4.24it/s] 23%|██▎       | 1588/6844 [06:17<20:40,  4.24it/s] 23%|██▎       | 1589/6844 [06:17<20:39,  4.24it/s] 23%|██▎       | 1590/6844 [06:18<20:37,  4.24it/s] 23%|██▎       | 1591/6844 [06:18<20:36,  4.25it/s] 23%|██▎       | 1592/6844 [06:18<20:36,  4.25it/s] 23%|██▎       | 1593/6844 [06:18<20:36,  4.25it/s] 23%|██▎       | 1594/6844 [06:19<20:34,  4.25it/s] 23%|██▎       | 1595/6844 [06:19<20:33,  4.25it/s] 23%|██▎       | 1596/6844 [06:19<20:33,  4.25it/s] 23%|██▎       | 1597/6844 [06:19<20:32,  4.26it/s] 23%|██▎       | 1598/6844 [06:20<20:33,  4.25it/s] 23%|██▎       | 1599/6844 [06:20<20:32,  4.26it/s] 23%|██▎       | 1600/6844 [06:20<20:31,  4.26it/s]{'loss': 4.7544, 'grad_norm': 0.132014662027359, 'learning_rate': 0.005679140558140343, 'epoch': 0.05}
-                                                    23%|██▎       | 1600/6844 [06:20<20:31,  4.26it/s] 23%|██▎       | 1601/6844 [06:20<20:34,  4.25it/s] 23%|██▎       | 1602/6844 [06:20<20:31,  4.26it/s] 23%|██▎       | 1603/6844 [06:21<20:31,  4.26it/s] 23%|██▎       | 1604/6844 [06:21<20:31,  4.26it/s] 23%|██▎       | 1605/6844 [06:21<20:30,  4.26it/s] 23%|██▎       | 1606/6844 [06:21<20:31,  4.25it/s] 23%|██▎       | 1607/6844 [06:22<20:30,  4.26it/s] 23%|██▎       | 1608/6844 [06:22<20:29,  4.26it/s] 24%|██▎       | 1609/6844 [06:22<20:28,  4.26it/s] 24%|██▎       | 1610/6844 [06:22<20:31,  4.25it/s] 24%|██▎       | 1611/6844 [06:23<20:30,  4.25it/s] 24%|██▎       | 1612/6844 [06:23<20:30,  4.25it/s] 24%|██▎       | 1613/6844 [06:23<20:28,  4.26it/s] 24%|██▎       | 1614/6844 [06:23<20:29,  4.25it/s] 24%|██▎       | 1615/6844 [06:24<20:26,  4.26it/s] 24%|██▎       | 1616/6844 [06:24<20:26,  4.26it/s] 24%|██▎       | 1617/6844 [06:24<20:28,  4.25it/s] 24%|██▎       | 1618/6844 [06:24<20:29,  4.25it/s] 24%|██▎       | 1619/6844 [06:24<20:29,  4.25it/s] 24%|██▎       | 1620/6844 [06:25<20:28,  4.25it/s] 24%|██▎       | 1621/6844 [06:25<20:28,  4.25it/s] 24%|██▎       | 1622/6844 [06:25<20:28,  4.25it/s] 24%|██▎       | 1623/6844 [06:25<20:25,  4.26it/s] 24%|██▎       | 1624/6844 [06:26<20:25,  4.26it/s] 24%|██▎       | 1625/6844 [06:26<20:26,  4.25it/s]                                                   {'loss': 4.758, 'grad_norm': 0.1472645252943039, 'learning_rate': 0.005661709328824275, 'epoch': 0.05}
- 24%|██▎       | 1625/6844 [06:26<20:26,  4.25it/s] 24%|██▍       | 1626/6844 [06:26<20:30,  4.24it/s] 24%|██▍       | 1627/6844 [06:26<20:28,  4.25it/s] 24%|██▍       | 1628/6844 [06:27<20:31,  4.24it/s] 24%|██▍       | 1629/6844 [06:27<20:29,  4.24it/s] 24%|██▍       | 1630/6844 [06:27<20:27,  4.25it/s] 24%|██▍       | 1631/6844 [06:27<20:26,  4.25it/s] 24%|██▍       | 1632/6844 [06:28<20:28,  4.24it/s] 24%|██▍       | 1633/6844 [06:28<20:28,  4.24it/s] 24%|██▍       | 1634/6844 [06:28<20:27,  4.24it/s] 24%|██▍       | 1635/6844 [06:28<20:26,  4.25it/s] 24%|██▍       | 1636/6844 [06:28<20:26,  4.25it/s] 24%|██▍       | 1637/6844 [06:29<20:25,  4.25it/s] 24%|██▍       | 1638/6844 [06:29<20:25,  4.25it/s] 24%|██▍       | 1639/6844 [06:29<20:25,  4.25it/s] 24%|██▍       | 1640/6844 [06:29<20:26,  4.24it/s] 24%|██▍       | 1641/6844 [06:30<20:25,  4.25it/s] 24%|██▍       | 1642/6844 [06:30<20:25,  4.25it/s] 24%|██▍       | 1643/6844 [06:30<20:23,  4.25it/s] 24%|██▍       | 1644/6844 [06:30<20:22,  4.25it/s] 24%|██▍       | 1645/6844 [06:31<20:20,  4.26it/s] 24%|██▍       | 1646/6844 [06:31<20:21,  4.25it/s] 24%|██▍       | 1647/6844 [06:31<20:22,  4.25it/s] 24%|██▍       | 1648/6844 [06:31<20:21,  4.25it/s] 24%|██▍       | 1649/6844 [06:32<20:22,  4.25it/s] 24%|██▍       | 1650/6844 [06:32<20:22,  4.25it/s]{'loss': 4.749, 'grad_norm': 0.13727526366710663, 'learning_rate': 0.005643845272755799, 'epoch': 0.05}
-                                                    24%|██▍       | 1650/6844 [06:32<20:22,  4.25it/s] 24%|██▍       | 1651/6844 [06:32<20:24,  4.24it/s] 24%|██▍       | 1652/6844 [06:32<20:21,  4.25it/s] 24%|██▍       | 1653/6844 [06:32<20:22,  4.25it/s] 24%|██▍       | 1654/6844 [06:33<20:23,  4.24it/s] 24%|██▍       | 1655/6844 [06:33<20:22,  4.25it/s] 24%|██▍       | 1656/6844 [06:33<20:21,  4.25it/s] 24%|██▍       | 1657/6844 [06:33<20:21,  4.25it/s] 24%|██▍       | 1658/6844 [06:34<20:18,  4.25it/s] 24%|██▍       | 1659/6844 [06:34<20:18,  4.26it/s] 24%|██▍       | 1660/6844 [06:34<20:19,  4.25it/s] 24%|██▍       | 1661/6844 [06:34<20:19,  4.25it/s] 24%|██▍       | 1662/6844 [06:35<20:18,  4.25it/s] 24%|██▍       | 1663/6844 [06:35<20:17,  4.25it/s] 24%|██▍       | 1664/6844 [06:35<20:18,  4.25it/s] 24%|██▍       | 1665/6844 [06:35<20:17,  4.25it/s] 24%|██▍       | 1666/6844 [06:36<20:16,  4.26it/s] 24%|██▍       | 1667/6844 [06:36<20:16,  4.25it/s] 24%|██▍       | 1668/6844 [06:36<20:19,  4.25it/s] 24%|██▍       | 1669/6844 [06:36<20:18,  4.25it/s] 24%|██▍       | 1670/6844 [06:36<20:22,  4.23it/s] 24%|██▍       | 1671/6844 [06:37<20:19,  4.24it/s] 24%|██▍       | 1672/6844 [06:37<20:18,  4.24it/s] 24%|██▍       | 1673/6844 [06:37<20:16,  4.25it/s] 24%|██▍       | 1674/6844 [06:37<20:17,  4.25it/s] 24%|██▍       | 1675/6844 [06:38<20:17,  4.24it/s]                                                   {'loss': 4.7392, 'grad_norm': 0.1368257701396942, 'learning_rate': 0.005625551294850669, 'epoch': 0.05}
- 24%|██▍       | 1675/6844 [06:38<20:17,  4.24it/s] 24%|██▍       | 1676/6844 [06:38<20:22,  4.23it/s] 25%|██▍       | 1677/6844 [06:38<20:20,  4.23it/s] 25%|██▍       | 1678/6844 [06:38<20:18,  4.24it/s] 25%|██▍       | 1679/6844 [06:39<20:16,  4.24it/s] 25%|██▍       | 1680/6844 [06:39<20:14,  4.25it/s] 25%|██▍       | 1681/6844 [06:39<20:12,  4.26it/s] 25%|██▍       | 1682/6844 [06:39<20:10,  4.27it/s] 25%|██▍       | 1683/6844 [06:40<20:10,  4.26it/s] 25%|██▍       | 1684/6844 [06:40<20:10,  4.26it/s] 25%|██▍       | 1685/6844 [06:40<20:12,  4.26it/s] 25%|██▍       | 1686/6844 [06:40<20:11,  4.26it/s] 25%|██▍       | 1687/6844 [06:40<20:10,  4.26it/s] 25%|██▍       | 1688/6844 [06:41<20:10,  4.26it/s] 25%|██▍       | 1689/6844 [06:41<20:10,  4.26it/s] 25%|██▍       | 1690/6844 [06:41<20:11,  4.26it/s] 25%|██▍       | 1691/6844 [06:41<20:10,  4.26it/s] 25%|██▍       | 1692/6844 [06:42<20:13,  4.25it/s] 25%|██▍       | 1693/6844 [06:42<20:14,  4.24it/s] 25%|██▍       | 1694/6844 [06:42<20:14,  4.24it/s] 25%|██▍       | 1695/6844 [06:42<20:11,  4.25it/s] 25%|██▍       | 1696/6844 [06:43<20:12,  4.25it/s] 25%|██▍       | 1697/6844 [06:43<20:11,  4.25it/s] 25%|██▍       | 1698/6844 [06:43<20:10,  4.25it/s] 25%|██▍       | 1699/6844 [06:43<20:10,  4.25it/s] 25%|██▍       | 1700/6844 [06:44<20:10,  4.25it/s]                                                   {'loss': 4.7354, 'grad_norm': 0.13731296360492706, 'learning_rate': 0.00560683036993524, 'epoch': 0.05}
- 25%|██▍       | 1700/6844 [06:44<20:10,  4.25it/s] 25%|██▍       | 1701/6844 [06:44<20:13,  4.24it/s] 25%|██▍       | 1702/6844 [06:44<20:11,  4.24it/s] 25%|██▍       | 1703/6844 [06:44<20:11,  4.24it/s] 25%|██▍       | 1704/6844 [06:44<20:08,  4.25it/s] 25%|██▍       | 1705/6844 [06:45<20:08,  4.25it/s] 25%|██▍       | 1706/6844 [06:45<20:06,  4.26it/s] 25%|██▍       | 1707/6844 [06:45<20:06,  4.26it/s] 25%|██▍       | 1708/6844 [06:45<20:05,  4.26it/s] 25%|██▍       | 1709/6844 [06:46<20:05,  4.26it/s] 25%|██▍       | 1710/6844 [06:46<20:05,  4.26it/s] 25%|██▌       | 1711/6844 [06:46<20:05,  4.26it/s] 25%|██▌       | 1712/6844 [06:46<20:05,  4.26it/s] 25%|██▌       | 1713/6844 [06:47<20:04,  4.26it/s] 25%|██▌       | 1714/6844 [06:47<20:07,  4.25it/s] 25%|██▌       | 1715/6844 [06:47<20:08,  4.25it/s] 25%|██▌       | 1716/6844 [06:47<20:07,  4.25it/s] 25%|██▌       | 1717/6844 [06:48<20:05,  4.25it/s] 25%|██▌       | 1718/6844 [06:48<20:06,  4.25it/s] 25%|██▌       | 1719/6844 [06:48<20:05,  4.25it/s] 25%|██▌       | 1720/6844 [06:48<20:05,  4.25it/s] 25%|██▌       | 1721/6844 [06:48<20:04,  4.25it/s] 25%|██▌       | 1722/6844 [06:49<20:03,  4.26it/s] 25%|██▌       | 1723/6844 [06:49<20:02,  4.26it/s] 25%|██▌       | 1724/6844 [06:49<20:03,  4.25it/s] 25%|██▌       | 1725/6844 [06:49<20:04,  4.25it/s]{'loss': 4.7219, 'grad_norm': 0.13574372231960297, 'learning_rate': 0.005587685542262703, 'epoch': 0.05}
-                                                    25%|██▌       | 1725/6844 [06:49<20:04,  4.25it/s] 25%|██▌       | 1726/6844 [06:50<20:13,  4.22it/s] 25%|██▌       | 1727/6844 [06:50<20:10,  4.23it/s] 25%|██▌       | 1728/6844 [06:50<20:07,  4.24it/s] 25%|██▌       | 1729/6844 [06:50<20:04,  4.25it/s] 25%|██▌       | 1730/6844 [06:51<20:01,  4.26it/s] 25%|██▌       | 1731/6844 [06:51<20:00,  4.26it/s] 25%|██▌       | 1732/6844 [06:51<20:02,  4.25it/s] 25%|██▌       | 1733/6844 [06:51<20:03,  4.25it/s] 25%|██▌       | 1734/6844 [06:52<20:02,  4.25it/s] 25%|██▌       | 1735/6844 [06:52<20:01,  4.25it/s] 25%|██▌       | 1736/6844 [06:52<20:01,  4.25it/s] 25%|██▌       | 1737/6844 [06:52<20:02,  4.25it/s] 25%|██▌       | 1738/6844 [06:52<20:02,  4.25it/s] 25%|██▌       | 1739/6844 [06:53<20:04,  4.24it/s] 25%|██▌       | 1740/6844 [06:53<20:04,  4.24it/s] 25%|██▌       | 1741/6844 [06:53<20:03,  4.24it/s] 25%|██▌       | 1742/6844 [06:53<20:04,  4.24it/s] 25%|██▌       | 1743/6844 [06:54<20:03,  4.24it/s] 25%|██▌       | 1744/6844 [06:54<20:00,  4.25it/s] 25%|██▌       | 1745/6844 [06:54<19:59,  4.25it/s] 26%|██▌       | 1746/6844 [06:54<20:01,  4.24it/s] 26%|██▌       | 1747/6844 [06:55<20:00,  4.24it/s] 26%|██▌       | 1748/6844 [06:55<20:00,  4.24it/s] 26%|██▌       | 1749/6844 [06:55<19:59,  4.25it/s] 26%|██▌       | 1750/6844 [06:55<20:00,  4.24it/s]                                                   {'loss': 4.726, 'grad_norm': 0.13252805173397064, 'learning_rate': 0.0055681199250180715, 'epoch': 0.05}
- 26%|██▌       | 1750/6844 [06:55<20:00,  4.24it/s] 26%|██▌       | 1751/6844 [06:56<20:02,  4.23it/s] 26%|██▌       | 1752/6844 [06:56<20:01,  4.24it/s] 26%|██▌       | 1753/6844 [06:56<19:59,  4.24it/s] 26%|██▌       | 1754/6844 [06:56<20:00,  4.24it/s] 26%|██▌       | 1755/6844 [06:56<19:58,  4.25it/s] 26%|██▌       | 1756/6844 [06:57<19:56,  4.25it/s] 26%|██▌       | 1757/6844 [06:57<19:58,  4.24it/s] 26%|██▌       | 1758/6844 [06:57<19:56,  4.25it/s] 26%|██▌       | 1759/6844 [06:57<19:56,  4.25it/s] 26%|██▌       | 1760/6844 [06:58<19:56,  4.25it/s] 26%|██▌       | 1761/6844 [06:58<19:58,  4.24it/s] 26%|██▌       | 1762/6844 [06:58<19:57,  4.25it/s] 26%|██▌       | 1763/6844 [06:58<19:56,  4.25it/s] 26%|██▌       | 1764/6844 [06:59<19:54,  4.25it/s] 26%|██▌       | 1765/6844 [06:59<19:53,  4.26it/s] 26%|██▌       | 1766/6844 [06:59<19:53,  4.25it/s] 26%|██▌       | 1767/6844 [06:59<19:52,  4.26it/s] 26%|██▌       | 1768/6844 [07:00<19:52,  4.26it/s] 26%|██▌       | 1769/6844 [07:00<19:52,  4.26it/s] 26%|██▌       | 1770/6844 [07:00<19:52,  4.25it/s] 26%|██▌       | 1771/6844 [07:00<19:51,  4.26it/s] 26%|██▌       | 1772/6844 [07:00<19:50,  4.26it/s] 26%|██▌       | 1773/6844 [07:01<19:49,  4.26it/s] 26%|██▌       | 1774/6844 [07:01<19:48,  4.27it/s] 26%|██▌       | 1775/6844 [07:01<19:48,  4.26it/s]                                                   {'loss': 4.7248, 'grad_norm': 0.13117992877960205, 'learning_rate': 0.005548136699811931, 'epoch': 0.05}
- 26%|██▌       | 1775/6844 [07:01<19:48,  4.26it/s] 26%|██▌       | 1776/6844 [07:01<19:51,  4.25it/s] 26%|██▌       | 1777/6844 [07:02<19:51,  4.25it/s] 26%|██▌       | 1778/6844 [07:02<19:51,  4.25it/s] 26%|██▌       | 1779/6844 [07:02<19:52,  4.25it/s] 26%|██▌       | 1780/6844 [07:02<19:51,  4.25it/s] 26%|██▌       | 1781/6844 [07:03<19:51,  4.25it/s] 26%|██▌       | 1782/6844 [07:03<19:51,  4.25it/s] 26%|██▌       | 1783/6844 [07:03<19:50,  4.25it/s] 26%|██▌       | 1784/6844 [07:03<19:50,  4.25it/s] 26%|██▌       | 1785/6844 [07:04<19:50,  4.25it/s] 26%|██▌       | 1786/6844 [07:04<19:52,  4.24it/s] 26%|██▌       | 1787/6844 [07:04<19:50,  4.25it/s] 26%|██▌       | 1788/6844 [07:04<19:48,  4.26it/s] 26%|██▌       | 1789/6844 [07:04<19:46,  4.26it/s] 26%|██▌       | 1790/6844 [07:05<19:47,  4.26it/s] 26%|██▌       | 1791/6844 [07:05<19:47,  4.25it/s] 26%|██▌       | 1792/6844 [07:05<19:47,  4.25it/s] 26%|██▌       | 1793/6844 [07:05<19:47,  4.25it/s] 26%|██▌       | 1794/6844 [07:06<19:46,  4.26it/s] 26%|██▌       | 1795/6844 [07:06<19:45,  4.26it/s] 26%|██▌       | 1796/6844 [07:06<19:43,  4.27it/s] 26%|██▋       | 1797/6844 [07:06<19:44,  4.26it/s] 26%|██▋       | 1798/6844 [07:07<19:45,  4.26it/s] 26%|██▋       | 1799/6844 [07:07<19:43,  4.26it/s] 26%|██▋       | 1800/6844 [07:07<19:47,  4.25it/s]                                                   {'loss': 4.7052, 'grad_norm': 0.14675791561603546, 'learning_rate': 0.005527739116163066, 'epoch': 0.05}
- 26%|██▋       | 1800/6844 [07:07<19:47,  4.25it/s] 26%|██▋       | 1801/6844 [07:07<19:50,  4.24it/s] 26%|██▋       | 1802/6844 [07:08<19:50,  4.24it/s] 26%|██▋       | 1803/6844 [07:08<19:47,  4.25it/s] 26%|██▋       | 1804/6844 [07:08<19:47,  4.24it/s] 26%|██▋       | 1805/6844 [07:08<19:46,  4.25it/s] 26%|██▋       | 1806/6844 [07:08<19:45,  4.25it/s] 26%|██▋       | 1807/6844 [07:09<19:45,  4.25it/s] 26%|██▋       | 1808/6844 [07:09<19:44,  4.25it/s] 26%|██▋       | 1809/6844 [07:09<19:44,  4.25it/s] 26%|██▋       | 1810/6844 [07:09<19:44,  4.25it/s] 26%|██▋       | 1811/6844 [07:10<19:43,  4.25it/s] 26%|██▋       | 1812/6844 [07:10<19:43,  4.25it/s] 26%|██▋       | 1813/6844 [07:10<19:42,  4.26it/s] 27%|██▋       | 1814/6844 [07:10<19:41,  4.26it/s] 27%|██▋       | 1815/6844 [07:11<19:40,  4.26it/s] 27%|██▋       | 1816/6844 [07:11<19:40,  4.26it/s] 27%|██▋       | 1817/6844 [07:11<19:39,  4.26it/s] 27%|██▋       | 1818/6844 [07:11<19:40,  4.26it/s] 27%|██▋       | 1819/6844 [07:12<19:40,  4.26it/s] 27%|██▋       | 1820/6844 [07:12<19:39,  4.26it/s] 27%|██▋       | 1821/6844 [07:12<19:39,  4.26it/s] 27%|██▋       | 1822/6844 [07:12<19:41,  4.25it/s] 27%|██▋       | 1823/6844 [07:12<19:41,  4.25it/s] 27%|██▋       | 1824/6844 [07:13<19:41,  4.25it/s] 27%|██▋       | 1825/6844 [07:13<19:42,  4.24it/s]                                                   {'loss': 4.7013, 'grad_norm': 0.17010797560214996, 'learning_rate': 0.005506930490970056, 'epoch': 0.05}
- 27%|██▋       | 1825/6844 [07:13<19:42,  4.24it/s] 27%|██▋       | 1826/6844 [07:13<19:44,  4.24it/s] 27%|██▋       | 1827/6844 [07:13<19:41,  4.25it/s] 27%|██▋       | 1828/6844 [07:14<19:38,  4.25it/s] 27%|██▋       | 1829/6844 [07:14<19:37,  4.26it/s] 27%|██▋       | 1830/6844 [07:14<19:36,  4.26it/s] 27%|██▋       | 1831/6844 [07:14<19:35,  4.26it/s] 27%|██▋       | 1832/6844 [07:15<19:36,  4.26it/s] 27%|██▋       | 1833/6844 [07:15<20:15,  4.12it/s] 27%|██▋       | 1834/6844 [07:15<20:47,  4.02it/s] 27%|██▋       | 1835/6844 [07:15<21:09,  3.95it/s] 27%|██▋       | 1836/6844 [07:16<21:25,  3.90it/s] 27%|██▋       | 1837/6844 [07:16<21:38,  3.86it/s] 27%|██▋       | 1838/6844 [07:16<21:48,  3.82it/s] 27%|██▋       | 1839/6844 [07:16<21:43,  3.84it/s] 27%|██▋       | 1840/6844 [07:17<22:00,  3.79it/s] 27%|██▋       | 1841/6844 [07:17<21:53,  3.81it/s] 27%|██▋       | 1842/6844 [07:17<22:02,  3.78it/s] 27%|██▋       | 1843/6844 [07:17<21:57,  3.79it/s] 27%|██▋       | 1844/6844 [07:18<21:16,  3.92it/s] 27%|██▋       | 1845/6844 [07:18<20:45,  4.01it/s] 27%|██▋       | 1846/6844 [07:18<20:22,  4.09it/s] 27%|██▋       | 1847/6844 [07:18<20:07,  4.14it/s] 27%|██▋       | 1848/6844 [07:19<19:57,  4.17it/s] 27%|██▋       | 1849/6844 [07:19<19:50,  4.19it/s] 27%|██▋       | 1850/6844 [07:19<19:46,  4.21it/s]                                                   {'loss': 4.6991, 'grad_norm': 0.1531643271446228, 'learning_rate': 0.005485714207971899, 'epoch': 0.05}
- 27%|██▋       | 1850/6844 [07:19<19:46,  4.21it/s] 27%|██▋       | 1851/6844 [07:19<19:45,  4.21it/s] 27%|██▋       | 1852/6844 [07:20<19:42,  4.22it/s] 27%|██▋       | 1853/6844 [07:20<19:40,  4.23it/s] 27%|██▋       | 1854/6844 [07:20<19:37,  4.24it/s] 27%|██▋       | 1855/6844 [07:20<19:35,  4.25it/s] 27%|██▋       | 1856/6844 [07:21<19:34,  4.25it/s] 27%|██▋       | 1857/6844 [07:21<19:33,  4.25it/s] 27%|██▋       | 1858/6844 [07:21<19:33,  4.25it/s] 27%|██▋       | 1859/6844 [07:21<19:32,  4.25it/s] 27%|██▋       | 1860/6844 [07:21<19:32,  4.25it/s] 27%|██▋       | 1861/6844 [07:22<19:30,  4.26it/s] 27%|██▋       | 1862/6844 [07:22<19:30,  4.26it/s] 27%|██▋       | 1863/6844 [07:22<19:30,  4.26it/s] 27%|██▋       | 1864/6844 [07:22<19:30,  4.25it/s] 27%|██▋       | 1865/6844 [07:23<19:29,  4.26it/s] 27%|██▋       | 1866/6844 [07:23<19:30,  4.25it/s] 27%|██▋       | 1867/6844 [07:23<19:33,  4.24it/s] 27%|██▋       | 1868/6844 [07:23<19:32,  4.24it/s] 27%|██▋       | 1869/6844 [07:24<19:30,  4.25it/s] 27%|██▋       | 1870/6844 [07:24<19:28,  4.26it/s] 27%|██▋       | 1871/6844 [07:24<19:27,  4.26it/s] 27%|██▋       | 1872/6844 [07:24<19:28,  4.26it/s] 27%|██▋       | 1873/6844 [07:25<19:28,  4.25it/s] 27%|██▋       | 1874/6844 [07:25<19:31,  4.24it/s] 27%|██▋       | 1875/6844 [07:25<19:30,  4.25it/s]                                                   {'loss': 4.7096, 'grad_norm': 0.13227061927318573, 'learning_rate': 0.0054640937171977835, 'epoch': 0.05}
- 27%|██▋       | 1875/6844 [07:25<19:30,  4.25it/s] 27%|██▋       | 1876/6844 [07:25<19:31,  4.24it/s] 27%|██▋       | 1877/6844 [07:25<19:29,  4.25it/s] 27%|██▋       | 1878/6844 [07:26<19:28,  4.25it/s] 27%|██▋       | 1879/6844 [07:26<19:27,  4.25it/s] 27%|██▋       | 1880/6844 [07:26<19:26,  4.25it/s] 27%|██▋       | 1881/6844 [07:26<19:26,  4.25it/s] 27%|██▋       | 1882/6844 [07:27<19:27,  4.25it/s] 28%|██▊       | 1883/6844 [07:27<19:26,  4.25it/s] 28%|██▊       | 1884/6844 [07:27<19:24,  4.26it/s] 28%|██▊       | 1885/6844 [07:27<19:28,  4.24it/s] 28%|██▊       | 1886/6844 [07:28<19:28,  4.24it/s] 28%|██▊       | 1887/6844 [07:28<19:26,  4.25it/s] 28%|██▊       | 1888/6844 [07:28<19:26,  4.25it/s] 28%|██▊       | 1889/6844 [07:28<19:27,  4.24it/s] 28%|██▊       | 1890/6844 [07:29<19:27,  4.25it/s] 28%|██▊       | 1891/6844 [07:29<19:25,  4.25it/s] 28%|██▊       | 1892/6844 [07:29<19:25,  4.25it/s] 28%|██▊       | 1893/6844 [07:29<19:24,  4.25it/s] 28%|██▊       | 1894/6844 [07:29<19:24,  4.25it/s] 28%|██▊       | 1895/6844 [07:30<19:24,  4.25it/s] 28%|██▊       | 1896/6844 [07:30<19:24,  4.25it/s] 28%|██▊       | 1897/6844 [07:30<19:24,  4.25it/s] 28%|██▊       | 1898/6844 [07:30<19:25,  4.24it/s] 28%|██▊       | 1899/6844 [07:31<19:24,  4.25it/s] 28%|██▊       | 1900/6844 [07:31<19:23,  4.25it/s]                                                   {'loss': 4.6956, 'grad_norm': 0.13922244310379028, 'learning_rate': 0.005442072534406062, 'epoch': 0.06}
- 28%|██▊       | 1900/6844 [07:31<19:23,  4.25it/s] 28%|██▊       | 1901/6844 [07:31<19:26,  4.24it/s] 28%|██▊       | 1902/6844 [07:31<19:25,  4.24it/s] 28%|██▊       | 1903/6844 [07:32<19:24,  4.24it/s] 28%|██▊       | 1904/6844 [07:32<19:24,  4.24it/s] 28%|██▊       | 1905/6844 [07:32<19:22,  4.25it/s] 28%|██▊       | 1906/6844 [07:32<19:22,  4.25it/s] 28%|██▊       | 1907/6844 [07:33<19:22,  4.25it/s] 28%|██▊       | 1908/6844 [07:33<19:20,  4.25it/s] 28%|██▊       | 1909/6844 [07:33<19:18,  4.26it/s] 28%|██▊       | 1910/6844 [07:33<19:20,  4.25it/s] 28%|██▊       | 1911/6844 [07:33<19:19,  4.25it/s] 28%|██▊       | 1912/6844 [07:34<19:18,  4.26it/s] 28%|██▊       | 1913/6844 [07:34<19:18,  4.26it/s] 28%|██▊       | 1914/6844 [07:34<19:21,  4.25it/s] 28%|██▊       | 1915/6844 [07:34<19:18,  4.26it/s] 28%|██▊       | 1916/6844 [07:35<19:18,  4.25it/s] 28%|██▊       | 1917/6844 [07:35<19:18,  4.25it/s] 28%|██▊       | 1918/6844 [07:35<19:18,  4.25it/s] 28%|██▊       | 1919/6844 [07:35<19:17,  4.25it/s] 28%|██▊       | 1920/6844 [07:36<19:16,  4.26it/s] 28%|██▊       | 1921/6844 [07:36<19:16,  4.26it/s] 28%|██▊       | 1922/6844 [07:36<19:16,  4.26it/s] 28%|██▊       | 1923/6844 [07:36<19:15,  4.26it/s] 28%|██▊       | 1924/6844 [07:37<19:15,  4.26it/s] 28%|██▊       | 1925/6844 [07:37<19:16,  4.25it/s]{'loss': 4.6992, 'grad_norm': 0.13293230533599854, 'learning_rate': 0.0054196542405125486, 'epoch': 0.06}
-                                                    28%|██▊       | 1925/6844 [07:37<19:16,  4.25it/s] 28%|██▊       | 1926/6844 [07:37<19:19,  4.24it/s] 28%|██▊       | 1927/6844 [07:37<19:18,  4.25it/s] 28%|██▊       | 1928/6844 [07:37<19:21,  4.23it/s] 28%|██▊       | 1929/6844 [07:38<19:18,  4.24it/s] 28%|██▊       | 1930/6844 [07:38<19:16,  4.25it/s] 28%|██▊       | 1931/6844 [07:38<19:17,  4.24it/s] 28%|██▊       | 1932/6844 [07:38<19:18,  4.24it/s] 28%|██▊       | 1933/6844 [07:39<19:17,  4.24it/s] 28%|██▊       | 1934/6844 [07:39<19:15,  4.25it/s] 28%|██▊       | 1935/6844 [07:39<19:16,  4.25it/s] 28%|██▊       | 1936/6844 [07:39<19:14,  4.25it/s] 28%|██▊       | 1937/6844 [07:40<19:13,  4.25it/s] 28%|██▊       | 1938/6844 [07:40<19:14,  4.25it/s] 28%|██▊       | 1939/6844 [07:40<19:13,  4.25it/s] 28%|██▊       | 1940/6844 [07:40<19:12,  4.25it/s] 28%|██▊       | 1941/6844 [07:41<19:11,  4.26it/s] 28%|██▊       | 1942/6844 [07:41<19:12,  4.25it/s] 28%|██▊       | 1943/6844 [07:41<19:12,  4.25it/s] 28%|██▊       | 1944/6844 [07:41<19:11,  4.25it/s] 28%|██▊       | 1945/6844 [07:41<19:09,  4.26it/s] 28%|██▊       | 1946/6844 [07:42<19:12,  4.25it/s] 28%|██▊       | 1947/6844 [07:42<19:12,  4.25it/s] 28%|██▊       | 1948/6844 [07:42<19:11,  4.25it/s] 28%|██▊       | 1949/6844 [07:42<19:11,  4.25it/s] 28%|██▊       | 1950/6844 [07:43<19:14,  4.24it/s]{'loss': 4.6929, 'grad_norm': 0.1346396505832672, 'learning_rate': 0.005396842481008223, 'epoch': 0.06}
-                                                    28%|██▊       | 1950/6844 [07:43<19:14,  4.24it/s] 29%|██▊       | 1951/6844 [07:43<19:15,  4.24it/s] 29%|██▊       | 1952/6844 [07:43<19:15,  4.23it/s] 29%|██▊       | 1953/6844 [07:43<19:14,  4.24it/s] 29%|██▊       | 1954/6844 [07:44<19:14,  4.24it/s] 29%|██▊       | 1955/6844 [07:44<19:13,  4.24it/s] 29%|██▊       | 1956/6844 [07:44<19:12,  4.24it/s] 29%|██▊       | 1957/6844 [07:44<19:13,  4.24it/s] 29%|██▊       | 1958/6844 [07:45<19:13,  4.24it/s] 29%|██▊       | 1959/6844 [07:45<19:10,  4.25it/s] 29%|██▊       | 1960/6844 [07:45<19:58,  4.07it/s] 29%|██▊       | 1961/6844 [07:45<19:43,  4.13it/s] 29%|██▊       | 1962/6844 [07:46<19:32,  4.16it/s] 29%|██▊       | 1963/6844 [07:46<19:26,  4.18it/s] 29%|██▊       | 1964/6844 [07:46<19:20,  4.20it/s] 29%|██▊       | 1965/6844 [07:46<19:17,  4.22it/s] 29%|██▊       | 1966/6844 [07:46<19:15,  4.22it/s] 29%|██▊       | 1967/6844 [07:47<19:14,  4.22it/s] 29%|██▉       | 1968/6844 [07:47<19:12,  4.23it/s] 29%|██▉       | 1969/6844 [07:47<19:09,  4.24it/s] 29%|██▉       | 1970/6844 [07:47<19:06,  4.25it/s] 29%|██▉       | 1971/6844 [07:48<19:10,  4.24it/s] 29%|██▉       | 1972/6844 [07:48<19:11,  4.23it/s] 29%|██▉       | 1973/6844 [07:48<19:09,  4.24it/s] 29%|██▉       | 1974/6844 [07:48<19:09,  4.24it/s] 29%|██▉       | 1975/6844 [07:49<19:09,  4.24it/s]                                                   {'loss': 4.6766, 'grad_norm': 0.1328040361404419, 'learning_rate': 0.005373640965366418, 'epoch': 0.06}
- 29%|██▉       | 1975/6844 [07:49<19:09,  4.24it/s] 29%|██▉       | 1976/6844 [07:49<19:10,  4.23it/s] 29%|██▉       | 1977/6844 [07:49<19:07,  4.24it/s] 29%|██▉       | 1978/6844 [07:49<19:06,  4.24it/s] 29%|██▉       | 1979/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1980/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1981/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1982/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1983/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1984/6844 [07:51<19:02,  4.25it/s] 29%|██▉       | 1985/6844 [07:51<19:01,  4.26it/s] 29%|██▉       | 1986/6844 [07:51<19:01,  4.26it/s] 29%|██▉       | 1987/6844 [07:51<19:01,  4.25it/s] 29%|██▉       | 1988/6844 [07:52<19:01,  4.25it/s] 29%|██▉       | 1989/6844 [07:52<19:02,  4.25it/s] 29%|██▉       | 1990/6844 [07:52<19:01,  4.25it/s] 29%|██▉       | 1991/6844 [07:52<19:00,  4.26it/s] 29%|██▉       | 1992/6844 [07:53<19:03,  4.24it/s] 29%|██▉       | 1993/6844 [07:53<19:03,  4.24it/s] 29%|██▉       | 1994/6844 [07:53<19:02,  4.25it/s] 29%|██▉       | 1995/6844 [07:53<19:03,  4.24it/s] 29%|██▉       | 1996/6844 [07:54<19:01,  4.25it/s] 29%|██▉       | 1997/6844 [07:54<18:59,  4.25it/s] 29%|██▉       | 1998/6844 [07:54<18:57,  4.26it/s] 29%|██▉       | 1999/6844 [07:54<18:56,  4.26it/s] 29%|██▉       | 2000/6844 [07:54<18:56,  4.26it/s]{'loss': 4.6826, 'grad_norm': 0.1603599637746811, 'learning_rate': 0.0053500534664396235, 'epoch': 0.06}                                                   
- 29%|██▉       | 2000/6844 [07:54<18:56,  4.26it/s] 29%|██▉       | 2001/6844 [07:55<19:00,  4.25it/s] 29%|██▉       | 2002/6844 [07:55<19:00,  4.25it/s] 29%|██▉       | 2003/6844 [07:55<19:00,  4.24it/s] 29%|██▉       | 2004/6844 [07:55<18:59,  4.25it/s] 29%|██▉       | 2005/6844 [07:56<18:58,  4.25it/s] 29%|██▉       | 2006/6844 [07:56<18:58,  4.25it/s] 29%|██▉       | 2007/6844 [07:56<18:59,  4.25it/s] 29%|██▉       | 2008/6844 [07:56<19:00,  4.24it/s] 29%|██▉       | 2009/6844 [07:57<18:59,  4.24it/s] 29%|██▉       | 2010/6844 [07:57<19:00,  4.24it/s] 29%|██▉       | 2011/6844 [07:57<18:58,  4.25it/s] 29%|██▉       | 2012/6844 [07:57<18:57,  4.25it/s] 29%|██▉       | 2013/6844 [07:58<18:57,  4.25it/s] 29%|██▉       | 2014/6844 [07:58<18:59,  4.24it/s] 29%|██▉       | 2015/6844 [07:58<18:59,  4.24it/s] 29%|██▉       | 2016/6844 [07:58<18:59,  4.24it/s] 29%|██▉       | 2017/6844 [07:58<19:00,  4.23it/s] 29%|██▉       | 2018/6844 [07:59<18:57,  4.24it/s] 30%|██▉       | 2019/6844 [07:59<18:55,  4.25it/s] 30%|██▉       | 2020/6844 [07:59<18:54,  4.25it/s] 30%|██▉       | 2021/6844 [07:59<18:54,  4.25it/s] 30%|██▉       | 2022/6844 [08:00<18:56,  4.24it/s] 30%|██▉       | 2023/6844 [08:00<18:55,  4.25it/s] 30%|██▉       | 2024/6844 [08:00<18:57,  4.24it/s] 30%|██▉       | 2025/6844 [08:00<18:54,  4.25it/s]{'loss': 4.6772, 'grad_norm': 0.13626728951931, 'learning_rate': 0.00532608381984597, 'epoch': 0.06}
-                                                    30%|██▉       | 2025/6844 [08:00<18:54,  4.25it/s] 30%|██▉       | 2026/6844 [08:01<18:56,  4.24it/s] 30%|██▉       | 2027/6844 [08:01<18:54,  4.25it/s] 30%|██▉       | 2028/6844 [08:01<18:52,  4.25it/s] 30%|██▉       | 2029/6844 [08:01<18:52,  4.25it/s] 30%|██▉       | 2030/6844 [08:02<18:50,  4.26it/s] 30%|██▉       | 2031/6844 [08:02<18:52,  4.25it/s] 30%|██▉       | 2032/6844 [08:02<18:51,  4.25it/s] 30%|██▉       | 2033/6844 [08:02<18:49,  4.26it/s] 30%|██▉       | 2034/6844 [08:02<18:50,  4.25it/s] 30%|██▉       | 2035/6844 [08:03<18:52,  4.25it/s] 30%|██▉       | 2036/6844 [08:03<18:51,  4.25it/s] 30%|██▉       | 2037/6844 [08:03<18:50,  4.25it/s] 30%|██▉       | 2038/6844 [08:03<18:48,  4.26it/s] 30%|██▉       | 2039/6844 [08:04<18:48,  4.26it/s] 30%|██▉       | 2040/6844 [08:04<18:48,  4.26it/s] 30%|██▉       | 2041/6844 [08:04<18:49,  4.25it/s] 30%|██▉       | 2042/6844 [08:04<18:49,  4.25it/s] 30%|██▉       | 2043/6844 [08:05<18:49,  4.25it/s] 30%|██▉       | 2044/6844 [08:05<18:48,  4.26it/s] 30%|██▉       | 2045/6844 [08:05<18:47,  4.25it/s] 30%|██▉       | 2046/6844 [08:05<18:49,  4.25it/s] 30%|██▉       | 2047/6844 [08:06<18:48,  4.25it/s] 30%|██▉       | 2048/6844 [08:06<18:47,  4.25it/s] 30%|██▉       | 2049/6844 [08:06<19:16,  4.15it/s] 30%|██▉       | 2050/6844 [08:06<19:05,  4.18it/s]                                                   {'loss': 4.656, 'grad_norm': 0.12832780182361603, 'learning_rate': 0.0053017359233455096, 'epoch': 0.06}
- 30%|██▉       | 2050/6844 [08:06<19:05,  4.18it/s] 30%|██▉       | 2051/6844 [08:06<19:02,  4.20it/s] 30%|██▉       | 2052/6844 [08:07<18:58,  4.21it/s] 30%|██▉       | 2053/6844 [08:07<18:54,  4.22it/s] 30%|███       | 2054/6844 [08:07<18:52,  4.23it/s] 30%|███       | 2055/6844 [08:07<18:51,  4.23it/s] 30%|███       | 2056/6844 [08:08<18:51,  4.23it/s] 30%|███       | 2057/6844 [08:08<18:49,  4.24it/s] 30%|███       | 2058/6844 [08:08<18:47,  4.24it/s] 30%|███       | 2059/6844 [08:08<18:48,  4.24it/s] 30%|███       | 2060/6844 [08:09<18:48,  4.24it/s] 30%|███       | 2061/6844 [08:09<18:46,  4.24it/s] 30%|███       | 2062/6844 [08:09<18:46,  4.24it/s] 30%|███       | 2063/6844 [08:09<18:47,  4.24it/s] 30%|███       | 2064/6844 [08:10<18:46,  4.24it/s] 30%|███       | 2065/6844 [08:10<18:47,  4.24it/s] 30%|███       | 2066/6844 [08:10<18:45,  4.24it/s] 30%|███       | 2067/6844 [08:10<18:44,  4.25it/s] 30%|███       | 2068/6844 [08:10<18:42,  4.25it/s] 30%|███       | 2069/6844 [08:11<18:42,  4.25it/s] 30%|███       | 2070/6844 [08:11<18:42,  4.25it/s] 30%|███       | 2071/6844 [08:11<18:42,  4.25it/s] 30%|███       | 2072/6844 [08:11<18:44,  4.25it/s] 30%|███       | 2073/6844 [08:12<18:44,  4.24it/s] 30%|███       | 2074/6844 [08:12<18:45,  4.24it/s] 30%|███       | 2075/6844 [08:12<18:43,  4.24it/s]                                                   {'loss': 4.6548, 'grad_norm': 0.13500623404979706, 'learning_rate': 0.005277013736206391, 'epoch': 0.06}
- 30%|███       | 2075/6844 [08:12<18:43,  4.24it/s] 30%|███       | 2076/6844 [08:12<18:45,  4.24it/s] 30%|███       | 2077/6844 [08:13<18:46,  4.23it/s] 30%|███       | 2078/6844 [08:13<18:44,  4.24it/s] 30%|███       | 2079/6844 [08:13<18:45,  4.23it/s] 30%|███       | 2080/6844 [08:13<18:45,  4.23it/s] 30%|███       | 2081/6844 [08:14<25:13,  3.15it/s] 30%|███       | 2082/6844 [08:14<23:16,  3.41it/s] 30%|███       | 2083/6844 [08:14<21:55,  3.62it/s] 30%|███       | 2084/6844 [08:15<20:56,  3.79it/s] 30%|███       | 2085/6844 [08:15<20:55,  3.79it/s] 30%|███       | 2086/6844 [08:15<20:50,  3.81it/s] 30%|███       | 2087/6844 [08:15<20:51,  3.80it/s] 31%|███       | 2088/6844 [08:16<21:01,  3.77it/s] 31%|███       | 2089/6844 [08:16<21:00,  3.77it/s] 31%|███       | 2090/6844 [08:16<20:17,  3.90it/s] 31%|███       | 2091/6844 [08:16<19:47,  4.00it/s] 31%|███       | 2092/6844 [08:17<19:27,  4.07it/s] 31%|███       | 2093/6844 [08:17<19:16,  4.11it/s] 31%|███       | 2094/6844 [08:17<19:05,  4.15it/s] 31%|███       | 2095/6844 [08:17<18:56,  4.18it/s] 31%|███       | 2096/6844 [08:18<18:50,  4.20it/s] 31%|███       | 2097/6844 [08:18<18:46,  4.22it/s] 31%|███       | 2098/6844 [08:18<18:43,  4.22it/s] 31%|███       | 2099/6844 [08:18<18:40,  4.23it/s] 31%|███       | 2100/6844 [08:18<18:47,  4.21it/s]{'loss': 4.6701, 'grad_norm': 0.14949288964271545, 'learning_rate': 0.005251921278561038, 'epoch': 0.06}                                                   
- 31%|███       | 2100/6844 [08:18<18:47,  4.21it/s] 31%|███       | 2101/6844 [08:19<18:55,  4.18it/s] 31%|███       | 2102/6844 [08:19<18:48,  4.20it/s] 31%|███       | 2103/6844 [08:19<18:43,  4.22it/s] 31%|███       | 2104/6844 [08:19<18:39,  4.23it/s] 31%|███       | 2105/6844 [08:20<18:37,  4.24it/s] 31%|███       | 2106/6844 [08:20<18:36,  4.24it/s] 31%|███       | 2107/6844 [08:20<18:35,  4.25it/s] 31%|███       | 2108/6844 [08:20<18:35,  4.24it/s] 31%|███       | 2109/6844 [08:21<18:35,  4.24it/s] 31%|███       | 2110/6844 [08:21<18:36,  4.24it/s] 31%|███       | 2111/6844 [08:21<18:35,  4.24it/s] 31%|███       | 2112/6844 [08:21<18:34,  4.24it/s] 31%|███       | 2113/6844 [08:22<18:32,  4.25it/s] 31%|███       | 2114/6844 [08:22<18:33,  4.25it/s] 31%|███       | 2115/6844 [08:22<18:31,  4.25it/s] 31%|███       | 2116/6844 [08:22<18:31,  4.25it/s] 31%|███       | 2117/6844 [08:22<18:31,  4.25it/s] 31%|███       | 2118/6844 [08:23<18:30,  4.25it/s] 31%|███       | 2119/6844 [08:23<18:29,  4.26it/s] 31%|███       | 2120/6844 [08:23<18:30,  4.26it/s] 31%|███       | 2121/6844 [08:23<18:33,  4.24it/s] 31%|███       | 2122/6844 [08:24<18:31,  4.25it/s] 31%|███       | 2123/6844 [08:24<18:31,  4.25it/s] 31%|███       | 2124/6844 [08:24<18:30,  4.25it/s] 31%|███       | 2125/6844 [08:24<18:29,  4.25it/s]{'loss': 4.6576, 'grad_norm': 0.13374114036560059, 'learning_rate': 0.005226462630752421, 'epoch': 0.06}
-                                                    31%|███       | 2125/6844 [08:24<18:29,  4.25it/s] 31%|███       | 2126/6844 [08:25<18:32,  4.24it/s] 31%|███       | 2127/6844 [08:25<18:31,  4.24it/s] 31%|███       | 2128/6844 [08:25<18:31,  4.24it/s] 31%|███       | 2129/6844 [08:25<18:39,  4.21it/s] 31%|███       | 2130/6844 [08:26<18:36,  4.22it/s] 31%|███       | 2131/6844 [08:26<18:34,  4.23it/s] 31%|███       | 2132/6844 [08:26<18:33,  4.23it/s] 31%|███       | 2133/6844 [08:26<18:31,  4.24it/s] 31%|███       | 2134/6844 [08:26<18:29,  4.25it/s] 31%|███       | 2135/6844 [08:27<18:28,  4.25it/s] 31%|███       | 2136/6844 [08:27<18:28,  4.25it/s] 31%|███       | 2137/6844 [08:27<18:27,  4.25it/s] 31%|███       | 2138/6844 [08:27<18:28,  4.25it/s] 31%|███▏      | 2139/6844 [08:28<18:27,  4.25it/s] 31%|███▏      | 2140/6844 [08:28<18:25,  4.25it/s] 31%|███▏      | 2141/6844 [08:28<18:24,  4.26it/s] 31%|███▏      | 2142/6844 [08:28<18:25,  4.25it/s] 31%|███▏      | 2143/6844 [08:29<18:25,  4.25it/s] 31%|███▏      | 2144/6844 [08:29<18:25,  4.25it/s] 31%|███▏      | 2145/6844 [08:29<18:24,  4.25it/s] 31%|███▏      | 2146/6844 [08:29<18:27,  4.24it/s] 31%|███▏      | 2147/6844 [08:30<18:26,  4.24it/s] 31%|███▏      | 2148/6844 [08:30<18:24,  4.25it/s] 31%|███▏      | 2149/6844 [08:30<18:24,  4.25it/s] 31%|███▏      | 2150/6844 [08:30<18:23,  4.25it/s]{'loss': 4.6649, 'grad_norm': 0.12984482944011688, 'learning_rate': 0.005200641932670547, 'epoch': 0.06}                                                   
- 31%|███▏      | 2150/6844 [08:30<18:23,  4.25it/s] 31%|███▏      | 2151/6844 [08:30<18:27,  4.24it/s] 31%|███▏      | 2152/6844 [08:31<18:26,  4.24it/s] 31%|███▏      | 2153/6844 [08:31<18:25,  4.24it/s] 31%|███▏      | 2154/6844 [08:31<18:25,  4.24it/s] 31%|███▏      | 2155/6844 [08:31<18:23,  4.25it/s] 32%|███▏      | 2156/6844 [08:32<18:22,  4.25it/s] 32%|███▏      | 2157/6844 [08:32<18:21,  4.26it/s] 32%|███▏      | 2158/6844 [08:32<18:20,  4.26it/s] 32%|███▏      | 2159/6844 [08:32<18:20,  4.26it/s] 32%|███▏      | 2160/6844 [08:33<18:21,  4.25it/s] 32%|███▏      | 2161/6844 [08:33<18:21,  4.25it/s] 32%|███▏      | 2162/6844 [08:33<18:20,  4.26it/s] 32%|███▏      | 2163/6844 [08:33<18:19,  4.26it/s] 32%|███▏      | 2164/6844 [08:34<18:21,  4.25it/s] 32%|███▏      | 2165/6844 [08:34<18:21,  4.25it/s] 32%|███▏      | 2166/6844 [08:34<18:20,  4.25it/s] 32%|███▏      | 2167/6844 [08:34<18:38,  4.18it/s] 32%|███▏      | 2168/6844 [08:34<18:32,  4.20it/s] 32%|███▏      | 2169/6844 [08:35<18:30,  4.21it/s] 32%|███▏      | 2170/6844 [08:35<18:26,  4.22it/s] 32%|███▏      | 2171/6844 [08:35<18:23,  4.23it/s] 32%|███▏      | 2172/6844 [08:35<18:21,  4.24it/s] 32%|███▏      | 2173/6844 [08:36<18:19,  4.25it/s] 32%|███▏      | 2174/6844 [08:36<18:20,  4.25it/s] 32%|███▏      | 2175/6844 [08:36<18:19,  4.25it/s]                                                   {'loss': 4.6601, 'grad_norm': 0.13110469281673431, 'learning_rate': 0.0051744633830792626, 'epoch': 0.06}
- 32%|███▏      | 2175/6844 [08:36<18:19,  4.25it/s] 32%|███▏      | 2176/6844 [08:36<18:22,  4.23it/s] 32%|███▏      | 2177/6844 [08:37<18:21,  4.24it/s] 32%|███▏      | 2178/6844 [08:37<18:20,  4.24it/s] 32%|███▏      | 2179/6844 [08:37<18:20,  4.24it/s] 32%|███▏      | 2180/6844 [08:37<18:18,  4.25it/s] 32%|███▏      | 2181/6844 [08:38<18:17,  4.25it/s] 32%|███▏      | 2182/6844 [08:38<18:17,  4.25it/s] 32%|███▏      | 2183/6844 [08:38<18:16,  4.25it/s] 32%|███▏      | 2184/6844 [08:38<18:16,  4.25it/s] 32%|███▏      | 2185/6844 [08:38<18:18,  4.24it/s] 32%|███▏      | 2186/6844 [08:39<18:15,  4.25it/s] 32%|███▏      | 2187/6844 [08:39<18:14,  4.25it/s] 32%|███▏      | 2188/6844 [08:39<18:15,  4.25it/s] 32%|███▏      | 2189/6844 [08:39<18:15,  4.25it/s] 32%|███▏      | 2190/6844 [08:40<18:16,  4.25it/s] 32%|███▏      | 2191/6844 [08:40<18:16,  4.24it/s] 32%|███▏      | 2192/6844 [08:40<18:17,  4.24it/s] 32%|███▏      | 2193/6844 [08:40<18:17,  4.24it/s] 32%|███▏      | 2194/6844 [08:41<18:16,  4.24it/s] 32%|███▏      | 2195/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2196/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2197/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2198/6844 [08:42<18:12,  4.25it/s] 32%|███▏      | 2199/6844 [08:42<18:12,  4.25it/s] 32%|███▏      | 2200/6844 [08:42<18:10,  4.26it/s]{'loss': 4.6372, 'grad_norm': 0.13884729146957397, 'learning_rate': 0.0051479312389334795, 'epoch': 0.06}
-                                                    32%|███▏      | 2200/6844 [08:42<18:10,  4.26it/s] 32%|███▏      | 2201/6844 [08:42<18:14,  4.24it/s] 32%|███▏      | 2202/6844 [08:42<18:12,  4.25it/s] 32%|███▏      | 2203/6844 [08:43<18:10,  4.26it/s] 32%|███▏      | 2204/6844 [08:43<18:10,  4.26it/s] 32%|███▏      | 2205/6844 [08:43<18:08,  4.26it/s] 32%|███▏      | 2206/6844 [08:43<18:12,  4.24it/s] 32%|███▏      | 2207/6844 [08:44<18:11,  4.25it/s] 32%|███▏      | 2208/6844 [08:44<18:11,  4.25it/s] 32%|███▏      | 2209/6844 [08:44<18:11,  4.25it/s] 32%|███▏      | 2210/6844 [08:44<18:10,  4.25it/s] 32%|███▏      | 2211/6844 [08:45<18:10,  4.25it/s] 32%|███▏      | 2212/6844 [08:45<18:09,  4.25it/s] 32%|███▏      | 2213/6844 [08:45<18:44,  4.12it/s] 32%|███▏      | 2214/6844 [08:45<18:34,  4.16it/s] 32%|███▏      | 2215/6844 [08:46<18:27,  4.18it/s] 32%|███▏      | 2216/6844 [08:46<18:20,  4.20it/s] 32%|███▏      | 2217/6844 [08:46<18:16,  4.22it/s] 32%|███▏      | 2218/6844 [08:46<18:14,  4.23it/s] 32%|███▏      | 2219/6844 [08:47<18:12,  4.23it/s] 32%|███▏      | 2220/6844 [08:47<18:12,  4.23it/s] 32%|███▏      | 2221/6844 [08:47<18:10,  4.24it/s] 32%|███▏      | 2222/6844 [08:47<18:08,  4.24it/s] 32%|███▏      | 2223/6844 [08:47<18:07,  4.25it/s] 32%|███▏      | 2224/6844 [08:48<18:08,  4.25it/s] 33%|███▎      | 2225/6844 [08:48<18:07,  4.25it/s]{'loss': 4.6369, 'grad_norm': 0.1380309909582138, 'learning_rate': 0.005121049814686943, 'epoch': 0.07}
-                                                    33%|███▎      | 2225/6844 [08:48<18:07,  4.25it/s] 33%|███▎      | 2226/6844 [08:48<18:07,  4.25it/s] 33%|███▎      | 2227/6844 [08:48<18:08,  4.24it/s] 33%|███▎      | 2228/6844 [08:49<18:08,  4.24it/s] 33%|███▎      | 2229/6844 [08:49<18:07,  4.24it/s] 33%|███▎      | 2230/6844 [08:49<18:09,  4.24it/s] 33%|███▎      | 2231/6844 [08:49<18:09,  4.23it/s] 33%|███▎      | 2232/6844 [08:50<18:07,  4.24it/s] 33%|███▎      | 2233/6844 [08:50<18:05,  4.25it/s] 33%|███▎      | 2234/6844 [08:50<18:05,  4.25it/s] 33%|███▎      | 2235/6844 [08:50<18:06,  4.24it/s] 33%|███▎      | 2236/6844 [08:51<18:05,  4.25it/s] 33%|███▎      | 2237/6844 [08:51<18:07,  4.24it/s] 33%|███▎      | 2238/6844 [08:51<18:06,  4.24it/s] 33%|███▎      | 2239/6844 [08:51<18:05,  4.24it/s] 33%|███▎      | 2240/6844 [08:51<18:03,  4.25it/s] 33%|███▎      | 2241/6844 [08:52<18:04,  4.25it/s] 33%|███▎      | 2242/6844 [08:52<18:02,  4.25it/s] 33%|███▎      | 2243/6844 [08:52<18:02,  4.25it/s] 33%|███▎      | 2244/6844 [08:52<18:01,  4.25it/s] 33%|███▎      | 2245/6844 [08:53<18:01,  4.25it/s] 33%|███▎      | 2246/6844 [08:53<18:01,  4.25it/s] 33%|███▎      | 2247/6844 [08:53<18:01,  4.25it/s] 33%|███▎      | 2248/6844 [08:53<18:00,  4.25it/s] 33%|███▎      | 2249/6844 [08:54<18:01,  4.25it/s] 33%|███▎      | 2250/6844 [08:54<17:59,  4.25it/s]{'loss': 4.6334, 'grad_norm': 0.13852159678936005, 'learning_rate': 0.005093823481590649, 'epoch': 0.07}
-                                                    33%|███▎      | 2250/6844 [08:54<17:59,  4.25it/s] 33%|███▎      | 2251/6844 [08:54<18:03,  4.24it/s] 33%|███▎      | 2252/6844 [08:54<18:04,  4.23it/s] 33%|███▎      | 2253/6844 [08:55<18:04,  4.23it/s] 33%|███▎      | 2254/6844 [08:55<18:04,  4.23it/s] 33%|███▎      | 2255/6844 [08:55<18:03,  4.24it/s] 33%|███▎      | 2256/6844 [08:55<18:02,  4.24it/s] 33%|███▎      | 2257/6844 [08:55<18:00,  4.24it/s] 33%|███▎      | 2258/6844 [08:56<18:00,  4.25it/s] 33%|███▎      | 2259/6844 [08:56<18:00,  4.24it/s] 33%|███▎      | 2260/6844 [08:56<17:58,  4.25it/s] 33%|███▎      | 2261/6844 [08:56<17:56,  4.26it/s] 33%|███▎      | 2262/6844 [08:57<17:57,  4.25it/s] 33%|███▎      | 2263/6844 [08:57<17:56,  4.26it/s] 33%|███▎      | 2264/6844 [08:57<17:55,  4.26it/s] 33%|███▎      | 2265/6844 [08:57<17:54,  4.26it/s] 33%|███▎      | 2266/6844 [08:58<17:56,  4.25it/s] 33%|███▎      | 2267/6844 [08:58<17:57,  4.25it/s] 33%|███▎      | 2268/6844 [08:58<17:56,  4.25it/s] 33%|███▎      | 2269/6844 [08:58<17:58,  4.24it/s] 33%|███▎      | 2270/6844 [08:59<17:58,  4.24it/s] 33%|███▎      | 2271/6844 [08:59<17:56,  4.25it/s] 33%|███▎      | 2272/6844 [08:59<17:56,  4.25it/s] 33%|███▎      | 2273/6844 [08:59<17:55,  4.25it/s] 33%|███▎      | 2274/6844 [08:59<17:56,  4.25it/s] 33%|███▎      | 2275/6844 [09:00<17:56,  4.25it/s]{'loss': 4.6545, 'grad_norm': 0.1692841351032257, 'learning_rate': 0.0050662566669820285, 'epoch': 0.07}
-                                                    33%|███▎      | 2275/6844 [09:00<17:56,  4.25it/s] 33%|███▎      | 2276/6844 [09:00<17:59,  4.23it/s] 33%|███▎      | 2277/6844 [09:00<17:58,  4.23it/s] 33%|███▎      | 2278/6844 [09:00<17:57,  4.24it/s] 33%|███▎      | 2279/6844 [09:01<17:55,  4.25it/s] 33%|███▎      | 2280/6844 [09:01<17:55,  4.24it/s] 33%|███▎      | 2281/6844 [09:01<17:55,  4.24it/s] 33%|███▎      | 2282/6844 [09:01<17:55,  4.24it/s] 33%|███▎      | 2283/6844 [09:02<17:56,  4.24it/s] 33%|███▎      | 2284/6844 [09:02<17:57,  4.23it/s] 33%|███▎      | 2285/6844 [09:02<17:56,  4.24it/s] 33%|███▎      | 2286/6844 [09:02<17:56,  4.23it/s] 33%|███▎      | 2287/6844 [09:03<17:55,  4.24it/s] 33%|███▎      | 2288/6844 [09:03<17:54,  4.24it/s] 33%|███▎      | 2289/6844 [09:03<17:52,  4.25it/s] 33%|███▎      | 2290/6844 [09:03<17:51,  4.25it/s] 33%|███▎      | 2291/6844 [09:03<17:55,  4.23it/s] 33%|███▎      | 2292/6844 [09:04<17:54,  4.23it/s] 34%|███▎      | 2293/6844 [09:04<17:53,  4.24it/s] 34%|███▎      | 2294/6844 [09:04<17:52,  4.24it/s] 34%|███▎      | 2295/6844 [09:04<17:51,  4.25it/s] 34%|███▎      | 2296/6844 [09:05<17:50,  4.25it/s] 34%|███▎      | 2297/6844 [09:05<17:50,  4.25it/s] 34%|███▎      | 2298/6844 [09:05<17:50,  4.25it/s] 34%|███▎      | 2299/6844 [09:05<17:50,  4.24it/s] 34%|███▎      | 2300/6844 [09:06<17:50,  4.24it/s]{'loss': 4.6266, 'grad_norm': 0.13805490732192993, 'learning_rate': 0.005038353853565, 'epoch': 0.07}
-                                                    34%|███▎      | 2300/6844 [09:06<17:50,  4.24it/s] 34%|███▎      | 2301/6844 [09:06<17:54,  4.23it/s] 34%|███▎      | 2302/6844 [09:06<17:51,  4.24it/s] 34%|███▎      | 2303/6844 [09:06<17:51,  4.24it/s] 34%|███▎      | 2304/6844 [09:07<17:49,  4.25it/s] 34%|███▎      | 2305/6844 [09:07<17:49,  4.24it/s] 34%|███▎      | 2306/6844 [09:07<17:48,  4.25it/s] 34%|███▎      | 2307/6844 [09:07<17:48,  4.24it/s] 34%|███▎      | 2308/6844 [09:07<17:49,  4.24it/s] 34%|███▎      | 2309/6844 [09:08<17:50,  4.24it/s] 34%|███▍      | 2310/6844 [09:08<17:49,  4.24it/s] 34%|███▍      | 2311/6844 [09:08<17:48,  4.24it/s] 34%|███▍      | 2312/6844 [09:08<17:51,  4.23it/s] 34%|███▍      | 2313/6844 [09:09<17:51,  4.23it/s] 34%|███▍      | 2314/6844 [09:09<17:50,  4.23it/s] 34%|███▍      | 2315/6844 [09:09<17:49,  4.23it/s] 34%|███▍      | 2316/6844 [09:09<17:49,  4.24it/s] 34%|███▍      | 2317/6844 [09:10<17:48,  4.24it/s] 34%|███▍      | 2318/6844 [09:10<17:47,  4.24it/s] 34%|███▍      | 2319/6844 [09:10<17:47,  4.24it/s] 34%|███▍      | 2320/6844 [09:10<17:46,  4.24it/s] 34%|███▍      | 2321/6844 [09:11<17:46,  4.24it/s] 34%|███▍      | 2322/6844 [09:11<17:45,  4.24it/s] 34%|███▍      | 2323/6844 [09:11<17:45,  4.24it/s] 34%|███▍      | 2324/6844 [09:11<17:44,  4.24it/s] 34%|███▍      | 2325/6844 [09:11<17:44,  4.25it/s]{'loss': 4.6174, 'grad_norm': 0.15517091751098633, 'learning_rate': 0.0050101195786810306, 'epoch': 0.07}
-                                                    34%|███▍      | 2325/6844 [09:11<17:44,  4.25it/s] 34%|███▍      | 2326/6844 [09:12<17:46,  4.24it/s] 34%|███▍      | 2327/6844 [09:12<17:45,  4.24it/s] 34%|███▍      | 2328/6844 [09:12<17:43,  4.24it/s] 34%|███▍      | 2329/6844 [09:12<17:43,  4.25it/s] 34%|███▍      | 2330/6844 [09:13<17:42,  4.25it/s] 34%|███▍      | 2331/6844 [09:13<17:42,  4.25it/s] 34%|███▍      | 2332/6844 [09:13<17:40,  4.25it/s] 34%|███▍      | 2333/6844 [09:13<17:39,  4.26it/s] 34%|███▍      | 2334/6844 [09:14<17:40,  4.25it/s] 34%|███▍      | 2335/6844 [09:14<17:40,  4.25it/s] 34%|███▍      | 2336/6844 [09:14<17:40,  4.25it/s] 34%|███▍      | 2337/6844 [09:14<17:40,  4.25it/s] 34%|███▍      | 2338/6844 [09:15<17:39,  4.25it/s] 34%|███▍      | 2339/6844 [09:15<18:20,  4.09it/s] 34%|███▍      | 2340/6844 [09:15<18:46,  4.00it/s] 34%|███▍      | 2341/6844 [09:15<19:02,  3.94it/s] 34%|███▍      | 2342/6844 [09:16<18:44,  4.00it/s] 34%|███▍      | 2343/6844 [09:16<18:25,  4.07it/s] 34%|███▍      | 2344/6844 [09:16<18:11,  4.12it/s] 34%|███▍      | 2345/6844 [09:16<18:00,  4.16it/s] 34%|███▍      | 2346/6844 [09:17<17:53,  4.19it/s] 34%|███▍      | 2347/6844 [09:17<17:49,  4.20it/s] 34%|███▍      | 2348/6844 [09:17<17:44,  4.22it/s] 34%|███▍      | 2349/6844 [09:17<17:41,  4.23it/s] 34%|███▍      | 2350/6844 [09:17<17:39,  4.24it/s]{'loss': 4.6264, 'grad_norm': 0.15875458717346191, 'learning_rate': 0.00498155843357131, 'epoch': 0.07}
-                                                    34%|███▍      | 2350/6844 [09:17<17:39,  4.24it/s] 34%|███▍      | 2351/6844 [09:18<17:42,  4.23it/s] 34%|███▍      | 2352/6844 [09:18<17:40,  4.24it/s] 34%|███▍      | 2353/6844 [09:18<17:38,  4.24it/s] 34%|███▍      | 2354/6844 [09:18<17:41,  4.23it/s] 34%|███▍      | 2355/6844 [09:19<17:40,  4.23it/s] 34%|███▍      | 2356/6844 [09:19<17:39,  4.24it/s] 34%|███▍      | 2357/6844 [09:19<17:37,  4.24it/s] 34%|███▍      | 2358/6844 [09:19<17:36,  4.24it/s] 34%|███▍      | 2359/6844 [09:20<17:36,  4.25it/s] 34%|███▍      | 2360/6844 [09:20<17:37,  4.24it/s] 34%|███▍      | 2361/6844 [09:20<17:36,  4.24it/s] 35%|███▍      | 2362/6844 [09:20<17:36,  4.24it/s] 35%|███▍      | 2363/6844 [09:21<17:36,  4.24it/s] 35%|███▍      | 2364/6844 [09:21<17:36,  4.24it/s] 35%|███▍      | 2365/6844 [09:21<17:36,  4.24it/s] 35%|███▍      | 2366/6844 [09:21<17:35,  4.24it/s] 35%|███▍      | 2367/6844 [09:21<17:34,  4.24it/s] 35%|███▍      | 2368/6844 [09:22<17:34,  4.25it/s] 35%|███▍      | 2369/6844 [09:22<17:33,  4.25it/s] 35%|███▍      | 2370/6844 [09:22<17:32,  4.25it/s] 35%|███▍      | 2371/6844 [09:22<17:31,  4.25it/s] 35%|███▍      | 2372/6844 [09:23<17:32,  4.25it/s] 35%|███▍      | 2373/6844 [09:23<17:31,  4.25it/s] 35%|███▍      | 2374/6844 [09:23<17:32,  4.25it/s] 35%|███▍      | 2375/6844 [09:23<17:33,  4.24it/s]                                                   {'loss': 4.6252, 'grad_norm': 0.1526160091161728, 'learning_rate': 0.004952675062630156, 'epoch': 0.07}
- 35%|███▍      | 2375/6844 [09:23<17:33,  4.24it/s] 35%|███▍      | 2376/6844 [09:24<17:37,  4.23it/s] 35%|███▍      | 2377/6844 [09:24<17:35,  4.23it/s] 35%|███▍      | 2378/6844 [09:24<17:42,  4.21it/s] 35%|███▍      | 2379/6844 [09:24<17:36,  4.23it/s] 35%|███▍      | 2380/6844 [09:25<17:33,  4.24it/s] 35%|███▍      | 2381/6844 [09:25<17:32,  4.24it/s] 35%|███▍      | 2382/6844 [09:25<17:32,  4.24it/s] 35%|███▍      | 2383/6844 [09:25<17:31,  4.24it/s] 35%|███▍      | 2384/6844 [09:25<17:31,  4.24it/s] 35%|███▍      | 2385/6844 [09:26<17:29,  4.25it/s] 35%|███▍      | 2386/6844 [09:26<17:30,  4.24it/s] 35%|███▍      | 2387/6844 [09:26<17:29,  4.25it/s] 35%|███▍      | 2388/6844 [09:26<17:55,  4.14it/s] 35%|███▍      | 2389/6844 [09:27<17:47,  4.17it/s] 35%|███▍      | 2390/6844 [09:27<17:41,  4.20it/s] 35%|███▍      | 2391/6844 [09:27<17:37,  4.21it/s] 35%|███▍      | 2392/6844 [09:27<17:34,  4.22it/s] 35%|███▍      | 2393/6844 [09:28<17:35,  4.22it/s] 35%|███▍      | 2394/6844 [09:28<17:32,  4.23it/s] 35%|███▍      | 2395/6844 [09:28<17:29,  4.24it/s] 35%|███▌      | 2396/6844 [09:28<17:27,  4.25it/s] 35%|███▌      | 2397/6844 [09:29<17:25,  4.25it/s] 35%|███▌      | 2398/6844 [09:29<17:24,  4.26it/s] 35%|███▌      | 2399/6844 [09:29<17:25,  4.25it/s] 35%|███▌      | 2400/6844 [09:29<17:27,  4.24it/s]                                                   {'loss': 4.6207, 'grad_norm': 0.1325232982635498, 'learning_rate': 0.004923474162649782, 'epoch': 0.07}
- 35%|███▌      | 2400/6844 [09:29<17:27,  4.24it/s] 35%|███▌      | 2401/6844 [09:30<17:30,  4.23it/s] 35%|███▌      | 2402/6844 [09:30<17:28,  4.24it/s] 35%|███▌      | 2403/6844 [09:30<17:27,  4.24it/s] 35%|███▌      | 2404/6844 [09:30<17:25,  4.25it/s] 35%|███▌      | 2405/6844 [09:30<17:25,  4.25it/s] 35%|███▌      | 2406/6844 [09:31<17:23,  4.25it/s] 35%|███▌      | 2407/6844 [09:31<17:23,  4.25it/s] 35%|███▌      | 2408/6844 [09:31<17:23,  4.25it/s] 35%|███▌      | 2409/6844 [09:31<17:22,  4.25it/s] 35%|███▌      | 2410/6844 [09:32<17:22,  4.25it/s] 35%|███▌      | 2411/6844 [09:32<17:22,  4.25it/s] 35%|███▌      | 2412/6844 [09:32<17:21,  4.25it/s] 35%|███▌      | 2413/6844 [09:32<17:21,  4.26it/s] 35%|███▌      | 2414/6844 [09:33<17:20,  4.26it/s] 35%|███▌      | 2415/6844 [09:33<17:20,  4.25it/s] 35%|███▌      | 2416/6844 [09:33<17:19,  4.26it/s] 35%|███▌      | 2417/6844 [09:33<17:20,  4.25it/s] 35%|███▌      | 2418/6844 [09:34<17:22,  4.25it/s] 35%|███▌      | 2419/6844 [09:34<17:21,  4.25it/s] 35%|███▌      | 2420/6844 [09:34<17:20,  4.25it/s] 35%|███▌      | 2421/6844 [09:34<17:20,  4.25it/s] 35%|███▌      | 2422/6844 [09:34<17:20,  4.25it/s] 35%|███▌      | 2423/6844 [09:35<17:20,  4.25it/s] 35%|███▌      | 2424/6844 [09:35<17:19,  4.25it/s] 35%|███▌      | 2425/6844 [09:35<17:17,  4.26it/s]{'loss': 4.6075, 'grad_norm': 0.14302918314933777, 'learning_rate': 0.004893960482056533, 'epoch': 0.07}
-                                                    35%|███▌      | 2425/6844 [09:35<17:17,  4.26it/s] 35%|███▌      | 2426/6844 [09:35<17:20,  4.25it/s] 35%|███▌      | 2427/6844 [09:36<17:19,  4.25it/s] 35%|███▌      | 2428/6844 [09:36<17:18,  4.25it/s] 35%|███▌      | 2429/6844 [09:36<17:17,  4.26it/s] 36%|███▌      | 2430/6844 [09:36<17:16,  4.26it/s] 36%|███▌      | 2431/6844 [09:37<17:16,  4.26it/s] 36%|███▌      | 2432/6844 [09:37<17:15,  4.26it/s] 36%|███▌      | 2433/6844 [09:37<17:15,  4.26it/s] 36%|███▌      | 2434/6844 [09:37<17:15,  4.26it/s] 36%|███▌      | 2435/6844 [09:37<17:16,  4.25it/s] 36%|███▌      | 2436/6844 [09:38<17:18,  4.25it/s] 36%|███▌      | 2437/6844 [09:38<17:17,  4.25it/s] 36%|███▌      | 2438/6844 [09:38<17:15,  4.25it/s] 36%|███▌      | 2439/6844 [09:38<17:18,  4.24it/s] 36%|███▌      | 2440/6844 [09:39<17:16,  4.25it/s] 36%|███▌      | 2441/6844 [09:39<17:16,  4.25it/s] 36%|███▌      | 2442/6844 [09:39<17:16,  4.25it/s] 36%|███▌      | 2443/6844 [09:39<17:17,  4.24it/s] 36%|███▌      | 2444/6844 [09:40<17:16,  4.25it/s] 36%|███▌      | 2445/6844 [09:40<17:15,  4.25it/s] 36%|███▌      | 2446/6844 [09:40<17:16,  4.24it/s] 36%|███▌      | 2447/6844 [09:40<17:14,  4.25it/s] 36%|███▌      | 2448/6844 [09:41<17:14,  4.25it/s] 36%|███▌      | 2449/6844 [09:41<17:14,  4.25it/s] 36%|███▌      | 2450/6844 [09:41<17:14,  4.25it/s]{'loss': 4.6053, 'grad_norm': 0.13558895885944366, 'learning_rate': 0.00486413882013874, 'epoch': 0.07}                                                   
- 36%|███▌      | 2450/6844 [09:41<17:14,  4.25it/s] 36%|███▌      | 2451/6844 [09:41<17:18,  4.23it/s] 36%|███▌      | 2452/6844 [09:42<17:14,  4.24it/s] 36%|███▌      | 2453/6844 [09:42<17:15,  4.24it/s] 36%|███▌      | 2454/6844 [09:42<17:14,  4.24it/s] 36%|███▌      | 2455/6844 [09:42<17:13,  4.25it/s] 36%|███▌      | 2456/6844 [09:42<17:13,  4.25it/s] 36%|███▌      | 2457/6844 [09:43<17:13,  4.24it/s] 36%|███▌      | 2458/6844 [09:43<17:13,  4.24it/s] 36%|███▌      | 2459/6844 [09:43<17:11,  4.25it/s] 36%|███▌      | 2460/6844 [09:43<17:12,  4.25it/s] 36%|███▌      | 2461/6844 [09:44<17:11,  4.25it/s] 36%|███▌      | 2462/6844 [09:44<17:10,  4.25it/s] 36%|███▌      | 2463/6844 [09:44<17:10,  4.25it/s] 36%|███▌      | 2464/6844 [09:44<17:10,  4.25it/s] 36%|███▌      | 2465/6844 [09:45<17:09,  4.25it/s] 36%|███▌      | 2466/6844 [09:45<17:47,  4.10it/s] 36%|███▌      | 2467/6844 [09:45<18:19,  3.98it/s] 36%|███▌      | 2468/6844 [09:45<17:58,  4.06it/s] 36%|███▌      | 2469/6844 [09:46<17:42,  4.12it/s] 36%|███▌      | 2470/6844 [09:46<17:33,  4.15it/s] 36%|███▌      | 2471/6844 [09:46<17:25,  4.18it/s] 36%|███▌      | 2472/6844 [09:46<17:20,  4.20it/s] 36%|███▌      | 2473/6844 [09:47<17:16,  4.22it/s] 36%|███▌      | 2474/6844 [09:47<17:13,  4.23it/s] 36%|███▌      | 2475/6844 [09:47<17:10,  4.24it/s]                                                   {'loss': 4.6149, 'grad_norm': 0.13162703812122345, 'learning_rate': 0.004834014026266296, 'epoch': 0.07}
- 36%|███▌      | 2475/6844 [09:47<17:10,  4.24it/s] 36%|███▌      | 2476/6844 [09:47<17:11,  4.23it/s] 36%|███▌      | 2477/6844 [09:47<17:09,  4.24it/s] 36%|███▌      | 2478/6844 [09:48<17:08,  4.25it/s] 36%|███▌      | 2479/6844 [09:48<17:07,  4.25it/s] 36%|███▌      | 2480/6844 [09:48<17:05,  4.26it/s] 36%|███▋      | 2481/6844 [09:48<17:06,  4.25it/s] 36%|███▋      | 2482/6844 [09:49<17:08,  4.24it/s] 36%|███▋      | 2483/6844 [09:49<17:06,  4.25it/s] 36%|███▋      | 2484/6844 [09:49<17:06,  4.25it/s] 36%|███▋      | 2485/6844 [09:49<17:06,  4.25it/s] 36%|███▋      | 2486/6844 [09:50<17:06,  4.25it/s] 36%|███▋      | 2487/6844 [09:50<17:05,  4.25it/s] 36%|███▋      | 2488/6844 [09:50<17:05,  4.25it/s] 36%|███▋      | 2489/6844 [09:50<17:04,  4.25it/s] 36%|███▋      | 2490/6844 [09:51<17:05,  4.25it/s] 36%|███▋      | 2491/6844 [09:51<17:05,  4.24it/s] 36%|███▋      | 2492/6844 [09:51<17:05,  4.24it/s] 36%|███▋      | 2493/6844 [09:51<17:04,  4.25it/s] 36%|███▋      | 2494/6844 [09:51<17:04,  4.25it/s] 36%|███▋      | 2495/6844 [09:52<17:03,  4.25it/s] 36%|███▋      | 2496/6844 [09:52<17:02,  4.25it/s] 36%|███▋      | 2497/6844 [09:52<17:02,  4.25it/s] 36%|███▋      | 2498/6844 [09:52<17:01,  4.25it/s] 37%|███▋      | 2499/6844 [09:53<17:02,  4.25it/s] 37%|███▋      | 2500/6844 [09:53<17:01,  4.25it/s]                                                   {'loss': 4.6087, 'grad_norm': 0.13129086792469025, 'learning_rate': 0.004803590999102084, 'epoch': 0.07}
- 37%|███▋      | 2500/6844 [09:53<17:01,  4.25it/s] 37%|███▋      | 2501/6844 [09:53<17:04,  4.24it/s] 37%|███▋      | 2502/6844 [09:53<17:04,  4.24it/s] 37%|███▋      | 2503/6844 [09:54<17:03,  4.24it/s] 37%|███▋      | 2504/6844 [09:54<17:01,  4.25it/s] 37%|███▋      | 2505/6844 [09:54<17:00,  4.25it/s] 37%|███▋      | 2506/6844 [09:54<17:02,  4.24it/s] 37%|███▋      | 2507/6844 [09:55<17:02,  4.24it/s] 37%|███▋      | 2508/6844 [09:55<17:02,  4.24it/s] 37%|███▋      | 2509/6844 [09:55<17:00,  4.25it/s] 37%|███▋      | 2510/6844 [09:55<16:59,  4.25it/s] 37%|███▋      | 2511/6844 [09:55<17:00,  4.25it/s] 37%|███▋      | 2512/6844 [09:56<17:00,  4.25it/s] 37%|███▋      | 2513/6844 [09:56<17:00,  4.24it/s] 37%|███▋      | 2514/6844 [09:56<17:01,  4.24it/s] 37%|███▋      | 2515/6844 [09:56<17:01,  4.24it/s] 37%|███▋      | 2516/6844 [09:57<17:01,  4.24it/s] 37%|███▋      | 2517/6844 [09:57<16:59,  4.24it/s] 37%|███▋      | 2518/6844 [09:57<17:00,  4.24it/s] 37%|███▋      | 2519/6844 [09:57<16:59,  4.24it/s] 37%|███▋      | 2520/6844 [09:58<16:59,  4.24it/s] 37%|███▋      | 2521/6844 [09:58<16:58,  4.24it/s] 37%|███▋      | 2522/6844 [09:58<16:58,  4.24it/s] 37%|███▋      | 2523/6844 [09:58<17:00,  4.24it/s] 37%|███▋      | 2524/6844 [09:59<17:01,  4.23it/s] 37%|███▋      | 2525/6844 [09:59<16:59,  4.24it/s]{'loss': 4.6055, 'grad_norm': 0.1252889782190323, 'learning_rate': 0.004772874685805399, 'epoch': 0.07}
-                                                    37%|███▋      | 2525/6844 [09:59<16:59,  4.24it/s] 37%|███▋      | 2526/6844 [09:59<17:01,  4.23it/s] 37%|███▋      | 2527/6844 [09:59<16:58,  4.24it/s] 37%|███▋      | 2528/6844 [09:59<16:57,  4.24it/s] 37%|███▋      | 2529/6844 [10:00<16:55,  4.25it/s] 37%|███▋      | 2530/6844 [10:00<16:54,  4.25it/s] 37%|███▋      | 2531/6844 [10:00<16:53,  4.26it/s] 37%|███▋      | 2532/6844 [10:00<16:53,  4.25it/s] 37%|███▋      | 2533/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2534/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2535/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2536/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2537/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2538/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2539/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2540/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2541/6844 [10:03<16:53,  4.25it/s] 37%|███▋      | 2542/6844 [10:03<16:54,  4.24it/s] 37%|███▋      | 2543/6844 [10:03<16:52,  4.25it/s] 37%|███▋      | 2544/6844 [10:03<16:50,  4.26it/s] 37%|███▋      | 2545/6844 [10:03<16:53,  4.24it/s] 37%|███▋      | 2546/6844 [10:04<16:53,  4.24it/s] 37%|███▋      | 2547/6844 [10:04<16:52,  4.25it/s] 37%|███▋      | 2548/6844 [10:04<16:51,  4.25it/s] 37%|███▋      | 2549/6844 [10:04<16:50,  4.25it/s] 37%|███▋      | 2550/6844 [10:05<16:51,  4.25it/s]                                                   {'loss': 4.6004, 'grad_norm': 0.15808868408203125, 'learning_rate': 0.004741870081227479, 'epoch': 0.07}
- 37%|███▋      | 2550/6844 [10:05<16:51,  4.25it/s] 37%|███▋      | 2551/6844 [10:05<16:52,  4.24it/s] 37%|███▋      | 2552/6844 [10:05<16:51,  4.24it/s] 37%|███▋      | 2553/6844 [10:05<16:52,  4.24it/s] 37%|███▋      | 2554/6844 [10:06<16:53,  4.23it/s] 37%|███▋      | 2555/6844 [10:06<16:51,  4.24it/s] 37%|███▋      | 2556/6844 [10:06<16:50,  4.24it/s] 37%|███▋      | 2557/6844 [10:06<16:49,  4.25it/s] 37%|███▋      | 2558/6844 [10:07<16:48,  4.25it/s] 37%|███▋      | 2559/6844 [10:07<16:50,  4.24it/s] 37%|███▋      | 2560/6844 [10:07<16:50,  4.24it/s] 37%|███▋      | 2561/6844 [10:07<16:49,  4.24it/s] 37%|███▋      | 2562/6844 [10:07<16:57,  4.21it/s] 37%|███▋      | 2563/6844 [10:08<16:56,  4.21it/s] 37%|███▋      | 2564/6844 [10:08<16:51,  4.23it/s] 37%|███▋      | 2565/6844 [10:08<16:49,  4.24it/s] 37%|███▋      | 2566/6844 [10:08<16:49,  4.24it/s] 38%|███▊      | 2567/6844 [10:09<16:49,  4.24it/s] 38%|███▊      | 2568/6844 [10:09<16:49,  4.24it/s] 38%|███▊      | 2569/6844 [10:09<16:49,  4.24it/s] 38%|███▊      | 2570/6844 [10:09<16:49,  4.23it/s] 38%|███▊      | 2571/6844 [10:10<16:48,  4.24it/s] 38%|███▊      | 2572/6844 [10:10<16:47,  4.24it/s] 38%|███▊      | 2573/6844 [10:10<16:46,  4.24it/s] 38%|███▊      | 2574/6844 [10:10<16:45,  4.24it/s] 38%|███▊      | 2575/6844 [10:11<16:44,  4.25it/s]                                                   {'loss': 4.6007, 'grad_norm': 0.11811164766550064, 'learning_rate': 0.004710582227099274, 'epoch': 0.08}
- 38%|███▊      | 2575/6844 [10:11<16:44,  4.25it/s] 38%|███▊      | 2576/6844 [10:11<16:48,  4.23it/s] 38%|███▊      | 2577/6844 [10:11<16:47,  4.24it/s] 38%|███▊      | 2578/6844 [10:11<16:44,  4.25it/s] 38%|███▊      | 2579/6844 [10:11<16:44,  4.25it/s] 38%|███▊      | 2580/6844 [10:12<16:44,  4.25it/s] 38%|███▊      | 2581/6844 [10:12<16:44,  4.25it/s] 38%|███▊      | 2582/6844 [10:12<16:44,  4.24it/s] 38%|███▊      | 2583/6844 [10:12<16:45,  4.24it/s] 38%|███▊      | 2584/6844 [10:13<16:45,  4.24it/s] 38%|███▊      | 2585/6844 [10:13<16:45,  4.23it/s] 38%|███▊      | 2586/6844 [10:13<16:45,  4.24it/s] 38%|███▊      | 2587/6844 [10:13<16:44,  4.24it/s] 38%|███▊      | 2588/6844 [10:14<16:44,  4.24it/s] 38%|███▊      | 2589/6844 [10:14<16:44,  4.24it/s] 38%|███▊      | 2590/6844 [10:14<16:45,  4.23it/s] 38%|███▊      | 2591/6844 [10:14<16:45,  4.23it/s] 38%|███▊      | 2592/6844 [10:15<16:44,  4.23it/s] 38%|███▊      | 2593/6844 [10:15<17:23,  4.07it/s] 38%|███▊      | 2594/6844 [10:15<17:09,  4.13it/s] 38%|███▊      | 2595/6844 [10:15<17:00,  4.16it/s] 38%|███▊      | 2596/6844 [10:16<16:54,  4.19it/s] 38%|███▊      | 2597/6844 [10:16<16:50,  4.20it/s] 38%|███▊      | 2598/6844 [10:16<16:47,  4.21it/s] 38%|███▊      | 2599/6844 [10:16<16:46,  4.22it/s] 38%|███▊      | 2600/6844 [10:16<16:44,  4.23it/s]{'loss': 4.5765, 'grad_norm': 0.1229582279920578, 'learning_rate': 0.004679016211211607, 'epoch': 0.08}
-                                                    38%|███▊      | 2600/6844 [10:16<16:44,  4.23it/s] 38%|███▊      | 2601/6844 [10:17<16:48,  4.21it/s] 38%|███▊      | 2602/6844 [10:17<16:45,  4.22it/s] 38%|███▊      | 2603/6844 [10:17<16:43,  4.23it/s] 38%|███▊      | 2604/6844 [10:17<16:41,  4.23it/s] 38%|███▊      | 2605/6844 [10:18<16:41,  4.23it/s] 38%|███▊      | 2606/6844 [10:18<16:40,  4.24it/s] 38%|███▊      | 2607/6844 [10:18<16:39,  4.24it/s] 38%|███▊      | 2608/6844 [10:18<16:40,  4.23it/s] 38%|███▊      | 2609/6844 [10:19<16:38,  4.24it/s] 38%|███▊      | 2610/6844 [10:19<16:35,  4.25it/s] 38%|███▊      | 2611/6844 [10:19<16:35,  4.25it/s] 38%|███▊      | 2612/6844 [10:19<16:35,  4.25it/s] 38%|███▊      | 2613/6844 [10:20<16:36,  4.25it/s] 38%|███▊      | 2614/6844 [10:20<16:37,  4.24it/s] 38%|███▊      | 2615/6844 [10:20<16:36,  4.25it/s] 38%|███▊      | 2616/6844 [10:20<16:35,  4.25it/s] 38%|███▊      | 2617/6844 [10:20<16:35,  4.25it/s] 38%|███▊      | 2618/6844 [10:21<16:34,  4.25it/s] 38%|███▊      | 2619/6844 [10:21<16:33,  4.25it/s] 38%|███▊      | 2620/6844 [10:21<16:33,  4.25it/s] 38%|███▊      | 2621/6844 [10:21<16:32,  4.25it/s] 38%|███▊      | 2622/6844 [10:22<16:34,  4.25it/s] 38%|███▊      | 2623/6844 [10:22<16:33,  4.25it/s] 38%|███▊      | 2624/6844 [10:22<16:32,  4.25it/s] 38%|███▊      | 2625/6844 [10:22<16:31,  4.25it/s]{'loss': 4.5979, 'grad_norm': 0.13049739599227905, 'learning_rate': 0.004647177166587828, 'epoch': 0.08}                                                   
- 38%|███▊      | 2625/6844 [10:22<16:31,  4.25it/s] 38%|███▊      | 2626/6844 [10:23<16:36,  4.23it/s] 38%|███▊      | 2627/6844 [10:23<16:36,  4.23it/s] 38%|███▊      | 2628/6844 [10:23<16:35,  4.23it/s] 38%|███▊      | 2629/6844 [10:23<16:35,  4.23it/s] 38%|███▊      | 2630/6844 [10:24<16:34,  4.24it/s] 38%|███▊      | 2631/6844 [10:24<16:34,  4.24it/s] 38%|███▊      | 2632/6844 [10:24<16:32,  4.24it/s] 38%|███▊      | 2633/6844 [10:24<16:33,  4.24it/s] 38%|███▊      | 2634/6844 [10:24<16:33,  4.24it/s] 39%|███▊      | 2635/6844 [10:25<16:33,  4.24it/s] 39%|███▊      | 2636/6844 [10:25<16:32,  4.24it/s] 39%|███▊      | 2637/6844 [10:25<16:32,  4.24it/s] 39%|███▊      | 2638/6844 [10:25<16:32,  4.24it/s] 39%|███▊      | 2639/6844 [10:26<16:30,  4.25it/s] 39%|███▊      | 2640/6844 [10:26<16:29,  4.25it/s] 39%|███▊      | 2641/6844 [10:26<16:27,  4.26it/s] 39%|███▊      | 2642/6844 [10:26<16:26,  4.26it/s] 39%|███▊      | 2643/6844 [10:27<16:26,  4.26it/s] 39%|███▊      | 2644/6844 [10:27<16:27,  4.25it/s] 39%|███▊      | 2645/6844 [10:27<16:26,  4.26it/s] 39%|███▊      | 2646/6844 [10:27<16:26,  4.25it/s] 39%|███▊      | 2647/6844 [10:28<16:27,  4.25it/s] 39%|███▊      | 2648/6844 [10:28<16:28,  4.25it/s] 39%|███▊      | 2649/6844 [10:28<16:26,  4.25it/s] 39%|███▊      | 2650/6844 [10:28<16:27,  4.25it/s]                                                   {'loss': 4.5822, 'grad_norm': 0.13405129313468933, 'learning_rate': 0.004615070270649131, 'epoch': 0.08}
- 39%|███▊      | 2650/6844 [10:28<16:27,  4.25it/s] 39%|███▊      | 2651/6844 [10:28<16:29,  4.24it/s] 39%|███▊      | 2652/6844 [10:29<16:29,  4.24it/s] 39%|███▉      | 2653/6844 [10:29<16:27,  4.25it/s] 39%|███▉      | 2654/6844 [10:29<16:28,  4.24it/s] 39%|███▉      | 2655/6844 [10:29<16:27,  4.24it/s] 39%|███▉      | 2656/6844 [10:30<16:26,  4.25it/s] 39%|███▉      | 2657/6844 [10:30<16:25,  4.25it/s] 39%|███▉      | 2658/6844 [10:30<16:25,  4.25it/s] 39%|███▉      | 2659/6844 [10:30<16:26,  4.24it/s] 39%|███▉      | 2660/6844 [10:31<16:26,  4.24it/s] 39%|███▉      | 2661/6844 [10:31<16:26,  4.24it/s] 39%|███▉      | 2662/6844 [10:31<16:24,  4.25it/s] 39%|███▉      | 2663/6844 [10:31<16:23,  4.25it/s] 39%|███▉      | 2664/6844 [10:32<16:24,  4.25it/s] 39%|███▉      | 2665/6844 [10:32<16:24,  4.25it/s] 39%|███▉      | 2666/6844 [10:32<16:24,  4.24it/s] 39%|███▉      | 2667/6844 [10:32<16:24,  4.24it/s] 39%|███▉      | 2668/6844 [10:32<16:25,  4.24it/s] 39%|███▉      | 2669/6844 [10:33<16:24,  4.24it/s] 39%|███▉      | 2670/6844 [10:33<16:23,  4.24it/s] 39%|███▉      | 2671/6844 [10:33<16:22,  4.25it/s] 39%|███▉      | 2672/6844 [10:33<16:23,  4.24it/s] 39%|███▉      | 2673/6844 [10:34<16:22,  4.25it/s] 39%|███▉      | 2674/6844 [10:34<16:21,  4.25it/s] 39%|███▉      | 2675/6844 [10:34<16:23,  4.24it/s]{'loss': 4.5753, 'grad_norm': 0.12770973145961761, 'learning_rate': 0.0045827007443726316, 'epoch': 0.08}                                                   
- 39%|███▉      | 2675/6844 [10:34<16:23,  4.24it/s] 39%|███▉      | 2676/6844 [10:34<16:26,  4.22it/s] 39%|███▉      | 2677/6844 [10:35<16:25,  4.23it/s] 39%|███▉      | 2678/6844 [10:35<16:23,  4.23it/s] 39%|███▉      | 2679/6844 [10:35<16:21,  4.24it/s] 39%|███▉      | 2680/6844 [10:35<16:21,  4.24it/s] 39%|███▉      | 2681/6844 [10:36<16:20,  4.24it/s] 39%|███▉      | 2682/6844 [10:36<16:21,  4.24it/s] 39%|███▉      | 2683/6844 [10:36<16:20,  4.24it/s] 39%|███▉      | 2684/6844 [10:36<16:20,  4.24it/s] 39%|███▉      | 2685/6844 [10:37<16:19,  4.24it/s] 39%|███▉      | 2686/6844 [10:37<16:18,  4.25it/s] 39%|███▉      | 2687/6844 [10:37<16:19,  4.25it/s] 39%|███▉      | 2688/6844 [10:37<16:17,  4.25it/s] 39%|███▉      | 2689/6844 [10:37<16:17,  4.25it/s] 39%|███▉      | 2690/6844 [10:38<16:17,  4.25it/s] 39%|███▉      | 2691/6844 [10:38<16:17,  4.25it/s] 39%|███▉      | 2692/6844 [10:38<16:17,  4.25it/s] 39%|███▉      | 2693/6844 [10:38<16:18,  4.24it/s] 39%|███▉      | 2694/6844 [10:39<16:16,  4.25it/s] 39%|███▉      | 2695/6844 [10:39<16:16,  4.25it/s] 39%|███▉      | 2696/6844 [10:39<16:16,  4.25it/s] 39%|███▉      | 2697/6844 [10:39<16:16,  4.25it/s] 39%|███▉      | 2698/6844 [10:40<16:16,  4.24it/s] 39%|███▉      | 2699/6844 [10:40<16:17,  4.24it/s] 39%|███▉      | 2700/6844 [10:40<16:17,  4.24it/s]{'loss': 4.5934, 'grad_norm': 0.1522788256406784, 'learning_rate': 0.00455007385144238, 'epoch': 0.08}
-                                                    39%|███▉      | 2700/6844 [10:40<16:17,  4.24it/s] 39%|███▉      | 2701/6844 [10:40<16:19,  4.23it/s] 39%|███▉      | 2702/6844 [10:41<16:18,  4.23it/s] 39%|███▉      | 2703/6844 [10:41<16:17,  4.24it/s] 40%|███▉      | 2704/6844 [10:41<16:17,  4.24it/s] 40%|███▉      | 2705/6844 [10:41<16:17,  4.24it/s] 40%|███▉      | 2706/6844 [10:41<16:15,  4.24it/s] 40%|███▉      | 2707/6844 [10:42<16:15,  4.24it/s] 40%|███▉      | 2708/6844 [10:42<16:13,  4.25it/s] 40%|███▉      | 2709/6844 [10:42<16:11,  4.26it/s] 40%|███▉      | 2710/6844 [10:42<16:11,  4.26it/s] 40%|███▉      | 2711/6844 [10:43<16:11,  4.25it/s] 40%|███▉      | 2712/6844 [10:43<16:10,  4.26it/s] 40%|███▉      | 2713/6844 [10:43<16:10,  4.26it/s] 40%|███▉      | 2714/6844 [10:43<16:14,  4.24it/s] 40%|███▉      | 2715/6844 [10:44<16:14,  4.24it/s] 40%|███▉      | 2716/6844 [10:44<16:12,  4.25it/s] 40%|███▉      | 2717/6844 [10:44<16:11,  4.25it/s] 40%|███▉      | 2718/6844 [10:44<16:12,  4.24it/s] 40%|███▉      | 2719/6844 [10:45<16:12,  4.24it/s] 40%|███▉      | 2720/6844 [10:45<16:10,  4.25it/s] 40%|███▉      | 2721/6844 [10:45<16:43,  4.11it/s] 40%|███▉      | 2722/6844 [10:45<17:08,  4.01it/s] 40%|███▉      | 2723/6844 [10:46<17:27,  3.94it/s] 40%|███▉      | 2724/6844 [10:46<17:43,  3.87it/s] 40%|███▉      | 2725/6844 [10:46<17:47,  3.86it/s]{'loss': 4.5781, 'grad_norm': 0.16059696674346924, 'learning_rate': 0.004517194897393414, 'epoch': 0.08}
-                                                    40%|███▉      | 2725/6844 [10:46<17:47,  3.86it/s] 40%|███▉      | 2726/6844 [10:46<17:55,  3.83it/s] 40%|███▉      | 2727/6844 [10:47<17:54,  3.83it/s] 40%|███▉      | 2728/6844 [10:47<17:57,  3.82it/s] 40%|███▉      | 2729/6844 [10:47<18:00,  3.81it/s] 40%|███▉      | 2730/6844 [10:47<18:01,  3.80it/s] 40%|███▉      | 2731/6844 [10:48<17:48,  3.85it/s] 40%|███▉      | 2732/6844 [10:48<17:17,  3.96it/s] 40%|███▉      | 2733/6844 [10:48<16:56,  4.04it/s] 40%|███▉      | 2734/6844 [10:48<16:41,  4.10it/s] 40%|███▉      | 2735/6844 [10:49<16:29,  4.15it/s] 40%|███▉      | 2736/6844 [10:49<16:22,  4.18it/s] 40%|███▉      | 2737/6844 [10:49<16:17,  4.20it/s] 40%|████      | 2738/6844 [10:49<16:14,  4.21it/s] 40%|████      | 2739/6844 [10:50<16:12,  4.22it/s] 40%|████      | 2740/6844 [10:50<16:11,  4.22it/s] 40%|████      | 2741/6844 [10:50<16:09,  4.23it/s] 40%|████      | 2742/6844 [10:50<16:08,  4.24it/s] 40%|████      | 2743/6844 [10:50<16:06,  4.24it/s] 40%|████      | 2744/6844 [10:51<16:05,  4.25it/s] 40%|████      | 2745/6844 [10:51<16:06,  4.24it/s] 40%|████      | 2746/6844 [10:51<16:06,  4.24it/s] 40%|████      | 2747/6844 [10:51<16:06,  4.24it/s] 40%|████      | 2748/6844 [10:52<16:05,  4.24it/s] 40%|████      | 2749/6844 [10:52<16:05,  4.24it/s] 40%|████      | 2750/6844 [10:52<16:04,  4.24it/s]                                                   {'loss': 4.5733, 'grad_norm': 0.13393448293209076, 'learning_rate': 0.004484069228749019, 'epoch': 0.08}
- 40%|████      | 2750/6844 [10:52<16:04,  4.24it/s] 40%|████      | 2751/6844 [10:52<16:06,  4.23it/s] 40%|████      | 2752/6844 [10:53<16:05,  4.24it/s] 40%|████      | 2753/6844 [10:53<16:02,  4.25it/s] 40%|████      | 2754/6844 [10:53<16:01,  4.25it/s] 40%|████      | 2755/6844 [10:53<16:04,  4.24it/s] 40%|████      | 2756/6844 [10:54<16:04,  4.24it/s] 40%|████      | 2757/6844 [10:54<16:03,  4.24it/s] 40%|████      | 2758/6844 [10:54<16:03,  4.24it/s] 40%|████      | 2759/6844 [10:54<16:02,  4.24it/s] 40%|████      | 2760/6844 [10:54<16:01,  4.25it/s] 40%|████      | 2761/6844 [10:55<16:00,  4.25it/s] 40%|████      | 2762/6844 [10:55<16:01,  4.25it/s] 40%|████      | 2763/6844 [10:55<16:01,  4.25it/s] 40%|████      | 2764/6844 [10:55<16:01,  4.24it/s] 40%|████      | 2765/6844 [10:56<15:59,  4.25it/s] 40%|████      | 2766/6844 [10:56<15:58,  4.25it/s] 40%|████      | 2767/6844 [10:56<15:58,  4.25it/s] 40%|████      | 2768/6844 [10:56<15:58,  4.25it/s] 40%|████      | 2769/6844 [10:57<15:58,  4.25it/s] 40%|████      | 2770/6844 [10:57<15:56,  4.26it/s] 40%|████      | 2771/6844 [10:57<15:57,  4.26it/s] 41%|████      | 2772/6844 [10:57<15:57,  4.25it/s] 41%|████      | 2773/6844 [10:58<15:57,  4.25it/s] 41%|████      | 2774/6844 [10:58<15:56,  4.26it/s] 41%|████      | 2775/6844 [10:58<15:56,  4.25it/s]                                                   {'loss': 4.5849, 'grad_norm': 0.1293475329875946, 'learning_rate': 0.004450702232151314, 'epoch': 0.08}
- 41%|████      | 2775/6844 [10:58<15:56,  4.25it/s] 41%|████      | 2776/6844 [10:58<15:59,  4.24it/s] 41%|████      | 2777/6844 [10:58<15:59,  4.24it/s] 41%|████      | 2778/6844 [10:59<15:59,  4.24it/s] 41%|████      | 2779/6844 [10:59<15:59,  4.24it/s] 41%|████      | 2780/6844 [10:59<15:59,  4.23it/s] 41%|████      | 2781/6844 [10:59<15:57,  4.24it/s] 41%|████      | 2782/6844 [11:00<15:56,  4.25it/s] 41%|████      | 2783/6844 [11:00<15:56,  4.25it/s] 41%|████      | 2784/6844 [11:00<15:55,  4.25it/s] 41%|████      | 2785/6844 [11:00<15:55,  4.25it/s] 41%|████      | 2786/6844 [11:01<15:54,  4.25it/s] 41%|████      | 2787/6844 [11:01<15:55,  4.25it/s] 41%|████      | 2788/6844 [11:01<15:55,  4.25it/s] 41%|████      | 2789/6844 [11:01<15:54,  4.25it/s] 41%|████      | 2790/6844 [11:02<15:52,  4.26it/s] 41%|████      | 2791/6844 [11:02<15:51,  4.26it/s] 41%|████      | 2792/6844 [11:02<15:52,  4.26it/s] 41%|████      | 2793/6844 [11:02<15:51,  4.26it/s] 41%|████      | 2794/6844 [11:02<15:52,  4.25it/s] 41%|████      | 2795/6844 [11:03<15:51,  4.25it/s] 41%|████      | 2796/6844 [11:03<15:51,  4.26it/s] 41%|████      | 2797/6844 [11:03<15:52,  4.25it/s] 41%|████      | 2798/6844 [11:03<15:52,  4.25it/s] 41%|████      | 2799/6844 [11:04<15:51,  4.25it/s] 41%|████      | 2800/6844 [11:04<15:50,  4.26it/s]                                                   {'loss': 4.5597, 'grad_norm': 0.15013109147548676, 'learning_rate': 0.004417099333485319, 'epoch': 0.08}
- 41%|████      | 2800/6844 [11:04<15:50,  4.26it/s] 41%|████      | 2801/6844 [11:04<15:55,  4.23it/s] 41%|████      | 2802/6844 [11:04<15:53,  4.24it/s] 41%|████      | 2803/6844 [11:05<15:53,  4.24it/s] 41%|████      | 2804/6844 [11:05<15:52,  4.24it/s] 41%|████      | 2805/6844 [11:05<15:51,  4.24it/s] 41%|████      | 2806/6844 [11:05<15:50,  4.25it/s] 41%|████      | 2807/6844 [11:06<15:48,  4.25it/s] 41%|████      | 2808/6844 [11:06<15:49,  4.25it/s] 41%|████      | 2809/6844 [11:06<15:48,  4.25it/s] 41%|████      | 2810/6844 [11:06<15:48,  4.25it/s] 41%|████      | 2811/6844 [11:06<15:47,  4.26it/s] 41%|████      | 2812/6844 [11:07<15:47,  4.26it/s] 41%|████      | 2813/6844 [11:07<15:45,  4.26it/s] 41%|████      | 2814/6844 [11:07<15:45,  4.26it/s] 41%|████      | 2815/6844 [11:07<15:46,  4.26it/s] 41%|████      | 2816/6844 [11:08<15:46,  4.25it/s] 41%|████      | 2817/6844 [11:08<15:45,  4.26it/s] 41%|████      | 2818/6844 [11:08<15:45,  4.26it/s] 41%|████      | 2819/6844 [11:08<15:48,  4.24it/s] 41%|████      | 2820/6844 [11:09<15:47,  4.25it/s] 41%|████      | 2821/6844 [11:09<15:46,  4.25it/s] 41%|████      | 2822/6844 [11:09<15:46,  4.25it/s] 41%|████      | 2823/6844 [11:09<15:46,  4.25it/s] 41%|████▏     | 2824/6844 [11:10<15:46,  4.25it/s] 41%|████▏     | 2825/6844 [11:10<15:46,  4.25it/s]                                                   {'loss': 4.5645, 'grad_norm': 0.12818823754787445, 'learning_rate': 0.00438326599699664, 'epoch': 0.08}
- 41%|████▏     | 2825/6844 [11:10<15:46,  4.25it/s] 41%|████▏     | 2826/6844 [11:10<15:49,  4.23it/s] 41%|████▏     | 2827/6844 [11:10<15:48,  4.24it/s] 41%|████▏     | 2828/6844 [11:10<15:47,  4.24it/s] 41%|████▏     | 2829/6844 [11:11<15:46,  4.24it/s] 41%|████▏     | 2830/6844 [11:11<15:47,  4.24it/s] 41%|████▏     | 2831/6844 [11:11<15:45,  4.24it/s] 41%|████▏     | 2832/6844 [11:11<15:44,  4.25it/s] 41%|████▏     | 2833/6844 [11:12<15:43,  4.25it/s] 41%|████▏     | 2834/6844 [11:12<15:42,  4.25it/s] 41%|████▏     | 2835/6844 [11:12<15:42,  4.25it/s] 41%|████▏     | 2836/6844 [11:12<15:42,  4.25it/s] 41%|████▏     | 2837/6844 [11:13<15:43,  4.25it/s] 41%|████▏     | 2838/6844 [11:13<15:41,  4.26it/s] 41%|████▏     | 2839/6844 [11:13<15:42,  4.25it/s] 41%|████▏     | 2840/6844 [11:13<15:45,  4.23it/s] 42%|████▏     | 2841/6844 [11:14<15:43,  4.24it/s] 42%|████▏     | 2842/6844 [11:14<15:42,  4.25it/s] 42%|████▏     | 2843/6844 [11:14<15:41,  4.25it/s] 42%|████▏     | 2844/6844 [11:14<15:41,  4.25it/s] 42%|████▏     | 2845/6844 [11:14<15:41,  4.25it/s] 42%|████▏     | 2846/6844 [11:15<16:06,  4.14it/s] 42%|████▏     | 2847/6844 [11:15<16:25,  4.05it/s] 42%|████▏     | 2848/6844 [11:15<16:39,  4.00it/s] 42%|████▏     | 2849/6844 [11:16<17:00,  3.92it/s] 42%|████▏     | 2850/6844 [11:16<17:11,  3.87it/s]                                                   {'loss': 4.5675, 'grad_norm': 0.1311710625886917, 'learning_rate': 0.004349207724402912, 'epoch': 0.08}
- 42%|████▏     | 2850/6844 [11:16<17:11,  3.87it/s] 42%|████▏     | 2851/6844 [11:16<16:46,  3.97it/s] 42%|████▏     | 2852/6844 [11:16<16:26,  4.05it/s] 42%|████▏     | 2853/6844 [11:16<16:11,  4.11it/s] 42%|████▏     | 2854/6844 [11:17<16:00,  4.15it/s] 42%|████▏     | 2855/6844 [11:17<15:54,  4.18it/s] 42%|████▏     | 2856/6844 [11:17<15:49,  4.20it/s] 42%|████▏     | 2857/6844 [11:17<15:46,  4.21it/s] 42%|████▏     | 2858/6844 [11:18<15:44,  4.22it/s] 42%|████▏     | 2859/6844 [11:18<15:41,  4.23it/s] 42%|████▏     | 2860/6844 [11:18<15:39,  4.24it/s] 42%|████▏     | 2861/6844 [11:18<15:42,  4.23it/s] 42%|████▏     | 2862/6844 [11:19<15:40,  4.23it/s] 42%|████▏     | 2863/6844 [11:19<15:40,  4.23it/s] 42%|████▏     | 2864/6844 [11:19<15:40,  4.23it/s] 42%|████▏     | 2865/6844 [11:19<15:40,  4.23it/s] 42%|████▏     | 2866/6844 [11:20<15:37,  4.24it/s] 42%|████▏     | 2867/6844 [11:20<15:35,  4.25it/s] 42%|████▏     | 2868/6844 [11:20<15:34,  4.26it/s] 42%|████▏     | 2869/6844 [11:20<15:33,  4.26it/s] 42%|████▏     | 2870/6844 [11:20<15:32,  4.26it/s] 42%|████▏     | 2871/6844 [11:21<15:33,  4.26it/s] 42%|████▏     | 2872/6844 [11:21<15:34,  4.25it/s] 42%|████▏     | 2873/6844 [11:21<15:33,  4.25it/s] 42%|████▏     | 2874/6844 [11:21<15:31,  4.26it/s] 42%|████▏     | 2875/6844 [11:22<15:31,  4.26it/s]{'loss': 4.5624, 'grad_norm': 0.14111484587192535, 'learning_rate': 0.004314930053999153, 'epoch': 0.08}                                                   
- 42%|████▏     | 2875/6844 [11:22<15:31,  4.26it/s] 42%|████▏     | 2876/6844 [11:22<15:33,  4.25it/s] 42%|████▏     | 2877/6844 [11:22<15:33,  4.25it/s] 42%|████▏     | 2878/6844 [11:22<15:30,  4.26it/s] 42%|████▏     | 2879/6844 [11:23<15:30,  4.26it/s] 42%|████▏     | 2880/6844 [11:23<15:30,  4.26it/s] 42%|████▏     | 2881/6844 [11:23<15:30,  4.26it/s] 42%|████▏     | 2882/6844 [11:23<15:33,  4.25it/s] 42%|████▏     | 2883/6844 [11:24<15:33,  4.25it/s] 42%|████▏     | 2884/6844 [11:24<15:32,  4.25it/s] 42%|████▏     | 2885/6844 [11:24<15:30,  4.25it/s] 42%|████▏     | 2886/6844 [11:24<15:30,  4.26it/s] 42%|████▏     | 2887/6844 [11:24<15:28,  4.26it/s] 42%|████▏     | 2888/6844 [11:25<15:28,  4.26it/s] 42%|████▏     | 2889/6844 [11:25<15:28,  4.26it/s] 42%|████▏     | 2890/6844 [11:25<15:27,  4.26it/s] 42%|████▏     | 2891/6844 [11:25<15:27,  4.26it/s] 42%|████▏     | 2892/6844 [11:26<15:27,  4.26it/s] 42%|████▏     | 2893/6844 [11:26<15:27,  4.26it/s] 42%|████▏     | 2894/6844 [11:26<15:27,  4.26it/s] 42%|████▏     | 2895/6844 [11:26<15:26,  4.26it/s] 42%|████▏     | 2896/6844 [11:27<15:26,  4.26it/s] 42%|████▏     | 2897/6844 [11:27<15:26,  4.26it/s] 42%|████▏     | 2898/6844 [11:27<15:26,  4.26it/s] 42%|████▏     | 2899/6844 [11:27<15:24,  4.27it/s] 42%|████▏     | 2900/6844 [11:28<15:25,  4.26it/s]                                                   {'loss': 4.5421, 'grad_norm': 0.13592112064361572, 'learning_rate': 0.004280438559757174, 'epoch': 0.08}
- 42%|████▏     | 2900/6844 [11:28<15:25,  4.26it/s] 42%|████▏     | 2901/6844 [11:28<15:27,  4.25it/s] 42%|████▏     | 2902/6844 [11:28<15:24,  4.26it/s] 42%|████▏     | 2903/6844 [11:28<15:25,  4.26it/s] 42%|████▏     | 2904/6844 [11:28<15:24,  4.26it/s] 42%|████▏     | 2905/6844 [11:29<15:25,  4.26it/s] 42%|████▏     | 2906/6844 [11:29<15:24,  4.26it/s] 42%|████▏     | 2907/6844 [11:29<15:25,  4.25it/s] 42%|████▏     | 2908/6844 [11:29<15:26,  4.25it/s] 43%|████▎     | 2909/6844 [11:30<15:25,  4.25it/s] 43%|████▎     | 2910/6844 [11:30<15:24,  4.25it/s] 43%|████▎     | 2911/6844 [11:30<15:34,  4.21it/s] 43%|████▎     | 2912/6844 [11:30<15:30,  4.22it/s] 43%|████▎     | 2913/6844 [11:31<15:27,  4.24it/s] 43%|████▎     | 2914/6844 [11:31<15:26,  4.24it/s] 43%|████▎     | 2915/6844 [11:31<15:24,  4.25it/s] 43%|████▎     | 2916/6844 [11:31<15:22,  4.26it/s] 43%|████▎     | 2917/6844 [11:32<15:21,  4.26it/s] 43%|████▎     | 2918/6844 [11:32<15:21,  4.26it/s] 43%|████▎     | 2919/6844 [11:32<15:21,  4.26it/s] 43%|████▎     | 2920/6844 [11:32<15:21,  4.26it/s] 43%|████▎     | 2921/6844 [11:32<15:21,  4.26it/s] 43%|████▎     | 2922/6844 [11:33<15:21,  4.26it/s] 43%|████▎     | 2923/6844 [11:33<15:21,  4.26it/s] 43%|████▎     | 2924/6844 [11:33<15:20,  4.26it/s] 43%|████▎     | 2925/6844 [11:33<15:21,  4.25it/s]                                                   {'loss': 4.5537, 'grad_norm': 0.13257071375846863, 'learning_rate': 0.004245738850419174, 'epoch': 0.09}
- 43%|████▎     | 2925/6844 [11:33<15:21,  4.25it/s] 43%|████▎     | 2926/6844 [11:34<15:22,  4.25it/s] 43%|████▎     | 2927/6844 [11:34<15:20,  4.25it/s] 43%|████▎     | 2928/6844 [11:34<15:21,  4.25it/s] 43%|████▎     | 2929/6844 [11:34<15:21,  4.25it/s] 43%|████▎     | 2930/6844 [11:35<15:21,  4.25it/s] 43%|████▎     | 2931/6844 [11:35<15:20,  4.25it/s] 43%|████▎     | 2932/6844 [11:35<15:18,  4.26it/s] 43%|████▎     | 2933/6844 [11:35<15:17,  4.26it/s] 43%|████▎     | 2934/6844 [11:36<15:16,  4.27it/s] 43%|████▎     | 2935/6844 [11:36<15:17,  4.26it/s] 43%|████▎     | 2936/6844 [11:36<15:17,  4.26it/s] 43%|████▎     | 2937/6844 [11:36<15:17,  4.26it/s] 43%|████▎     | 2938/6844 [11:36<15:17,  4.26it/s] 43%|████▎     | 2939/6844 [11:37<15:15,  4.27it/s] 43%|████▎     | 2940/6844 [11:37<15:15,  4.26it/s] 43%|████▎     | 2941/6844 [11:37<15:13,  4.27it/s] 43%|████▎     | 2942/6844 [11:37<15:14,  4.27it/s] 43%|████▎     | 2943/6844 [11:38<15:14,  4.26it/s] 43%|████▎     | 2944/6844 [11:38<15:14,  4.26it/s] 43%|████▎     | 2945/6844 [11:38<15:15,  4.26it/s] 43%|████▎     | 2946/6844 [11:38<15:15,  4.26it/s] 43%|████▎     | 2947/6844 [11:39<15:13,  4.26it/s] 43%|████▎     | 2948/6844 [11:39<15:13,  4.27it/s] 43%|████▎     | 2949/6844 [11:39<15:13,  4.26it/s] 43%|████▎     | 2950/6844 [11:39<15:12,  4.27it/s]{'loss': 4.5584, 'grad_norm': 0.16136009991168976, 'learning_rate': 0.004210836568585696, 'epoch': 0.09}                                                   
- 43%|████▎     | 2950/6844 [11:39<15:12,  4.27it/s] 43%|████▎     | 2951/6844 [11:40<15:15,  4.25it/s] 43%|████▎     | 2952/6844 [11:40<15:16,  4.25it/s] 43%|████▎     | 2953/6844 [11:40<15:14,  4.25it/s] 43%|████▎     | 2954/6844 [11:40<15:15,  4.25it/s] 43%|████▎     | 2955/6844 [11:40<15:14,  4.25it/s] 43%|████▎     | 2956/6844 [11:41<15:14,  4.25it/s] 43%|████▎     | 2957/6844 [11:41<15:13,  4.25it/s] 43%|████▎     | 2958/6844 [11:41<15:13,  4.26it/s] 43%|████▎     | 2959/6844 [11:41<15:13,  4.25it/s] 43%|████▎     | 2960/6844 [11:42<15:13,  4.25it/s] 43%|████▎     | 2961/6844 [11:42<15:12,  4.25it/s] 43%|████▎     | 2962/6844 [11:42<15:11,  4.26it/s] 43%|████▎     | 2963/6844 [11:42<15:10,  4.26it/s] 43%|████▎     | 2964/6844 [11:43<15:10,  4.26it/s] 43%|████▎     | 2965/6844 [11:43<15:09,  4.27it/s] 43%|████▎     | 2966/6844 [11:43<15:08,  4.27it/s] 43%|████▎     | 2967/6844 [11:43<15:10,  4.26it/s] 43%|████▎     | 2968/6844 [11:44<15:09,  4.26it/s] 43%|████▎     | 2969/6844 [11:44<15:09,  4.26it/s] 43%|████▎     | 2970/6844 [11:44<15:08,  4.27it/s] 43%|████▎     | 2971/6844 [11:44<15:08,  4.26it/s] 43%|████▎     | 2972/6844 [11:44<15:08,  4.26it/s] 43%|████▎     | 2973/6844 [11:45<15:08,  4.26it/s] 43%|████▎     | 2974/6844 [11:45<15:42,  4.10it/s] 43%|████▎     | 2975/6844 [11:45<15:32,  4.15it/s]                                                   {'loss': 4.5619, 'grad_norm': 0.12934844195842743, 'learning_rate': 0.004175737389798068, 'epoch': 0.09}
- 43%|████▎     | 2975/6844 [11:45<15:32,  4.15it/s] 43%|████▎     | 2976/6844 [11:45<15:28,  4.17it/s] 43%|████▎     | 2977/6844 [11:46<15:23,  4.19it/s] 44%|████▎     | 2978/6844 [11:46<15:19,  4.21it/s] 44%|████▎     | 2979/6844 [11:46<15:15,  4.22it/s] 44%|████▎     | 2980/6844 [11:46<15:13,  4.23it/s] 44%|████▎     | 2981/6844 [11:47<15:11,  4.24it/s] 44%|████▎     | 2982/6844 [11:47<15:09,  4.25it/s] 44%|████▎     | 2983/6844 [11:47<15:07,  4.25it/s] 44%|████▎     | 2984/6844 [11:47<15:08,  4.25it/s] 44%|████▎     | 2985/6844 [11:48<15:07,  4.25it/s] 44%|████▎     | 2986/6844 [11:48<15:06,  4.26it/s] 44%|████▎     | 2987/6844 [11:48<15:05,  4.26it/s] 44%|████▎     | 2988/6844 [11:48<15:06,  4.25it/s] 44%|████▎     | 2989/6844 [11:48<15:06,  4.25it/s] 44%|████▎     | 2990/6844 [11:49<15:06,  4.25it/s] 44%|████▎     | 2991/6844 [11:49<15:06,  4.25it/s] 44%|████▎     | 2992/6844 [11:49<15:06,  4.25it/s] 44%|████▎     | 2993/6844 [11:49<15:04,  4.26it/s] 44%|████▎     | 2994/6844 [11:50<15:04,  4.26it/s] 44%|████▍     | 2995/6844 [11:50<15:03,  4.26it/s] 44%|████▍     | 2996/6844 [11:50<15:10,  4.23it/s] 44%|████▍     | 2997/6844 [11:50<15:06,  4.24it/s] 44%|████▍     | 2998/6844 [11:51<15:04,  4.25it/s] 44%|████▍     | 2999/6844 [11:51<15:03,  4.26it/s] 44%|████▍     | 3000/6844 [11:51<15:03,  4.26it/s]                                                   {'loss': 4.5539, 'grad_norm': 0.15638041496276855, 'learning_rate': 0.004140447021615487, 'epoch': 0.09}
- 44%|████▍     | 3000/6844 [11:51<15:03,  4.26it/s] 44%|████▍     | 3001/6844 [11:51<15:04,  4.25it/s] 44%|████▍     | 3002/6844 [11:52<15:03,  4.25it/s] 44%|████▍     | 3003/6844 [11:52<15:01,  4.26it/s] 44%|████▍     | 3004/6844 [11:52<15:03,  4.25it/s] 44%|████▍     | 3005/6844 [11:52<15:02,  4.25it/s] 44%|████▍     | 3006/6844 [11:52<15:01,  4.26it/s] 44%|████▍     | 3007/6844 [11:53<15:00,  4.26it/s] 44%|████▍     | 3008/6844 [11:53<15:01,  4.26it/s] 44%|████▍     | 3009/6844 [11:53<15:02,  4.25it/s] 44%|████▍     | 3010/6844 [11:53<15:01,  4.25it/s] 44%|████▍     | 3011/6844 [11:54<15:01,  4.25it/s] 44%|████▍     | 3012/6844 [11:54<15:01,  4.25it/s] 44%|████▍     | 3013/6844 [11:54<15:00,  4.25it/s] 44%|████▍     | 3014/6844 [11:54<14:59,  4.26it/s] 44%|████▍     | 3015/6844 [11:55<15:00,  4.25it/s] 44%|████▍     | 3016/6844 [11:55<14:58,  4.26it/s] 44%|████▍     | 3017/6844 [11:55<14:59,  4.26it/s] 44%|████▍     | 3018/6844 [11:55<14:59,  4.25it/s] 44%|████▍     | 3019/6844 [11:56<14:58,  4.26it/s] 44%|████▍     | 3020/6844 [11:56<14:57,  4.26it/s] 44%|████▍     | 3021/6844 [11:56<14:56,  4.26it/s] 44%|████▍     | 3022/6844 [11:56<14:56,  4.27it/s] 44%|████▍     | 3023/6844 [11:56<14:56,  4.26it/s] 44%|████▍     | 3024/6844 [11:57<14:56,  4.26it/s] 44%|████▍     | 3025/6844 [11:57<14:56,  4.26it/s]{'loss': 4.5369, 'grad_norm': 0.13829268515110016, 'learning_rate': 0.0041049712026869105, 'epoch': 0.09}
-                                                    44%|████▍     | 3025/6844 [11:57<14:56,  4.26it/s] 44%|████▍     | 3026/6844 [11:57<15:00,  4.24it/s] 44%|████▍     | 3027/6844 [11:57<14:59,  4.24it/s] 44%|████▍     | 3028/6844 [11:58<14:58,  4.25it/s] 44%|████▍     | 3029/6844 [11:58<14:57,  4.25it/s] 44%|████▍     | 3030/6844 [11:58<14:57,  4.25it/s] 44%|████▍     | 3031/6844 [11:58<14:55,  4.26it/s] 44%|████▍     | 3032/6844 [11:59<14:56,  4.25it/s] 44%|████▍     | 3033/6844 [11:59<14:57,  4.25it/s] 44%|████▍     | 3034/6844 [11:59<14:57,  4.25it/s] 44%|████▍     | 3035/6844 [11:59<14:57,  4.24it/s] 44%|████▍     | 3036/6844 [12:00<14:56,  4.25it/s] 44%|████▍     | 3037/6844 [12:00<14:55,  4.25it/s] 44%|████▍     | 3038/6844 [12:00<14:55,  4.25it/s] 44%|████▍     | 3039/6844 [12:00<14:54,  4.25it/s] 44%|████▍     | 3040/6844 [12:00<14:55,  4.25it/s] 44%|████▍     | 3041/6844 [12:01<14:55,  4.25it/s] 44%|████▍     | 3042/6844 [12:01<14:53,  4.25it/s] 44%|████▍     | 3043/6844 [12:01<14:52,  4.26it/s] 44%|████▍     | 3044/6844 [12:01<14:53,  4.25it/s] 44%|████▍     | 3045/6844 [12:02<14:53,  4.25it/s] 45%|████▍     | 3046/6844 [12:02<14:52,  4.26it/s] 45%|████▍     | 3047/6844 [12:02<14:54,  4.25it/s] 45%|████▍     | 3048/6844 [12:02<14:53,  4.25it/s] 45%|████▍     | 3049/6844 [12:03<14:52,  4.25it/s] 45%|████▍     | 3050/6844 [12:03<14:50,  4.26it/s]                                                   {'loss': 4.5494, 'grad_norm': 0.16133883595466614, 'learning_rate': 0.004069315701817865, 'epoch': 0.09}
- 45%|████▍     | 3050/6844 [12:03<14:50,  4.26it/s] 45%|████▍     | 3051/6844 [12:03<14:54,  4.24it/s] 45%|████▍     | 3052/6844 [12:03<14:52,  4.25it/s] 45%|████▍     | 3053/6844 [12:04<14:50,  4.26it/s] 45%|████▍     | 3054/6844 [12:04<14:50,  4.26it/s] 45%|████▍     | 3055/6844 [12:04<14:49,  4.26it/s] 45%|████▍     | 3056/6844 [12:04<14:49,  4.26it/s] 45%|████▍     | 3057/6844 [12:04<14:49,  4.26it/s] 45%|████▍     | 3058/6844 [12:05<14:50,  4.25it/s] 45%|████▍     | 3059/6844 [12:05<14:49,  4.26it/s] 45%|████▍     | 3060/6844 [12:05<14:49,  4.26it/s] 45%|████▍     | 3061/6844 [12:05<14:47,  4.26it/s] 45%|████▍     | 3062/6844 [12:06<14:47,  4.26it/s] 45%|████▍     | 3063/6844 [12:06<14:48,  4.26it/s] 45%|████▍     | 3064/6844 [12:06<14:47,  4.26it/s] 45%|████▍     | 3065/6844 [12:06<14:48,  4.26it/s] 45%|████▍     | 3066/6844 [12:07<14:47,  4.26it/s] 45%|████▍     | 3067/6844 [12:07<14:47,  4.26it/s] 45%|████▍     | 3068/6844 [12:07<14:46,  4.26it/s] 45%|████▍     | 3069/6844 [12:07<14:45,  4.27it/s] 45%|████▍     | 3070/6844 [12:08<14:44,  4.27it/s] 45%|████▍     | 3071/6844 [12:08<14:46,  4.26it/s] 45%|████▍     | 3072/6844 [12:08<14:47,  4.25it/s] 45%|████▍     | 3073/6844 [12:08<14:48,  4.25it/s] 45%|████▍     | 3074/6844 [12:08<14:49,  4.24it/s] 45%|████▍     | 3075/6844 [12:09<14:49,  4.24it/s]{'loss': 4.5376, 'grad_norm': 0.15118461847305298, 'learning_rate': 0.00403348631703238, 'epoch': 0.09}
-                                                    45%|████▍     | 3075/6844 [12:09<14:49,  4.24it/s] 45%|████▍     | 3076/6844 [12:09<14:51,  4.22it/s] 45%|████▍     | 3077/6844 [12:09<14:48,  4.24it/s] 45%|████▍     | 3078/6844 [12:09<14:47,  4.24it/s] 45%|████▍     | 3079/6844 [12:10<14:47,  4.24it/s] 45%|████▌     | 3080/6844 [12:10<14:47,  4.24it/s] 45%|████▌     | 3081/6844 [12:10<14:46,  4.24it/s] 45%|████▌     | 3082/6844 [12:10<14:45,  4.25it/s] 45%|████▌     | 3083/6844 [12:11<14:45,  4.25it/s] 45%|████▌     | 3084/6844 [12:11<14:44,  4.25it/s] 45%|████▌     | 3085/6844 [12:11<14:43,  4.25it/s] 45%|████▌     | 3086/6844 [12:11<14:43,  4.26it/s] 45%|████▌     | 3087/6844 [12:12<14:41,  4.26it/s] 45%|████▌     | 3088/6844 [12:12<14:41,  4.26it/s] 45%|████▌     | 3089/6844 [12:12<14:41,  4.26it/s] 45%|████▌     | 3090/6844 [12:12<14:41,  4.26it/s] 45%|████▌     | 3091/6844 [12:12<14:40,  4.26it/s] 45%|████▌     | 3092/6844 [12:13<14:42,  4.25it/s] 45%|████▌     | 3093/6844 [12:13<14:42,  4.25it/s] 45%|████▌     | 3094/6844 [12:13<14:40,  4.26it/s] 45%|████▌     | 3095/6844 [12:13<14:40,  4.26it/s] 45%|████▌     | 3096/6844 [12:14<14:39,  4.26it/s] 45%|████▌     | 3097/6844 [12:14<14:41,  4.25it/s] 45%|████▌     | 3098/6844 [12:14<14:40,  4.25it/s] 45%|████▌     | 3099/6844 [12:14<14:40,  4.26it/s] 45%|████▌     | 3100/6844 [12:15<14:39,  4.26it/s]{'loss': 4.5421, 'grad_norm': 0.1753881722688675, 'learning_rate': 0.0039974888746301535, 'epoch': 0.09}
-                                                    45%|████▌     | 3100/6844 [12:15<14:39,  4.26it/s] 45%|████▌     | 3101/6844 [12:15<15:18,  4.07it/s] 45%|████▌     | 3102/6844 [12:15<15:17,  4.08it/s] 45%|████▌     | 3103/6844 [12:15<15:07,  4.12it/s] 45%|████▌     | 3104/6844 [12:16<14:57,  4.17it/s] 45%|████▌     | 3105/6844 [12:16<14:51,  4.19it/s] 45%|████▌     | 3106/6844 [12:16<14:47,  4.21it/s] 45%|████▌     | 3107/6844 [12:16<14:43,  4.23it/s] 45%|████▌     | 3108/6844 [12:16<14:41,  4.24it/s] 45%|████▌     | 3109/6844 [12:17<14:38,  4.25it/s] 45%|████▌     | 3110/6844 [12:17<14:37,  4.26it/s] 45%|████▌     | 3111/6844 [12:17<14:37,  4.25it/s] 45%|████▌     | 3112/6844 [12:17<14:36,  4.26it/s] 45%|████▌     | 3113/6844 [12:18<14:35,  4.26it/s] 45%|████▌     | 3114/6844 [12:18<14:36,  4.26it/s] 46%|████▌     | 3115/6844 [12:18<14:35,  4.26it/s] 46%|████▌     | 3116/6844 [12:18<14:34,  4.26it/s] 46%|████▌     | 3117/6844 [12:19<14:33,  4.27it/s] 46%|████▌     | 3118/6844 [12:19<14:34,  4.26it/s] 46%|████▌     | 3119/6844 [12:19<14:34,  4.26it/s] 46%|████▌     | 3120/6844 [12:19<14:33,  4.26it/s] 46%|████▌     | 3121/6844 [12:20<14:34,  4.26it/s] 46%|████▌     | 3122/6844 [12:20<14:33,  4.26it/s] 46%|████▌     | 3123/6844 [12:20<14:33,  4.26it/s] 46%|████▌     | 3124/6844 [12:20<14:32,  4.26it/s] 46%|████▌     | 3125/6844 [12:20<14:31,  4.27it/s]                                                   {'loss': 4.5352, 'grad_norm': 0.16853928565979004, 'learning_rate': 0.003961329228239124, 'epoch': 0.09}
- 46%|████▌     | 3125/6844 [12:20<14:31,  4.27it/s] 46%|████▌     | 3126/6844 [12:21<14:34,  4.25it/s] 46%|████▌     | 3127/6844 [12:21<14:33,  4.26it/s] 46%|████▌     | 3128/6844 [12:21<14:33,  4.25it/s] 46%|████▌     | 3129/6844 [12:21<14:34,  4.25it/s] 46%|████▌     | 3130/6844 [12:22<14:32,  4.26it/s] 46%|████▌     | 3131/6844 [12:22<14:32,  4.25it/s] 46%|████▌     | 3132/6844 [12:22<14:32,  4.26it/s] 46%|████▌     | 3133/6844 [12:22<14:31,  4.26it/s] 46%|████▌     | 3134/6844 [12:23<14:32,  4.25it/s] 46%|████▌     | 3135/6844 [12:23<14:32,  4.25it/s] 46%|████▌     | 3136/6844 [12:23<14:31,  4.26it/s] 46%|████▌     | 3137/6844 [12:23<14:30,  4.26it/s] 46%|████▌     | 3138/6844 [12:24<14:31,  4.25it/s] 46%|████▌     | 3139/6844 [12:24<14:31,  4.25it/s] 46%|████▌     | 3140/6844 [12:24<14:30,  4.25it/s] 46%|████▌     | 3141/6844 [12:24<14:29,  4.26it/s] 46%|████▌     | 3142/6844 [12:24<14:29,  4.26it/s] 46%|████▌     | 3143/6844 [12:25<14:28,  4.26it/s] 46%|████▌     | 3144/6844 [12:25<14:28,  4.26it/s] 46%|████▌     | 3145/6844 [12:25<14:28,  4.26it/s] 46%|████▌     | 3146/6844 [12:25<14:29,  4.25it/s] 46%|████▌     | 3147/6844 [12:26<14:29,  4.25it/s] 46%|████▌     | 3148/6844 [12:26<14:29,  4.25it/s] 46%|████▌     | 3149/6844 [12:26<14:29,  4.25it/s] 46%|████▌     | 3150/6844 [12:26<14:28,  4.25it/s]{'loss': 4.5458, 'grad_norm': 0.13723592460155487, 'learning_rate': 0.003925013257863597, 'epoch': 0.09}
-                                                    46%|████▌     | 3150/6844 [12:26<14:28,  4.25it/s] 46%|████▌     | 3151/6844 [12:27<14:35,  4.22it/s] 46%|████▌     | 3152/6844 [12:27<14:32,  4.23it/s] 46%|████▌     | 3153/6844 [12:27<14:30,  4.24it/s] 46%|████▌     | 3154/6844 [12:27<14:28,  4.25it/s] 46%|████▌     | 3155/6844 [12:28<14:28,  4.25it/s] 46%|████▌     | 3156/6844 [12:28<14:29,  4.24it/s] 46%|████▌     | 3157/6844 [12:28<14:27,  4.25it/s] 46%|████▌     | 3158/6844 [12:28<14:25,  4.26it/s] 46%|████▌     | 3159/6844 [12:28<14:27,  4.25it/s] 46%|████▌     | 3160/6844 [12:29<14:27,  4.25it/s] 46%|████▌     | 3161/6844 [12:29<14:26,  4.25it/s] 46%|████▌     | 3162/6844 [12:29<14:26,  4.25it/s] 46%|████▌     | 3163/6844 [12:29<14:26,  4.25it/s] 46%|████▌     | 3164/6844 [12:30<14:25,  4.25it/s] 46%|████▌     | 3165/6844 [12:30<14:25,  4.25it/s] 46%|████▋     | 3166/6844 [12:30<14:24,  4.25it/s] 46%|████▋     | 3167/6844 [12:30<14:24,  4.25it/s] 46%|████▋     | 3168/6844 [12:31<14:23,  4.25it/s] 46%|████▋     | 3169/6844 [12:31<14:23,  4.26it/s] 46%|████▋     | 3170/6844 [12:31<14:24,  4.25it/s] 46%|████▋     | 3171/6844 [12:31<14:23,  4.25it/s] 46%|████▋     | 3172/6844 [12:32<14:22,  4.26it/s] 46%|████▋     | 3173/6844 [12:32<14:22,  4.26it/s] 46%|████▋     | 3174/6844 [12:32<14:22,  4.26it/s] 46%|████▋     | 3175/6844 [12:32<14:22,  4.26it/s]                                                   {'loss': 4.5296, 'grad_norm': 0.13698112964630127, 'learning_rate': 0.0038885468689280854, 'epoch': 0.09}
- 46%|████▋     | 3175/6844 [12:32<14:22,  4.26it/s] 46%|████▋     | 3176/6844 [12:32<14:24,  4.24it/s] 46%|████▋     | 3177/6844 [12:33<14:23,  4.25it/s] 46%|████▋     | 3178/6844 [12:33<14:21,  4.26it/s] 46%|████▋     | 3179/6844 [12:33<14:21,  4.26it/s] 46%|████▋     | 3180/6844 [12:33<14:21,  4.25it/s] 46%|████▋     | 3181/6844 [12:34<14:20,  4.26it/s] 46%|████▋     | 3182/6844 [12:34<14:20,  4.26it/s] 47%|████▋     | 3183/6844 [12:34<14:20,  4.26it/s] 47%|████▋     | 3184/6844 [12:34<14:20,  4.25it/s] 47%|████▋     | 3185/6844 [12:35<14:20,  4.25it/s] 47%|████▋     | 3186/6844 [12:35<14:20,  4.25it/s] 47%|████▋     | 3187/6844 [12:35<14:19,  4.26it/s] 47%|████▋     | 3188/6844 [12:35<14:19,  4.25it/s] 47%|████▋     | 3189/6844 [12:36<14:18,  4.26it/s] 47%|████▋     | 3190/6844 [12:36<14:18,  4.26it/s] 47%|████▋     | 3191/6844 [12:36<14:17,  4.26it/s] 47%|████▋     | 3192/6844 [12:36<14:17,  4.26it/s] 47%|████▋     | 3193/6844 [12:36<14:18,  4.25it/s] 47%|████▋     | 3194/6844 [12:37<14:17,  4.26it/s] 47%|████▋     | 3195/6844 [12:37<14:17,  4.25it/s] 47%|████▋     | 3196/6844 [12:37<14:16,  4.26it/s] 47%|████▋     | 3197/6844 [12:37<14:17,  4.25it/s] 47%|████▋     | 3198/6844 [12:38<14:17,  4.25it/s] 47%|████▋     | 3199/6844 [12:38<14:16,  4.26it/s] 47%|████▋     | 3200/6844 [12:38<14:16,  4.25it/s]{'loss': 4.5297, 'grad_norm': 0.14100538194179535, 'learning_rate': 0.003851935991317017, 'epoch': 0.09}
-                                                    47%|████▋     | 3200/6844 [12:38<14:16,  4.25it/s] 47%|████▋     | 3201/6844 [12:38<14:20,  4.23it/s] 47%|████▋     | 3202/6844 [12:39<14:18,  4.24it/s] 47%|████▋     | 3203/6844 [12:39<14:18,  4.24it/s] 47%|████▋     | 3204/6844 [12:39<14:18,  4.24it/s] 47%|████▋     | 3205/6844 [12:39<14:18,  4.24it/s] 47%|████▋     | 3206/6844 [12:40<14:17,  4.24it/s] 47%|████▋     | 3207/6844 [12:40<14:16,  4.25it/s] 47%|████▋     | 3208/6844 [12:40<14:15,  4.25it/s] 47%|████▋     | 3209/6844 [12:40<14:14,  4.25it/s] 47%|████▋     | 3210/6844 [12:40<14:14,  4.25it/s] 47%|████▋     | 3211/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3212/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3213/6844 [12:41<14:13,  4.26it/s] 47%|████▋     | 3214/6844 [12:41<14:11,  4.26it/s] 47%|████▋     | 3215/6844 [12:42<14:10,  4.27it/s] 47%|████▋     | 3216/6844 [12:42<14:11,  4.26it/s] 47%|████▋     | 3217/6844 [12:42<14:10,  4.26it/s] 47%|████▋     | 3218/6844 [12:42<14:12,  4.25it/s] 47%|████▋     | 3219/6844 [12:43<14:12,  4.25it/s] 47%|████▋     | 3220/6844 [12:43<14:12,  4.25it/s] 47%|████▋     | 3221/6844 [12:43<14:11,  4.26it/s] 47%|████▋     | 3222/6844 [12:43<14:10,  4.26it/s] 47%|████▋     | 3223/6844 [12:44<14:09,  4.26it/s] 47%|████▋     | 3224/6844 [12:44<14:09,  4.26it/s] 47%|████▋     | 3225/6844 [12:44<14:09,  4.26it/s]                                                   {'loss': 4.5165, 'grad_norm': 0.14947257936000824, 'learning_rate': 0.0038151865784104557, 'epoch': 0.09}
- 47%|████▋     | 3225/6844 [12:44<14:09,  4.26it/s] 47%|████▋     | 3226/6844 [12:44<14:12,  4.25it/s] 47%|████▋     | 3227/6844 [12:44<14:10,  4.25it/s] 47%|████▋     | 3228/6844 [12:45<14:38,  4.12it/s] 47%|████▋     | 3229/6844 [12:45<15:07,  3.98it/s] 47%|████▋     | 3230/6844 [12:45<15:06,  3.99it/s] 47%|████▋     | 3231/6844 [12:45<14:47,  4.07it/s] 47%|████▋     | 3232/6844 [12:46<14:36,  4.12it/s] 47%|████▋     | 3233/6844 [12:46<14:28,  4.16it/s] 47%|████▋     | 3234/6844 [12:46<14:21,  4.19it/s] 47%|████▋     | 3235/6844 [12:46<14:17,  4.21it/s] 47%|████▋     | 3236/6844 [12:47<14:15,  4.22it/s] 47%|████▋     | 3237/6844 [12:47<14:13,  4.22it/s] 47%|████▋     | 3238/6844 [12:47<14:12,  4.23it/s] 47%|████▋     | 3239/6844 [12:47<14:11,  4.23it/s] 47%|████▋     | 3240/6844 [12:48<14:11,  4.23it/s] 47%|████▋     | 3241/6844 [12:48<14:09,  4.24it/s] 47%|████▋     | 3242/6844 [12:48<14:08,  4.24it/s] 47%|████▋     | 3243/6844 [12:48<14:09,  4.24it/s] 47%|████▋     | 3244/6844 [12:49<14:09,  4.24it/s] 47%|████▋     | 3245/6844 [12:49<14:09,  4.24it/s] 47%|████▋     | 3246/6844 [12:49<14:08,  4.24it/s] 47%|████▋     | 3247/6844 [12:49<14:07,  4.25it/s] 47%|████▋     | 3248/6844 [12:49<14:06,  4.25it/s] 47%|████▋     | 3249/6844 [12:50<14:06,  4.25it/s] 47%|████▋     | 3250/6844 [12:50<14:05,  4.25it/s]{'loss': 4.5222, 'grad_norm': 0.13819488883018494, 'learning_rate': 0.0037783046061160164, 'epoch': 0.09}
-                                                    47%|████▋     | 3250/6844 [12:50<14:05,  4.25it/s] 48%|████▊     | 3251/6844 [12:50<14:06,  4.24it/s] 48%|████▊     | 3252/6844 [12:50<14:04,  4.25it/s] 48%|████▊     | 3253/6844 [12:51<14:05,  4.25it/s] 48%|████▊     | 3254/6844 [12:51<14:04,  4.25it/s] 48%|████▊     | 3255/6844 [12:51<14:03,  4.25it/s] 48%|████▊     | 3256/6844 [12:51<14:02,  4.26it/s] 48%|████▊     | 3257/6844 [12:52<14:02,  4.26it/s] 48%|████▊     | 3258/6844 [12:52<14:02,  4.26it/s] 48%|████▊     | 3259/6844 [12:52<14:01,  4.26it/s] 48%|████▊     | 3260/6844 [12:52<14:01,  4.26it/s] 48%|████▊     | 3261/6844 [12:53<14:01,  4.26it/s] 48%|████▊     | 3262/6844 [12:53<14:02,  4.25it/s] 48%|████▊     | 3263/6844 [12:53<14:01,  4.26it/s] 48%|████▊     | 3264/6844 [12:53<14:03,  4.24it/s] 48%|████▊     | 3265/6844 [12:53<14:03,  4.24it/s] 48%|████▊     | 3266/6844 [12:54<14:02,  4.25it/s] 48%|████▊     | 3267/6844 [12:54<14:01,  4.25it/s] 48%|████▊     | 3268/6844 [12:54<14:01,  4.25it/s] 48%|████▊     | 3269/6844 [12:54<14:01,  4.25it/s] 48%|████▊     | 3270/6844 [12:55<13:59,  4.26it/s] 48%|████▊     | 3271/6844 [12:55<13:59,  4.26it/s] 48%|████▊     | 3272/6844 [12:55<13:59,  4.25it/s] 48%|████▊     | 3273/6844 [12:55<14:00,  4.25it/s] 48%|████▊     | 3274/6844 [12:56<13:59,  4.25it/s] 48%|████▊     | 3275/6844 [12:56<13:57,  4.26it/s]{'loss': 4.5212, 'grad_norm': 0.14857317507266998, 'learning_rate': 0.0037412960718971, 'epoch': 0.1}
-                                                    48%|████▊     | 3275/6844 [12:56<13:57,  4.26it/s] 48%|████▊     | 3276/6844 [12:56<13:59,  4.25it/s] 48%|████▊     | 3277/6844 [12:56<13:59,  4.25it/s] 48%|████▊     | 3278/6844 [12:57<13:59,  4.25it/s] 48%|████▊     | 3279/6844 [12:57<14:00,  4.24it/s] 48%|████▊     | 3280/6844 [12:57<14:00,  4.24it/s] 48%|████▊     | 3281/6844 [12:57<14:00,  4.24it/s] 48%|████▊     | 3282/6844 [12:57<14:00,  4.24it/s] 48%|████▊     | 3283/6844 [12:58<13:58,  4.25it/s] 48%|████▊     | 3284/6844 [12:58<13:57,  4.25it/s] 48%|████▊     | 3285/6844 [12:58<13:57,  4.25it/s] 48%|████▊     | 3286/6844 [12:58<13:57,  4.25it/s] 48%|████▊     | 3287/6844 [12:59<13:57,  4.25it/s] 48%|████▊     | 3288/6844 [12:59<13:57,  4.25it/s] 48%|████▊     | 3289/6844 [12:59<13:56,  4.25it/s] 48%|████▊     | 3290/6844 [12:59<13:56,  4.25it/s] 48%|████▊     | 3291/6844 [13:00<13:54,  4.26it/s] 48%|████▊     | 3292/6844 [13:00<13:54,  4.26it/s] 48%|████▊     | 3293/6844 [13:00<13:52,  4.26it/s] 48%|████▊     | 3294/6844 [13:00<13:51,  4.27it/s] 48%|████▊     | 3295/6844 [13:01<13:51,  4.27it/s] 48%|████▊     | 3296/6844 [13:01<13:52,  4.26it/s] 48%|████▊     | 3297/6844 [13:01<13:52,  4.26it/s] 48%|████▊     | 3298/6844 [13:01<13:52,  4.26it/s] 48%|████▊     | 3299/6844 [13:01<13:52,  4.26it/s] 48%|████▊     | 3300/6844 [13:02<13:52,  4.26it/s]{'loss': 4.515, 'grad_norm': 0.14872252941131592, 'learning_rate': 0.0037041669937976428, 'epoch': 0.1}                                                   
- 48%|████▊     | 3300/6844 [13:02<13:52,  4.26it/s] 48%|████▊     | 3301/6844 [13:02<13:54,  4.25it/s] 48%|████▊     | 3302/6844 [13:02<13:54,  4.24it/s] 48%|████▊     | 3303/6844 [13:02<13:54,  4.24it/s] 48%|████▊     | 3304/6844 [13:03<13:54,  4.24it/s] 48%|████▊     | 3305/6844 [13:03<13:54,  4.24it/s] 48%|████▊     | 3306/6844 [13:03<13:53,  4.25it/s] 48%|████▊     | 3307/6844 [13:03<13:52,  4.25it/s] 48%|████▊     | 3308/6844 [13:04<13:51,  4.25it/s] 48%|████▊     | 3309/6844 [13:04<13:50,  4.26it/s] 48%|████▊     | 3310/6844 [13:04<13:49,  4.26it/s] 48%|████▊     | 3311/6844 [13:04<13:50,  4.26it/s] 48%|████▊     | 3312/6844 [13:05<13:51,  4.25it/s] 48%|████▊     | 3313/6844 [13:05<13:52,  4.24it/s] 48%|████▊     | 3314/6844 [13:05<13:50,  4.25it/s] 48%|████▊     | 3315/6844 [13:05<13:49,  4.25it/s] 48%|████▊     | 3316/6844 [13:05<13:49,  4.26it/s] 48%|████▊     | 3317/6844 [13:06<13:49,  4.25it/s] 48%|████▊     | 3318/6844 [13:06<13:49,  4.25it/s] 48%|████▊     | 3319/6844 [13:06<13:48,  4.25it/s] 49%|████▊     | 3320/6844 [13:06<13:48,  4.25it/s] 49%|████▊     | 3321/6844 [13:07<13:49,  4.25it/s] 49%|████▊     | 3322/6844 [13:07<13:48,  4.25it/s] 49%|████▊     | 3323/6844 [13:07<13:48,  4.25it/s] 49%|████▊     | 3324/6844 [13:07<13:48,  4.25it/s] 49%|████▊     | 3325/6844 [13:08<13:46,  4.26it/s]{'loss': 4.5082, 'grad_norm': 0.14348316192626953, 'learning_rate': 0.0036669234094634955, 'epoch': 0.1}
-                                                    49%|████▊     | 3325/6844 [13:08<13:46,  4.26it/s] 49%|████▊     | 3326/6844 [13:08<13:48,  4.25it/s] 49%|████▊     | 3327/6844 [13:08<13:48,  4.25it/s] 49%|████▊     | 3328/6844 [13:08<13:47,  4.25it/s] 49%|████▊     | 3329/6844 [13:09<13:46,  4.25it/s] 49%|████▊     | 3330/6844 [13:09<13:46,  4.25it/s] 49%|████▊     | 3331/6844 [13:09<13:45,  4.25it/s] 49%|████▊     | 3332/6844 [13:09<13:45,  4.26it/s] 49%|████▊     | 3333/6844 [13:09<13:44,  4.26it/s] 49%|████▊     | 3334/6844 [13:10<13:45,  4.25it/s] 49%|████▊     | 3335/6844 [13:10<13:45,  4.25it/s] 49%|████▊     | 3336/6844 [13:10<13:46,  4.25it/s] 49%|████▉     | 3337/6844 [13:10<13:44,  4.25it/s] 49%|████▉     | 3338/6844 [13:11<13:44,  4.25it/s] 49%|████▉     | 3339/6844 [13:11<13:44,  4.25it/s] 49%|████▉     | 3340/6844 [13:11<13:43,  4.26it/s] 49%|████▉     | 3341/6844 [13:11<13:42,  4.26it/s] 49%|████▉     | 3342/6844 [13:12<13:43,  4.25it/s] 49%|████▉     | 3343/6844 [13:12<13:42,  4.25it/s] 49%|████▉     | 3344/6844 [13:12<13:44,  4.24it/s] 49%|████▉     | 3345/6844 [13:12<13:44,  4.24it/s] 49%|████▉     | 3346/6844 [13:13<13:43,  4.25it/s] 49%|████▉     | 3347/6844 [13:13<13:41,  4.26it/s] 49%|████▉     | 3348/6844 [13:13<13:41,  4.26it/s] 49%|████▉     | 3349/6844 [13:13<13:42,  4.25it/s] 49%|████▉     | 3350/6844 [13:13<13:42,  4.25it/s]                                                   {'loss': 4.5229, 'grad_norm': 0.1363631784915924, 'learning_rate': 0.0036295713751606394, 'epoch': 0.1}
- 49%|████▉     | 3350/6844 [13:13<13:42,  4.25it/s] 49%|████▉     | 3351/6844 [13:14<13:43,  4.24it/s] 49%|████▉     | 3352/6844 [13:14<13:44,  4.24it/s] 49%|████▉     | 3353/6844 [13:14<13:44,  4.23it/s] 49%|████▉     | 3354/6844 [13:14<13:43,  4.24it/s] 49%|████▉     | 3355/6844 [13:15<13:41,  4.24it/s] 49%|████▉     | 3356/6844 [13:15<14:12,  4.09it/s] 49%|████▉     | 3357/6844 [13:15<14:08,  4.11it/s] 49%|████▉     | 3358/6844 [13:15<13:58,  4.16it/s] 49%|████▉     | 3359/6844 [13:16<13:51,  4.19it/s] 49%|████▉     | 3360/6844 [13:16<13:45,  4.22it/s] 49%|████▉     | 3361/6844 [13:16<13:42,  4.23it/s] 49%|████▉     | 3362/6844 [13:16<13:41,  4.24it/s] 49%|████▉     | 3363/6844 [13:17<13:39,  4.25it/s] 49%|████▉     | 3364/6844 [13:17<13:38,  4.25it/s] 49%|████▉     | 3365/6844 [13:17<13:37,  4.25it/s] 49%|████▉     | 3366/6844 [13:17<13:37,  4.25it/s] 49%|████▉     | 3367/6844 [13:18<13:37,  4.25it/s] 49%|████▉     | 3368/6844 [13:18<13:36,  4.26it/s] 49%|████▉     | 3369/6844 [13:18<13:36,  4.26it/s] 49%|████▉     | 3370/6844 [13:18<13:36,  4.25it/s] 49%|████▉     | 3371/6844 [13:18<13:35,  4.26it/s] 49%|████▉     | 3372/6844 [13:19<13:35,  4.26it/s] 49%|████▉     | 3373/6844 [13:19<13:36,  4.25it/s] 49%|████▉     | 3374/6844 [13:19<13:34,  4.26it/s] 49%|████▉     | 3375/6844 [13:19<13:33,  4.26it/s]{'loss': 4.512, 'grad_norm': 0.16257815062999725, 'learning_rate': 0.0035921169647903546, 'epoch': 0.1}
-                                                    49%|████▉     | 3375/6844 [13:19<13:33,  4.26it/s] 49%|████▉     | 3376/6844 [13:20<13:36,  4.25it/s] 49%|████▉     | 3377/6844 [13:20<13:35,  4.25it/s] 49%|████▉     | 3378/6844 [13:20<13:34,  4.25it/s] 49%|████▉     | 3379/6844 [13:20<13:36,  4.25it/s] 49%|████▉     | 3380/6844 [13:21<13:36,  4.24it/s] 49%|████▉     | 3381/6844 [13:21<13:35,  4.25it/s] 49%|████▉     | 3382/6844 [13:21<13:34,  4.25it/s] 49%|████▉     | 3383/6844 [13:21<13:33,  4.26it/s] 49%|████▉     | 3384/6844 [13:22<13:33,  4.25it/s] 49%|████▉     | 3385/6844 [13:22<13:31,  4.26it/s] 49%|████▉     | 3386/6844 [13:22<13:31,  4.26it/s] 49%|████▉     | 3387/6844 [13:22<13:31,  4.26it/s] 50%|████▉     | 3388/6844 [13:22<13:31,  4.26it/s] 50%|████▉     | 3389/6844 [13:23<13:31,  4.26it/s] 50%|████▉     | 3390/6844 [13:23<13:32,  4.25it/s] 50%|████▉     | 3391/6844 [13:23<13:32,  4.25it/s] 50%|████▉     | 3392/6844 [13:23<13:32,  4.25it/s] 50%|████▉     | 3393/6844 [13:24<13:31,  4.25it/s] 50%|████▉     | 3394/6844 [13:24<13:31,  4.25it/s] 50%|████▉     | 3395/6844 [13:24<13:30,  4.25it/s] 50%|████▉     | 3396/6844 [13:24<13:28,  4.26it/s] 50%|████▉     | 3397/6844 [13:25<13:30,  4.26it/s] 50%|████▉     | 3398/6844 [13:25<13:30,  4.25it/s] 50%|████▉     | 3399/6844 [13:25<13:29,  4.26it/s] 50%|████▉     | 3400/6844 [13:25<13:29,  4.26it/s]                                                   {'loss': 4.5026, 'grad_norm': 0.14098401367664337, 'learning_rate': 0.003554566268901535, 'epoch': 0.1}
- 50%|████▉     | 3400/6844 [13:25<13:29,  4.26it/s] 50%|████▉     | 3401/6844 [13:26<13:31,  4.24it/s] 50%|████▉     | 3402/6844 [13:26<13:30,  4.25it/s] 50%|████▉     | 3403/6844 [13:26<13:31,  4.24it/s] 50%|████▉     | 3404/6844 [13:26<13:31,  4.24it/s] 50%|████▉     | 3405/6844 [13:26<13:29,  4.25it/s] 50%|████▉     | 3406/6844 [13:27<13:27,  4.26it/s] 50%|████▉     | 3407/6844 [13:27<13:26,  4.26it/s] 50%|████▉     | 3408/6844 [13:27<13:26,  4.26it/s] 50%|████▉     | 3409/6844 [13:27<13:26,  4.26it/s] 50%|████▉     | 3410/6844 [13:28<13:25,  4.26it/s] 50%|████▉     | 3411/6844 [13:28<13:26,  4.26it/s] 50%|████▉     | 3412/6844 [13:28<13:25,  4.26it/s] 50%|████▉     | 3413/6844 [13:28<13:24,  4.26it/s] 50%|████▉     | 3414/6844 [13:29<13:25,  4.26it/s] 50%|████▉     | 3415/6844 [13:29<13:24,  4.26it/s] 50%|████▉     | 3416/6844 [13:29<13:23,  4.27it/s] 50%|████▉     | 3417/6844 [13:29<13:21,  4.27it/s] 50%|████▉     | 3418/6844 [13:29<13:23,  4.26it/s] 50%|████▉     | 3419/6844 [13:30<13:23,  4.26it/s] 50%|████▉     | 3420/6844 [13:30<13:22,  4.27it/s] 50%|████▉     | 3421/6844 [13:30<13:23,  4.26it/s] 50%|█████     | 3422/6844 [13:30<13:23,  4.26it/s] 50%|█████     | 3423/6844 [13:31<13:23,  4.26it/s] 50%|█████     | 3424/6844 [13:31<13:23,  4.26it/s] 50%|█████     | 3425/6844 [13:31<13:23,  4.26it/s]                                                   {'loss': 4.5111, 'grad_norm': 0.1403958797454834, 'learning_rate': 0.0035169253937002844, 'epoch': 0.1}
- 50%|█████     | 3425/6844 [13:31<13:23,  4.26it/s] 50%|█████     | 3426/6844 [13:31<13:25,  4.25it/s] 50%|█████     | 3427/6844 [13:32<13:23,  4.25it/s] 50%|█████     | 3428/6844 [13:32<13:22,  4.25it/s] 50%|█████     | 3429/6844 [13:32<13:23,  4.25it/s] 50%|█████     | 3430/6844 [13:32<13:22,  4.26it/s] 50%|█████     | 3431/6844 [13:33<13:21,  4.26it/s] 50%|█████     | 3432/6844 [13:33<13:21,  4.26it/s] 50%|█████     | 3433/6844 [13:33<13:19,  4.26it/s] 50%|█████     | 3434/6844 [13:33<13:20,  4.26it/s] 50%|█████     | 3435/6844 [13:33<13:20,  4.26it/s] 50%|█████     | 3436/6844 [13:34<13:20,  4.26it/s] 50%|█████     | 3437/6844 [13:34<13:21,  4.25it/s] 50%|█████     | 3438/6844 [13:34<13:21,  4.25it/s] 50%|█████     | 3439/6844 [13:34<13:23,  4.24it/s] 50%|█████     | 3440/6844 [13:35<13:21,  4.25it/s] 50%|█████     | 3441/6844 [13:35<13:21,  4.24it/s] 50%|█████     | 3442/6844 [13:35<13:21,  4.24it/s] 50%|█████     | 3443/6844 [13:35<13:20,  4.25it/s] 50%|█████     | 3444/6844 [13:36<13:19,  4.25it/s] 50%|█████     | 3445/6844 [13:36<13:18,  4.26it/s] 50%|█████     | 3446/6844 [13:36<13:19,  4.25it/s] 50%|█████     | 3447/6844 [13:36<13:20,  4.25it/s] 50%|█████     | 3448/6844 [13:37<13:19,  4.25it/s] 50%|█████     | 3449/6844 [13:37<13:19,  4.25it/s] 50%|█████     | 3450/6844 [13:37<13:18,  4.25it/s]                                                   {'loss': 4.5116, 'grad_norm': 0.14081621170043945, 'learning_rate': 0.0034792004600569756, 'epoch': 0.1}
- 50%|█████     | 3450/6844 [13:37<13:18,  4.25it/s] 50%|█████     | 3451/6844 [13:37<13:19,  4.24it/s] 50%|█████     | 3452/6844 [13:37<13:17,  4.25it/s] 50%|█████     | 3453/6844 [13:38<13:18,  4.25it/s] 50%|█████     | 3454/6844 [13:38<13:17,  4.25it/s] 50%|█████     | 3455/6844 [13:38<13:17,  4.25it/s] 50%|█████     | 3456/6844 [13:38<13:17,  4.25it/s] 51%|█████     | 3457/6844 [13:39<13:18,  4.24it/s] 51%|█████     | 3458/6844 [13:39<13:17,  4.25it/s] 51%|█████     | 3459/6844 [13:39<13:16,  4.25it/s] 51%|█████     | 3460/6844 [13:39<13:16,  4.25it/s] 51%|█████     | 3461/6844 [13:40<13:16,  4.25it/s] 51%|█████     | 3462/6844 [13:40<13:15,  4.25it/s] 51%|█████     | 3463/6844 [13:40<13:14,  4.25it/s] 51%|█████     | 3464/6844 [13:40<13:15,  4.25it/s] 51%|█████     | 3465/6844 [13:41<13:15,  4.25it/s] 51%|█████     | 3466/6844 [13:41<13:15,  4.25it/s] 51%|█████     | 3467/6844 [13:41<13:16,  4.24it/s] 51%|█████     | 3468/6844 [13:41<13:16,  4.24it/s] 51%|█████     | 3469/6844 [13:41<13:14,  4.25it/s] 51%|█████     | 3470/6844 [13:42<13:12,  4.26it/s] 51%|█████     | 3471/6844 [13:42<13:14,  4.25it/s] 51%|█████     | 3472/6844 [13:42<13:13,  4.25it/s] 51%|█████     | 3473/6844 [13:42<13:12,  4.26it/s] 51%|█████     | 3474/6844 [13:43<13:12,  4.25it/s] 51%|█████     | 3475/6844 [13:43<13:12,  4.25it/s]{'loss': 4.4988, 'grad_norm': 0.146032452583313, 'learning_rate': 0.00344139760251092, 'epoch': 0.1}
-                                                    51%|█████     | 3475/6844 [13:43<13:12,  4.25it/s] 51%|█████     | 3476/6844 [13:43<13:14,  4.24it/s] 51%|█████     | 3477/6844 [13:43<13:14,  4.24it/s] 51%|█████     | 3478/6844 [13:44<13:13,  4.24it/s] 51%|█████     | 3479/6844 [13:44<13:12,  4.25it/s] 51%|█████     | 3480/6844 [13:44<13:11,  4.25it/s] 51%|█████     | 3481/6844 [13:44<13:11,  4.25it/s] 51%|█████     | 3482/6844 [13:45<13:10,  4.25it/s] 51%|█████     | 3483/6844 [13:45<13:39,  4.10it/s] 51%|█████     | 3484/6844 [13:45<14:00,  4.00it/s] 51%|█████     | 3485/6844 [13:45<14:05,  3.97it/s] 51%|█████     | 3486/6844 [13:46<14:15,  3.93it/s] 51%|█████     | 3487/6844 [13:46<14:21,  3.90it/s] 51%|█████     | 3488/6844 [13:46<14:26,  3.88it/s] 51%|█████     | 3489/6844 [13:46<14:41,  3.81it/s] 51%|█████     | 3490/6844 [13:47<14:26,  3.87it/s] 51%|█████     | 3491/6844 [13:47<14:03,  3.98it/s] 51%|█████     | 3492/6844 [13:47<13:46,  4.06it/s] 51%|█████     | 3493/6844 [13:47<13:33,  4.12it/s] 51%|█████     | 3494/6844 [13:48<13:26,  4.15it/s] 51%|█████     | 3495/6844 [13:48<13:19,  4.19it/s] 51%|█████     | 3496/6844 [13:48<13:15,  4.21it/s] 51%|█████     | 3497/6844 [13:48<13:12,  4.23it/s] 51%|█████     | 3498/6844 [13:49<13:10,  4.23it/s] 51%|█████     | 3499/6844 [13:49<13:08,  4.24it/s] 51%|█████     | 3500/6844 [13:49<13:06,  4.25it/s]                                                   {'loss': 4.5015, 'grad_norm': 0.14286711812019348, 'learning_rate': 0.003403522968272816, 'epoch': 0.1}
- 51%|█████     | 3500/6844 [13:49<13:06,  4.25it/s] 51%|█████     | 3501/6844 [13:49<13:08,  4.24it/s] 51%|█████     | 3502/6844 [13:49<13:08,  4.24it/s] 51%|█████     | 3503/6844 [13:50<13:06,  4.25it/s] 51%|█████     | 3504/6844 [13:50<13:05,  4.25it/s] 51%|█████     | 3505/6844 [13:50<13:05,  4.25it/s] 51%|█████     | 3506/6844 [13:50<13:04,  4.26it/s] 51%|█████     | 3507/6844 [13:51<13:03,  4.26it/s] 51%|█████▏    | 3508/6844 [13:51<13:04,  4.26it/s] 51%|█████▏    | 3509/6844 [13:51<13:03,  4.26it/s] 51%|█████▏    | 3510/6844 [13:52<17:34,  3.16it/s] 51%|█████▏    | 3511/6844 [13:52<16:13,  3.42it/s] 51%|█████▏    | 3512/6844 [13:52<15:15,  3.64it/s] 51%|█████▏    | 3513/6844 [13:52<14:34,  3.81it/s] 51%|█████▏    | 3514/6844 [13:53<14:07,  3.93it/s] 51%|█████▏    | 3515/6844 [13:53<13:47,  4.02it/s] 51%|█████▏    | 3516/6844 [13:53<13:33,  4.09it/s] 51%|█████▏    | 3517/6844 [13:53<13:23,  4.14it/s] 51%|█████▏    | 3518/6844 [13:53<13:16,  4.17it/s] 51%|█████▏    | 3519/6844 [13:54<13:12,  4.20it/s] 51%|█████▏    | 3520/6844 [13:54<13:09,  4.21it/s] 51%|█████▏    | 3521/6844 [13:54<13:06,  4.22it/s] 51%|█████▏    | 3522/6844 [13:54<13:05,  4.23it/s] 51%|█████▏    | 3523/6844 [13:55<13:03,  4.24it/s] 51%|█████▏    | 3524/6844 [13:55<13:02,  4.24it/s] 52%|█████▏    | 3525/6844 [13:55<13:02,  4.24it/s]                                                   {'loss': 4.4991, 'grad_norm': 0.14583240449428558, 'learning_rate': 0.003365582716225138, 'epoch': 0.1}
- 52%|█████▏    | 3525/6844 [13:55<13:02,  4.24it/s] 52%|█████▏    | 3526/6844 [13:55<13:03,  4.23it/s] 52%|█████▏    | 3527/6844 [13:56<13:02,  4.24it/s] 52%|█████▏    | 3528/6844 [13:56<12:59,  4.25it/s] 52%|█████▏    | 3529/6844 [13:56<12:59,  4.25it/s] 52%|█████▏    | 3530/6844 [13:56<12:58,  4.25it/s] 52%|█████▏    | 3531/6844 [13:57<12:57,  4.26it/s] 52%|█████▏    | 3532/6844 [13:57<12:57,  4.26it/s] 52%|█████▏    | 3533/6844 [13:57<12:56,  4.26it/s] 52%|█████▏    | 3534/6844 [13:57<12:57,  4.26it/s] 52%|█████▏    | 3535/6844 [13:57<12:57,  4.25it/s] 52%|█████▏    | 3536/6844 [13:58<12:58,  4.25it/s] 52%|█████▏    | 3537/6844 [13:58<12:57,  4.25it/s] 52%|█████▏    | 3538/6844 [13:58<12:59,  4.24it/s] 52%|█████▏    | 3539/6844 [13:58<12:58,  4.24it/s] 52%|█████▏    | 3540/6844 [13:59<12:57,  4.25it/s] 52%|█████▏    | 3541/6844 [13:59<12:56,  4.25it/s] 52%|█████▏    | 3542/6844 [13:59<12:56,  4.25it/s] 52%|█████▏    | 3543/6844 [13:59<12:55,  4.26it/s] 52%|█████▏    | 3544/6844 [14:00<12:55,  4.25it/s] 52%|█████▏    | 3545/6844 [14:00<12:55,  4.25it/s] 52%|█████▏    | 3546/6844 [14:00<12:56,  4.24it/s] 52%|█████▏    | 3547/6844 [14:00<12:55,  4.25it/s] 52%|█████▏    | 3548/6844 [14:01<12:54,  4.26it/s] 52%|█████▏    | 3549/6844 [14:01<12:52,  4.27it/s] 52%|█████▏    | 3550/6844 [14:01<12:52,  4.26it/s]{'loss': 4.4988, 'grad_norm': 0.14561939239501953, 'learning_rate': 0.0033275830159206245, 'epoch': 0.1}
-                                                    52%|█████▏    | 3550/6844 [14:01<12:52,  4.26it/s] 52%|█████▏    | 3551/6844 [14:01<12:54,  4.25it/s] 52%|█████▏    | 3552/6844 [14:01<12:55,  4.25it/s] 52%|█████▏    | 3553/6844 [14:02<12:54,  4.25it/s] 52%|█████▏    | 3554/6844 [14:02<12:54,  4.25it/s] 52%|█████▏    | 3555/6844 [14:02<12:53,  4.25it/s] 52%|█████▏    | 3556/6844 [14:02<12:53,  4.25it/s] 52%|█████▏    | 3557/6844 [14:03<12:52,  4.26it/s] 52%|█████▏    | 3558/6844 [14:03<12:51,  4.26it/s] 52%|█████▏    | 3559/6844 [14:03<12:51,  4.26it/s] 52%|█████▏    | 3560/6844 [14:03<12:52,  4.25it/s] 52%|█████▏    | 3561/6844 [14:04<12:52,  4.25it/s] 52%|█████▏    | 3562/6844 [14:04<12:52,  4.25it/s] 52%|█████▏    | 3563/6844 [14:04<12:52,  4.25it/s] 52%|█████▏    | 3564/6844 [14:04<12:52,  4.25it/s] 52%|█████▏    | 3565/6844 [14:05<12:51,  4.25it/s] 52%|█████▏    | 3566/6844 [14:05<12:50,  4.25it/s] 52%|█████▏    | 3567/6844 [14:05<12:51,  4.25it/s] 52%|█████▏    | 3568/6844 [14:05<12:51,  4.24it/s] 52%|█████▏    | 3569/6844 [14:05<12:52,  4.24it/s] 52%|█████▏    | 3570/6844 [14:06<12:50,  4.25it/s] 52%|█████▏    | 3571/6844 [14:06<12:49,  4.25it/s] 52%|█████▏    | 3572/6844 [14:06<12:49,  4.25it/s] 52%|█████▏    | 3573/6844 [14:06<12:49,  4.25it/s] 52%|█████▏    | 3574/6844 [14:07<12:49,  4.25it/s] 52%|█████▏    | 3575/6844 [14:07<12:48,  4.25it/s]                                                   {'loss': 4.4996, 'grad_norm': 0.1525363177061081, 'learning_rate': 0.003289530046579035, 'epoch': 0.1}
- 52%|█████▏    | 3575/6844 [14:07<12:48,  4.25it/s] 52%|█████▏    | 3576/6844 [14:07<12:50,  4.24it/s] 52%|█████▏    | 3577/6844 [14:07<12:48,  4.25it/s] 52%|█████▏    | 3578/6844 [14:08<12:48,  4.25it/s] 52%|█████▏    | 3579/6844 [14:08<12:47,  4.25it/s] 52%|█████▏    | 3580/6844 [14:08<12:47,  4.25it/s] 52%|█████▏    | 3581/6844 [14:08<12:47,  4.25it/s] 52%|█████▏    | 3582/6844 [14:09<12:47,  4.25it/s] 52%|█████▏    | 3583/6844 [14:09<12:46,  4.25it/s] 52%|█████▏    | 3584/6844 [14:09<12:46,  4.25it/s] 52%|█████▏    | 3585/6844 [14:09<12:46,  4.25it/s] 52%|█████▏    | 3586/6844 [14:09<12:45,  4.26it/s] 52%|█████▏    | 3587/6844 [14:10<12:45,  4.25it/s] 52%|█████▏    | 3588/6844 [14:10<12:46,  4.25it/s] 52%|█████▏    | 3589/6844 [14:10<12:46,  4.25it/s] 52%|█████▏    | 3590/6844 [14:10<12:45,  4.25it/s] 52%|█████▏    | 3591/6844 [14:11<12:45,  4.25it/s] 52%|█████▏    | 3592/6844 [14:11<12:45,  4.25it/s] 52%|█████▏    | 3593/6844 [14:11<12:44,  4.25it/s] 53%|█████▎    | 3594/6844 [14:11<12:43,  4.26it/s] 53%|█████▎    | 3595/6844 [14:12<12:43,  4.25it/s] 53%|█████▎    | 3596/6844 [14:12<12:43,  4.25it/s] 53%|█████▎    | 3597/6844 [14:12<12:43,  4.25it/s] 53%|█████▎    | 3598/6844 [14:12<12:42,  4.25it/s] 53%|█████▎    | 3599/6844 [14:13<12:43,  4.25it/s] 53%|█████▎    | 3600/6844 [14:13<12:43,  4.25it/s]                                                   {'loss': 4.491, 'grad_norm': 0.1715441793203354, 'learning_rate': 0.003251429996082328, 'epoch': 0.11}
- 53%|█████▎    | 3600/6844 [14:13<12:43,  4.25it/s] 53%|█████▎    | 3601/6844 [14:13<12:45,  4.24it/s] 53%|█████▎    | 3602/6844 [14:13<12:43,  4.25it/s] 53%|█████▎    | 3603/6844 [14:13<12:42,  4.25it/s] 53%|█████▎    | 3604/6844 [14:14<12:41,  4.26it/s] 53%|█████▎    | 3605/6844 [14:14<12:41,  4.25it/s] 53%|█████▎    | 3606/6844 [14:14<12:41,  4.25it/s] 53%|█████▎    | 3607/6844 [14:14<12:40,  4.26it/s] 53%|█████▎    | 3608/6844 [14:15<12:40,  4.25it/s] 53%|█████▎    | 3609/6844 [14:15<13:12,  4.08it/s] 53%|█████▎    | 3610/6844 [14:15<13:31,  3.99it/s] 53%|█��███▎    | 3611/6844 [14:15<13:46,  3.91it/s] 53%|█████▎    | 3612/6844 [14:16<13:52,  3.88it/s] 53%|█████▎    | 3613/6844 [14:16<13:56,  3.86it/s] 53%|█████▎    | 3614/6844 [14:16<14:04,  3.82it/s] 53%|█████▎    | 3615/6844 [14:17<14:03,  3.83it/s] 53%|█████▎    | 3616/6844 [14:17<14:03,  3.83it/s] 53%|█████▎    | 3617/6844 [14:17<14:07,  3.81it/s] 53%|█████▎    | 3618/6844 [14:17<13:40,  3.93it/s] 53%|█████▎    | 3619/6844 [14:18<13:22,  4.02it/s] 53%|█████▎    | 3620/6844 [14:18<13:09,  4.08it/s] 53%|█████▎    | 3621/6844 [14:18<13:00,  4.13it/s] 53%|█████▎    | 3622/6844 [14:18<12:52,  4.17it/s] 53%|█████▎    | 3623/6844 [14:18<12:48,  4.19it/s] 53%|█████▎    | 3624/6844 [14:19<12:44,  4.21it/s] 53%|█████▎    | 3625/6844 [14:19<12:42,  4.22it/s]{'loss': 4.4947, 'grad_norm': 0.13910885155200958, 'learning_rate': 0.0032132890599684406, 'epoch': 0.11}                                                   
- 53%|█████▎    | 3625/6844 [14:19<12:42,  4.22it/s] 53%|█████▎    | 3626/6844 [14:19<12:44,  4.21it/s] 53%|█████▎    | 3627/6844 [14:19<12:42,  4.22it/s] 53%|█████▎    | 3628/6844 [14:20<12:42,  4.22it/s] 53%|█████▎    | 3629/6844 [14:20<12:41,  4.22it/s] 53%|█████▎    | 3630/6844 [14:20<12:39,  4.23it/s] 53%|█████▎    | 3631/6844 [14:20<12:37,  4.24it/s] 53%|█████▎    | 3632/6844 [14:21<12:37,  4.24it/s] 53%|█████▎    | 3633/6844 [14:21<12:35,  4.25it/s] 53%|█████▎    | 3634/6844 [14:21<12:35,  4.25it/s] 53%|█████▎    | 3635/6844 [14:21<12:35,  4.25it/s] 53%|█████▎    | 3636/6844 [14:22<12:36,  4.24it/s] 53%|█████▎    | 3637/6844 [14:22<12:36,  4.24it/s] 53%|█████▎    | 3638/6844 [14:22<12:35,  4.25it/s] 53%|█████▎    | 3639/6844 [14:22<12:34,  4.25it/s] 53%|█████▎    | 3640/6844 [14:22<12:35,  4.24it/s] 53%|█████▎    | 3641/6844 [14:23<12:34,  4.24it/s] 53%|█████▎    | 3642/6844 [14:23<12:34,  4.24it/s] 53%|█████▎    | 3643/6844 [14:23<12:34,  4.24it/s] 53%|█████▎    | 3644/6844 [14:23<12:34,  4.24it/s] 53%|█████▎    | 3645/6844 [14:24<12:34,  4.24it/s] 53%|█████▎    | 3646/6844 [14:24<12:33,  4.24it/s] 53%|█████▎    | 3647/6844 [14:24<12:34,  4.24it/s] 53%|█████▎    | 3648/6844 [14:24<12:32,  4.25it/s] 53%|█████▎    | 3649/6844 [14:25<12:31,  4.25it/s] 53%|█████▎    | 3650/6844 [14:25<12:31,  4.25it/s]{'loss': 4.4993, 'grad_norm': 0.15648047626018524, 'learning_rate': 0.003175113440423816, 'epoch': 0.11}
-                                                    53%|█████▎    | 3650/6844 [14:25<12:31,  4.25it/s] 53%|█████▎    | 3651/6844 [14:25<12:33,  4.24it/s] 53%|█████▎    | 3652/6844 [14:25<12:32,  4.24it/s] 53%|█████▎    | 3653/6844 [14:26<12:32,  4.24it/s] 53%|█████▎    | 3654/6844 [14:26<12:31,  4.25it/s] 53%|█████▎    | 3655/6844 [14:26<12:30,  4.25it/s] 53%|█████▎    | 3656/6844 [14:26<12:30,  4.25it/s] 53%|█████▎    | 3657/6844 [14:26<12:30,  4.24it/s] 53%|█████▎    | 3658/6844 [14:27<12:29,  4.25it/s] 53%|█████▎    | 3659/6844 [14:27<12:29,  4.25it/s] 53%|█████▎    | 3660/6844 [14:27<12:29,  4.25it/s] 53%|█████▎    | 3661/6844 [14:27<12:28,  4.25it/s] 54%|█████▎    | 3662/6844 [14:28<12:28,  4.25it/s] 54%|█████▎    | 3663/6844 [14:28<12:28,  4.25it/s] 54%|█████▎    | 3664/6844 [14:28<12:29,  4.24it/s] 54%|█████▎    | 3665/6844 [14:28<12:28,  4.25it/s] 54%|█████▎    | 3666/6844 [14:29<12:27,  4.25it/s] 54%|█████▎    | 3667/6844 [14:29<12:27,  4.25it/s] 54%|█████▎    | 3668/6844 [14:29<12:26,  4.25it/s] 54%|█████▎    | 3669/6844 [14:29<12:25,  4.26it/s] 54%|█████▎    | 3670/6844 [14:30<12:26,  4.25it/s] 54%|█████▎    | 3671/6844 [14:30<12:27,  4.24it/s] 54%|█████▎    | 3672/6844 [14:30<12:27,  4.24it/s] 54%|█████▎    | 3673/6844 [14:30<12:26,  4.25it/s] 54%|█████▎    | 3674/6844 [14:30<12:25,  4.25it/s] 54%|█████▎    | 3675/6844 [14:31<12:23,  4.26it/s]                                                   {'loss': 4.4945, 'grad_norm': 0.15099196135997772, 'learning_rate': 0.003136909345274849, 'epoch': 0.11}
- 54%|█████▎    | 3675/6844 [14:31<12:23,  4.26it/s] 54%|█████▎    | 3676/6844 [14:31<12:25,  4.25it/s] 54%|█████▎    | 3677/6844 [14:31<12:25,  4.25it/s] 54%|█████▎    | 3678/6844 [14:31<12:25,  4.25it/s] 54%|█████▍    | 3679/6844 [14:32<12:25,  4.25it/s] 54%|█████▍    | 3680/6844 [14:32<12:24,  4.25it/s] 54%|█████▍    | 3681/6844 [14:32<12:24,  4.25it/s] 54%|█████▍    | 3682/6844 [14:32<12:24,  4.25it/s] 54%|█████▍    | 3683/6844 [14:33<12:24,  4.25it/s] 54%|█████▍    | 3684/6844 [14:33<12:22,  4.25it/s] 54%|█████▍    | 3685/6844 [14:33<12:23,  4.25it/s] 54%|█████▍    | 3686/6844 [14:33<12:23,  4.25it/s] 54%|█████▍    | 3687/6844 [14:34<12:22,  4.25it/s] 54%|█████▍    | 3688/6844 [14:34<12:22,  4.25it/s] 54%|█████▍    | 3689/6844 [14:34<12:22,  4.25it/s] 54%|█████▍    | 3690/6844 [14:34<12:21,  4.25it/s] 54%|█████▍    | 3691/6844 [14:34<12:21,  4.25it/s] 54%|█████▍    | 3692/6844 [14:35<12:20,  4.25it/s] 54%|█████▍    | 3693/6844 [14:35<12:21,  4.25it/s] 54%|█████▍    | 3694/6844 [14:35<12:21,  4.25it/s] 54%|█████▍    | 3695/6844 [14:35<12:21,  4.25it/s] 54%|█████▍    | 3696/6844 [14:36<12:21,  4.25it/s] 54%|█████▍    | 3697/6844 [14:36<12:21,  4.24it/s] 54%|█████▍    | 3698/6844 [14:36<12:20,  4.25it/s] 54%|█████▍    | 3699/6844 [14:36<12:19,  4.25it/s] 54%|█████▍    | 3700/6844 [14:37<12:19,  4.25it/s]{'loss': 4.4787, 'grad_norm': 0.16635382175445557, 'learning_rate': 0.0030986829869784197, 'epoch': 0.11}                                                   
- 54%|█████▍    | 3700/6844 [14:37<12:19,  4.25it/s] 54%|█████▍    | 3701/6844 [14:37<12:21,  4.24it/s] 54%|█████▍    | 3702/6844 [14:37<12:20,  4.24it/s] 54%|█████▍    | 3703/6844 [14:37<12:21,  4.24it/s] 54%|█████▍    | 3704/6844 [14:38<12:19,  4.25it/s] 54%|█████▍    | 3705/6844 [14:38<12:18,  4.25it/s] 54%|█████▍    | 3706/6844 [14:38<12:17,  4.25it/s] 54%|█████▍    | 3707/6844 [14:38<12:18,  4.25it/s] 54%|█████▍    | 3708/6844 [14:38<12:16,  4.26it/s] 54%|█████▍    | 3709/6844 [14:39<12:16,  4.26it/s] 54%|█████▍    | 3710/6844 [14:39<12:16,  4.26it/s] 54%|█████▍    | 3711/6844 [14:39<12:17,  4.25it/s] 54%|█████▍    | 3712/6844 [14:39<12:16,  4.25it/s] 54%|█████▍    | 3713/6844 [14:40<12:17,  4.25it/s] 54%|█████▍    | 3714/6844 [14:40<12:16,  4.25it/s] 54%|█████▍    | 3715/6844 [14:40<12:16,  4.25it/s] 54%|█████▍    | 3716/6844 [14:40<12:16,  4.25it/s] 54%|█████▍    | 3717/6844 [14:41<12:16,  4.24it/s] 54%|█████▍    | 3718/6844 [14:41<12:16,  4.24it/s] 54%|█████▍    | 3719/6844 [14:41<12:15,  4.25it/s] 54%|█████▍    | 3720/6844 [14:41<12:16,  4.24it/s] 54%|█████▍    | 3721/6844 [14:42<12:14,  4.25it/s] 54%|█████▍    | 3722/6844 [14:42<12:14,  4.25it/s] 54%|█████▍    | 3723/6844 [14:42<12:13,  4.25it/s] 54%|█████▍    | 3724/6844 [14:42<12:12,  4.26it/s] 54%|█████▍    | 3725/6844 [14:42<12:13,  4.26it/s]{'loss': 4.4918, 'grad_norm': 0.1453801542520523, 'learning_rate': 0.0030604405816116696, 'epoch': 0.11}
-                                                    54%|█████▍    | 3725/6844 [14:42<12:13,  4.26it/s] 54%|█████▍    | 3726/6844 [14:43<12:15,  4.24it/s] 54%|█████▍    | 3727/6844 [14:43<12:14,  4.24it/s] 54%|█████▍    | 3728/6844 [14:43<12:13,  4.25it/s] 54%|█████▍    | 3729/6844 [14:43<12:13,  4.25it/s] 55%|█████▍    | 3730/6844 [14:44<12:13,  4.25it/s] 55%|█████▍    | 3731/6844 [14:44<12:13,  4.24it/s] 55%|█████▍    | 3732/6844 [14:44<12:13,  4.25it/s] 55%|█████▍    | 3733/6844 [14:44<12:12,  4.25it/s] 55%|█████▍    | 3734/6844 [14:45<12:12,  4.24it/s] 55%|█████▍    | 3735/6844 [14:45<12:33,  4.13it/s] 55%|█████▍    | 3736/6844 [14:45<12:33,  4.12it/s] 55%|█████▍    | 3737/6844 [14:45<12:27,  4.16it/s] 55%|█████▍    | 3738/6844 [14:46<12:23,  4.18it/s] 55%|█████▍    | 3739/6844 [14:46<12:19,  4.20it/s] 55%|█████▍    | 3740/6844 [14:46<12:18,  4.20it/s] 55%|█████▍    | 3741/6844 [14:46<12:17,  4.21it/s] 55%|█████▍    | 3742/6844 [14:47<12:14,  4.22it/s] 55%|█████▍    | 3743/6844 [14:47<12:13,  4.23it/s] 55%|█████▍    | 3744/6844 [14:47<12:12,  4.23it/s] 55%|█████▍    | 3745/6844 [14:47<12:12,  4.23it/s] 55%|█████▍    | 3746/6844 [14:47<12:11,  4.24it/s] 55%|█████▍    | 3747/6844 [14:48<12:10,  4.24it/s] 55%|█████▍    | 3748/6844 [14:48<12:10,  4.24it/s] 55%|█████▍    | 3749/6844 [14:48<12:09,  4.24it/s] 55%|█████▍    | 3750/6844 [14:48<12:09,  4.24it/s]{'loss': 4.4778, 'grad_norm': 0.1405850350856781, 'learning_rate': 0.0030221883478611933, 'epoch': 0.11}
-                                                    55%|█████▍    | 3750/6844 [14:48<12:09,  4.24it/s] 55%|█████▍    | 3751/6844 [14:49<12:11,  4.23it/s] 55%|█████▍    | 3752/6844 [14:49<12:10,  4.23it/s] 55%|█████▍    | 3753/6844 [14:49<12:09,  4.23it/s] 55%|█████▍    | 3754/6844 [14:49<12:09,  4.24it/s] 55%|█████▍    | 3755/6844 [14:50<12:10,  4.23it/s] 55%|█████▍    | 3756/6844 [14:50<12:10,  4.23it/s] 55%|█████▍    | 3757/6844 [14:50<12:07,  4.24it/s] 55%|█████▍    | 3758/6844 [14:50<12:07,  4.24it/s] 55%|█████▍    | 3759/6844 [14:51<12:07,  4.24it/s] 55%|█████▍    | 3760/6844 [14:51<12:07,  4.24it/s] 55%|█████▍    | 3761/6844 [14:51<12:07,  4.24it/s] 55%|█████▍    | 3762/6844 [14:51<12:08,  4.23it/s] 55%|█████▍    | 3763/6844 [14:51<12:08,  4.23it/s] 55%|█████▍    | 3764/6844 [14:52<12:07,  4.23it/s] 55%|█████▌    | 3765/6844 [14:52<12:06,  4.24it/s] 55%|█████▌    | 3766/6844 [14:52<12:05,  4.24it/s] 55%|█████▌    | 3767/6844 [14:52<12:04,  4.25it/s] 55%|█████▌    | 3768/6844 [14:53<12:05,  4.24it/s] 55%|█████▌    | 3769/6844 [14:53<12:06,  4.23it/s] 55%|█████▌    | 3770/6844 [14:53<12:06,  4.23it/s] 55%|█████▌    | 3771/6844 [14:53<12:05,  4.23it/s] 55%|█████▌    | 3772/6844 [14:54<12:05,  4.24it/s] 55%|█████▌    | 3773/6844 [14:54<12:04,  4.24it/s] 55%|█████▌    | 3774/6844 [14:54<12:04,  4.24it/s] 55%|█████▌    | 3775/6844 [14:54<12:03,  4.24it/s]                                                   {'loss': 4.4686, 'grad_norm': 0.14902448654174805, 'learning_rate': 0.002983932506011799, 'epoch': 0.11}
- 55%|█████▌    | 3775/6844 [14:54<12:03,  4.24it/s] 55%|█████▌    | 3776/6844 [14:55<12:06,  4.22it/s] 55%|█████▌    | 3777/6844 [14:55<12:04,  4.23it/s] 55%|█████▌    | 3778/6844 [14:55<12:04,  4.23it/s] 55%|█████▌    | 3779/6844 [14:55<12:04,  4.23it/s] 55%|█████▌    | 3780/6844 [14:55<12:03,  4.23it/s] 55%|█████▌    | 3781/6844 [14:56<12:02,  4.24it/s] 55%|█████▌    | 3782/6844 [14:56<12:01,  4.25it/s] 55%|█████▌    | 3783/6844 [14:56<12:02,  4.24it/s] 55%|█████▌    | 3784/6844 [14:56<12:01,  4.24it/s] 55%|█████▌    | 3785/6844 [14:57<12:01,  4.24it/s] 55%|█████▌    | 3786/6844 [14:57<12:00,  4.24it/s] 55%|█████▌    | 3787/6844 [14:57<12:00,  4.24it/s] 55%|█████▌    | 3788/6844 [14:57<12:00,  4.24it/s] 55%|█████▌    | 3789/6844 [14:58<11:59,  4.25it/s] 55%|█████▌    | 3790/6844 [14:58<12:00,  4.24it/s] 55%|█████▌    | 3791/6844 [14:58<11:59,  4.24it/s] 55%|█████▌    | 3792/6844 [14:58<12:00,  4.24it/s] 55%|█████▌    | 3793/6844 [14:59<12:00,  4.23it/s] 55%|█████▌    | 3794/6844 [14:59<12:00,  4.23it/s] 55%|█████▌    | 3795/6844 [14:59<11:58,  4.24it/s] 55%|█████▌    | 3796/6844 [14:59<11:58,  4.24it/s] 55%|█████▌    | 3797/6844 [14:59<11:58,  4.24it/s] 55%|█████▌    | 3798/6844 [15:00<11:59,  4.23it/s] 56%|█████▌    | 3799/6844 [15:00<11:59,  4.23it/s] 56%|█████▌    | 3800/6844 [15:00<11:59,  4.23it/s]{'loss': 4.4821, 'grad_norm': 0.15950438380241394, 'learning_rate': 0.0029456792769350214, 'epoch': 0.11}
-                                                    56%|█████▌    | 3800/6844 [15:00<11:59,  4.23it/s] 56%|█████▌    | 3801/6844 [15:00<12:00,  4.22it/s] 56%|█████▌    | 3802/6844 [15:01<11:58,  4.24it/s] 56%|█████▌    | 3803/6844 [15:01<11:57,  4.24it/s] 56%|█████▌    | 3804/6844 [15:01<11:58,  4.23it/s] 56%|█████▌    | 3805/6844 [15:01<11:58,  4.23it/s] 56%|█████▌    | 3806/6844 [15:02<11:57,  4.23it/s] 56%|█████▌    | 3807/6844 [15:02<11:57,  4.23it/s] 56%|█████▌    | 3808/6844 [15:02<11:57,  4.23it/s] 56%|█████▌    | 3809/6844 [15:02<11:55,  4.24it/s] 56%|█████▌    | 3810/6844 [15:03<11:55,  4.24it/s] 56%|█████▌    | 3811/6844 [15:03<11:57,  4.23it/s] 56%|█████▌    | 3812/6844 [15:03<11:56,  4.23it/s] 56%|█████▌    | 3813/6844 [15:03<11:55,  4.24it/s] 56%|█████▌    | 3814/6844 [15:04<11:55,  4.24it/s] 56%|█████▌    | 3815/6844 [15:04<11:55,  4.23it/s] 56%|█████▌    | 3816/6844 [15:04<11:55,  4.23it/s] 56%|█████▌    | 3817/6844 [15:04<11:54,  4.24it/s] 56%|█████▌    | 3818/6844 [15:04<11:55,  4.23it/s] 56%|█████▌    | 3819/6844 [15:05<11:54,  4.23it/s] 56%|█████▌    | 3820/6844 [15:05<11:53,  4.24it/s] 56%|█████▌    | 3821/6844 [15:05<11:53,  4.24it/s] 56%|█████▌    | 3822/6844 [15:05<11:54,  4.23it/s] 56%|███���█▌    | 3823/6844 [15:06<11:54,  4.23it/s] 56%|█████▌    | 3824/6844 [15:06<11:53,  4.24it/s] 56%|█████▌    | 3825/6844 [15:06<11:56,  4.21it/s]{'loss': 4.4778, 'grad_norm': 0.14766496419906616, 'learning_rate': 0.002907434881077519, 'epoch': 0.11}                                                   
- 56%|█████▌    | 3825/6844 [15:06<11:56,  4.21it/s] 56%|█████▌    | 3826/6844 [15:06<11:56,  4.21it/s] 56%|█████▌    | 3827/6844 [15:07<11:53,  4.23it/s] 56%|█████▌    | 3828/6844 [15:07<11:52,  4.23it/s] 56%|█████▌    | 3829/6844 [15:07<11:52,  4.23it/s] 56%|█████▌    | 3830/6844 [15:07<11:51,  4.23it/s] 56%|█████▌    | 3831/6844 [15:08<11:51,  4.23it/s] 56%|█████▌    | 3832/6844 [15:08<11:51,  4.23it/s] 56%|█████▌    | 3833/6844 [15:08<11:51,  4.23it/s] 56%|█████▌    | 3834/6844 [15:08<11:50,  4.24it/s] 56%|█████▌    | 3835/6844 [15:08<11:48,  4.25it/s] 56%|█████▌    | 3836/6844 [15:09<11:48,  4.25it/s] 56%|█████▌    | 3837/6844 [15:09<11:48,  4.24it/s] 56%|█████▌    | 3838/6844 [15:09<11:48,  4.24it/s] 56%|█████▌    | 3839/6844 [15:09<11:49,  4.24it/s] 56%|█████▌    | 3840/6844 [15:10<11:49,  4.23it/s] 56%|█████▌    | 3841/6844 [15:10<11:47,  4.24it/s] 56%|█████▌    | 3842/6844 [15:10<11:47,  4.24it/s] 56%|█████▌    | 3843/6844 [15:10<11:47,  4.24it/s] 56%|█████▌    | 3844/6844 [15:11<11:47,  4.24it/s] 56%|█████▌    | 3845/6844 [15:11<11:47,  4.24it/s] 56%|█████▌    | 3846/6844 [15:11<11:47,  4.24it/s] 56%|█████▌    | 3847/6844 [15:11<11:46,  4.24it/s] 56%|█████▌    | 3848/6844 [15:12<11:45,  4.24it/s] 56%|█████▌    | 3849/6844 [15:12<11:45,  4.25it/s] 56%|█████▋    | 3850/6844 [15:12<11:46,  4.24it/s]{'loss': 4.4733, 'grad_norm': 0.15245309472084045, 'learning_rate': 0.002869205537449566, 'epoch': 0.11}
-                                                    56%|█████▋    | 3850/6844 [15:12<11:46,  4.24it/s] 56%|█████▋    | 3851/6844 [15:12<11:47,  4.23it/s] 56%|█████▋    | 3852/6844 [15:12<11:45,  4.24it/s] 56%|█████▋    | 3853/6844 [15:13<11:45,  4.24it/s] 56%|█████▋    | 3854/6844 [15:13<11:46,  4.23it/s] 56%|█████▋    | 3855/6844 [15:13<11:44,  4.24it/s] 56%|█████▋    | 3856/6844 [15:13<11:43,  4.25it/s] 56%|█████▋    | 3857/6844 [15:14<11:44,  4.24it/s] 56%|█████▋    | 3858/6844 [15:14<11:45,  4.24it/s] 56%|█████▋    | 3859/6844 [15:14<11:44,  4.24it/s] 56%|█████▋    | 3860/6844 [15:14<11:43,  4.24it/s] 56%|█████▋    | 3861/6844 [15:15<11:44,  4.24it/s] 56%|█████▋    | 3862/6844 [15:15<12:23,  4.01it/s] 56%|█████▋    | 3863/6844 [15:15<12:12,  4.07it/s] 56%|█████▋    | 3864/6844 [15:15<12:03,  4.12it/s] 56%|█████▋    | 3865/6844 [15:16<11:55,  4.16it/s] 56%|█████▋    | 3866/6844 [15:16<11:50,  4.19it/s] 57%|█████▋    | 3867/6844 [15:16<11:47,  4.21it/s] 57%|█████▋    | 3868/6844 [15:16<11:44,  4.22it/s] 57%|█████▋    | 3869/6844 [15:17<11:43,  4.23it/s] 57%|█████▋    | 3870/6844 [15:17<11:42,  4.23it/s] 57%|█████▋    | 3871/6844 [15:17<11:41,  4.24it/s] 57%|█████▋    | 3872/6844 [15:17<11:40,  4.24it/s] 57%|█████▋    | 3873/6844 [15:17<11:39,  4.25it/s] 57%|█████▋    | 3874/6844 [15:18<11:39,  4.25it/s] 57%|█████▋    | 3875/6844 [15:18<11:38,  4.25it/s]                                                   {'loss': 4.4747, 'grad_norm': 0.1380496770143509, 'learning_rate': 0.002830997462613755, 'epoch': 0.11}
- 57%|█████▋    | 3875/6844 [15:18<11:38,  4.25it/s] 57%|█████▋    | 3876/6844 [15:18<11:40,  4.24it/s] 57%|█████▋    | 3877/6844 [15:18<11:39,  4.24it/s] 57%|█████▋    | 3878/6844 [15:19<11:40,  4.23it/s] 57%|█████▋    | 3879/6844 [15:19<11:39,  4.24it/s] 57%|█████▋    | 3880/6844 [15:19<11:38,  4.24it/s] 57%|█████▋    | 3881/6844 [15:19<11:37,  4.25it/s] 57%|█████▋    | 3882/6844 [15:20<11:36,  4.25it/s] 57%|█████▋    | 3883/6844 [15:20<11:36,  4.25it/s] 57%|█████▋    | 3884/6844 [15:20<11:36,  4.25it/s] 57%|█████▋    | 3885/6844 [15:20<11:37,  4.24it/s] 57%|█████▋    | 3886/6844 [15:21<11:36,  4.25it/s] 57%|█████▋    | 3887/6844 [15:21<11:35,  4.25it/s] 57%|█████▋    | 3888/6844 [15:21<11:35,  4.25it/s] 57%|█████▋    | 3889/6844 [15:21<11:35,  4.25it/s] 57%|█████▋    | 3890/6844 [15:21<11:35,  4.25it/s] 57%|█████▋    | 3891/6844 [15:22<11:34,  4.25it/s] 57%|█████▋    | 3892/6844 [15:22<11:34,  4.25it/s] 57%|█████▋    | 3893/6844 [15:22<11:34,  4.25it/s] 57%|█████▋    | 3894/6844 [15:22<11:34,  4.25it/s] 57%|█████▋    | 3895/6844 [15:23<11:33,  4.25it/s] 57%|█████▋    | 3896/6844 [15:23<11:33,  4.25it/s] 57%|█████▋    | 3897/6844 [15:23<11:32,  4.25it/s] 57%|█████▋    | 3898/6844 [15:23<11:32,  4.26it/s] 57%|█████▋    | 3899/6844 [15:24<11:32,  4.25it/s] 57%|█████▋    | 3900/6844 [15:24<11:33,  4.25it/s]                                                   {'loss': 4.4743, 'grad_norm': 0.14369778335094452, 'learning_rate': 0.0027928168696741136, 'epoch': 0.11}
- 57%|█████▋    | 3900/6844 [15:24<11:33,  4.25it/s] 57%|█████▋    | 3901/6844 [15:24<11:35,  4.23it/s] 57%|█████▋    | 3902/6844 [15:24<11:34,  4.24it/s] 57%|█████▋    | 3903/6844 [15:25<11:34,  4.24it/s] 57%|█████▋    | 3904/6844 [15:25<11:33,  4.24it/s] 57%|█████▋    | 3905/6844 [15:25<11:32,  4.24it/s] 57%|█████▋    | 3906/6844 [15:25<11:32,  4.24it/s] 57%|█████▋    | 3907/6844 [15:25<11:32,  4.24it/s] 57%|█████▋    | 3908/6844 [15:26<11:32,  4.24it/s] 57%|█████▋    | 3909/6844 [15:26<11:31,  4.25it/s] 57%|█████▋    | 3910/6844 [15:26<11:31,  4.24it/s] 57%|█████▋    | 3911/6844 [15:26<11:30,  4.25it/s] 57%|█████▋    | 3912/6844 [15:27<11:30,  4.25it/s] 57%|█████▋    | 3913/6844 [15:27<11:31,  4.24it/s] 57%|█████▋    | 3914/6844 [15:27<11:31,  4.24it/s] 57%|█████▋    | 3915/6844 [15:27<11:30,  4.24it/s] 57%|█████▋    | 3916/6844 [15:28<11:29,  4.25it/s] 57%|█████▋    | 3917/6844 [15:28<11:30,  4.24it/s] 57%|█████▋    | 3918/6844 [15:28<11:29,  4.25it/s] 57%|█████▋    | 3919/6844 [15:28<11:28,  4.25it/s] 57%|█████▋    | 3920/6844 [15:29<11:28,  4.25it/s] 57%|█████▋    | 3921/6844 [15:29<11:28,  4.25it/s] 57%|█████▋    | 3922/6844 [15:29<11:28,  4.25it/s] 57%|█████▋    | 3923/6844 [15:29<11:27,  4.25it/s] 57%|█████▋    | 3924/6844 [15:29<11:27,  4.24it/s] 57%|█████▋    | 3925/6844 [15:30<11:27,  4.25it/s]                                                   {'loss': 4.4601, 'grad_norm': 0.1490253359079361, 'learning_rate': 0.002754669967265771, 'epoch': 0.11}
- 57%|█████▋    | 3925/6844 [15:30<11:27,  4.25it/s] 57%|█████▋    | 3926/6844 [15:30<11:27,  4.24it/s] 57%|█████▋    | 3927/6844 [15:30<11:26,  4.25it/s] 57%|█████▋    | 3928/6844 [15:30<11:26,  4.25it/s] 57%|█████▋    | 3929/6844 [15:31<11:24,  4.26it/s] 57%|█████▋    | 3930/6844 [15:31<11:24,  4.26it/s] 57%|█████▋    | 3931/6844 [15:31<11:26,  4.25it/s] 57%|█████▋    | 3932/6844 [15:31<11:25,  4.25it/s] 57%|█████▋    | 3933/6844 [15:32<11:24,  4.25it/s] 57%|█████▋    | 3934/6844 [15:32<11:24,  4.25it/s] 57%|█████▋    | 3935/6844 [15:32<11:24,  4.25it/s] 58%|█████▊    | 3936/6844 [15:32<11:24,  4.25it/s] 58%|█████▊    | 3937/6844 [15:33<11:24,  4.24it/s] 58%|█████▊    | 3938/6844 [15:33<11:25,  4.24it/s] 58%|█████▊    | 3939/6844 [15:33<11:24,  4.25it/s] 58%|█████▊    | 3940/6844 [15:33<11:23,  4.25it/s] 58%|█████▊    | 3941/6844 [15:33<11:22,  4.25it/s] 58%|█████▊    | 3942/6844 [15:34<11:22,  4.25it/s] 58%|█████▊    | 3943/6844 [15:34<11:22,  4.25it/s] 58%|█████▊    | 3944/6844 [15:34<11:22,  4.25it/s] 58%|█████▊    | 3945/6844 [15:34<11:23,  4.24it/s] 58%|█████▊    | 3946/6844 [15:35<11:22,  4.25it/s] 58%|█████▊    | 3947/6844 [15:35<11:21,  4.25it/s] 58%|█████▊    | 3948/6844 [15:35<11:20,  4.25it/s] 58%|█████▊    | 3949/6844 [15:35<11:20,  4.25it/s] 58%|█████▊    | 3950/6844 [15:36<11:20,  4.25it/s]                                                   {'loss': 4.4806, 'grad_norm': 0.15186184644699097, 'learning_rate': 0.002716562958545363, 'epoch': 0.12}
- 58%|█████▊    | 3950/6844 [15:36<11:20,  4.25it/s] 58%|█████▊    | 3951/6844 [15:36<11:22,  4.24it/s] 58%|█████▊    | 3952/6844 [15:36<11:22,  4.24it/s] 58%|█████▊    | 3953/6844 [15:36<11:22,  4.24it/s] 58%|█████▊    | 3954/6844 [15:37<11:21,  4.24it/s] 58%|█████▊    | 3955/6844 [15:37<11:20,  4.25it/s] 58%|█████▊    | 3956/6844 [15:37<11:19,  4.25it/s] 58%|█████▊    | 3957/6844 [15:37<11:18,  4.26it/s] 58%|█████▊    | 3958/6844 [15:37<11:18,  4.26it/s] 58%|█████▊    | 3959/6844 [15:38<11:18,  4.25it/s] 58%|█████▊    | 3960/6844 [15:38<11:19,  4.24it/s] 58%|█████▊    | 3961/6844 [15:38<11:19,  4.24it/s] 58%|█████��    | 3962/6844 [15:38<11:18,  4.25it/s] 58%|█████▊    | 3963/6844 [15:39<11:18,  4.25it/s] 58%|█████▊    | 3964/6844 [15:39<11:17,  4.25it/s] 58%|█████▊    | 3965/6844 [15:39<11:17,  4.25it/s] 58%|█████▊    | 3966/6844 [15:39<11:17,  4.25it/s] 58%|█████▊    | 3967/6844 [15:40<11:18,  4.24it/s] 58%|█████▊    | 3968/6844 [15:40<11:18,  4.24it/s] 58%|█████▊    | 3969/6844 [15:40<11:17,  4.25it/s] 58%|█████▊    | 3970/6844 [15:40<11:17,  4.24it/s] 58%|█████▊    | 3971/6844 [15:41<11:17,  4.24it/s] 58%|█████▊    | 3972/6844 [15:41<11:17,  4.24it/s] 58%|█████▊    | 3973/6844 [15:41<11:16,  4.24it/s] 58%|█████▊    | 3974/6844 [15:41<11:16,  4.24it/s] 58%|█████▊    | 3975/6844 [15:41<11:16,  4.24it/s]{'loss': 4.4607, 'grad_norm': 0.1524294763803482, 'learning_rate': 0.0026785020401823194, 'epoch': 0.12}
-                                                    58%|█████▊    | 3975/6844 [15:41<11:16,  4.24it/s] 58%|█████▊    | 3976/6844 [15:42<11:17,  4.23it/s] 58%|█████▊    | 3977/6844 [15:42<11:17,  4.23it/s] 58%|█████▊    | 3978/6844 [15:42<11:15,  4.24it/s] 58%|█████▊    | 3979/6844 [15:42<11:15,  4.24it/s] 58%|█████▊    | 3980/6844 [15:43<11:15,  4.24it/s] 58%|█████▊    | 3981/6844 [15:43<11:15,  4.24it/s] 58%|█████▊    | 3982/6844 [15:43<11:14,  4.24it/s] 58%|█████▊    | 3983/6844 [15:43<11:14,  4.24it/s] 58%|█████▊    | 3984/6844 [15:44<11:14,  4.24it/s] 58%|█████▊    | 3985/6844 [15:44<11:15,  4.23it/s] 58%|█████▊    | 3986/6844 [15:44<11:13,  4.24it/s] 58%|█████▊    | 3987/6844 [15:44<11:13,  4.24it/s] 58%|█████▊    | 3988/6844 [15:45<11:13,  4.24it/s] 58%|█████▊    | 3989/6844 [15:45<11:47,  4.04it/s] 58%|█████▊    | 3990/6844 [15:45<12:03,  3.94it/s] 58%|█████▊    | 3991/6844 [15:45<11:57,  3.98it/s] 58%|█████▊    | 3992/6844 [15:46<11:43,  4.05it/s] 58%|█████▊    | 3993/6844 [15:46<11:33,  4.11it/s] 58%|█████▊    | 3994/6844 [15:46<11:27,  4.15it/s] 58%|█████▊    | 3995/6844 [15:46<11:22,  4.18it/s] 58%|█████▊    | 3996/6844 [15:47<11:17,  4.20it/s] 58%|█████▊    | 3997/6844 [15:47<11:14,  4.22it/s] 58%|█████▊    | 3998/6844 [15:47<11:13,  4.23it/s] 58%|█████▊    | 3999/6844 [15:47<11:10,  4.24it/s] 58%|█████▊    | 4000/6844 [15:47<11:09,  4.25it/s]                                                   {'loss': 4.4571, 'grad_norm': 0.1599961668252945, 'learning_rate': 0.0026404934013512095, 'epoch': 0.12}
- 58%|█████▊    | 4000/6844 [15:47<11:09,  4.25it/s] 58%|█████▊    | 4001/6844 [15:48<11:12,  4.23it/s] 58%|█████▊    | 4002/6844 [15:48<11:12,  4.23it/s] 58%|█████▊    | 4003/6844 [15:48<11:10,  4.23it/s] 59%|█████▊    | 4004/6844 [15:48<11:10,  4.24it/s] 59%|█████▊    | 4005/6844 [15:49<11:09,  4.24it/s] 59%|█████▊    | 4006/6844 [15:49<11:08,  4.24it/s] 59%|█████▊    | 4007/6844 [15:49<11:08,  4.25it/s] 59%|█████▊    | 4008/6844 [15:49<11:07,  4.25it/s] 59%|█████▊    | 4009/6844 [15:50<11:08,  4.24it/s] 59%|█████▊    | 4010/6844 [15:50<11:08,  4.24it/s] 59%|█████▊    | 4011/6844 [15:50<11:07,  4.24it/s] 59%|█████▊    | 4012/6844 [15:50<11:06,  4.25it/s] 59%|█████▊    | 4013/6844 [15:51<11:05,  4.25it/s] 59%|█████▊    | 4014/6844 [15:51<11:05,  4.25it/s] 59%|█████▊    | 4015/6844 [15:51<11:04,  4.25it/s] 59%|█████▊    | 4016/6844 [15:51<11:05,  4.25it/s] 59%|█████▊    | 4017/6844 [15:51<11:05,  4.25it/s] 59%|█████▊    | 4018/6844 [15:52<11:05,  4.24it/s] 59%|█████▊    | 4019/6844 [15:52<11:05,  4.25it/s] 59%|█████▊    | 4020/6844 [15:52<11:04,  4.25it/s] 59%|█████▉    | 4021/6844 [15:52<11:04,  4.25it/s] 59%|█████▉    | 4022/6844 [15:53<11:04,  4.25it/s] 59%|█████▉    | 4023/6844 [15:53<11:05,  4.24it/s] 59%|█████▉    | 4024/6844 [15:53<11:04,  4.24it/s] 59%|█████▉    | 4025/6844 [15:53<11:04,  4.24it/s]                                                   {'loss': 4.438, 'grad_norm': 0.1491042971611023, 'learning_rate': 0.002602543222725306, 'epoch': 0.12}
- 59%|█████▉    | 4025/6844 [15:53<11:04,  4.24it/s] 59%|█████▉    | 4026/6844 [15:54<11:06,  4.23it/s] 59%|█████▉    | 4027/6844 [15:54<11:06,  4.23it/s] 59%|█████▉    | 4028/6844 [15:54<11:05,  4.23it/s] 59%|█████▉    | 4029/6844 [15:54<11:04,  4.24it/s] 59%|█████▉    | 4030/6844 [15:55<11:05,  4.23it/s] 59%|█████▉    | 4031/6844 [15:55<11:04,  4.23it/s] 59%|█████▉    | 4032/6844 [15:55<11:03,  4.24it/s] 59%|█████▉    | 4033/6844 [15:55<11:02,  4.24it/s] 59%|█████▉    | 4034/6844 [15:55<11:01,  4.25it/s] 59%|█████▉    | 4035/6844 [15:56<11:01,  4.25it/s] 59%|█████▉    | 4036/6844 [15:56<11:00,  4.25it/s] 59%|█████▉    | 4037/6844 [15:56<11:01,  4.25it/s] 59%|█████▉    | 4038/6844 [15:56<11:01,  4.24it/s] 59%|█████▉    | 4039/6844 [15:57<11:00,  4.24it/s] 59%|█████▉    | 4040/6844 [15:57<11:00,  4.24it/s] 59%|█████▉    | 4041/6844 [15:57<11:00,  4.24it/s] 59%|█████▉    | 4042/6844 [15:57<11:00,  4.25it/s] 59%|█████▉    | 4043/6844 [15:58<10:59,  4.25it/s] 59%|█████▉    | 4044/6844 [15:58<10:59,  4.25it/s] 59%|█████▉    | 4045/6844 [15:58<10:58,  4.25it/s] 59%|█████▉    | 4046/6844 [15:58<10:58,  4.25it/s] 59%|█████▉    | 4047/6844 [15:59<10:58,  4.25it/s] 59%|█████▉    | 4048/6844 [15:59<10:58,  4.25it/s] 59%|█████▉    | 4049/6844 [15:59<10:58,  4.25it/s] 59%|█████▉    | 4050/6844 [15:59<10:57,  4.25it/s]                                                   {'loss': 4.4525, 'grad_norm': 0.13561341166496277, 'learning_rate': 0.002564657675471532, 'epoch': 0.12}
- 59%|█████▉    | 4050/6844 [15:59<10:57,  4.25it/s] 59%|█████▉    | 4051/6844 [15:59<11:00,  4.23it/s] 59%|█████▉    | 4052/6844 [16:00<11:00,  4.23it/s] 59%|█████▉    | 4053/6844 [16:00<11:00,  4.23it/s] 59%|█████▉    | 4054/6844 [16:00<10:59,  4.23it/s] 59%|█████▉    | 4055/6844 [16:00<10:59,  4.23it/s] 59%|█████▉    | 4056/6844 [16:01<10:58,  4.23it/s] 59%|█████▉    | 4057/6844 [16:01<10:56,  4.25it/s] 59%|█████▉    | 4058/6844 [16:01<10:56,  4.24it/s] 59%|█████▉    | 4059/6844 [16:01<10:56,  4.24it/s] 59%|█████▉    | 4060/6844 [16:02<10:55,  4.24it/s] 59%|█████▉    | 4061/6844 [16:02<10:55,  4.24it/s] 59%|█████▉    | 4062/6844 [16:02<10:55,  4.24it/s] 59%|█████▉    | 4063/6844 [16:02<10:55,  4.24it/s] 59%|█████▉    | 4064/6844 [16:03<10:54,  4.24it/s] 59%|█████▉    | 4065/6844 [16:03<10:54,  4.25it/s] 59%|█████▉    | 4066/6844 [16:03<10:53,  4.25it/s] 59%|█████▉    | 4067/6844 [16:03<10:52,  4.26it/s] 59%|█████▉    | 4068/6844 [16:03<10:53,  4.25it/s] 59%|█████▉    | 4069/6844 [16:04<10:54,  4.24it/s] 59%|█████▉    | 4070/6844 [16:04<10:54,  4.24it/s] 59%|█████▉    | 4071/6844 [16:04<10:53,  4.24it/s] 59%|█████▉    | 4072/6844 [16:04<10:52,  4.25it/s] 60%|█████▉    | 4073/6844 [16:05<10:52,  4.25it/s] 60%|█████▉    | 4074/6844 [16:05<10:51,  4.25it/s] 60%|█████▉    | 4075/6844 [16:05<10:52,  4.24it/s]                                                   {'loss': 4.4445, 'grad_norm': 0.13754965364933014, 'learning_rate': 0.002526842920246953, 'epoch': 0.12}
- 60%|█████▉    | 4075/6844 [16:05<10:52,  4.24it/s] 60%|█████▉    | 4076/6844 [16:05<10:54,  4.23it/s] 60%|█████▉    | 4077/6844 [16:06<10:53,  4.23it/s] 60%|█████▉    | 4078/6844 [16:06<10:53,  4.24it/s] 60%|█████▉    | 4079/6844 [16:06<10:52,  4.24it/s] 60%|█████▉    | 4080/6844 [16:06<10:51,  4.24it/s] 60%|█████▉    | 4081/6844 [16:07<10:50,  4.24it/s] 60%|█████▉    | 4082/6844 [16:07<10:49,  4.25it/s] 60%|█████▉    | 4083/6844 [16:07<10:50,  4.24it/s] 60%|█████▉    | 4084/6844 [16:07<10:50,  4.24it/s] 60%|█████▉    | 4085/6844 [16:08<10:50,  4.24it/s] 60%|█████▉    | 4086/6844 [16:08<10:50,  4.24it/s] 60%|█████▉    | 4087/6844 [16:08<10:50,  4.24it/s] 60%|█████▉    | 4088/6844 [16:08<10:49,  4.24it/s] 60%|█████▉    | 4089/6844 [16:08<10:48,  4.25it/s] 60%|█████▉    | 4090/6844 [16:09<10:48,  4.24it/s] 60%|█████▉    | 4091/6844 [16:09<10:47,  4.25it/s] 60%|█████▉    | 4092/6844 [16:09<10:47,  4.25it/s] 60%|█████▉    | 4093/6844 [16:09<10:47,  4.25it/s] 60%|█████▉    | 4094/6844 [16:10<10:47,  4.25it/s] 60%|█████▉    | 4095/6844 [16:10<10:47,  4.25it/s] 60%|█████▉    | 4096/6844 [16:10<10:47,  4.25it/s] 60%|█████▉    | 4097/6844 [16:10<10:47,  4.25it/s] 60%|█████▉    | 4098/6844 [16:11<10:47,  4.24it/s] 60%|█████▉    | 4099/6844 [16:11<10:46,  4.25it/s] 60%|█████▉    | 4100/6844 [16:11<10:46,  4.25it/s]{'loss': 4.4528, 'grad_norm': 0.14593930542469025, 'learning_rate': 0.002489105106196974, 'epoch': 0.12}
-                                                    60%|█████▉    | 4100/6844 [16:11<10:46,  4.25it/s] 60%|█████▉    | 4101/6844 [16:11<10:47,  4.24it/s] 60%|█████▉    | 4102/6844 [16:12<10:47,  4.24it/s] 60%|█████▉    | 4103/6844 [16:12<10:45,  4.24it/s] 60%|█████▉    | 4104/6844 [16:12<10:45,  4.25it/s] 60%|█████▉    | 4105/6844 [16:12<10:44,  4.25it/s] 60%|█████▉    | 4106/6844 [16:12<10:43,  4.25it/s] 60%|██████    | 4107/6844 [16:13<10:43,  4.25it/s] 60%|██████    | 4108/6844 [16:13<10:43,  4.25it/s] 60%|██████    | 4109/6844 [16:13<10:43,  4.25it/s] 60%|██████    | 4110/6844 [16:13<10:43,  4.25it/s] 60%|██████    | 4111/6844 [16:14<10:43,  4.24it/s] 60%|██████    | 4112/6844 [16:14<10:44,  4.24it/s] 60%|██████    | 4113/6844 [16:14<10:42,  4.25it/s] 60%|██████    | 4114/6844 [16:14<10:42,  4.25it/s] 60%|██████    | 4115/6844 [16:15<10:43,  4.24it/s] 60%|██████    | 4116/6844 [16:15<10:45,  4.23it/s] 60%|██████    | 4117/6844 [16:15<11:11,  4.06it/s] 60%|██████    | 4118/6844 [16:15<11:02,  4.11it/s] 60%|██████    | 4119/6844 [16:16<10:55,  4.16it/s] 60%|██████    | 4120/6844 [16:16<10:50,  4.19it/s] 60%|██████    | 4121/6844 [16:16<10:47,  4.21it/s] 60%|██████    | 4122/6844 [16:16<10:45,  4.22it/s] 60%|██████    | 4123/6844 [16:16<10:44,  4.22it/s] 60%|██████    | 4124/6844 [16:17<10:42,  4.23it/s] 60%|██████    | 4125/6844 [16:17<10:42,  4.23it/s]                                                   {'loss': 4.457, 'grad_norm': 0.15195332467556, 'learning_rate': 0.0024514503699554235, 'epoch': 0.12}
- 60%|██████    | 4125/6844 [16:17<10:42,  4.23it/s] 60%|██████    | 4126/6844 [16:17<10:43,  4.23it/s] 60%|██████    | 4127/6844 [16:17<10:40,  4.24it/s] 60%|██████    | 4128/6844 [16:18<10:40,  4.24it/s] 60%|██████    | 4129/6844 [16:18<10:40,  4.24it/s] 60%|██████    | 4130/6844 [16:18<10:39,  4.24it/s] 60%|██████    | 4131/6844 [16:18<10:39,  4.24it/s] 60%|██████    | 4132/6844 [16:19<10:39,  4.24it/s] 60%|██████    | 4133/6844 [16:19<10:38,  4.25it/s] 60%|██████    | 4134/6844 [16:19<10:38,  4.25it/s] 60%|██████    | 4135/6844 [16:19<10:37,  4.25it/s] 60%|██████    | 4136/6844 [16:20<10:37,  4.25it/s] 60%|██████    | 4137/6844 [16:20<10:36,  4.25it/s] 60%|██████    | 4138/6844 [16:20<10:35,  4.26it/s] 60%|██████    | 4139/6844 [16:20<10:36,  4.25it/s] 60%|██████    | 4140/6844 [16:20<10:35,  4.25it/s] 61%|██████    | 4141/6844 [16:21<10:35,  4.25it/s] 61%|██████    | 4142/6844 [16:21<10:34,  4.26it/s] 61%|██████    | 4143/6844 [16:21<10:33,  4.26it/s] 61%|██████    | 4144/6844 [16:21<10:34,  4.26it/s] 61%|██████    | 4145/6844 [16:22<10:34,  4.25it/s] 61%|██████    | 4146/6844 [16:22<10:35,  4.24it/s] 61%|██████    | 4147/6844 [16:22<10:35,  4.25it/s] 61%|██████    | 4148/6844 [16:22<10:34,  4.25it/s] 61%|██████    | 4149/6844 [16:23<10:34,  4.25it/s] 61%|██████    | 4150/6844 [16:23<10:34,  4.24it/s]{'loss': 4.4505, 'grad_norm': 0.1596253663301468, 'learning_rate': 0.0024138848346466468, 'epoch': 0.12}                                                   
- 61%|██████    | 4150/6844 [16:23<10:34,  4.24it/s] 61%|██████    | 4151/6844 [16:23<10:34,  4.24it/s] 61%|██████    | 4152/6844 [16:23<10:34,  4.25it/s] 61%|██████    | 4153/6844 [16:24<10:34,  4.24it/s] 61%|██████    | 4154/6844 [16:24<10:34,  4.24it/s] 61%|██████    | 4155/6844 [16:24<10:33,  4.25it/s] 61%|██████    | 4156/6844 [16:24<10:33,  4.24it/s] 61%|██████    | 4157/6844 [16:24<10:33,  4.24it/s] 61%|██████    | 4158/6844 [16:25<10:32,  4.24it/s] 61%|██████    | 4159/6844 [16:25<10:32,  4.24it/s] 61%|██████    | 4160/6844 [16:25<10:32,  4.24it/s] 61%|██████    | 4161/6844 [16:25<10:32,  4.24it/s] 61%|██████    | 4162/6844 [16:26<10:31,  4.24it/s] 61%|██████    | 4163/6844 [16:26<10:32,  4.24it/s] 61%|██████    | 4164/6844 [16:26<10:32,  4.24it/s] 61%|██████    | 4165/6844 [16:26<10:31,  4.24it/s] 61%|██████    | 4166/6844 [16:27<10:30,  4.25it/s] 61%|██████    | 4167/6844 [16:27<10:29,  4.25it/s] 61%|██████    | 4168/6844 [16:27<10:29,  4.25it/s] 61%|██████    | 4169/6844 [16:27<10:28,  4.26it/s] 61%|██████    | 4170/6844 [16:28<10:28,  4.26it/s] 61%|██████    | 4171/6844 [16:28<10:28,  4.25it/s] 61%|██████    | 4172/6844 [16:28<10:27,  4.25it/s] 61%|██████    | 4173/6844 [16:28<10:27,  4.26it/s] 61%|██████    | 4174/6844 [16:28<10:27,  4.26it/s] 61%|██████    | 4175/6844 [16:29<10:28,  4.25it/s]                                                   {'loss': 4.4355, 'grad_norm': 0.15811724960803986, 'learning_rate': 0.0023764146088898234, 'epoch': 0.12}
- 61%|██████    | 4175/6844 [16:29<10:28,  4.25it/s] 61%|██████    | 4176/6844 [16:29<10:30,  4.23it/s] 61%|██████    | 4177/6844 [16:29<10:29,  4.24it/s] 61%|██████    | 4178/6844 [16:29<10:29,  4.24it/s] 61%|██████    | 4179/6844 [16:30<10:27,  4.25it/s] 61%|██████    | 4180/6844 [16:30<10:26,  4.25it/s] 61%|██████    | 4181/6844 [16:30<10:27,  4.25it/s] 61%|██████    | 4182/6844 [16:30<10:26,  4.25it/s] 61%|██████    | 4183/6844 [16:31<10:26,  4.25it/s] 61%|██████    | 4184/6844 [16:31<10:25,  4.25it/s] 61%|██████    | 4185/6844 [16:31<10:25,  4.25it/s] 61%|██████    | 4186/6844 [16:31<10:24,  4.26it/s] 61%|██████    | 4187/6844 [16:32<10:23,  4.26it/s] 61%|██████    | 4188/6844 [16:32<10:23,  4.26it/s] 61%|██████    | 4189/6844 [16:32<10:24,  4.25it/s] 61%|██████    | 4190/6844 [16:32<10:24,  4.25it/s] 61%|██████    | 4191/6844 [16:32<10:24,  4.25it/s] 61%|██████▏   | 4192/6844 [16:33<10:25,  4.24it/s] 61%|██████▏   | 4193/6844 [16:33<10:23,  4.25it/s] 61%|██████▏   | 4194/6844 [16:33<10:22,  4.26it/s] 61%|██████▏   | 4195/6844 [16:33<10:22,  4.25it/s] 61%|██████▏   | 4196/6844 [16:34<10:22,  4.25it/s] 61%|██████▏   | 4197/6844 [16:34<10:22,  4.25it/s] 61%|██████▏   | 4198/6844 [16:34<10:21,  4.26it/s] 61%|██████▏   | 4199/6844 [16:34<10:23,  4.24it/s] 61%|██████▏   | 4200/6844 [16:35<10:23,  4.24it/s]                                                   {'loss': 4.4421, 'grad_norm': 0.15752047300338745, 'learning_rate': 0.0023390457858056208, 'epoch': 0.12}
- 61%|██████▏   | 4200/6844 [16:35<10:23,  4.24it/s] 61%|██████▏   | 4201/6844 [16:35<10:24,  4.23it/s] 61%|██████▏   | 4202/6844 [16:35<10:24,  4.23it/s] 61%|██████▏   | 4203/6844 [16:35<10:24,  4.23it/s] 61%|██████▏   | 4204/6844 [16:36<10:23,  4.24it/s] 61%|██████▏   | 4205/6844 [16:36<10:21,  4.25it/s] 61%|██████▏   | 4206/6844 [16:36<10:21,  4.25it/s] 61%|██████▏   | 4207/6844 [16:36<10:20,  4.25it/s] 61%|██████▏   | 4208/6844 [16:36<10:19,  4.25it/s] 61%|██████▏   | 4209/6844 [16:37<10:18,  4.26it/s] 62%|██████▏   | 4210/6844 [16:37<10:18,  4.26it/s] 62%|██████▏   | 4211/6844 [16:37<10:18,  4.26it/s] 62%|██████▏   | 4212/6844 [16:37<10:17,  4.26it/s] 62%|██████▏   | 4213/6844 [16:38<10:17,  4.26it/s] 62%|██████▏   | 4214/6844 [16:38<10:17,  4.26it/s] 62%|██████▏   | 4215/6844 [16:38<10:16,  4.26it/s] 62%|██████▏   | 4216/6844 [16:38<10:17,  4.26it/s] 62%|██████▏   | 4217/6844 [16:39<10:17,  4.26it/s] 62%|██████▏   | 4218/6844 [16:39<10:16,  4.26it/s] 62%|██████▏   | 4219/6844 [16:39<10:17,  4.25it/s] 62%|██████▏   | 4220/6844 [16:39<10:17,  4.25it/s] 62%|██████▏   | 4221/6844 [16:40<10:17,  4.25it/s] 62%|██████▏   | 4222/6844 [16:40<10:18,  4.24it/s] 62%|██████▏   | 4223/6844 [16:40<10:17,  4.24it/s] 62%|██████▏   | 4224/6844 [16:40<10:18,  4.24it/s] 62%|██████▏   | 4225/6844 [16:40<10:17,  4.24it/s]{'loss': 4.4283, 'grad_norm': 0.14137694239616394, 'learning_rate': 0.002301784442025384, 'epoch': 0.12}
-                                                    62%|██████▏   | 4225/6844 [16:40<10:17,  4.24it/s] 62%|██████▏   | 4226/6844 [16:41<10:18,  4.23it/s] 62%|██████▏   | 4227/6844 [16:41<10:16,  4.24it/s] 62%|██████▏   | 4228/6844 [16:41<10:16,  4.25it/s] 62%|██████▏   | 4229/6844 [16:41<10:15,  4.25it/s] 62%|██████▏   | 4230/6844 [16:42<10:15,  4.25it/s] 62%|██████▏   | 4231/6844 [16:42<10:15,  4.25it/s] 62%|██████▏   | 4232/6844 [16:42<10:15,  4.25it/s] 62%|██████▏   | 4233/6844 [16:42<10:14,  4.25it/s] 62%|██████▏   | 4234/6844 [16:43<10:13,  4.25it/s] 62%|██████▏   | 4235/6844 [16:43<10:12,  4.26it/s] 62%|██████▏   | 4236/6844 [16:43<10:12,  4.26it/s] 62%|██████▏   | 4237/6844 [16:43<10:12,  4.26it/s] 62%|██████▏   | 4238/6844 [16:44<10:11,  4.26it/s] 62%|██████▏   | 4239/6844 [16:44<10:10,  4.26it/s] 62%|██████▏   | 4240/6844 [16:44<10:10,  4.26it/s] 62%|██████▏   | 4241/6844 [16:44<10:11,  4.26it/s] 62%|██████▏   | 4242/6844 [16:44<10:11,  4.26it/s] 62%|██████▏   | 4243/6844 [16:45<10:35,  4.09it/s] 62%|██████▏   | 4244/6844 [16:45<10:31,  4.12it/s] 62%|██████▏   | 4245/6844 [16:45<10:25,  4.15it/s] 62%|██████▏   | 4246/6844 [16:45<10:21,  4.18it/s] 62%|██████▏   | 4247/6844 [16:46<10:17,  4.20it/s] 62%|██████▏   | 4248/6844 [16:46<10:15,  4.22it/s] 62%|██████▏   | 4249/6844 [16:46<10:13,  4.23it/s] 62%|██████▏   | 4250/6844 [16:46<10:11,  4.24it/s]{'loss': 4.439, 'grad_norm': 0.17253872752189636, 'learning_rate': 0.0022646366367029976, 'epoch': 0.12}
-                                                    62%|██████▏   | 4250/6844 [16:46<10:11,  4.24it/s] 62%|██████▏   | 4251/6844 [16:47<10:12,  4.23it/s] 62%|██████▏   | 4252/6844 [16:47<10:11,  4.24it/s] 62%|██████▏   | 4253/6844 [16:47<10:10,  4.24it/s] 62%|██████▏   | 4254/6844 [16:47<10:09,  4.25it/s] 62%|██████▏   | 4255/6844 [16:48<10:08,  4.25it/s] 62%|██████▏   | 4256/6844 [16:48<10:08,  4.25it/s] 62%|██████▏   | 4257/6844 [16:48<10:07,  4.26it/s] 62%|██████▏   | 4258/6844 [16:48<10:07,  4.25it/s] 62%|██████▏   | 4259/6844 [16:49<10:07,  4.26it/s] 62%|██████▏   | 4260/6844 [16:49<10:08,  4.24it/s] 62%|██████▏   | 4261/6844 [16:49<10:08,  4.24it/s] 62%|██████▏   | 4262/6844 [16:49<10:08,  4.24it/s] 62%|██████▏   | 4263/6844 [16:49<10:08,  4.24it/s] 62%|██████▏   | 4264/6844 [16:50<10:08,  4.24it/s] 62%|██████▏   | 4265/6844 [16:50<10:07,  4.25it/s] 62%|██████▏   | 4266/6844 [16:50<10:06,  4.25it/s] 62%|██████▏   | 4267/6844 [16:50<10:06,  4.25it/s] 62%|██████▏   | 4268/6844 [16:51<10:05,  4.26it/s] 62%|██████▏   | 4269/6844 [16:51<10:05,  4.25it/s] 62%|██████▏   | 4270/6844 [16:51<10:05,  4.25it/s] 62%|██████▏   | 4271/6844 [16:51<10:06,  4.24it/s] 62%|██████▏   | 4272/6844 [16:52<10:05,  4.24it/s] 62%|██████▏   | 4273/6844 [16:52<10:05,  4.25it/s] 62%|██████▏   | 4274/6844 [16:52<10:04,  4.25it/s] 62%|██████▏   | 4275/6844 [16:52<10:03,  4.26it/s]                                                   {'loss': 4.4419, 'grad_norm': 0.14646054804325104, 'learning_rate': 0.0022276084105295932, 'epoch': 0.12}
- 62%|██████▏   | 4275/6844 [16:52<10:03,  4.26it/s] 62%|██████▏   | 4276/6844 [16:53<10:04,  4.25it/s] 62%|██████▏   | 4277/6844 [16:53<10:04,  4.25it/s] 63%|██████▎   | 4278/6844 [16:53<10:03,  4.25it/s] 63%|██████▎   | 4279/6844 [16:53<10:02,  4.26it/s] 63%|██████▎   | 4280/6844 [16:53<10:02,  4.25it/s] 63%|██████▎   | 4281/6844 [16:54<10:02,  4.26it/s] 63%|██████▎   | 4282/6844 [16:54<10:01,  4.26it/s] 63%|██████▎   | 4283/6844 [16:54<10:01,  4.26it/s] 63%|██████▎   | 4284/6844 [16:54<10:02,  4.25it/s] 63%|██████▎   | 4285/6844 [16:55<10:02,  4.25it/s] 63%|██████▎   | 4286/6844 [16:55<10:01,  4.25it/s] 63%|██████▎   | 4287/6844 [16:55<10:01,  4.25it/s] 63%|██████▎   | 4288/6844 [16:55<09:59,  4.26it/s] 63%|██████▎   | 4289/6844 [16:56<09:59,  4.26it/s] 63%|██████▎   | 4290/6844 [16:56<09:58,  4.26it/s] 63%|██████▎   | 4291/6844 [16:56<09:59,  4.26it/s] 63%|██████▎   | 4292/6844 [16:56<09:58,  4.27it/s] 63%|██████▎   | 4293/6844 [16:57<09:58,  4.26it/s] 63%|██████▎   | 4294/6844 [16:57<09:57,  4.27it/s] 63%|██████▎   | 4295/6844 [16:57<09:57,  4.27it/s] 63%|██████▎   | 4296/6844 [16:57<09:57,  4.26it/s] 63%|██████▎   | 4297/6844 [16:57<09:57,  4.26it/s] 63%|██████▎   | 4298/6844 [16:58<09:57,  4.26it/s] 63%|██████▎   | 4299/6844 [16:58<09:56,  4.27it/s] 63%|██████▎   | 4300/6844 [16:58<09:56,  4.27it/s]{'loss': 4.4378, 'grad_norm': 0.1774228811264038, 'learning_rate': 0.0021907057847512573, 'epoch': 0.13}                                                   
- 63%|██████▎   | 4300/6844 [16:58<09:56,  4.27it/s] 63%|██████▎   | 4301/6844 [16:58<09:57,  4.26it/s] 63%|██████▎   | 4302/6844 [16:59<09:56,  4.26it/s] 63%|██████▎   | 4303/6844 [16:59<09:56,  4.26it/s] 63%|██████▎   | 4304/6844 [16:59<09:56,  4.26it/s] 63%|██████▎   | 4305/6844 [16:59<09:56,  4.26it/s] 63%|██████▎   | 4306/6844 [17:00<09:56,  4.26it/s] 63%|██████▎   | 4307/6844 [17:00<09:55,  4.26it/s] 63%|██████▎   | 4308/6844 [17:00<09:54,  4.27it/s] 63%|██████▎   | 4309/6844 [17:00<09:54,  4.26it/s] 63%|██████▎   | 4310/6844 [17:01<09:54,  4.26it/s] 63%|██████▎   | 4311/6844 [17:01<09:54,  4.26it/s] 63%|██████▎   | 4312/6844 [17:01<09:54,  4.26it/s] 63%|██████▎   | 4313/6844 [17:01<09:54,  4.26it/s] 63%|██████▎   | 4314/6844 [17:01<09:54,  4.25it/s] 63%|██████▎   | 4315/6844 [17:02<09:54,  4.26it/s] 63%|██████▎   | 4316/6844 [17:02<09:53,  4.26it/s] 63%|██████▎   | 4317/6844 [17:02<09:52,  4.26it/s] 63%|██████▎   | 4318/6844 [17:02<09:52,  4.26it/s] 63%|██████▎   | 4319/6844 [17:03<09:51,  4.27it/s] 63%|██████▎   | 4320/6844 [17:03<09:51,  4.27it/s] 63%|██████▎   | 4321/6844 [17:03<09:51,  4.27it/s] 63%|██████▎   | 4322/6844 [17:03<09:51,  4.26it/s] 63%|██████▎   | 4323/6844 [17:04<09:52,  4.25it/s] 63%|██████▎   | 4324/6844 [17:04<09:52,  4.25it/s] 63%|██████▎   | 4325/6844 [17:04<09:52,  4.25it/s]                                                   {'loss': 4.4386, 'grad_norm': 0.14611439406871796, 'learning_rate': 0.0021539347601899042, 'epoch': 0.13}
- 63%|██████▎   | 4325/6844 [17:04<09:52,  4.25it/s] 63%|██████▎   | 4326/6844 [17:04<09:54,  4.24it/s] 63%|██████▎   | 4327/6844 [17:05<09:53,  4.24it/s] 63%|██████▎   | 4328/6844 [17:05<09:52,  4.25it/s] 63%|██████▎   | 4329/6844 [17:05<09:51,  4.25it/s] 63%|██████▎   | 4330/6844 [17:05<09:51,  4.25it/s] 63%|██████▎   | 4331/6844 [17:05<09:51,  4.25it/s] 63%|██████▎   | 4332/6844 [17:06<09:50,  4.25it/s] 63%|██████▎   | 4333/6844 [17:06<09:50,  4.26it/s] 63%|██████▎   | 4334/6844 [17:06<09:49,  4.26it/s] 63%|██████▎   | 4335/6844 [17:06<09:48,  4.26it/s] 63%|██████▎   | 4336/6844 [17:07<09:49,  4.26it/s] 63%|██████▎   | 4337/6844 [17:07<09:49,  4.25it/s] 63%|██████▎   | 4338/6844 [17:07<09:49,  4.25it/s] 63%|██████▎   | 4339/6844 [17:07<09:48,  4.26it/s] 63%|██████▎   | 4340/6844 [17:08<09:47,  4.26it/s] 63%|██████▎   | 4341/6844 [17:08<09:47,  4.26it/s] 63%|██████▎   | 4342/6844 [17:08<09:46,  4.26it/s] 63%|██████▎   | 4343/6844 [17:08<09:46,  4.26it/s] 63%|██████▎   | 4344/6844 [17:08<09:46,  4.26it/s] 63%|██████▎   | 4345/6844 [17:09<09:46,  4.26it/s] 64%|██████▎   | 4346/6844 [17:09<09:45,  4.27it/s] 64%|██████▎   | 4347/6844 [17:09<09:46,  4.26it/s] 64%|██████▎   | 4348/6844 [17:09<09:46,  4.26it/s] 64%|██████▎   | 4349/6844 [17:10<09:45,  4.26it/s] 64%|██████▎   | 4350/6844 [17:10<09:45,  4.26it/s]{'loss': 4.4258, 'grad_norm': 0.14143286645412445, 'learning_rate': 0.0021173013162674704, 'epoch': 0.13}                                                   
- 64%|██████▎   | 4350/6844 [17:10<09:45,  4.26it/s] 64%|██████▎   | 4351/6844 [17:10<09:48,  4.24it/s] 64%|██████▎   | 4352/6844 [17:10<09:46,  4.25it/s] 64%|██████▎   | 4353/6844 [17:11<09:46,  4.25it/s] 64%|██████▎   | 4354/6844 [17:11<09:45,  4.25it/s] 64%|██████▎   | 4355/6844 [17:11<09:45,  4.25it/s] 64%|██████▎   | 4356/6844 [17:11<09:45,  4.25it/s] 64%|██████▎   | 4357/6844 [17:12<09:45,  4.25it/s] 64%|██████▎   | 4358/6844 [17:12<09:45,  4.24it/s] 64%|██████▎   | 4359/6844 [17:12<09:45,  4.25it/s] 64%|██████▎   | 4360/6844 [17:12<09:44,  4.25it/s] 64%|██████▎   | 4361/6844 [17:12<09:44,  4.25it/s] 64%|██████▎   | 4362/6844 [17:13<09:43,  4.25it/s] 64%|██████▎   | 4363/6844 [17:13<09:42,  4.26it/s] 64%|██████▍   | 4364/6844 [17:13<09:42,  4.26it/s] 64%|██████▍   | 4365/6844 [17:13<09:42,  4.25it/s] 64%|██████▍   | 4366/6844 [17:14<09:43,  4.25it/s] 64%|██████▍   | 4367/6844 [17:14<09:42,  4.25it/s] 64%|██████▍   | 4368/6844 [17:14<09:41,  4.25it/s] 64%|██████▍   | 4369/6844 [17:14<09:41,  4.25it/s] 64%|██████▍   | 4370/6844 [17:15<09:42,  4.25it/s] 64%|██████▍   | 4371/6844 [17:15<10:02,  4.10it/s] 64%|██████▍   | 4372/6844 [17:15<10:12,  4.03it/s] 64%|██████▍   | 4373/6844 [17:15<10:03,  4.10it/s] 64%|██████▍   | 4374/6844 [17:16<09:55,  4.14it/s] 64%|██████▍   | 4375/6844 [17:16<09:51,  4.18it/s]                                                   {'loss': 4.4299, 'grad_norm': 0.15533316135406494, 'learning_rate': 0.0020808114100335814, 'epoch': 0.13}
- 64%|██████▍   | 4375/6844 [17:16<09:51,  4.18it/s] 64%|██████▍   | 4376/6844 [17:16<09:49,  4.19it/s] 64%|██████▍   | 4377/6844 [17:16<09:46,  4.20it/s] 64%|██████▍   | 4378/6844 [17:17<09:43,  4.22it/s] 64%|██████▍   | 4379/6844 [17:17<09:43,  4.23it/s] 64%|██████▍   | 4380/6844 [17:17<09:41,  4.24it/s] 64%|██████▍   | 4381/6844 [17:17<09:39,  4.25it/s] 64%|██████▍   | 4382/6844 [17:17<09:40,  4.24it/s] 64%|██████▍   | 4383/6844 [17:18<09:39,  4.25it/s] 64%|██████▍   | 4384/6844 [17:18<09:38,  4.25it/s] 64%|██████▍   | 4385/6844 [17:18<09:37,  4.26it/s] 64%|██████▍   | 4386/6844 [17:18<09:37,  4.26it/s] 64%|██████▍   | 4387/6844 [17:19<09:36,  4.26it/s] 64%|██████▍   | 4388/6844 [17:19<09:37,  4.26it/s] 64%|██████▍   | 4389/6844 [17:19<09:38,  4.25it/s] 64%|██████▍   | 4390/6844 [17:19<09:37,  4.25it/s] 64%|██████▍   | 4391/6844 [17:20<09:36,  4.25it/s] 64%|██████▍   | 4392/6844 [17:20<09:37,  4.25it/s] 64%|██████▍   | 4393/6844 [17:20<09:36,  4.25it/s] 64%|██████▍   | 4394/6844 [17:20<09:36,  4.25it/s] 64%|██████▍   | 4395/6844 [17:21<09:36,  4.25it/s] 64%|██████▍   | 4396/6844 [17:21<09:36,  4.25it/s] 64%|██████▍   | 4397/6844 [17:21<09:36,  4.25it/s] 64%|██████▍   | 4398/6844 [17:21<09:36,  4.24it/s] 64%|██████▍   | 4399/6844 [17:21<09:35,  4.25it/s] 64%|██████▍   | 4400/6844 [17:22<09:34,  4.25it/s]{'loss': 4.4246, 'grad_norm': 0.15589192509651184, 'learning_rate': 0.002044470975196864, 'epoch': 0.13}                                                   
- 64%|██████▍   | 4400/6844 [17:22<09:34,  4.25it/s] 64%|██████▍   | 4401/6844 [17:22<09:36,  4.24it/s] 64%|██████▍   | 4402/6844 [17:22<09:34,  4.25it/s] 64%|██████▍   | 4403/6844 [17:22<09:33,  4.25it/s] 64%|██████▍   | 4404/6844 [17:23<09:33,  4.26it/s] 64%|██████▍   | 4405/6844 [17:23<09:32,  4.26it/s] 64%|██████▍   | 4406/6844 [17:23<09:31,  4.26it/s] 64%|██████▍   | 4407/6844 [17:23<09:31,  4.27it/s] 64%|██████▍   | 4408/6844 [17:24<09:30,  4.27it/s] 64%|██████▍   | 4409/6844 [17:24<09:30,  4.27it/s] 64%|██████▍   | 4410/6844 [17:24<09:31,  4.26it/s] 64%|██████▍   | 4411/6844 [17:24<09:32,  4.25it/s] 64%|██████▍   | 4412/6844 [17:25<09:31,  4.26it/s] 64%|██████▍   | 4413/6844 [17:25<09:31,  4.26it/s] 64%|██████▍   | 4414/6844 [17:25<09:30,  4.26it/s] 65%|██████▍   | 4415/6844 [17:25<09:30,  4.26it/s] 65%|██████▍   | 4416/6844 [17:25<09:30,  4.26it/s] 65%|██████▍   | 4417/6844 [17:26<09:29,  4.26it/s] 65%|██████▍   | 4418/6844 [17:26<09:29,  4.26it/s] 65%|██████▍   | 4419/6844 [17:26<09:28,  4.26it/s] 65%|██████▍   | 4420/6844 [17:26<09:28,  4.26it/s] 65%|██████▍   | 4421/6844 [17:27<09:29,  4.26it/s] 65%|██████▍   | 4422/6844 [17:27<09:29,  4.25it/s] 65%|██████▍   | 4423/6844 [17:27<09:29,  4.25it/s] 65%|██████▍   | 4424/6844 [17:27<09:28,  4.25it/s] 65%|██████▍   | 4425/6844 [17:28<09:28,  4.26it/s]{'loss': 4.4303, 'grad_norm': 0.15469129383563995, 'learning_rate': 0.0020082859211600556, 'epoch': 0.13}
-                                                    65%|██████▍   | 4425/6844 [17:28<09:28,  4.26it/s] 65%|██████▍   | 4426/6844 [17:28<09:29,  4.25it/s] 65%|██████▍   | 4427/6844 [17:28<09:28,  4.25it/s] 65%|██████▍   | 4428/6844 [17:28<09:27,  4.26it/s] 65%|██████▍   | 4429/6844 [17:29<09:27,  4.26it/s] 65%|██████▍   | 4430/6844 [17:29<09:27,  4.25it/s] 65%|██████▍   | 4431/6844 [17:29<09:26,  4.26it/s] 65%|██████▍   | 4432/6844 [17:29<09:28,  4.25it/s] 65%|██████▍   | 4433/6844 [17:29<09:28,  4.24it/s] 65%|██████▍   | 4434/6844 [17:30<09:28,  4.24it/s] 65%|██████▍   | 4435/6844 [17:30<09:27,  4.25it/s] 65%|██████▍   | 4436/6844 [17:30<09:27,  4.25it/s] 65%|██████▍   | 4437/6844 [17:30<09:26,  4.25it/s] 65%|██████▍   | 4438/6844 [17:31<09:26,  4.25it/s] 65%|██████▍   | 4439/6844 [17:31<09:25,  4.25it/s] 65%|██████▍   | 4440/6844 [17:31<09:24,  4.26it/s] 65%|██████▍   | 4441/6844 [17:31<09:23,  4.27it/s] 65%|██████▍   | 4442/6844 [17:32<09:22,  4.27it/s] 65%|██████▍   | 4443/6844 [17:32<09:23,  4.26it/s] 65%|██████▍   | 4444/6844 [17:32<09:23,  4.26it/s] 65%|██████▍   | 4445/6844 [17:32<09:23,  4.26it/s] 65%|██████▍   | 4446/6844 [17:33<09:22,  4.26it/s] 65%|██████▍   | 4447/6844 [17:33<09:22,  4.26it/s] 65%|██████▍   | 4448/6844 [17:33<09:21,  4.27it/s] 65%|██████▌   | 4449/6844 [17:33<09:21,  4.27it/s] 65%|██████▌   | 4450/6844 [17:33<09:21,  4.27it/s]                                                   {'loss': 4.43, 'grad_norm': 0.15695200860500336, 'learning_rate': 0.0019722621320590597, 'epoch': 0.13}
- 65%|██████▌   | 4450/6844 [17:33<09:21,  4.27it/s] 65%|██████▌   | 4451/6844 [17:34<09:23,  4.25it/s] 65%|██████▌   | 4452/6844 [17:34<09:22,  4.25it/s] 65%|██████▌   | 4453/6844 [17:34<09:22,  4.25it/s] 65%|██████▌   | 4454/6844 [17:34<09:22,  4.25it/s] 65%|██████▌   | 4455/6844 [17:35<09:22,  4.25it/s] 65%|██████▌   | 4456/6844 [17:35<09:21,  4.25it/s] 65%|██████▌   | 4457/6844 [17:35<09:21,  4.25it/s] 65%|██████▌   | 4458/6844 [17:35<09:21,  4.25it/s] 65%|██████▌   | 4459/6844 [17:36<09:20,  4.26it/s] 65%|██████▌   | 4460/6844 [17:36<09:19,  4.26it/s] 65%|██████▌   | 4461/6844 [17:36<09:19,  4.26it/s] 65%|██████▌   | 4462/6844 [17:36<09:18,  4.26it/s] 65%|██████▌   | 4463/6844 [17:37<09:18,  4.26it/s] 65%|██████▌   | 4464/6844 [17:37<09:18,  4.26it/s] 65%|██████▌   | 4465/6844 [17:37<09:18,  4.26it/s] 65%|██████▌   | 4466/6844 [17:37<09:17,  4.26it/s] 65%|██████▌   | 4467/6844 [17:37<09:17,  4.26it/s] 65%|██████▌   | 4468/6844 [17:38<09:17,  4.26it/s] 65%|██████▌   | 4469/6844 [17:38<09:16,  4.27it/s] 65%|██████▌   | 4470/6844 [17:38<09:16,  4.27it/s] 65%|██████▌   | 4471/6844 [17:38<09:16,  4.26it/s] 65%|██████▌   | 4472/6844 [17:39<09:15,  4.27it/s] 65%|██████▌   | 4473/6844 [17:39<09:15,  4.27it/s] 65%|██████▌   | 4474/6844 [17:39<09:15,  4.27it/s] 65%|██████▌   | 4475/6844 [17:39<09:16,  4.26it/s]                                                   {'loss': 4.4214, 'grad_norm': 0.15078583359718323, 'learning_rate': 0.0019364054658061115, 'epoch': 0.13}
- 65%|██████▌   | 4475/6844 [17:39<09:16,  4.26it/s] 65%|██████▌   | 4476/6844 [17:40<09:17,  4.24it/s] 65%|██████▌   | 4477/6844 [17:40<09:16,  4.26it/s] 65%|██████▌   | 4478/6844 [17:40<09:16,  4.25it/s] 65%|██████▌   | 4479/6844 [17:40<09:16,  4.25it/s] 65%|██████▌   | 4480/6844 [17:41<09:16,  4.25it/s] 65%|██████▌   | 4481/6844 [17:41<09:16,  4.25it/s] 65%|██████▌   | 4482/6844 [17:41<09:14,  4.26it/s] 66%|██████▌   | 4483/6844 [17:41<09:14,  4.26it/s] 66%|██████▌   | 4484/6844 [17:41<09:14,  4.26it/s] 66%|██████▌   | 4485/6844 [17:42<09:13,  4.27it/s] 66%|██████▌   | 4486/6844 [17:42<09:13,  4.26it/s] 66%|██████▌   | 4487/6844 [17:42<09:12,  4.26it/s] 66%|██████▌   | 4488/6844 [17:42<09:13,  4.26it/s] 66%|██████▌   | 4489/6844 [17:43<09:12,  4.26it/s] 66%|██████▌   | 4490/6844 [17:43<09:11,  4.27it/s] 66%|██████▌   | 4491/6844 [17:43<09:12,  4.26it/s] 66%|██████▌   | 4492/6844 [17:43<09:11,  4.26it/s] 66%|██████▌   | 4493/6844 [17:44<09:11,  4.26it/s] 66%|██████▌   | 4494/6844 [17:44<09:11,  4.26it/s] 66%|██████▌   | 4495/6844 [17:44<09:10,  4.26it/s] 66%|██████▌   | 4496/6844 [17:44<09:12,  4.25it/s] 66%|██████▌   | 4497/6844 [17:45<09:12,  4.25it/s] 66%|██████▌   | 4498/6844 [17:45<09:35,  4.08it/s] 66%|██████▌   | 4499/6844 [17:45<09:30,  4.11it/s] 66%|██████▌   | 4500/6844 [17:45<09:24,  4.15it/s]                                                   {'loss': 4.4262, 'grad_norm': 0.1518913358449936, 'learning_rate': 0.0019007217531372134, 'epoch': 0.13}
- 66%|██████▌   | 4500/6844 [17:45<09:24,  4.15it/s] 66%|██████▌   | 4501/6844 [17:45<09:21,  4.17it/s] 66%|██████▌   | 4502/6844 [17:46<09:18,  4.20it/s] 66%|██████▌   | 4503/6844 [17:46<09:15,  4.22it/s] 66%|██████▌   | 4504/6844 [17:46<09:13,  4.23it/s] 66%|██████▌   | 4505/6844 [17:46<09:11,  4.24it/s] 66%|██████▌   | 4506/6844 [17:47<09:10,  4.25it/s] 66%|██████▌   | 4507/6844 [17:47<09:09,  4.25it/s] 66%|██████▌   | 4508/6844 [17:47<09:09,  4.25it/s] 66%|██████▌   | 4509/6844 [17:47<09:09,  4.25it/s] 66%|██████▌   | 4510/6844 [17:48<09:09,  4.25it/s] 66%|██████▌   | 4511/6844 [17:48<09:08,  4.26it/s] 66%|██████▌   | 4512/6844 [17:48<09:06,  4.27it/s] 66%|██████▌   | 4513/6844 [17:48<09:06,  4.26it/s] 66%|██████▌   | 4514/6844 [17:49<09:06,  4.26it/s] 66%|█��████▌   | 4515/6844 [17:49<09:06,  4.26it/s] 66%|██████▌   | 4516/6844 [17:49<09:05,  4.26it/s] 66%|██████▌   | 4517/6844 [17:49<09:07,  4.25it/s] 66%|██████▌   | 4518/6844 [17:49<09:07,  4.25it/s] 66%|██████▌   | 4519/6844 [17:50<09:06,  4.25it/s] 66%|██████▌   | 4520/6844 [17:50<09:06,  4.25it/s] 66%|██████▌   | 4521/6844 [17:50<09:06,  4.25it/s] 66%|██████▌   | 4522/6844 [17:50<09:04,  4.26it/s] 66%|██████▌   | 4523/6844 [17:51<09:04,  4.26it/s] 66%|██████▌   | 4524/6844 [17:51<09:04,  4.26it/s] 66%|██████▌   | 4525/6844 [17:51<09:04,  4.26it/s]{'loss': 4.4234, 'grad_norm': 0.15849624574184418, 'learning_rate': 0.001865216796663978, 'epoch': 0.13}                                                   
- 66%|██████▌   | 4525/6844 [17:51<09:04,  4.26it/s] 66%|██████▌   | 4526/6844 [17:51<09:05,  4.25it/s] 66%|██████▌   | 4527/6844 [17:52<09:04,  4.25it/s] 66%|██████▌   | 4528/6844 [17:52<09:04,  4.25it/s] 66%|██████▌   | 4529/6844 [17:52<09:03,  4.26it/s] 66%|██████▌   | 4530/6844 [17:52<09:02,  4.26it/s] 66%|██████▌   | 4531/6844 [17:53<09:03,  4.26it/s] 66%|██████▌   | 4532/6844 [17:53<09:02,  4.26it/s] 66%|██████▌   | 4533/6844 [17:53<09:01,  4.26it/s] 66%|██████▌   | 4534/6844 [17:53<09:01,  4.27it/s] 66%|██████▋   | 4535/6844 [17:53<09:01,  4.27it/s] 66%|██████▋   | 4536/6844 [17:54<09:01,  4.27it/s] 66%|██████▋   | 4537/6844 [17:54<09:00,  4.27it/s] 66%|██████▋   | 4538/6844 [17:54<09:02,  4.25it/s] 66%|██████▋   | 4539/6844 [17:54<09:01,  4.25it/s] 66%|██████▋   | 4540/6844 [17:55<09:01,  4.25it/s] 66%|██████▋   | 4541/6844 [17:55<09:00,  4.26it/s] 66%|██████▋   | 4542/6844 [17:55<09:01,  4.25it/s] 66%|██████▋   | 4543/6844 [17:55<09:00,  4.26it/s] 66%|██████▋   | 4544/6844 [17:56<09:00,  4.26it/s] 66%|██████▋   | 4545/6844 [17:56<09:00,  4.25it/s] 66%|██████▋   | 4546/6844 [17:56<09:00,  4.25it/s] 66%|██████▋   | 4547/6844 [17:56<08:59,  4.26it/s] 66%|██████▋   | 4548/6844 [17:57<08:59,  4.25it/s] 66%|██████▋   | 4549/6844 [17:57<08:59,  4.25it/s] 66%|██████▋   | 4550/6844 [17:57<08:58,  4.26it/s]{'loss': 4.4188, 'grad_norm': 0.14397647976875305, 'learning_rate': 0.001829896369930061, 'epoch': 0.13}                                                   
- 66%|██████▋   | 4550/6844 [17:57<08:58,  4.26it/s] 66%|██████▋   | 4551/6844 [17:57<09:00,  4.24it/s] 67%|██████▋   | 4552/6844 [17:57<08:59,  4.25it/s] 67%|██████▋   | 4553/6844 [17:58<08:58,  4.26it/s] 67%|██████▋   | 4554/6844 [17:58<08:57,  4.26it/s] 67%|██████▋   | 4555/6844 [17:58<08:57,  4.26it/s] 67%|██████▋   | 4556/6844 [17:58<08:57,  4.26it/s] 67%|██████▋   | 4557/6844 [17:59<08:57,  4.26it/s] 67%|██████▋   | 4558/6844 [17:59<08:56,  4.26it/s] 67%|██████▋   | 4559/6844 [17:59<08:58,  4.24it/s] 67%|██████▋   | 4560/6844 [17:59<08:57,  4.25it/s] 67%|██████▋   | 4561/6844 [18:00<08:56,  4.26it/s] 67%|██████▋   | 4562/6844 [18:00<08:56,  4.25it/s] 67%|██████▋   | 4563/6844 [18:00<08:56,  4.25it/s] 67%|██████▋   | 4564/6844 [18:00<08:55,  4.25it/s] 67%|██████▋   | 4565/6844 [18:01<08:55,  4.26it/s] 67%|██████▋   | 4566/6844 [18:01<08:55,  4.25it/s] 67%|██████▋   | 4567/6844 [18:01<08:54,  4.26it/s] 67%|██████▋   | 4568/6844 [18:01<08:54,  4.26it/s] 67%|██████▋   | 4569/6844 [18:01<08:54,  4.26it/s] 67%|██████▋   | 4570/6844 [18:02<08:54,  4.25it/s] 67%|██████▋   | 4571/6844 [18:02<08:54,  4.26it/s] 67%|██████▋   | 4572/6844 [18:02<08:53,  4.26it/s] 67%|██████▋   | 4573/6844 [18:02<08:53,  4.26it/s] 67%|██████▋   | 4574/6844 [18:03<08:52,  4.26it/s] 67%|██████▋   | 4575/6844 [18:03<08:52,  4.26it/s]                                                   {'loss': 4.4029, 'grad_norm': 0.14534203708171844, 'learning_rate': 0.0017947662164723055, 'epoch': 0.13}
- 67%|██████▋   | 4575/6844 [18:03<08:52,  4.26it/s] 67%|██████▋   | 4576/6844 [18:03<08:53,  4.25it/s] 67%|██████▋   | 4577/6844 [18:03<08:53,  4.25it/s] 67%|██████▋   | 4578/6844 [18:04<08:52,  4.26it/s] 67%|██████▋   | 4579/6844 [18:04<08:51,  4.26it/s] 67%|██████▋   | 4580/6844 [18:04<08:51,  4.26it/s] 67%|██████▋   | 4581/6844 [18:04<08:51,  4.26it/s] 67%|██████▋   | 4582/6844 [18:05<08:50,  4.27it/s] 67%|██████▋   | 4583/6844 [18:05<08:50,  4.27it/s] 67%|██████▋   | 4584/6844 [18:05<08:51,  4.25it/s] 67%|██████▋   | 4585/6844 [18:05<08:51,  4.25it/s] 67%|██████▋   | 4586/6844 [18:05<08:50,  4.26it/s] 67%|██████▋   | 4587/6844 [18:06<08:49,  4.26it/s] 67%|██████▋   | 4588/6844 [18:06<08:49,  4.26it/s] 67%|██████▋   | 4589/6844 [18:06<08:49,  4.26it/s] 67%|██████▋   | 4590/6844 [18:06<08:48,  4.26it/s] 67%|██████▋   | 4591/6844 [18:07<08:49,  4.26it/s] 67%|██████▋   | 4592/6844 [18:07<08:49,  4.26it/s] 67%|██████▋   | 4593/6844 [18:07<08:48,  4.26it/s] 67%|██████▋   | 4594/6844 [18:07<08:48,  4.26it/s] 67%|██████▋   | 4595/6844 [18:08<08:48,  4.26it/s] 67%|██████▋   | 4596/6844 [18:08<08:47,  4.26it/s] 67%|██████▋   | 4597/6844 [18:08<08:48,  4.25it/s] 67%|██████▋   | 4598/6844 [18:08<08:48,  4.25it/s] 67%|██████▋   | 4599/6844 [18:09<08:48,  4.25it/s] 67%|██████▋   | 4600/6844 [18:09<08:47,  4.25it/s]                                                   {'loss': 4.4178, 'grad_norm': 0.1497606784105301, 'learning_rate': 0.001759832048886775, 'epoch': 0.13}
- 67%|██████▋   | 4600/6844 [18:09<08:47,  4.25it/s] 67%|██████▋   | 4601/6844 [18:09<08:49,  4.24it/s] 67%|██████▋   | 4602/6844 [18:09<08:49,  4.24it/s] 67%|██████▋   | 4603/6844 [18:09<08:48,  4.24it/s] 67%|██████▋   | 4604/6844 [18:10<08:47,  4.24it/s] 67%|██████▋   | 4605/6844 [18:10<08:47,  4.25it/s] 67%|██████▋   | 4606/6844 [18:10<08:46,  4.25it/s] 67%|██████▋   | 4607/6844 [18:10<08:46,  4.25it/s] 67%|██████▋   | 4608/6844 [18:11<08:46,  4.25it/s] 67%|██████▋   | 4609/6844 [18:11<08:46,  4.25it/s] 67%|██████▋   | 4610/6844 [18:11<08:45,  4.25it/s] 67%|██████▋   | 4611/6844 [18:11<08:45,  4.25it/s] 67%|██████▋   | 4612/6844 [18:12<08:44,  4.25it/s] 67%|██████▋   | 4613/6844 [18:12<08:45,  4.25it/s] 67%|██████▋   | 4614/6844 [18:12<08:44,  4.25it/s] 67%|██████▋   | 4615/6844 [18:12<08:44,  4.25it/s] 67%|██████▋   | 4616/6844 [18:13<08:44,  4.25it/s] 67%|██████▋   | 4617/6844 [18:13<08:43,  4.25it/s] 67%|██████▋   | 4618/6844 [18:13<08:42,  4.26it/s] 67%|██████▋   | 4619/6844 [18:13<08:42,  4.26it/s] 68%|██████▊   | 4620/6844 [18:13<08:42,  4.25it/s] 68%|██████▊   | 4621/6844 [18:14<08:42,  4.25it/s] 68%|██████▊   | 4622/6844 [18:14<08:42,  4.25it/s] 68%|██████▊   | 4623/6844 [18:14<08:44,  4.24it/s] 68%|██████▊   | 4624/6844 [18:14<08:42,  4.25it/s] 68%|██████▊   | 4625/6844 [18:15<08:41,  4.25it/s]{'loss': 4.3996, 'grad_norm': 0.14357097446918488, 'learning_rate': 0.0017250995478998146, 'epoch': 0.14}
-                                                    68%|██████▊   | 4625/6844 [18:15<08:41,  4.25it/s] 68%|██████▊   | 4626/6844 [18:15<08:45,  4.22it/s] 68%|██████▊   | 4627/6844 [18:15<08:46,  4.21it/s] 68%|██████▊   | 4628/6844 [18:15<08:44,  4.22it/s] 68%|██████▊   | 4629/6844 [18:16<08:42,  4.24it/s] 68%|██████▊   | 4630/6844 [18:16<08:42,  4.24it/s] 68%|██████▊   | 4631/6844 [18:16<08:41,  4.24it/s] 68%|██████▊   | 4632/6844 [18:16<08:41,  4.24it/s] 68%|██████▊   | 4633/6844 [18:17<08:40,  4.25it/s] 68%|██████▊   | 4634/6844 [18:17<08:41,  4.24it/s] 68%|██████▊   | 4635/6844 [18:17<08:40,  4.24it/s] 68%|██████▊   | 4636/6844 [18:17<08:40,  4.24it/s] 68%|██████▊   | 4637/6844 [18:17<08:39,  4.25it/s] 68%|██████▊   | 4638/6844 [18:18<08:38,  4.25it/s] 68%|██████▊   | 4639/6844 [18:18<08:38,  4.25it/s] 68%|██████▊   | 4640/6844 [18:18<08:37,  4.26it/s] 68%|██████▊   | 4641/6844 [18:18<08:36,  4.26it/s] 68%|██████▊   | 4642/6844 [18:19<08:37,  4.26it/s] 68%|██████▊   | 4643/6844 [18:19<08:37,  4.25it/s] 68%|██████▊   | 4644/6844 [18:19<08:37,  4.25it/s] 68%|██████▊   | 4645/6844 [18:19<08:37,  4.25it/s] 68%|██████▊   | 4646/6844 [18:20<08:37,  4.25it/s] 68%|██████▊   | 4647/6844 [18:20<08:37,  4.25it/s] 68%|██████▊   | 4648/6844 [18:20<08:36,  4.25it/s] 68%|██████▊   | 4649/6844 [18:20<08:36,  4.25it/s] 68%|██████▊   | 4650/6844 [18:21<08:35,  4.25it/s]                                                   {'loss': 4.3975, 'grad_norm': 0.14830727875232697, 'learning_rate': 0.0016905743614442918, 'epoch': 0.14}
- 68%|██████▊   | 4650/6844 [18:21<08:35,  4.25it/s] 68%|██████▊   | 4651/6844 [18:21<08:37,  4.24it/s] 68%|██████▊   | 4652/6844 [18:21<08:36,  4.25it/s] 68%|██████▊   | 4653/6844 [18:21<08:35,  4.25it/s] 68%|██████▊   | 4654/6844 [18:21<08:34,  4.25it/s] 68%|██████▊   | 4655/6844 [18:22<08:34,  4.25it/s] 68%|██████▊   | 4656/6844 [18:22<08:34,  4.25it/s] 68%|██████▊   | 4657/6844 [18:22<08:33,  4.26it/s] 68%|██████▊   | 4658/6844 [18:22<08:33,  4.26it/s] 68%|██████▊   | 4659/6844 [18:23<08:33,  4.26it/s] 68%|██████▊   | 4660/6844 [18:23<08:32,  4.26it/s] 68%|██████▊   | 4661/6844 [18:23<08:31,  4.26it/s] 68%|██████▊   | 4662/6844 [18:23<08:32,  4.26it/s] 68%|██████▊   | 4663/6844 [18:24<08:31,  4.26it/s] 68%|██████▊   | 4664/6844 [18:24<08:32,  4.26it/s] 68%|██████▊   | 4665/6844 [18:24<08:32,  4.25it/s] 68%|██████▊   | 4666/6844 [18:24<08:32,  4.25it/s] 68%|██████▊   | 4667/6844 [18:25<08:31,  4.26it/s] 68%|██████▊   | 4668/6844 [18:25<08:30,  4.26it/s] 68%|██████▊   | 4669/6844 [18:25<08:31,  4.25it/s] 68%|██████▊   | 4670/6844 [18:25<08:31,  4.25it/s] 68%|██████▊   | 4671/6844 [18:25<08:30,  4.25it/s] 68%|██████▊   | 4672/6844 [18:26<08:30,  4.26it/s] 68%|██████▊   | 4673/6844 [18:26<08:30,  4.26it/s] 68%|██████▊   | 4674/6844 [18:26<08:29,  4.26it/s] 68%|██████▊   | 4675/6844 [18:26<08:30,  4.25it/s]                                                   {'loss': 4.3897, 'grad_norm': 0.1431867927312851, 'learning_rate': 0.001656262103741175, 'epoch': 0.14}
- 68%|██████▊   | 4675/6844 [18:26<08:30,  4.25it/s] 68%|██████▊   | 4676/6844 [18:27<08:31,  4.24it/s] 68%|██████▊   | 4677/6844 [18:27<08:30,  4.24it/s] 68%|██████▊   | 4678/6844 [18:27<08:29,  4.25it/s] 68%|██████▊   | 4679/6844 [18:27<08:29,  4.25it/s] 68%|██████▊   | 4680/6844 [18:28<08:28,  4.25it/s] 68%|██████▊   | 4681/6844 [18:28<08:28,  4.26it/s] 68%|██████▊   | 4682/6844 [18:28<08:27,  4.26it/s] 68%|██████▊   | 4683/6844 [18:28<08:27,  4.26it/s] 68%|██████▊   | 4684/6844 [18:29<08:27,  4.25it/s] 68%|██████▊   | 4685/6844 [18:29<08:27,  4.25it/s] 68%|██████▊   | 4686/6844 [18:29<08:27,  4.26it/s] 68%|██████▊   | 4687/6844 [18:29<08:28,  4.24it/s] 68%|██████▊   | 4688/6844 [18:29<08:28,  4.24it/s] 69%|██████▊   | 4689/6844 [18:30<08:27,  4.24it/s] 69%|██████▊   | 4690/6844 [18:30<08:27,  4.25it/s] 69%|██████▊   | 4691/6844 [18:30<08:27,  4.24it/s] 69%|██████▊   | 4692/6844 [18:30<08:26,  4.25it/s] 69%|██████▊   | 4693/6844 [18:31<08:25,  4.25it/s] 69%|██████▊   | 4694/6844 [18:31<08:25,  4.25it/s] 69%|██████▊   | 4695/6844 [18:31<08:24,  4.26it/s] 69%|██████▊   | 4696/6844 [18:31<08:23,  4.26it/s] 69%|██████▊   | 4697/6844 [18:32<08:24,  4.26it/s] 69%|██████▊   | 4698/6844 [18:32<08:23,  4.26it/s] 69%|██████▊   | 4699/6844 [18:32<08:23,  4.26it/s] 69%|██████▊   | 4700/6844 [18:32<08:22,  4.27it/s]                                                   {'loss': 4.4026, 'grad_norm': 0.15563122928142548, 'learning_rate': 0.0016221683543865958, 'epoch': 0.14}
- 69%|██████▊   | 4700/6844 [18:32<08:22,  4.27it/s] 69%|██████▊   | 4701/6844 [18:33<08:24,  4.25it/s] 69%|██████▊   | 4702/6844 [18:33<08:24,  4.25it/s] 69%|██████▊   | 4703/6844 [18:33<08:23,  4.25it/s] 69%|██████▊   | 4704/6844 [18:33<08:22,  4.26it/s] 69%|██████▊   | 4705/6844 [18:33<08:23,  4.25it/s] 69%|██████▉   | 4706/6844 [18:34<08:22,  4.26it/s] 69%|██████▉   | 4707/6844 [18:34<08:21,  4.26it/s] 69%|██████▉   | 4708/6844 [18:34<08:21,  4.26it/s] 69%|██████▉   | 4709/6844 [18:34<08:21,  4.26it/s] 69%|██████▉   | 4710/6844 [18:35<08:21,  4.26it/s] 69%|██████▉   | 4711/6844 [18:35<08:21,  4.26it/s] 69%|██████▉   | 4712/6844 [18:35<08:20,  4.26it/s] 69%|██████▉   | 4713/6844 [18:35<08:20,  4.26it/s] 69%|██████▉   | 4714/6844 [18:36<08:20,  4.26it/s] 69%|██████▉   | 4715/6844 [18:36<08:19,  4.26it/s] 69%|██████▉   | 4716/6844 [18:36<08:19,  4.26it/s] 69%|██████▉   | 4717/6844 [18:36<08:18,  4.27it/s] 69%|██████▉   | 4718/6844 [18:36<08:18,  4.27it/s] 69%|██████▉   | 4719/6844 [18:37<08:18,  4.26it/s] 69%|██████▉   | 4720/6844 [18:37<08:19,  4.25it/s] 69%|██████▉   | 4721/6844 [18:37<08:19,  4.25it/s] 69%|██████▉   | 4722/6844 [18:37<08:18,  4.26it/s] 69%|██████▉   | 4723/6844 [18:38<08:18,  4.26it/s] 69%|██████▉   | 4724/6844 [18:38<08:17,  4.26it/s] 69%|██████▉   | 4725/6844 [18:38<08:17,  4.26it/s]                                                   {'loss': 4.4118, 'grad_norm': 0.14765237271785736, 'learning_rate': 0.0015882986574445321, 'epoch': 0.14}
- 69%|██████▉   | 4725/6844 [18:38<08:17,  4.26it/s] 69%|██████▉   | 4726/6844 [18:38<08:19,  4.24it/s] 69%|██████▉   | 4727/6844 [18:39<08:18,  4.25it/s] 69%|██████▉   | 4728/6844 [18:39<08:17,  4.25it/s] 69%|██████▉   | 4729/6844 [18:39<08:17,  4.25it/s] 69%|██████▉   | 4730/6844 [18:39<08:17,  4.25it/s] 69%|██████▉   | 4731/6844 [18:40<08:16,  4.25it/s] 69%|██████▉   | 4732/6844 [18:40<08:16,  4.25it/s] 69%|██████▉   | 4733/6844 [18:40<08:16,  4.25it/s] 69%|██████▉   | 4734/6844 [18:40<08:16,  4.25it/s] 69%|██████▉   | 4735/6844 [18:40<08:15,  4.25it/s] 69%|██████▉   | 4736/6844 [18:41<08:15,  4.26it/s] 69%|██████▉   | 4737/6844 [18:41<08:15,  4.26it/s] 69%|██████▉   | 4738/6844 [18:41<08:14,  4.26it/s] 69%|██████▉   | 4739/6844 [18:41<08:14,  4.26it/s] 69%|██████▉   | 4740/6844 [18:42<08:14,  4.26it/s] 69%|██████▉   | 4741/6844 [18:42<08:14,  4.25it/s] 69%|██████▉   | 4742/6844 [18:42<08:13,  4.26it/s] 69%|██████▉   | 4743/6844 [18:42<08:13,  4.26it/s] 69%|██████▉   | 4744/6844 [18:43<08:11,  4.27it/s] 69%|██████▉   | 4745/6844 [18:43<08:11,  4.27it/s] 69%|██████▉   | 4746/6844 [18:43<08:12,  4.26it/s] 69%|██████▉   | 4747/6844 [18:43<08:12,  4.26it/s] 69%|██████▉   | 4748/6844 [18:44<08:12,  4.25it/s] 69%|██████▉   | 4749/6844 [18:44<08:12,  4.26it/s] 69%|██████▉   | 4750/6844 [18:44<08:11,  4.26it/s]{'loss': 4.4103, 'grad_norm': 0.1455754190683365, 'learning_rate': 0.0015546585205452777, 'epoch': 0.14}                                                   
- 69%|██████▉   | 4750/6844 [18:44<08:11,  4.26it/s] 69%|██████▉   | 4751/6844 [18:44<08:14,  4.23it/s] 69%|██████▉   | 4752/6844 [18:44<08:12,  4.24it/s] 69%|██████▉   | 4753/6844 [18:45<08:30,  4.10it/s] 69%|██████▉   | 4754/6844 [18:45<08:45,  3.98it/s] 69%|██████▉   | 4755/6844 [18:45<08:35,  4.05it/s] 69%|██████▉   | 4756/6844 [18:45<08:28,  4.11it/s] 70%|██████▉   | 4757/6844 [18:46<08:22,  4.15it/s] 70%|██████▉   | 4758/6844 [18:46<08:18,  4.18it/s] 70%|██████▉   | 4759/6844 [18:46<08:15,  4.21it/s] 70%|██████▉   | 4760/6844 [18:46<08:13,  4.23it/s] 70%|██████▉   | 4761/6844 [18:47<08:12,  4.23it/s] 70%|██████▉   | 4762/6844 [18:47<08:11,  4.23it/s] 70%|██████▉   | 4763/6844 [18:47<08:10,  4.24it/s] 70%|██████▉   | 4764/6844 [18:47<08:09,  4.25it/s] 70%|██████▉   | 4765/6844 [18:48<08:08,  4.26it/s] 70%|██████▉   | 4766/6844 [18:48<08:07,  4.26it/s] 70%|██████▉   | 4767/6844 [18:48<08:07,  4.26it/s] 70%|██████▉   | 4768/6844 [18:48<08:07,  4.26it/s] 70%|██████▉   | 4769/6844 [18:49<08:06,  4.26it/s] 70%|██████▉   | 4770/6844 [18:49<08:07,  4.26it/s] 70%|██████▉   | 4771/6844 [18:49<08:07,  4.26it/s] 70%|██████▉   | 4772/6844 [18:49<08:08,  4.24it/s] 70%|██████▉   | 4773/6844 [18:49<08:07,  4.25it/s] 70%|██████▉   | 4774/6844 [18:50<08:07,  4.25it/s] 70%|██████▉   | 4775/6844 [18:50<08:07,  4.25it/s]{'loss': 4.408, 'grad_norm': 0.15238183736801147, 'learning_rate': 0.0015212534139898328, 'epoch': 0.14}                                                   
- 70%|██████▉   | 4775/6844 [18:50<08:07,  4.25it/s] 70%|██████▉   | 4776/6844 [18:50<08:08,  4.24it/s] 70%|██████▉   | 4777/6844 [18:50<08:06,  4.24it/s] 70%|██████▉   | 4778/6844 [18:51<08:05,  4.25it/s] 70%|██████▉   | 4779/6844 [18:51<08:06,  4.25it/s] 70%|██████▉   | 4780/6844 [18:51<08:05,  4.25it/s] 70%|██████▉   | 4781/6844 [18:51<08:04,  4.26it/s] 70%|██████▉   | 4782/6844 [18:52<08:04,  4.26it/s] 70%|██████▉   | 4783/6844 [18:52<08:04,  4.25it/s] 70%|██████▉   | 4784/6844 [18:52<08:03,  4.26it/s] 70%|██████▉   | 4785/6844 [18:52<08:03,  4.26it/s] 70%|██████▉   | 4786/6844 [18:53<08:03,  4.26it/s] 70%|██████▉   | 4787/6844 [18:53<08:03,  4.26it/s] 70%|██████▉   | 4788/6844 [18:53<08:02,  4.26it/s] 70%|██████▉   | 4789/6844 [18:53<08:01,  4.26it/s] 70%|██████▉   | 4790/6844 [18:53<08:01,  4.27it/s] 70%|███████   | 4791/6844 [18:54<08:01,  4.26it/s] 70%|███████   | 4792/6844 [18:54<08:01,  4.26it/s] 70%|███████   | 4793/6844 [18:54<08:02,  4.25it/s] 70%|███████   | 4794/6844 [18:54<08:02,  4.25it/s] 70%|███████   | 4795/6844 [18:55<08:02,  4.25it/s] 70%|███████   | 4796/6844 [18:55<08:01,  4.25it/s] 70%|███████   | 4797/6844 [18:55<08:01,  4.25it/s] 70%|███████   | 4798/6844 [18:55<08:01,  4.25it/s] 70%|███████   | 4799/6844 [18:56<08:00,  4.25it/s] 70%|███████   | 4800/6844 [18:56<08:00,  4.26it/s]                                                   {'loss': 4.3934, 'grad_norm': 0.14832277595996857, 'learning_rate': 0.0014880887698603667, 'epoch': 0.14}
- 70%|███████   | 4800/6844 [18:56<08:00,  4.26it/s] 70%|███████   | 4801/6844 [18:56<08:01,  4.25it/s] 70%|███████   | 4802/6844 [18:56<08:00,  4.25it/s] 70%|███████   | 4803/6844 [18:57<07:59,  4.25it/s] 70%|███████   | 4804/6844 [18:57<07:59,  4.25it/s] 70%|███████   | 4805/6844 [18:57<07:59,  4.25it/s] 70%|███████   | 4806/6844 [18:57<07:58,  4.25it/s] 70%|███████   | 4807/6844 [18:57<07:58,  4.26it/s] 70%|███████   | 4808/6844 [18:58<07:58,  4.26it/s] 70%|███████   | 4809/6844 [18:58<07:57,  4.26it/s] 70%|███████   | 4810/6844 [18:58<07:56,  4.26it/s] 70%|███████   | 4811/6844 [18:58<07:57,  4.26it/s] 70%|███████   | 4812/6844 [18:59<07:56,  4.26it/s] 70%|███████   | 4813/6844 [18:59<07:56,  4.26it/s] 70%|███████   | 4814/6844 [18:59<07:56,  4.26it/s] 70%|███████   | 4815/6844 [18:59<07:57,  4.25it/s] 70%|███████   | 4816/6844 [19:00<07:56,  4.26it/s] 70%|███████   | 4817/6844 [19:00<07:56,  4.26it/s] 70%|███████   | 4818/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4819/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4820/6844 [19:01<07:55,  4.26it/s] 70%|███████   | 4821/6844 [19:01<07:55,  4.26it/s] 70%|███████   | 4822/6844 [19:01<07:54,  4.26it/s] 70%|███████   | 4823/6844 [19:01<07:54,  4.26it/s] 70%|███████   | 4824/6844 [19:01<07:53,  4.26it/s] 70%|███████   | 4825/6844 [19:02<07:54,  4.26it/s]{'loss': 4.392, 'grad_norm': 0.13802286982536316, 'learning_rate': 0.0014551699811368936, 'epoch': 0.14}                                                   
- 70%|███████   | 4825/6844 [19:02<07:54,  4.26it/s] 71%|███████   | 4826/6844 [19:02<07:55,  4.24it/s] 71%|███████   | 4827/6844 [19:02<07:54,  4.25it/s] 71%|███████   | 4828/6844 [19:02<07:53,  4.25it/s] 71%|███████   | 4829/6844 [19:03<07:53,  4.25it/s] 71%|███████   | 4830/6844 [19:03<07:52,  4.26it/s] 71%|███████   | 4831/6844 [19:03<07:52,  4.26it/s] 71%|███████   | 4832/6844 [19:03<07:53,  4.25it/s] 71%|███████   | 4833/6844 [19:04<07:52,  4.25it/s] 71%|███████   | 4834/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4835/6844 [19:04<07:51,  4.27it/s] 71%|███████   | 4836/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4837/6844 [19:05<07:50,  4.26it/s] 71%|███████   | 4838/6844 [19:05<07:51,  4.26it/s] 71%|███████   | 4839/6844 [19:05<07:51,  4.26it/s] 71%|███████   | 4840/6844 [19:05<07:50,  4.26it/s] 71%|███████   | 4841/6844 [19:05<07:50,  4.25it/s] 71%|███████   | 4842/6844 [19:06<07:50,  4.26it/s] 71%|███████   | 4843/6844 [19:06<07:49,  4.26it/s] 71%|███████   | 4844/6844 [19:06<07:49,  4.26it/s] 71%|███████   | 4845/6844 [19:06<07:48,  4.26it/s] 71%|███████   | 4846/6844 [19:07<07:48,  4.26it/s] 71%|███████   | 4847/6844 [19:07<07:48,  4.26it/s] 71%|███████   | 4848/6844 [19:07<07:48,  4.26it/s] 71%|███████   | 4849/6844 [19:07<07:48,  4.26it/s] 71%|███████   | 4850/6844 [19:08<07:48,  4.25it/s]                                                   {'loss': 4.3994, 'grad_norm': 0.15220467746257782, 'learning_rate': 0.0014225024008203075, 'epoch': 0.14}
- 71%|███████   | 4850/6844 [19:08<07:48,  4.25it/s] 71%|███████   | 4851/6844 [19:08<07:50,  4.24it/s] 71%|███████   | 4852/6844 [19:08<07:49,  4.25it/s] 71%|███████   | 4853/6844 [19:08<07:48,  4.25it/s] 71%|███████   | 4854/6844 [19:09<07:48,  4.25it/s] 71%|███���███   | 4855/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4856/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4857/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4858/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4859/6844 [19:10<07:47,  4.25it/s] 71%|███████   | 4860/6844 [19:10<07:47,  4.25it/s] 71%|███████   | 4861/6844 [19:10<07:46,  4.25it/s] 71%|███████   | 4862/6844 [19:10<07:46,  4.25it/s] 71%|███████   | 4863/6844 [19:11<07:46,  4.25it/s] 71%|███████   | 4864/6844 [19:11<07:45,  4.25it/s] 71%|███████   | 4865/6844 [19:11<07:45,  4.26it/s] 71%|███████   | 4866/6844 [19:11<07:44,  4.26it/s] 71%|███████   | 4867/6844 [19:12<07:44,  4.25it/s] 71%|███████   | 4868/6844 [19:12<07:44,  4.26it/s] 71%|███████   | 4869/6844 [19:12<07:43,  4.26it/s] 71%|███████   | 4870/6844 [19:12<07:42,  4.26it/s] 71%|███████   | 4871/6844 [19:13<07:43,  4.26it/s] 71%|███████   | 4872/6844 [19:13<07:42,  4.26it/s] 71%|███████   | 4873/6844 [19:13<07:43,  4.26it/s] 71%|███████   | 4874/6844 [19:13<07:42,  4.26it/s] 71%|███████   | 4875/6844 [19:13<07:42,  4.26it/s]                                                   {'loss': 4.3949, 'grad_norm': 0.13687334954738617, 'learning_rate': 0.0013900913410619176, 'epoch': 0.14}
- 71%|███████   | 4875/6844 [19:13<07:42,  4.26it/s] 71%|███████   | 4876/6844 [19:14<07:43,  4.24it/s] 71%|███████▏  | 4877/6844 [19:14<07:43,  4.24it/s] 71%|███████▏  | 4878/6844 [19:14<07:42,  4.25it/s] 71%|███████▏  | 4879/6844 [19:14<07:41,  4.25it/s] 71%|███████▏  | 4880/6844 [19:15<07:42,  4.25it/s] 71%|███████▏  | 4881/6844 [19:15<07:58,  4.10it/s] 71%|███████▏  | 4882/6844 [19:15<08:03,  4.06it/s] 71%|███████▏  | 4883/6844 [19:15<07:56,  4.12it/s] 71%|███████▏  | 4884/6844 [19:16<07:51,  4.16it/s] 71%|███████▏  | 4885/6844 [19:16<07:47,  4.19it/s] 71%|███████▏  | 4886/6844 [19:16<07:45,  4.21it/s] 71%|███████▏  | 4887/6844 [19:16<07:43,  4.22it/s] 71%|███████▏  | 4888/6844 [19:17<07:43,  4.22it/s] 71%|███████▏  | 4889/6844 [19:17<07:42,  4.23it/s] 71%|███████▏  | 4890/6844 [19:17<07:41,  4.24it/s] 71%|███████▏  | 4891/6844 [19:17<07:40,  4.25it/s] 71%|███████▏  | 4892/6844 [19:18<07:39,  4.25it/s] 71%|███████▏  | 4893/6844 [19:18<07:38,  4.25it/s] 72%|███████▏  | 4894/6844 [19:18<07:38,  4.25it/s] 72%|███████▏  | 4895/6844 [19:18<07:38,  4.25it/s] 72%|███████▏  | 4896/6844 [19:18<07:37,  4.26it/s] 72%|███████▏  | 4897/6844 [19:19<07:36,  4.26it/s] 72%|███████▏  | 4898/6844 [19:19<07:36,  4.26it/s] 72%|███████▏  | 4899/6844 [19:19<07:37,  4.26it/s] 72%|███████▏  | 4900/6844 [19:19<07:36,  4.26it/s]                                                   {'loss': 4.3856, 'grad_norm': 0.15059085190296173, 'learning_rate': 0.0013579420722996285, 'epoch': 0.14}
- 72%|███████▏  | 4900/6844 [19:19<07:36,  4.26it/s] 72%|███████▏  | 4901/6844 [19:20<07:37,  4.25it/s] 72%|███████▏  | 4902/6844 [19:20<07:37,  4.24it/s] 72%|███████▏  | 4903/6844 [19:20<07:37,  4.25it/s] 72%|███████▏  | 4904/6844 [19:20<07:36,  4.25it/s] 72%|███████▏  | 4905/6844 [19:21<07:36,  4.25it/s] 72%|███████▏  | 4906/6844 [19:21<07:35,  4.25it/s] 72%|███████▏  | 4907/6844 [19:21<07:35,  4.25it/s] 72%|███████▏  | 4908/6844 [19:21<07:34,  4.26it/s] 72%|███████▏  | 4909/6844 [19:22<07:34,  4.25it/s] 72%|███████▏  | 4910/6844 [19:22<07:34,  4.25it/s] 72%|███████▏  | 4911/6844 [19:22<07:34,  4.25it/s] 72%|███████▏  | 4912/6844 [19:22<07:33,  4.26it/s] 72%|███████▏  | 4913/6844 [19:22<07:33,  4.25it/s] 72%|███████▏  | 4914/6844 [19:23<07:33,  4.26it/s] 72%|███████▏  | 4915/6844 [19:23<07:33,  4.26it/s] 72%|███████▏  | 4916/6844 [19:23<07:33,  4.25it/s] 72%|███████▏  | 4917/6844 [19:23<07:32,  4.25it/s] 72%|███████▏  | 4918/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4919/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4920/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4921/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4922/6844 [19:25<07:31,  4.26it/s] 72%|███████▏  | 4923/6844 [19:25<07:31,  4.25it/s] 72%|███████▏  | 4924/6844 [19:25<07:31,  4.26it/s] 72%|███████▏  | 4925/6844 [19:25<07:30,  4.26it/s]                                                   {'loss': 4.3839, 'grad_norm': 0.14657525718212128, 'learning_rate': 0.0013260598224009018, 'epoch': 0.14}
- 72%|███████▏  | 4925/6844 [19:25<07:30,  4.26it/s] 72%|███████▏  | 4926/6844 [19:25<07:32,  4.24it/s] 72%|███████▏  | 4927/6844 [19:26<07:31,  4.24it/s] 72%|███████▏  | 4928/6844 [19:26<07:31,  4.25it/s] 72%|███████▏  | 4929/6844 [19:26<07:30,  4.25it/s] 72%|███████▏  | 4930/6844 [19:26<07:30,  4.25it/s] 72%|███████▏  | 4931/6844 [19:27<07:29,  4.25it/s] 72%|███████▏  | 4932/6844 [19:27<07:29,  4.25it/s] 72%|███████▏  | 4933/6844 [19:27<07:29,  4.25it/s] 72%|███████▏  | 4934/6844 [19:27<07:29,  4.25it/s] 72%|███████▏  | 4935/6844 [19:28<07:28,  4.25it/s] 72%|███████▏  | 4936/6844 [19:28<07:28,  4.26it/s] 72%|███████▏  | 4937/6844 [19:28<07:28,  4.25it/s] 72%|███████▏  | 4938/6844 [19:28<07:28,  4.25it/s] 72%|███████▏  | 4939/6844 [19:29<10:02,  3.16it/s] 72%|███████▏  | 4940/6844 [19:29<09:16,  3.42it/s] 72%|███████▏  | 4941/6844 [19:29<08:43,  3.64it/s] 72%|███████▏  | 4942/6844 [19:30<08:19,  3.81it/s] 72%|███████▏  | 4943/6844 [19:30<08:03,  3.93it/s] 72%|███████▏  | 4944/6844 [19:30<07:52,  4.02it/s] 72%|███████▏  | 4945/6844 [19:30<07:44,  4.09it/s] 72%|███████▏  | 4946/6844 [19:30<07:38,  4.14it/s] 72%|███████▏  | 4947/6844 [19:31<07:33,  4.18it/s] 72%|███████▏  | 4948/6844 [19:31<07:31,  4.20it/s] 72%|███████▏  | 4949/6844 [19:31<07:29,  4.22it/s] 72%|███████▏  | 4950/6844 [19:31<07:27,  4.23it/s]{'loss': 4.3903, 'grad_norm': 0.15746505558490753, 'learning_rate': 0.00129444977581264, 'epoch': 0.14}
-                                                    72%|███████▏  | 4950/6844 [19:31<07:27,  4.23it/s] 72%|███████▏  | 4951/6844 [19:32<07:28,  4.22it/s] 72%|███████▏  | 4952/6844 [19:32<07:27,  4.23it/s] 72%|███████▏  | 4953/6844 [19:32<07:25,  4.24it/s] 72%|███████▏  | 4954/6844 [19:32<07:25,  4.24it/s] 72%|███████▏  | 4955/6844 [19:33<07:24,  4.25it/s] 72%|███████▏  | 4956/6844 [19:33<07:23,  4.26it/s] 72%|███████▏  | 4957/6844 [19:33<07:24,  4.25it/s] 72%|███████▏  | 4958/6844 [19:33<07:23,  4.25it/s] 72%|███████▏  | 4959/6844 [19:34<07:22,  4.26it/s] 72%|███████▏  | 4960/6844 [19:34<07:22,  4.26it/s] 72%|███████▏  | 4961/6844 [19:34<07:22,  4.26it/s] 73%|███████▎  | 4962/6844 [19:34<07:21,  4.26it/s] 73%|███████▎  | 4963/6844 [19:34<07:22,  4.25it/s] 73%|███████▎  | 4964/6844 [19:35<07:22,  4.25it/s] 73%|███████▎  | 4965/6844 [19:35<07:22,  4.25it/s] 73%|███████▎  | 4966/6844 [19:35<07:21,  4.25it/s] 73%|███████▎  | 4967/6844 [19:35<07:20,  4.26it/s] 73%|███████▎  | 4968/6844 [19:36<07:20,  4.26it/s] 73%|███████▎  | 4969/6844 [19:36<07:20,  4.26it/s] 73%|███████▎  | 4970/6844 [19:36<07:20,  4.26it/s] 73%|███████▎  | 4971/6844 [19:36<07:20,  4.25it/s] 73%|███████▎  | 4972/6844 [19:37<07:20,  4.25it/s] 73%|███████▎  | 4973/6844 [19:37<07:19,  4.25it/s] 73%|███████▎  | 4974/6844 [19:37<07:20,  4.25it/s] 73%|███████▎  | 4975/6844 [19:37<07:19,  4.25it/s]{'loss': 4.3994, 'grad_norm': 0.17347584664821625, 'learning_rate': 0.001263117072718128, 'epoch': 0.15}                                                   
- 73%|███████▎  | 4975/6844 [19:37<07:19,  4.25it/s] 73%|███████▎  | 4976/6844 [19:38<07:20,  4.24it/s] 73%|███████▎  | 4977/6844 [19:38<07:19,  4.25it/s] 73%|███████▎  | 4978/6844 [19:38<07:18,  4.25it/s] 73%|███████▎  | 4979/6844 [19:38<07:18,  4.25it/s] 73%|███████▎  | 4980/6844 [19:38<07:17,  4.26it/s] 73%|███████▎  | 4981/6844 [19:39<07:16,  4.27it/s] 73%|███████▎  | 4982/6844 [19:39<07:16,  4.26it/s] 73%|███████▎  | 4983/6844 [19:39<07:16,  4.26it/s] 73%|███████▎  | 4984/6844 [19:39<07:16,  4.26it/s] 73%|███████▎  | 4985/6844 [19:40<07:17,  4.25it/s] 73%|███████▎  | 4986/6844 [19:40<07:16,  4.25it/s] 73%|███████▎  | 4987/6844 [19:40<07:16,  4.26it/s] 73%|███████▎  | 4988/6844 [19:40<07:16,  4.26it/s] 73%|███████▎  | 4989/6844 [19:41<07:16,  4.25it/s] 73%|███████▎  | 4990/6844 [19:41<07:15,  4.26it/s] 73%|███████▎  | 4991/6844 [19:41<07:15,  4.25it/s] 73%|███████▎  | 4992/6844 [19:41<07:15,  4.25it/s] 73%|███████▎  | 4993/6844 [19:42<07:15,  4.25it/s] 73%|███████▎  | 4994/6844 [19:42<07:15,  4.25it/s] 73%|███████▎  | 4995/6844 [19:42<07:15,  4.25it/s] 73%|███████▎  | 4996/6844 [19:42<07:14,  4.25it/s] 73%|███████▎  | 4997/6844 [19:42<07:14,  4.25it/s] 73%|███████▎  | 4998/6844 [19:43<07:14,  4.25it/s] 73%|███████▎  | 4999/6844 [19:43<07:14,  4.25it/s] 73%|███████▎  | 5000/6844 [19:43<07:14,  4.25it/s]                                                   {'loss': 4.3825, 'grad_norm': 0.15049748122692108, 'learning_rate': 0.0012320668082011837, 'epoch': 0.15}
- 73%|███████▎  | 5000/6844 [19:43<07:14,  4.25it/s] 73%|███████▎  | 5001/6844 [19:43<07:15,  4.23it/s] 73%|███████▎  | 5002/6844 [19:44<07:14,  4.24it/s] 73%|███████▎  | 5003/6844 [19:44<07:13,  4.24it/s] 73%|███████▎  | 5004/6844 [19:44<07:12,  4.25it/s] 73%|███████▎  | 5005/6844 [19:44<07:12,  4.25it/s] 73%|███████▎  | 5006/6844 [19:45<07:14,  4.23it/s] 73%|███████▎  | 5007/6844 [19:45<07:15,  4.21it/s] 73%|███████▎  | 5008/6844 [19:45<07:32,  4.06it/s] 73%|███████▎  | 5009/6844 [19:45<07:26,  4.11it/s] 73%|███████▎  | 5010/6844 [19:46<07:21,  4.15it/s] 73%|███████▎  | 5011/6844 [19:46<07:18,  4.18it/s] 73%|███████▎  | 5012/6844 [19:46<07:16,  4.20it/s] 73%|███████▎  | 5013/6844 [19:46<07:15,  4.21it/s] 73%|███████▎  | 5014/6844 [19:47<07:14,  4.21it/s] 73%|███████▎  | 5015/6844 [19:47<07:12,  4.23it/s] 73%|███████▎  | 5016/6844 [19:47<07:11,  4.23it/s] 73%|███████▎  | 5017/6844 [19:47<07:11,  4.24it/s] 73%|███████▎  | 5018/6844 [19:47<07:09,  4.25it/s] 73%|███████▎  | 5019/6844 [19:48<07:09,  4.24it/s] 73%|███████▎  | 5020/6844 [19:48<07:09,  4.25it/s] 73%|███████▎  | 5021/6844 [19:48<07:09,  4.24it/s] 73%|███████▎  | 5022/6844 [19:48<07:09,  4.24it/s] 73%|███████▎  | 5023/6844 [19:49<07:09,  4.24it/s] 73%|███████▎  | 5024/6844 [19:49<07:09,  4.24it/s] 73%|███████▎  | 5025/6844 [19:49<07:09,  4.24it/s]                                                   {'loss': 4.3852, 'grad_norm': 0.1495383083820343, 'learning_rate': 0.0012013040314176294, 'epoch': 0.15}
- 73%|███████▎  | 5025/6844 [19:49<07:09,  4.24it/s] 73%|███████▎  | 5026/6844 [19:49<07:10,  4.22it/s] 73%|███████▎  | 5027/6844 [19:50<07:09,  4.23it/s] 73%|███████▎  | 5028/6844 [19:50<07:09,  4.23it/s] 73%|███████▎  | 5029/6844 [19:50<07:08,  4.23it/s] 73%|███████▎  | 5030/6844 [19:50<07:08,  4.23it/s] 74%|███████▎  | 5031/6844 [19:51<07:07,  4.24it/s] 74%|███████▎  | 5032/6844 [19:51<07:07,  4.24it/s] 74%|███████▎  | 5033/6844 [19:51<07:06,  4.24it/s] 74%|███████▎  | 5034/6844 [19:51<07:06,  4.24it/s] 74%|███████▎  | 5035/6844 [19:51<07:05,  4.25it/s] 74%|███████▎  | 5036/6844 [19:52<07:05,  4.25it/s] 74%|███████▎  | 5037/6844 [19:52<07:05,  4.25it/s] 74%|███████▎  | 5038/6844 [19:52<07:04,  4.25it/s] 74%|███████▎  | 5039/6844 [19:52<07:04,  4.25it/s] 74%|███████▎  | 5040/6844 [19:53<07:03,  4.26it/s] 74%|███████▎  | 5041/6844 [19:53<07:03,  4.26it/s] 74%|███████▎  | 5042/6844 [19:53<07:03,  4.26it/s] 74%|███████▎  | 5043/6844 [19:53<07:02,  4.26it/s] 74%|███████▎  | 5044/6844 [19:54<07:02,  4.26it/s] 74%|███████▎  | 5045/6844 [19:54<07:02,  4.26it/s] 74%|███████▎  | 5046/6844 [19:54<07:02,  4.26it/s] 74%|███████▎  | 5047/6844 [19:54<07:02,  4.26it/s] 74%|███████▍  | 5048/6844 [19:55<07:02,  4.25it/s] 74%|███████▍  | 5049/6844 [19:55<07:02,  4.25it/s] 74%|███████▍  | 5050/6844 [19:55<07:02,  4.25it/s]{'loss': 4.384, 'grad_norm': 0.15096454322338104, 'learning_rate': 0.0011708337447742343, 'epoch': 0.15}
-                                                    74%|███████▍  | 5050/6844 [19:55<07:02,  4.25it/s] 74%|███████▍  | 5051/6844 [19:55<07:02,  4.24it/s] 74%|███████▍  | 5052/6844 [19:55<07:02,  4.24it/s] 74%|███████▍  | 5053/6844 [19:56<07:01,  4.25it/s] 74%|███████▍  | 5054/6844 [19:56<07:00,  4.25it/s] 74%|███████▍  | 5055/6844 [19:56<07:00,  4.25it/s] 74%|███████▍  | 5056/6844 [19:56<07:00,  4.25it/s] 74%|███████▍  | 5057/6844 [19:57<06:59,  4.26it/s] 74%|███████▍  | 5058/6844 [19:57<06:59,  4.25it/s] 74%|███████▍  | 5059/6844 [19:57<06:59,  4.25it/s] 74%|███████▍  | 5060/6844 [19:57<06:59,  4.26it/s] 74%|███████▍  | 5061/6844 [19:58<06:58,  4.26it/s] 74%|███████▍  | 5062/6844 [19:58<06:57,  4.26it/s] 74%|███████▍  | 5063/6844 [19:58<06:58,  4.26it/s] 74%|███████▍  | 5064/6844 [19:58<06:58,  4.26it/s] 74%|███████▍  | 5065/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5066/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5067/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5068/6844 [19:59<06:57,  4.25it/s] 74%|███████▍  | 5069/6844 [19:59<06:57,  4.25it/s] 74%|███████▍  | 5070/6844 [20:00<06:56,  4.25it/s] 74%|███████▍  | 5071/6844 [20:00<06:56,  4.26it/s] 74%|███████▍  | 5072/6844 [20:00<06:55,  4.26it/s] 74%|███████▍  | 5073/6844 [20:00<06:56,  4.25it/s] 74%|███████▍  | 5074/6844 [20:01<06:56,  4.25it/s] 74%|███████▍  | 5075/6844 [20:01<06:56,  4.25it/s]                                                   {'loss': 4.391, 'grad_norm': 0.1630788892507553, 'learning_rate': 0.0011406609031152678, 'epoch': 0.15}
- 74%|███████▍  | 5075/6844 [20:01<06:56,  4.25it/s] 74%|███████▍  | 5076/6844 [20:01<06:57,  4.23it/s] 74%|███████▍  | 5077/6844 [20:01<06:57,  4.23it/s] 74%|███████▍  | 5078/6844 [20:02<06:56,  4.24it/s] 74%|███████▍  | 5079/6844 [20:02<06:55,  4.25it/s] 74%|███████▍  | 5080/6844 [20:02<06:55,  4.25it/s] 74%|███████▍  | 5081/6844 [20:02<06:54,  4.25it/s] 74%|███████▍  | 5082/6844 [20:03<06:54,  4.25it/s] 74%|███████▍  | 5083/6844 [20:03<06:54,  4.25it/s] 74%|███████▍  | 5084/6844 [20:03<06:53,  4.25it/s] 74%|███████▍  | 5085/6844 [20:03<06:54,  4.25it/s] 74%|███████▍  | 5086/6844 [20:03<06:53,  4.25it/s] 74%|███████▍  | 5087/6844 [20:04<06:53,  4.25it/s] 74%|███████▍  | 5088/6844 [20:04<06:53,  4.25it/s] 74%|███████▍  | 5089/6844 [20:04<06:53,  4.25it/s] 74%|███████▍  | 5090/6844 [20:04<06:52,  4.25it/s] 74%|███████▍  | 5091/6844 [20:05<06:52,  4.25it/s] 74%|███████▍  | 5092/6844 [20:05<06:51,  4.25it/s] 74%|███████▍  | 5093/6844 [20:05<06:51,  4.25it/s] 74%|███████▍  | 5094/6844 [20:05<06:51,  4.25it/s] 74%|███████▍  | 5095/6844 [20:06<06:51,  4.25it/s] 74%|███████▍  | 5096/6844 [20:06<06:50,  4.26it/s] 74%|███████▍  | 5097/6844 [20:06<06:50,  4.26it/s] 74%|███████▍  | 5098/6844 [20:06<06:50,  4.26it/s] 75%|███████▍  | 5099/6844 [20:07<06:50,  4.25it/s] 75%|███████▍  | 5100/6844 [20:07<06:50,  4.25it/s]{'loss': 4.38, 'grad_norm': 0.15252581238746643, 'learning_rate': 0.001110790412916778, 'epoch': 0.15}
-                                                    75%|███████▍  | 5100/6844 [20:07<06:50,  4.25it/s] 75%|███████▍  | 5101/6844 [20:07<06:51,  4.23it/s] 75%|███████▍  | 5102/6844 [20:07<06:50,  4.24it/s] 75%|███████▍  | 5103/6844 [20:07<06:50,  4.24it/s] 75%|███████▍  | 5104/6844 [20:08<06:49,  4.25it/s] 75%|███████▍  | 5105/6844 [20:08<06:49,  4.25it/s] 75%|███████▍  | 5106/6844 [20:08<06:48,  4.25it/s] 75%|███████▍  | 5107/6844 [20:08<06:48,  4.26it/s] 75%|███████▍  | 5108/6844 [20:09<06:48,  4.25it/s] 75%|███████▍  | 5109/6844 [20:09<06:47,  4.26it/s] 75%|███████▍  | 5110/6844 [20:09<06:47,  4.26it/s] 75%|███████▍  | 5111/6844 [20:09<06:47,  4.25it/s] 75%|███████▍  | 5112/6844 [20:10<06:46,  4.26it/s] 75%|███████▍  | 5113/6844 [20:10<06:46,  4.25it/s] 75%|███████▍  | 5114/6844 [20:10<06:46,  4.25it/s] 75%|███████▍  | 5115/6844 [20:10<06:47,  4.24it/s] 75%|███████▍  | 5116/6844 [20:11<06:47,  4.24it/s] 75%|███████▍  | 5117/6844 [20:11<06:46,  4.24it/s] 75%|███████▍  | 5118/6844 [20:11<06:46,  4.24it/s] 75%|███████▍  | 5119/6844 [20:11<06:45,  4.25it/s] 75%|███████▍  | 5120/6844 [20:11<06:45,  4.25it/s] 75%|███████▍  | 5121/6844 [20:12<06:45,  4.25it/s] 75%|███████▍  | 5122/6844 [20:12<06:45,  4.25it/s] 75%|███████▍  | 5123/6844 [20:12<06:44,  4.25it/s] 75%|███████▍  | 5124/6844 [20:12<06:43,  4.26it/s] 75%|███████▍  | 5125/6844 [20:13<06:43,  4.26it/s]                                                   {'loss': 4.3821, 'grad_norm': 0.14234192669391632, 'learning_rate': 0.0010812271314887358, 'epoch': 0.15}
- 75%|███████▍  | 5125/6844 [20:13<06:43,  4.26it/s] 75%|███████▍  | 5126/6844 [20:13<06:44,  4.24it/s] 75%|███████▍  | 5127/6844 [20:13<06:44,  4.25it/s] 75%|███████▍  | 5128/6844 [20:13<06:43,  4.25it/s] 75%|███████▍  | 5129/6844 [20:14<06:42,  4.26it/s] 75%|███████▍  | 5130/6844 [20:14<06:42,  4.26it/s] 75%|███████▍  | 5131/6844 [20:14<06:42,  4.25it/s] 75%|███████▍  | 5132/6844 [20:14<06:43,  4.25it/s] 75%|███████▌  | 5133/6844 [20:15<06:42,  4.25it/s] 75%|███████▌  | 5134/6844 [20:15<06:46,  4.20it/s] 75%|███████▌  | 5135/6844 [20:15<07:01,  4.06it/s] 75%|███████▌  | 5136/6844 [20:15<06:56,  4.11it/s] 75%|███████▌  | 5137/6844 [20:15<06:51,  4.15it/s] 75%|███████▌  | 5138/6844 [20:16<06:48,  4.17it/s] 75%|███████▌  | 5139/6844 [20:16<06:46,  4.19it/s] 75%|███████▌  | 5140/6844 [20:16<06:45,  4.21it/s] 75%|███████▌  | 5141/6844 [20:16<06:44,  4.21it/s] 75%|███████▌  | 5142/6844 [20:17<06:43,  4.21it/s] 75%|███████▌  | 5143/6844 [20:17<06:43,  4.22it/s] 75%|███████▌  | 5144/6844 [20:17<06:41,  4.23it/s] 75%|███████▌  | 5145/6844 [20:17<06:40,  4.24it/s] 75%|███████▌  | 5146/6844 [20:18<06:40,  4.24it/s] 75%|███████▌  | 5147/6844 [20:18<06:40,  4.24it/s] 75%|███████▌  | 5148/6844 [20:18<06:39,  4.24it/s] 75%|███████▌  | 5149/6844 [20:18<06:39,  4.24it/s] 75%|███████▌  | 5150/6844 [20:19<06:39,  4.24it/s]                                                   {'loss': 4.3704, 'grad_norm': 0.1583348959684372, 'learning_rate': 0.0010519758661851806, 'epoch': 0.15}
- 75%|███████▌  | 5150/6844 [20:19<06:39,  4.24it/s] 75%|███████▌  | 5151/6844 [20:19<06:43,  4.19it/s] 75%|███████▌  | 5152/6844 [20:19<06:41,  4.21it/s] 75%|███████▌  | 5153/6844 [20:19<06:40,  4.22it/s] 75%|███████▌  | 5154/6844 [20:20<06:39,  4.23it/s] 75%|███████▌  | 5155/6844 [20:20<06:38,  4.24it/s] 75%|███████▌  | 5156/6844 [20:20<06:39,  4.23it/s] 75%|███████▌  | 5157/6844 [20:20<06:38,  4.23it/s] 75%|███████▌  | 5158/6844 [20:20<06:37,  4.24it/s] 75%|███████▌  | 5159/6844 [20:21<06:37,  4.24it/s] 75%|███████▌  | 5160/6844 [20:21<06:36,  4.25it/s] 75%|███████▌  | 5161/6844 [20:21<06:36,  4.24it/s] 75%|███████▌  | 5162/6844 [20:21<06:36,  4.24it/s] 75%|███████▌  | 5163/6844 [20:22<06:36,  4.24it/s] 75%|███████▌  | 5164/6844 [20:22<06:35,  4.25it/s] 75%|███████▌  | 5165/6844 [20:22<06:35,  4.25it/s] 75%|███████▌  | 5166/6844 [20:22<06:34,  4.25it/s] 75%|███████▌  | 5167/6844 [20:23<06:35,  4.25it/s] 76%|███████▌  | 5168/6844 [20:23<06:34,  4.25it/s] 76%|███████▌  | 5169/6844 [20:23<06:33,  4.26it/s] 76%|███████▌  | 5170/6844 [20:23<06:33,  4.25it/s] 76%|███████▌  | 5171/6844 [20:24<06:33,  4.25it/s] 76%|███████▌  | 5172/6844 [20:24<06:33,  4.25it/s] 76%|███████▌  | 5173/6844 [20:24<06:33,  4.25it/s] 76%|███████▌  | 5174/6844 [20:24<06:33,  4.25it/s] 76%|███████▌  | 5175/6844 [20:24<06:32,  4.25it/s]{'loss': 4.3865, 'grad_norm': 0.15645267069339752, 'learning_rate': 0.0010230413736224812, 'epoch': 0.15}
-                                                    76%|███████▌  | 5175/6844 [20:24<06:32,  4.25it/s] 76%|███████▌  | 5176/6844 [20:25<06:33,  4.24it/s] 76%|███████▌  | 5177/6844 [20:25<06:33,  4.24it/s] 76%|███████▌  | 5178/6844 [20:25<06:33,  4.24it/s] 76%|███████▌  | 5179/6844 [20:25<06:32,  4.24it/s] 76%|███████▌  | 5180/6844 [20:26<06:32,  4.24it/s] 76%|███████▌  | 5181/6844 [20:26<06:31,  4.25it/s] 76%|███████▌  | 5182/6844 [20:26<06:30,  4.25it/s] 76%|███████▌  | 5183/6844 [20:26<06:30,  4.25it/s] 76%|███████▌  | 5184/6844 [20:27<06:30,  4.25it/s] 76%|███████▌  | 5185/6844 [20:27<06:29,  4.25it/s] 76%|███████▌  | 5186/6844 [20:27<06:29,  4.25it/s] 76%|███████▌  | 5187/6844 [20:27<06:29,  4.26it/s] 76%|███████▌  | 5188/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5189/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5190/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5191/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5192/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5193/6844 [20:29<06:27,  4.26it/s] 76%|███████▌  | 5194/6844 [20:29<06:27,  4.25it/s] 76%|███████▌  | 5195/6844 [20:29<06:27,  4.25it/s] 76%|███████▌  | 5196/6844 [20:29<06:27,  4.25it/s] 76%|███████▌  | 5197/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5198/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5199/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5200/6844 [20:30<06:26,  4.26it/s]                                                   {'loss': 4.377, 'grad_norm': 0.14797237515449524, 'learning_rate': 0.0009944283589058554, 'epoch': 0.15}
- 76%|███████▌  | 5200/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5201/6844 [20:31<06:26,  4.25it/s] 76%|███████▌  | 5202/6844 [20:31<06:26,  4.25it/s] 76%|███████▌  | 5203/6844 [20:31<06:26,  4.25it/s] 76%|███████▌  | 5204/6844 [20:31<06:24,  4.26it/s] 76%|███████▌  | 5205/6844 [20:32<06:25,  4.25it/s] 76%|███████▌  | 5206/6844 [20:32<06:25,  4.25it/s] 76%|███████▌  | 5207/6844 [20:32<06:25,  4.25it/s] 76%|███████▌  | 5208/6844 [20:32<06:24,  4.26it/s] 76%|███████▌  | 5209/6844 [20:32<06:24,  4.26it/s] 76%|███████▌  | 5210/6844 [20:33<06:24,  4.25it/s] 76%|███████▌  | 5211/6844 [20:33<06:23,  4.26it/s] 76%|███████▌  | 5212/6844 [20:33<06:23,  4.26it/s] 76%|███████▌  | 5213/6844 [20:33<06:22,  4.26it/s] 76%|███████▌  | 5214/6844 [20:34<06:22,  4.27it/s] 76%|███████▌  | 5215/6844 [20:34<06:22,  4.26it/s] 76%|███████▌  | 5216/6844 [20:34<06:23,  4.25it/s] 76%|███████▌  | 5217/6844 [20:34<06:23,  4.25it/s] 76%|███████▌  | 5218/6844 [20:35<06:22,  4.25it/s] 76%|███████▋  | 5219/6844 [20:35<06:22,  4.25it/s] 76%|███████▋  | 5220/6844 [20:35<06:22,  4.24it/s] 76%|███████▋  | 5221/6844 [20:35<06:22,  4.25it/s] 76%|███████▋  | 5222/6844 [20:36<06:21,  4.25it/s] 76%|███████▋  | 5223/6844 [20:36<06:21,  4.25it/s] 76%|███████▋  | 5224/6844 [20:36<06:21,  4.24it/s] 76%|███████▋  | 5225/6844 [20:36<06:21,  4.24it/s]                                                   {'loss': 4.3719, 'grad_norm': 0.1502833068370819, 'learning_rate': 0.0009661414748642591, 'epoch': 0.15}
- 76%|███████▋  | 5225/6844 [20:36<06:21,  4.24it/s] 76%|███████▋  | 5226/6844 [20:36<06:23,  4.22it/s] 76%|███████▋  | 5227/6844 [20:37<06:21,  4.23it/s] 76%|███████▋  | 5228/6844 [20:37<06:21,  4.24it/s] 76%|███████▋  | 5229/6844 [20:37<06:20,  4.25it/s] 76%|███████▋  | 5230/6844 [20:37<06:19,  4.25it/s] 76%|███████▋  | 5231/6844 [20:38<06:20,  4.24it/s] 76%|███████▋  | 5232/6844 [20:38<06:19,  4.25it/s] 76%|███████▋  | 5233/6844 [20:38<06:19,  4.25it/s] 76%|███████▋  | 5234/6844 [20:38<06:18,  4.25it/s] 76%|███████▋  | 5235/6844 [20:39<06:18,  4.25it/s] 77%|███████▋  | 5236/6844 [20:39<06:17,  4.26it/s] 77%|███████▋  | 5237/6844 [20:39<06:17,  4.25it/s] 77%|███████▋  | 5238/6844 [20:39<06:17,  4.26it/s] 77%|███████▋  | 5239/6844 [20:40<06:17,  4.26it/s] 77%|███████▋  | 5240/6844 [20:40<06:18,  4.24it/s] 77%|███████▋  | 5241/6844 [20:40<06:17,  4.25it/s] 77%|███████▋  | 5242/6844 [20:40<06:16,  4.25it/s] 77%|███████▋  | 5243/6844 [20:40<06:16,  4.26it/s] 77%|███████▋  | 5244/6844 [20:41<06:15,  4.26it/s] 77%|███████▋  | 5245/6844 [20:41<06:14,  4.27it/s] 77%|███████▋  | 5246/6844 [20:41<06:14,  4.27it/s] 77%|███████▋  | 5247/6844 [20:41<06:14,  4.27it/s] 77%|███████▋  | 5248/6844 [20:42<06:13,  4.27it/s] 77%|███████▋  | 5249/6844 [20:42<06:13,  4.27it/s] 77%|███████▋  | 5250/6844 [20:42<06:13,  4.26it/s]{'loss': 4.3695, 'grad_norm': 0.15923886001110077, 'learning_rate': 0.0009381853212937774, 'epoch': 0.15}                                                   
- 77%|███████▋  | 5250/6844 [20:42<06:13,  4.26it/s] 77%|███████▋  | 5251/6844 [20:42<06:14,  4.25it/s] 77%|███████▋  | 5252/6844 [20:43<06:13,  4.26it/s] 77%|███████▋  | 5253/6844 [20:43<06:13,  4.26it/s] 77%|███████▋  | 5254/6844 [20:43<06:13,  4.25it/s] 77%|███████▋  | 5255/6844 [20:43<06:13,  4.25it/s] 77%|███████▋  | 5256/6844 [20:43<06:13,  4.25it/s] 77%|███████▋  | 5257/6844 [20:44<06:13,  4.25it/s] 77%|███████▋  | 5258/6844 [20:44<06:13,  4.25it/s] 77%|███████▋  | 5259/6844 [20:44<06:12,  4.25it/s] 77%|███████▋  | 5260/6844 [20:44<06:12,  4.26it/s] 77%|███████▋  | 5261/6844 [20:45<06:12,  4.25it/s] 77%|███████▋  | 5262/6844 [20:45<06:14,  4.23it/s] 77%|███████▋  | 5263/6844 [20:45<06:15,  4.22it/s] 77%|███████▋  | 5264/6844 [20:45<06:13,  4.23it/s] 77%|███████▋  | 5265/6844 [20:46<06:12,  4.23it/s] 77%|███████▋  | 5266/6844 [20:46<06:12,  4.24it/s] 77%|███████▋  | 5267/6844 [20:46<06:11,  4.24it/s] 77%|███████▋  | 5268/6844 [20:46<06:11,  4.24it/s] 77%|███████▋  | 5269/6844 [20:47<06:10,  4.25it/s] 77%|███████▋  | 5270/6844 [20:47<06:10,  4.25it/s] 77%|███████▋  | 5271/6844 [20:47<06:09,  4.25it/s] 77%|███████▋  | 5272/6844 [20:47<06:09,  4.26it/s] 77%|███████▋  | 5273/6844 [20:47<06:08,  4.26it/s] 77%|███████▋  | 5274/6844 [20:48<06:08,  4.26it/s] 77%|███████▋  | 5275/6844 [20:48<06:09,  4.25it/s]                                                   {'loss': 4.3686, 'grad_norm': 0.15062980353832245, 'learning_rate': 0.0009105644442096467, 'epoch': 0.15}
- 77%|███████▋  | 5275/6844 [20:48<06:09,  4.25it/s] 77%|███████▋  | 5276/6844 [20:48<06:09,  4.25it/s] 77%|███████▋  | 5277/6844 [20:48<06:08,  4.25it/s] 77%|███████▋  | 5278/6844 [20:49<06:08,  4.25it/s] 77%|███████▋  | 5279/6844 [20:49<06:07,  4.25it/s] 77%|███████▋  | 5280/6844 [20:49<06:07,  4.25it/s] 77%|███████▋  | 5281/6844 [20:49<06:07,  4.26it/s] 77%|███████▋  | 5282/6844 [20:50<06:08,  4.24it/s] 77%|███████▋  | 5283/6844 [20:50<06:07,  4.25it/s] 77%|███████▋  | 5284/6844 [20:50<06:07,  4.25it/s] 77%|███████▋  | 5285/6844 [20:50<06:06,  4.25it/s] 77%|███████▋  | 5286/6844 [20:51<06:06,  4.25it/s] 77%|███████▋  | 5287/6844 [20:51<06:06,  4.25it/s] 77%|███████▋  | 5288/6844 [20:51<06:06,  4.25it/s] 77%|███████▋  | 5289/6844 [20:51<06:05,  4.26it/s] 77%|███████▋  | 5290/6844 [20:51<06:05,  4.26it/s] 77%|███████▋  | 5291/6844 [20:52<06:04,  4.26it/s] 77%|███████▋  | 5292/6844 [20:52<06:04,  4.25it/s] 77%|███████▋  | 5293/6844 [20:52<06:04,  4.25it/s] 77%|███████▋  | 5294/6844 [20:52<06:03,  4.26it/s] 77%|███████▋  | 5295/6844 [20:53<06:03,  4.26it/s] 77%|███████▋  | 5296/6844 [20:53<06:03,  4.26it/s] 77%|███████▋  | 5297/6844 [20:53<06:03,  4.25it/s] 77%|███████▋  | 5298/6844 [20:53<06:03,  4.25it/s] 77%|███████▋  | 5299/6844 [20:54<06:03,  4.25it/s] 77%|███████▋  | 5300/6844 [20:54<06:03,  4.25it/s]{'loss': 4.3801, 'grad_norm': 0.1424715518951416, 'learning_rate': 0.000883283335107011, 'epoch': 0.15}
-                                                    77%|███████▋  | 5300/6844 [20:54<06:03,  4.25it/s] 77%|███████▋  | 5301/6844 [20:54<06:03,  4.24it/s] 77%|███████▋  | 5302/6844 [20:54<06:03,  4.24it/s] 77%|███████▋  | 5303/6844 [20:55<06:02,  4.25it/s] 77%|███████▋  | 5304/6844 [20:55<06:02,  4.25it/s] 78%|███████▊  | 5305/6844 [20:55<06:01,  4.25it/s] 78%|███████▊  | 5306/6844 [20:55<06:01,  4.26it/s] 78%|███████▊  | 5307/6844 [20:55<06:01,  4.25it/s] 78%|███████▊  | 5308/6844 [20:56<06:00,  4.26it/s] 78%|███████▊  | 5309/6844 [20:56<06:00,  4.26it/s] 78%|███████▊  | 5310/6844 [20:56<06:00,  4.26it/s] 78%|███████▊  | 5311/6844 [20:56<05:59,  4.26it/s] 78%|███████▊  | 5312/6844 [20:57<05:59,  4.26it/s] 78%|███████▊  | 5313/6844 [20:57<05:58,  4.27it/s] 78%|███████▊  | 5314/6844 [20:57<05:58,  4.27it/s] 78%|███████▊  | 5315/6844 [20:57<05:58,  4.26it/s] 78%|███████▊  | 5316/6844 [20:58<05:58,  4.26it/s] 78%|███████▊  | 5317/6844 [20:58<05:58,  4.26it/s] 78%|███████▊  | 5318/6844 [20:58<05:58,  4.26it/s] 78%|███████▊  | 5319/6844 [20:58<05:57,  4.26it/s] 78%|███████▊  | 5320/6844 [20:59<05:58,  4.26it/s] 78%|███████▊  | 5321/6844 [20:59<05:58,  4.25it/s] 78%|███████▊  | 5322/6844 [20:59<05:57,  4.26it/s] 78%|███████▊  | 5323/6844 [20:59<05:57,  4.25it/s] 78%|███████▊  | 5324/6844 [20:59<05:57,  4.25it/s] 78%|███████▊  | 5325/6844 [21:00<05:56,  4.26it/s]{'loss': 4.3614, 'grad_norm': 0.14028553664684296, 'learning_rate': 0.0008563464302305529, 'epoch': 0.16}
-                                                    78%|███████▊  | 5325/6844 [21:00<05:56,  4.26it/s] 78%|███████▊  | 5326/6844 [21:00<05:57,  4.24it/s] 78%|███████▊  | 5327/6844 [21:00<05:56,  4.25it/s] 78%|███████▊  | 5328/6844 [21:00<05:57,  4.24it/s] 78%|███████▊  | 5329/6844 [21:01<05:56,  4.25it/s] 78%|███████▊  | 5330/6844 [21:01<05:56,  4.25it/s] 78%|███████▊  | 5331/6844 [21:01<05:56,  4.25it/s] 78%|███████▊  | 5332/6844 [21:01<05:56,  4.24it/s] 78%|███████▊  | 5333/6844 [21:02<05:55,  4.25it/s] 78%|███████▊  | 5334/6844 [21:02<05:55,  4.25it/s] 78%|███████▊  | 5335/6844 [21:02<05:54,  4.25it/s] 78%|███████▊  | 5336/6844 [21:02<05:54,  4.26it/s] 78%|███████▊  | 5337/6844 [21:03<05:54,  4.25it/s] 78%|███████▊  | 5338/6844 [21:03<05:53,  4.26it/s] 78%|███████▊  | 5339/6844 [21:03<05:53,  4.26it/s] 78%|███████▊  | 5340/6844 [21:03<05:53,  4.25it/s] 78%|███████▊  | 5341/6844 [21:03<05:53,  4.25it/s] 78%|███████▊  | 5342/6844 [21:04<05:53,  4.25it/s] 78%|███████▊  | 5343/6844 [21:04<05:52,  4.26it/s] 78%|███████▊  | 5344/6844 [21:04<05:52,  4.26it/s] 78%|███████▊  | 5345/6844 [21:04<05:52,  4.25it/s] 78%|███████▊  | 5346/6844 [21:05<05:52,  4.25it/s] 78%|███████▊  | 5347/6844 [21:05<05:51,  4.25it/s] 78%|███████▊  | 5348/6844 [21:05<05:51,  4.25it/s] 78%|███████▊  | 5349/6844 [21:05<05:51,  4.25it/s] 78%|███████▊  | 5350/6844 [21:06<05:51,  4.25it/s]                                                   {'loss': 4.3715, 'grad_norm': 0.15882562100887299, 'learning_rate': 0.0008297581098531033, 'epoch': 0.16}
- 78%|███████▊  | 5350/6844 [21:06<05:51,  4.25it/s] 78%|███████▊  | 5351/6844 [21:06<05:51,  4.24it/s] 78%|███████▊  | 5352/6844 [21:06<05:52,  4.24it/s] 78%|███████▊  | 5353/6844 [21:06<05:50,  4.25it/s] 78%|███████▊  | 5354/6844 [21:07<05:50,  4.25it/s] 78%|███████▊  | 5355/6844 [21:07<05:50,  4.25it/s] 78%|███████▊  | 5356/6844 [21:07<05:49,  4.26it/s] 78%|███████▊  | 5357/6844 [21:07<05:49,  4.26it/s] 78%|███████▊  | 5358/6844 [21:07<05:48,  4.26it/s] 78%|███████▊  | 5359/6844 [21:08<05:48,  4.26it/s] 78%|███████▊  | 5360/6844 [21:08<05:48,  4.26it/s] 78%|███████▊  | 5361/6844 [21:08<05:47,  4.26it/s] 78%|███████▊  | 5362/6844 [21:08<05:47,  4.26it/s] 78%|███████▊  | 5363/6844 [21:09<05:47,  4.26it/s] 78%|███████▊  | 5364/6844 [21:09<05:47,  4.25it/s] 78%|███████▊  | 5365/6844 [21:09<05:47,  4.26it/s] 78%|███████▊  | 5366/6844 [21:09<05:47,  4.25it/s] 78%|███████▊  | 5367/6844 [21:10<05:47,  4.25it/s] 78%|███████▊  | 5368/6844 [21:10<05:47,  4.25it/s] 78%|███████▊  | 5369/6844 [21:10<05:47,  4.25it/s] 78%|███████▊  | 5370/6844 [21:10<05:46,  4.25it/s] 78%|███████▊  | 5371/6844 [21:11<05:46,  4.25it/s] 78%|███████▊  | 5372/6844 [21:11<05:45,  4.26it/s] 79%|███████▊  | 5373/6844 [21:11<05:45,  4.25it/s] 79%|███████▊  | 5374/6844 [21:11<05:45,  4.26it/s] 79%|███████▊  | 5375/6844 [21:11<05:44,  4.26it/s]                                                   {'loss': 4.3825, 'grad_norm': 0.14753158390522003, 'learning_rate': 0.0008035226975633562, 'epoch': 0.16}
- 79%|███████▊  | 5375/6844 [21:11<05:44,  4.26it/s] 79%|███████▊  | 5376/6844 [21:12<05:45,  4.24it/s] 79%|███████▊  | 5377/6844 [21:12<05:45,  4.25it/s] 79%|███████▊  | 5378/6844 [21:12<05:44,  4.25it/s] 79%|███████▊  | 5379/6844 [21:12<05:44,  4.26it/s] 79%|███████▊  | 5380/6844 [21:13<05:44,  4.25it/s] 79%|███████▊  | 5381/6844 [21:13<05:43,  4.26it/s] 79%|███████▊  | 5382/6844 [21:13<05:43,  4.26it/s] 79%|███████▊  | 5383/6844 [21:13<05:43,  4.25it/s] 79%|███████▊  | 5384/6844 [21:14<05:43,  4.25it/s] 79%|███████▊  | 5385/6844 [21:14<05:42,  4.26it/s] 79%|███████▊  | 5386/6844 [21:14<05:42,  4.26it/s] 79%|███████▊  | 5387/6844 [21:14<05:42,  4.25it/s] 79%|███████▊  | 5388/6844 [21:15<05:42,  4.25it/s] 79%|███████▊  | 5389/6844 [21:15<05:57,  4.07it/s] 79%|███████▉  | 5390/6844 [21:15<06:07,  3.96it/s] 79%|███████▉  | 5391/6844 [21:15<06:10,  3.92it/s] 79%|███████▉  | 5392/6844 [21:16<06:14,  3.88it/s] 79%|███████▉  | 5393/6844 [21:16<06:14,  3.87it/s] 79%|███████▉  | 5394/6844 [21:16<06:04,  3.98it/s] 79%|███████▉  | 5395/6844 [21:16<05:56,  4.06it/s] 79%|███████▉  | 5396/6844 [21:17<05:51,  4.12it/s] 79%|███████▉  | 5397/6844 [21:17<05:48,  4.15it/s] 79%|███████▉  | 5398/6844 [21:17<05:45,  4.19it/s] 79%|███████▉  | 5399/6844 [21:17<05:43,  4.20it/s] 79%|███████▉  | 5400/6844 [21:18<05:42,  4.21it/s]                                                   {'loss': 4.3606, 'grad_norm': 0.14000876247882843, 'learning_rate': 0.000777644459562801, 'epoch': 0.16}
- 79%|███████▉  | 5400/6844 [21:18<05:42,  4.21it/s] 79%|███████▉  | 5401/6844 [21:18<05:42,  4.21it/s] 79%|███████▉  | 5402/6844 [21:18<05:41,  4.22it/s] 79%|███████▉  | 5403/6844 [21:18<05:40,  4.23it/s] 79%|███████▉  | 5404/6844 [21:18<05:40,  4.23it/s] 79%|███████▉  | 5405/6844 [21:19<05:39,  4.24it/s] 79%|███████▉  | 5406/6844 [21:19<05:38,  4.24it/s] 79%|███████▉  | 5407/6844 [21:19<05:38,  4.25it/s] 79%|███████▉  | 5408/6844 [21:19<05:38,  4.24it/s] 79%|███████▉  | 5409/6844 [21:20<05:37,  4.25it/s] 79%|███████▉  | 5410/6844 [21:20<05:38,  4.24it/s] 79%|███████▉  | 5411/6844 [21:20<05:37,  4.24it/s] 79%|███████▉  | 5412/6844 [21:20<05:37,  4.24it/s] 79%|███████▉  | 5413/6844 [21:21<05:37,  4.24it/s] 79%|███████▉  | 5414/6844 [21:21<05:36,  4.25it/s] 79%|███████▉  | 5415/6844 [21:21<05:36,  4.25it/s] 79%|███████▉  | 5416/6844 [21:21<05:36,  4.25it/s] 79%|███████▉  | 5417/6844 [21:22<05:35,  4.25it/s] 79%|███████▉  | 5418/6844 [21:22<05:35,  4.25it/s] 79%|███████▉  | 5419/6844 [21:22<05:35,  4.25it/s] 79%|███████▉  | 5420/6844 [21:22<05:34,  4.26it/s] 79%|███████▉  | 5421/6844 [21:22<05:34,  4.26it/s] 79%|███████▉  | 5422/6844 [21:23<05:34,  4.25it/s] 79%|███████▉  | 5423/6844 [21:23<05:33,  4.26it/s] 79%|███████▉  | 5424/6844 [21:23<05:33,  4.25it/s] 79%|███████▉  | 5425/6844 [21:23<05:34,  4.25it/s]                                                   {'loss': 4.3668, 'grad_norm': 0.14193564653396606, 'learning_rate': 0.0007521276039719806, 'epoch': 0.16}
- 79%|███████▉  | 5425/6844 [21:23<05:34,  4.25it/s] 79%|███████▉  | 5426/6844 [21:24<05:34,  4.24it/s] 79%|███████▉  | 5427/6844 [21:24<05:33,  4.24it/s] 79%|███████▉  | 5428/6844 [21:24<05:33,  4.24it/s] 79%|███████▉  | 5429/6844 [21:24<05:33,  4.25it/s] 79%|███████▉  | 5430/6844 [21:25<05:32,  4.25it/s] 79%|███████▉  | 5431/6844 [21:25<05:32,  4.25it/s] 79%|███████▉  | 5432/6844 [21:25<05:32,  4.25it/s] 79%|███████▉  | 5433/6844 [21:25<05:32,  4.25it/s] 79%|███████▉  | 5434/6844 [21:26<05:31,  4.25it/s] 79%|███████▉  | 5435/6844 [21:26<05:31,  4.25it/s] 79%|███████▉  | 5436/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5437/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5438/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5439/6844 [21:27<05:29,  4.26it/s] 79%|███████▉  | 5440/6844 [21:27<05:29,  4.26it/s] 80%|███████▉  | 5441/6844 [21:27<05:29,  4.26it/s] 80%|███████▉  | 5442/6844 [21:27<05:28,  4.26it/s] 80%|███████▉  | 5443/6844 [21:28<05:28,  4.26it/s] 80%|███████▉  | 5444/6844 [21:28<05:28,  4.26it/s] 80%|███████▉  | 5445/6844 [21:28<05:29,  4.25it/s] 80%|███████▉  | 5446/6844 [21:28<05:28,  4.25it/s] 80%|███████▉  | 5447/6844 [21:29<05:28,  4.26it/s] 80%|███████▉  | 5448/6844 [21:29<05:27,  4.26it/s] 80%|███████▉  | 5449/6844 [21:29<05:27,  4.26it/s] 80%|███████▉  | 5450/6844 [21:29<05:27,  4.25it/s]{'loss': 4.3655, 'grad_norm': 0.154815673828125, 'learning_rate': 0.0007269762801462061, 'epoch': 0.16}
-                                                    80%|███████▉  | 5450/6844 [21:29<05:27,  4.25it/s] 80%|███████▉  | 5451/6844 [21:30<05:28,  4.25it/s] 80%|███████▉  | 5452/6844 [21:30<05:28,  4.24it/s] 80%|███████▉  | 5453/6844 [21:30<05:27,  4.25it/s] 80%|███████▉  | 5454/6844 [21:30<05:26,  4.25it/s] 80%|███████▉  | 5455/6844 [21:30<05:26,  4.25it/s] 80%|███████▉  | 5456/6844 [21:31<05:26,  4.25it/s] 80%|███████▉  | 5457/6844 [21:31<05:26,  4.25it/s] 80%|███████▉  | 5458/6844 [21:31<05:26,  4.25it/s] 80%|███████▉  | 5459/6844 [21:31<05:25,  4.25it/s] 80%|███████▉  | 5460/6844 [21:32<05:25,  4.25it/s] 80%|███████▉  | 5461/6844 [21:32<05:25,  4.25it/s] 80%|███████▉  | 5462/6844 [21:32<05:25,  4.25it/s] 80%|███████▉  | 5463/6844 [21:32<05:25,  4.24it/s] 80%|███████▉  | 5464/6844 [21:33<05:25,  4.25it/s] 80%|███████▉  | 5465/6844 [21:33<05:24,  4.25it/s] 80%|███████▉  | 5466/6844 [21:33<05:24,  4.25it/s] 80%|███████▉  | 5467/6844 [21:33<05:24,  4.24it/s] 80%|███████▉  | 5468/6844 [21:34<05:24,  4.24it/s] 80%|███████▉  | 5469/6844 [21:34<05:24,  4.24it/s] 80%|███████▉  | 5470/6844 [21:34<05:23,  4.24it/s] 80%|███████▉  | 5471/6844 [21:34<05:23,  4.24it/s] 80%|███████▉  | 5472/6844 [21:34<05:23,  4.24it/s] 80%|███████▉  | 5473/6844 [21:35<05:22,  4.25it/s] 80%|███████▉  | 5474/6844 [21:35<05:22,  4.25it/s] 80%|███████▉  | 5475/6844 [21:35<05:21,  4.25it/s]                                                   {'loss': 4.3756, 'grad_norm': 0.14258506894111633, 'learning_rate': 0.0007021945780008157, 'epoch': 0.16}
- 80%|███████▉  | 5475/6844 [21:35<05:21,  4.25it/s] 80%|████████  | 5476/6844 [21:35<05:22,  4.24it/s] 80%|████████  | 5477/6844 [21:36<05:22,  4.24it/s] 80%|████████  | 5478/6844 [21:36<05:22,  4.24it/s] 80%|████████  | 5479/6844 [21:36<05:21,  4.25it/s] 80%|████████  | 5480/6844 [21:36<05:21,  4.25it/s] 80%|████████  | 5481/6844 [21:37<05:20,  4.25it/s] 80%|████████  | 5482/6844 [21:37<05:19,  4.26it/s] 80%|████████  | 5483/6844 [21:37<05:19,  4.26it/s] 80%|████████  | 5484/6844 [21:37<05:20,  4.24it/s] 80%|████████  | 5485/6844 [21:38<05:19,  4.25it/s] 80%|████████  | 5486/6844 [21:38<05:19,  4.25it/s] 80%|████████  | 5487/6844 [21:38<05:19,  4.25it/s] 80%|████████  | 5488/6844 [21:38<05:19,  4.24it/s] 80%|████████  | 5489/6844 [21:38<05:19,  4.24it/s] 80%|████████  | 5490/6844 [21:39<05:19,  4.24it/s] 80%|████████  | 5491/6844 [21:39<05:19,  4.24it/s] 80%|████████  | 5492/6844 [21:39<05:18,  4.24it/s] 80%|████████  | 5493/6844 [21:39<05:18,  4.24it/s] 80%|████████  | 5494/6844 [21:40<05:18,  4.24it/s] 80%|████████  | 5495/6844 [21:40<05:17,  4.24it/s] 80%|████████  | 5496/6844 [21:40<05:17,  4.25it/s] 80%|████████  | 5497/6844 [21:40<05:16,  4.25it/s] 80%|████████  | 5498/6844 [21:41<05:16,  4.25it/s] 80%|████████  | 5499/6844 [21:41<05:16,  4.24it/s] 80%|████████  | 5500/6844 [21:41<05:16,  4.24it/s]                                                   {'loss': 4.3601, 'grad_norm': 0.1458827257156372, 'learning_rate': 0.0006777865273461064, 'epoch': 0.16}
- 80%|████████  | 5500/6844 [21:41<05:16,  4.24it/s] 80%|████████  | 5501/6844 [21:41<05:17,  4.23it/s] 80%|████████  | 5502/6844 [21:42<05:17,  4.23it/s] 80%|████████  | 5503/6844 [21:42<05:16,  4.23it/s] 80%|████████  | 5504/6844 [21:42<05:16,  4.23it/s] 80%|████████  | 5505/6844 [21:42<05:16,  4.24it/s] 80%|████████  | 5506/6844 [21:42<05:15,  4.24it/s] 80%|████████  | 5507/6844 [21:43<05:15,  4.24it/s] 80%|████████  | 5508/6844 [21:43<05:14,  4.24it/s] 80%|████████  | 5509/6844 [21:43<05:14,  4.24it/s] 81%|████████  | 5510/6844 [21:43<05:14,  4.24it/s] 81%|████████  | 5511/6844 [21:44<05:13,  4.25it/s] 81%|████████  | 5512/6844 [21:44<05:13,  4.24it/s] 81%|████████  | 5513/6844 [21:44<05:13,  4.24it/s] 81%|████████  | 5514/6844 [21:44<05:13,  4.25it/s] 81%|████████  | 5515/6844 [21:45<05:13,  4.24it/s] 81%|████████  | 5516/6844 [21:45<05:27,  4.06it/s] 81%|████████  | 5517/6844 [21:45<05:33,  3.98it/s] 81%|████████  | 5518/6844 [21:45<05:35,  3.95it/s] 81%|████████  | 5519/6844 [21:46<05:38,  3.92it/s] 81%|████████  | 5520/6844 [21:46<05:39,  3.90it/s] 81%|████████  | 5521/6844 [21:46<05:29,  4.01it/s] 81%|████████  | 5522/6844 [21:46<05:24,  4.08it/s] 81%|████████  | 5523/6844 [21:47<05:19,  4.13it/s] 81%|████████  | 5524/6844 [21:47<05:16,  4.17it/s] 81%|████████  | 5525/6844 [21:47<05:14,  4.20it/s]{'loss': 4.3592, 'grad_norm': 0.14652104675769806, 'learning_rate': 0.0006537560972320342, 'epoch': 0.16}
-                                                    81%|████████  | 5525/6844 [21:47<05:14,  4.20it/s] 81%|████████  | 5526/6844 [21:47<05:13,  4.21it/s] 81%|████████  | 5527/6844 [21:48<05:12,  4.22it/s] 81%|████████  | 5528/6844 [21:48<05:10,  4.24it/s] 81%|████████  | 5529/6844 [21:48<05:11,  4.22it/s] 81%|████████  | 5530/6844 [21:48<05:10,  4.24it/s] 81%|████████  | 5531/6844 [21:48<05:09,  4.24it/s] 81%|████████  | 5532/6844 [21:49<05:09,  4.24it/s] 81%|████████  | 5533/6844 [21:49<05:08,  4.25it/s] 81%|████████  | 5534/6844 [21:49<05:08,  4.25it/s] 81%|████████  | 5535/6844 [21:49<05:07,  4.26it/s] 81%|████████  | 5536/6844 [21:50<05:07,  4.25it/s] 81%|████████  | 5537/6844 [21:50<05:07,  4.26it/s] 81%|████████  | 5538/6844 [21:50<05:06,  4.26it/s] 81%|████████  | 5539/6844 [21:50<05:06,  4.26it/s] 81%|████████  | 5540/6844 [21:51<05:06,  4.26it/s] 81%|████████  | 5541/6844 [21:51<05:06,  4.26it/s] 81%|████████  | 5542/6844 [21:51<05:05,  4.26it/s] 81%|████████  | 5543/6844 [21:51<05:05,  4.26it/s] 81%|████████  | 5544/6844 [21:52<05:05,  4.26it/s] 81%|████████  | 5545/6844 [21:52<05:04,  4.26it/s] 81%|████████  | 5546/6844 [21:52<05:04,  4.26it/s] 81%|████████  | 5547/6844 [21:52<05:04,  4.26it/s] 81%|████████  | 5548/6844 [21:52<05:04,  4.25it/s] 81%|████████  | 5549/6844 [21:53<05:04,  4.25it/s] 81%|████████  | 5550/6844 [21:53<05:04,  4.25it/s]{'loss': 4.3483, 'grad_norm': 0.139010950922966, 'learning_rate': 0.0006301071953028011, 'epoch': 0.16}                                                   
- 81%|████████  | 5550/6844 [21:53<05:04,  4.25it/s] 81%|████████  | 5551/6844 [21:53<05:04,  4.24it/s] 81%|████████  | 5552/6844 [21:53<05:04,  4.24it/s] 81%|████████  | 5553/6844 [21:54<05:04,  4.25it/s] 81%|████████  | 5554/6844 [21:54<05:04,  4.24it/s] 81%|████████  | 5555/6844 [21:54<05:03,  4.24it/s] 81%|████████  | 5556/6844 [21:54<05:03,  4.25it/s] 81%|████████  | 5557/6844 [21:55<05:02,  4.26it/s] 81%|████████  | 5558/6844 [21:55<05:01,  4.26it/s] 81%|████████  | 5559/6844 [21:55<05:01,  4.26it/s] 81%|████████  | 5560/6844 [21:55<05:01,  4.27it/s] 81%|████████▏ | 5561/6844 [21:56<05:00,  4.27it/s] 81%|████████▏ | 5562/6844 [21:56<05:00,  4.27it/s] 81%|████████▏ | 5563/6844 [21:56<05:00,  4.27it/s] 81%|████████▏ | 5564/6844 [21:56<04:59,  4.27it/s] 81%|████████▏ | 5565/6844 [21:56<04:59,  4.27it/s] 81%|████████▏ | 5566/6844 [21:57<04:59,  4.27it/s] 81%|████████▏ | 5567/6844 [21:57<04:59,  4.26it/s] 81%|████████▏ | 5568/6844 [21:57<04:59,  4.26it/s] 81%|████████▏ | 5569/6844 [21:57<04:59,  4.26it/s] 81%|████████▏ | 5570/6844 [21:58<04:59,  4.26it/s] 81%|████████▏ | 5571/6844 [21:58<04:59,  4.25it/s] 81%|████████▏ | 5572/6844 [21:58<04:59,  4.25it/s] 81%|████████▏ | 5573/6844 [21:58<04:58,  4.25it/s] 81%|████████▏ | 5574/6844 [21:59<04:58,  4.25it/s] 81%|████████▏ | 5575/6844 [21:59<04:58,  4.25it/s]{'loss': 4.3725, 'grad_norm': 0.14947573840618134, 'learning_rate': 0.0006068436671614223, 'epoch': 0.16}                                                   
- 81%|████████▏ | 5575/6844 [21:59<04:58,  4.25it/s] 81%|████████▏ | 5576/6844 [21:59<04:58,  4.24it/s] 81%|████████▏ | 5577/6844 [21:59<04:58,  4.25it/s] 82%|████████▏ | 5578/6844 [22:00<04:57,  4.25it/s] 82%|████████▏ | 5579/6844 [22:00<04:57,  4.25it/s] 82%|████████▏ | 5580/6844 [22:00<04:57,  4.25it/s] 82%|████████▏ | 5581/6844 [22:00<04:57,  4.25it/s] 82%|████████▏ | 5582/6844 [22:00<04:56,  4.25it/s] 82%|████████▏ | 5583/6844 [22:01<04:56,  4.25it/s] 82%|████████▏ | 5584/6844 [22:01<04:55,  4.26it/s] 82%|████████▏ | 5585/6844 [22:01<04:55,  4.25it/s] 82%|████████��� | 5586/6844 [22:01<04:55,  4.26it/s] 82%|████████▏ | 5587/6844 [22:02<04:55,  4.26it/s] 82%|████████▏ | 5588/6844 [22:02<04:55,  4.25it/s] 82%|████████▏ | 5589/6844 [22:02<04:54,  4.26it/s] 82%|████████▏ | 5590/6844 [22:02<04:54,  4.26it/s] 82%|████████▏ | 5591/6844 [22:03<04:54,  4.25it/s] 82%|████████▏ | 5592/6844 [22:03<04:54,  4.25it/s] 82%|████████▏ | 5593/6844 [22:03<04:54,  4.25it/s] 82%|████████▏ | 5594/6844 [22:03<04:54,  4.25it/s] 82%|████████▏ | 5595/6844 [22:04<04:54,  4.25it/s] 82%|████████▏ | 5596/6844 [22:04<04:53,  4.25it/s] 82%|████████▏ | 5597/6844 [22:04<04:53,  4.25it/s] 82%|████████▏ | 5598/6844 [22:04<04:53,  4.25it/s] 82%|████████▏ | 5599/6844 [22:04<04:53,  4.25it/s] 82%|████████▏ | 5600/6844 [22:05<04:52,  4.25it/s]                                                   {'loss': 4.3557, 'grad_norm': 0.1474434733390808, 'learning_rate': 0.0005839692957443837, 'epoch': 0.16}
- 82%|████████▏ | 5600/6844 [22:05<04:52,  4.25it/s] 82%|████████▏ | 5601/6844 [22:05<04:53,  4.23it/s] 82%|████████▏ | 5602/6844 [22:05<04:52,  4.24it/s] 82%|████████▏ | 5603/6844 [22:05<04:52,  4.24it/s] 82%|████████▏ | 5604/6844 [22:06<04:51,  4.25it/s] 82%|████████▏ | 5605/6844 [22:06<04:51,  4.25it/s] 82%|████████▏ | 5606/6844 [22:06<04:50,  4.26it/s] 82%|████████▏ | 5607/6844 [22:06<04:50,  4.26it/s] 82%|████████▏ | 5608/6844 [22:07<04:50,  4.26it/s] 82%|████████▏ | 5609/6844 [22:07<04:50,  4.25it/s] 82%|████████▏ | 5610/6844 [22:07<04:50,  4.25it/s] 82%|████████▏ | 5611/6844 [22:07<04:50,  4.25it/s] 82%|████████▏ | 5612/6844 [22:08<04:49,  4.25it/s] 82%|████████▏ | 5613/6844 [22:08<04:49,  4.25it/s] 82%|████████▏ | 5614/6844 [22:08<04:49,  4.25it/s] 82%|████████▏ | 5615/6844 [22:08<04:48,  4.26it/s] 82%|████████▏ | 5616/6844 [22:08<04:48,  4.25it/s] 82%|████████▏ | 5617/6844 [22:09<04:48,  4.25it/s] 82%|████████▏ | 5618/6844 [22:09<04:47,  4.26it/s] 82%|████████▏ | 5619/6844 [22:09<04:47,  4.26it/s] 82%|████████▏ | 5620/6844 [22:09<04:47,  4.26it/s] 82%|████████▏ | 5621/6844 [22:10<04:47,  4.25it/s] 82%|████████▏ | 5622/6844 [22:10<04:47,  4.25it/s] 82%|████████▏ | 5623/6844 [22:10<04:47,  4.24it/s] 82%|████████▏ | 5624/6844 [22:10<04:47,  4.24it/s] 82%|████████▏ | 5625/6844 [22:11<04:47,  4.25it/s]{'loss': 4.3348, 'grad_norm': 0.1433081179857254, 'learning_rate': 0.0005614878007064898, 'epoch': 0.16}
-                                                    82%|████████▏ | 5625/6844 [22:11<04:47,  4.25it/s] 82%|████████▏ | 5626/6844 [22:11<04:47,  4.24it/s] 82%|████████▏ | 5627/6844 [22:11<04:47,  4.24it/s] 82%|████████▏ | 5628/6844 [22:11<04:46,  4.24it/s] 82%|████████▏ | 5629/6844 [22:12<04:46,  4.24it/s] 82%|████████▏ | 5630/6844 [22:12<04:46,  4.24it/s] 82%|████████▏ | 5631/6844 [22:12<04:45,  4.24it/s] 82%|████████▏ | 5632/6844 [22:12<04:45,  4.25it/s] 82%|████████▏ | 5633/6844 [22:12<04:45,  4.25it/s] 82%|████████▏ | 5634/6844 [22:13<04:44,  4.25it/s] 82%|████████▏ | 5635/6844 [22:13<04:44,  4.25it/s] 82%|████████▏ | 5636/6844 [22:13<04:44,  4.25it/s] 82%|████████▏ | 5637/6844 [22:13<04:44,  4.24it/s] 82%|████████▏ | 5638/6844 [22:14<04:43,  4.25it/s] 82%|████████▏ | 5639/6844 [22:14<04:43,  4.24it/s] 82%|████████▏ | 5640/6844 [22:14<04:43,  4.25it/s] 82%|████████▏ | 5641/6844 [22:14<04:42,  4.25it/s] 82%|████████▏ | 5642/6844 [22:15<04:42,  4.25it/s] 82%|████████▏ | 5643/6844 [22:15<04:44,  4.23it/s] 82%|████████▏ | 5644/6844 [22:15<04:46,  4.19it/s] 82%|████████▏ | 5645/6844 [22:15<04:44,  4.21it/s] 82%|████████▏ | 5646/6844 [22:16<04:43,  4.23it/s] 83%|████████▎ | 5647/6844 [22:16<04:42,  4.23it/s] 83%|████████▎ | 5648/6844 [22:16<04:42,  4.23it/s] 83%|████████▎ | 5649/6844 [22:16<04:41,  4.24it/s] 83%|████████▎ | 5650/6844 [22:16<04:40,  4.25it/s]                                                   {'loss': 4.3396, 'grad_norm': 0.14556840062141418, 'learning_rate': 0.0005394028378160031, 'epoch': 0.17}
- 83%|████████▎ | 5650/6844 [22:16<04:40,  4.25it/s] 83%|████████▎ | 5651/6844 [22:17<04:41,  4.24it/s] 83%|████████▎ | 5652/6844 [22:17<04:40,  4.24it/s] 83%|████████▎ | 5653/6844 [22:17<04:40,  4.25it/s] 83%|████████▎ | 5654/6844 [22:17<04:40,  4.24it/s] 83%|████████▎ | 5655/6844 [22:18<04:40,  4.24it/s] 83%|████████▎ | 5656/6844 [22:18<04:39,  4.25it/s] 83%|████████▎ | 5657/6844 [22:18<04:39,  4.25it/s] 83%|████████▎ | 5658/6844 [22:18<04:39,  4.24it/s] 83%|████████▎ | 5659/6844 [22:19<04:39,  4.24it/s] 83%|████████▎ | 5660/6844 [22:19<04:39,  4.24it/s] 83%|████████▎ | 5661/6844 [22:19<04:38,  4.24it/s] 83%|████████▎ | 5662/6844 [22:19<04:38,  4.24it/s] 83%|████████▎ | 5663/6844 [22:20<04:38,  4.24it/s] 83%|████████▎ | 5664/6844 [22:20<04:38,  4.24it/s] 83%|████████▎ | 5665/6844 [22:20<04:38,  4.24it/s] 83%|████████▎ | 5666/6844 [22:20<04:37,  4.24it/s] 83%|████████▎ | 5667/6844 [22:20<04:37,  4.25it/s] 83%|████████▎ | 5668/6844 [22:21<04:36,  4.25it/s] 83%|████████▎ | 5669/6844 [22:21<04:36,  4.25it/s] 83%|████████▎ | 5670/6844 [22:21<04:36,  4.25it/s] 83%|████████▎ | 5671/6844 [22:21<04:35,  4.25it/s] 83%|████████▎ | 5672/6844 [22:22<04:36,  4.24it/s] 83%|████████▎ | 5673/6844 [22:22<04:35,  4.24it/s] 83%|████████▎ | 5674/6844 [22:22<04:35,  4.24it/s] 83%|████████▎ | 5675/6844 [22:22<04:34,  4.25it/s]                                                   {'loss': 4.3408, 'grad_norm': 0.1434837132692337, 'learning_rate': 0.0005177179983601688, 'epoch': 0.17}
- 83%|████████▎ | 5675/6844 [22:22<04:34,  4.25it/s] 83%|████████▎ | 5676/6844 [22:23<04:35,  4.24it/s] 83%|████████▎ | 5677/6844 [22:23<04:34,  4.25it/s] 83%|████████▎ | 5678/6844 [22:23<04:34,  4.25it/s] 83%|████████▎ | 5679/6844 [22:23<04:34,  4.24it/s] 83%|████████▎ | 5680/6844 [22:24<04:34,  4.24it/s] 83%|████████▎ | 5681/6844 [22:24<04:34,  4.23it/s] 83%|████████▎ | 5682/6844 [22:24<04:34,  4.24it/s] 83%|████████▎ | 5683/6844 [22:24<04:33,  4.24it/s] 83%|████████▎ | 5684/6844 [22:24<04:33,  4.24it/s] 83%|████████▎ | 5685/6844 [22:25<04:32,  4.25it/s] 83%|████████▎ | 5686/6844 [22:25<04:32,  4.24it/s] 83%|████████▎ | 5687/6844 [22:25<04:32,  4.24it/s] 83%|████████▎ | 5688/6844 [22:25<04:32,  4.24it/s] 83%|████████▎ | 5689/6844 [22:26<04:32,  4.23it/s] 83%|████████▎ | 5690/6844 [22:26<04:33,  4.22it/s] 83%|████████▎ | 5691/6844 [22:26<04:32,  4.23it/s] 83%|████████▎ | 5692/6844 [22:26<04:31,  4.24it/s] 83%|████████▎ | 5693/6844 [22:27<04:31,  4.24it/s] 83%|████████▎ | 5694/6844 [22:27<04:30,  4.24it/s] 83%|████████▎ | 5695/6844 [22:27<04:30,  4.25it/s] 83%|████████▎ | 5696/6844 [22:27<04:30,  4.25it/s] 83%|████████▎ | 5697/6844 [22:28<04:30,  4.24it/s] 83%|████████▎ | 5698/6844 [22:28<04:30,  4.24it/s] 83%|████████▎ | 5699/6844 [22:28<04:29,  4.24it/s] 83%|████████▎ | 5700/6844 [22:28<04:29,  4.24it/s]{'loss': 4.3523, 'grad_norm': 0.15566402673721313, 'learning_rate': 0.00049643680856123, 'epoch': 0.17}                                                   
- 83%|████████▎ | 5700/6844 [22:28<04:29,  4.24it/s] 83%|████████▎ | 5701/6844 [22:29<04:30,  4.23it/s] 83%|████████▎ | 5702/6844 [22:29<04:29,  4.24it/s] 83%|████████▎ | 5703/6844 [22:29<04:28,  4.24it/s] 83%|████████▎ | 5704/6844 [22:29<04:28,  4.24it/s] 83%|████████▎ | 5705/6844 [22:29<04:27,  4.25it/s] 83%|████████▎ | 5706/6844 [22:30<04:27,  4.25it/s] 83%|████████▎ | 5707/6844 [22:30<04:27,  4.25it/s] 83%|████████▎ | 5708/6844 [22:30<04:27,  4.25it/s] 83%|████████▎ | 5709/6844 [22:30<04:27,  4.25it/s] 83%|████████▎ | 5710/6844 [22:31<04:26,  4.25it/s] 83%|████████▎ | 5711/6844 [22:31<04:26,  4.25it/s] 83%|████████▎ | 5712/6844 [22:31<04:26,  4.25it/s] 83%|████████▎ | 5713/6844 [22:31<04:25,  4.26it/s] 83%|████████▎ | 5714/6844 [22:32<04:25,  4.26it/s] 84%|████████▎ | 5715/6844 [22:32<04:25,  4.26it/s] 84%|██████��█▎ | 5716/6844 [22:32<04:24,  4.26it/s] 84%|████████▎ | 5717/6844 [22:32<04:24,  4.26it/s] 84%|████████▎ | 5718/6844 [22:32<04:24,  4.25it/s] 84%|████████▎ | 5719/6844 [22:33<04:24,  4.26it/s] 84%|████████▎ | 5720/6844 [22:33<04:24,  4.26it/s] 84%|████████▎ | 5721/6844 [22:33<04:24,  4.25it/s] 84%|████████▎ | 5722/6844 [22:33<04:24,  4.24it/s] 84%|████████▎ | 5723/6844 [22:34<04:24,  4.24it/s] 84%|████████▎ | 5724/6844 [22:34<04:24,  4.24it/s] 84%|████████▎ | 5725/6844 [22:34<04:23,  4.24it/s]{'loss': 4.3463, 'grad_norm': 0.15503919124603271, 'learning_rate': 0.00047556272900301823, 'epoch': 0.17}                                                   
- 84%|████████▎ | 5725/6844 [22:34<04:23,  4.24it/s] 84%|████████▎ | 5726/6844 [22:34<04:24,  4.23it/s] 84%|████████▎ | 5727/6844 [22:35<04:24,  4.23it/s] 84%|████████▎ | 5728/6844 [22:35<04:24,  4.22it/s] 84%|████████▎ | 5729/6844 [22:35<04:23,  4.23it/s] 84%|████████▎ | 5730/6844 [22:35<04:22,  4.25it/s] 84%|████████▎ | 5731/6844 [22:36<04:22,  4.25it/s] 84%|████████▍ | 5732/6844 [22:36<04:21,  4.25it/s] 84%|████████▍ | 5733/6844 [22:36<04:21,  4.25it/s] 84%|████████▍ | 5734/6844 [22:36<04:21,  4.25it/s] 84%|████████▍ | 5735/6844 [22:37<04:20,  4.25it/s] 84%|████████▍ | 5736/6844 [22:37<04:20,  4.25it/s] 84%|████████▍ | 5737/6844 [22:37<04:20,  4.26it/s] 84%|████████▍ | 5738/6844 [22:37<04:20,  4.24it/s] 84%|████████▍ | 5739/6844 [22:37<04:20,  4.24it/s] 84%|████████▍ | 5740/6844 [22:38<04:20,  4.24it/s] 84%|████████▍ | 5741/6844 [22:38<04:20,  4.24it/s] 84%|████████▍ | 5742/6844 [22:38<04:20,  4.23it/s] 84%|████████▍ | 5743/6844 [22:38<04:19,  4.24it/s] 84%|████████▍ | 5744/6844 [22:39<04:19,  4.24it/s] 84%|████████▍ | 5745/6844 [22:39<04:18,  4.25it/s] 84%|████████▍ | 5746/6844 [22:39<04:18,  4.25it/s] 84%|████████▍ | 5747/6844 [22:39<04:18,  4.25it/s] 84%|████████▍ | 5748/6844 [22:40<04:18,  4.25it/s] 84%|████████▍ | 5749/6844 [22:40<04:17,  4.25it/s] 84%|████████▍ | 5750/6844 [22:40<04:17,  4.25it/s]{'loss': 4.3388, 'grad_norm': 0.14710675179958344, 'learning_rate': 0.00045509915406822057, 'epoch': 0.17}
-                                                    84%|████████▍ | 5750/6844 [22:40<04:17,  4.25it/s] 84%|████████▍ | 5751/6844 [22:40<04:17,  4.24it/s] 84%|████████▍ | 5752/6844 [22:41<04:17,  4.24it/s] 84%|████████▍ | 5753/6844 [22:41<04:17,  4.24it/s] 84%|████████▍ | 5754/6844 [22:41<04:16,  4.25it/s] 84%|████████▍ | 5755/6844 [22:41<04:16,  4.25it/s] 84%|████████▍ | 5756/6844 [22:41<04:15,  4.25it/s] 84%|████████▍ | 5757/6844 [22:42<04:15,  4.25it/s] 84%|████████▍ | 5758/6844 [22:42<04:15,  4.26it/s] 84%|████████▍ | 5759/6844 [22:42<04:15,  4.25it/s] 84%|████████▍ | 5760/6844 [22:42<04:15,  4.25it/s] 84%|████████▍ | 5761/6844 [22:43<04:14,  4.25it/s] 84%|████████▍ | 5762/6844 [22:43<04:14,  4.25it/s] 84%|████████▍ | 5763/6844 [22:43<04:14,  4.25it/s] 84%|████████▍ | 5764/6844 [22:43<04:14,  4.24it/s] 84%|████████▍ | 5765/6844 [22:44<04:14,  4.25it/s] 84%|████████▍ | 5766/6844 [22:44<04:13,  4.25it/s] 84%|████████▍ | 5767/6844 [22:44<04:13,  4.25it/s] 84%|████████▍ | 5768/6844 [22:44<04:13,  4.25it/s] 84%|████████▍ | 5769/6844 [22:45<04:12,  4.25it/s] 84%|████████▍ | 5770/6844 [22:45<04:22,  4.09it/s] 84%|████████▍ | 5771/6844 [22:45<04:29,  3.98it/s] 84%|████████▍ | 5772/6844 [22:45<04:27,  4.01it/s] 84%|████████▍ | 5773/6844 [22:46<04:22,  4.08it/s] 84%|████████▍ | 5774/6844 [22:46<04:23,  4.06it/s] 84%|████████▍ | 5775/6844 [22:46<04:19,  4.12it/s]                                                   {'loss': 4.3518, 'grad_norm': 0.1428011804819107, 'learning_rate': 0.0004350494113864125, 'epoch': 0.17}
- 84%|████████▍ | 5775/6844 [22:46<04:19,  4.12it/s] 84%|████████▍ | 5776/6844 [22:46<04:17,  4.15it/s] 84%|████████▍ | 5777/6844 [22:46<04:15,  4.18it/s] 84%|████████▍ | 5778/6844 [22:47<04:13,  4.21it/s] 84%|████████▍ | 5779/6844 [22:47<04:12,  4.22it/s] 84%|████████▍ | 5780/6844 [22:47<04:12,  4.21it/s] 84%|████████▍ | 5781/6844 [22:47<04:11,  4.22it/s] 84%|████████▍ | 5782/6844 [22:48<04:10,  4.23it/s] 84%|████████▍ | 5783/6844 [22:48<04:10,  4.23it/s] 85%|████████▍ | 5784/6844 [22:48<04:10,  4.23it/s] 85%|████████▍ | 5785/6844 [22:48<04:10,  4.23it/s] 85%|████████▍ | 5786/6844 [22:49<04:09,  4.24it/s] 85%|████████▍ | 5787/6844 [22:49<04:09,  4.24it/s] 85%|████████▍ | 5788/6844 [22:49<04:08,  4.25it/s] 85%|████████▍ | 5789/6844 [22:49<04:08,  4.25it/s] 85%|████████▍ | 5790/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5791/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5792/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5793/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5794/6844 [22:50<04:06,  4.25it/s] 85%|████████▍ | 5795/6844 [22:51<04:06,  4.26it/s] 85%|████████▍ | 5796/6844 [22:51<04:06,  4.26it/s] 85%|████████▍ | 5797/6844 [22:51<04:05,  4.26it/s] 85%|████████▍ | 5798/6844 [22:51<04:06,  4.25it/s] 85%|████████▍ | 5799/6844 [22:52<04:05,  4.25it/s] 85%|████████▍ | 5800/6844 [22:52<04:05,  4.26it/s]{'loss': 4.3491, 'grad_norm': 0.14710864424705505, 'learning_rate': 0.00041541676129294117, 'epoch': 0.17}
-                                                    85%|████████▍ | 5800/6844 [22:52<04:05,  4.26it/s] 85%|████████▍ | 5801/6844 [22:52<04:06,  4.23it/s] 85%|████████▍ | 5802/6844 [22:52<04:06,  4.24it/s] 85%|████████▍ | 5803/6844 [22:53<04:05,  4.24it/s] 85%|████████▍ | 5804/6844 [22:53<04:04,  4.25it/s] 85%|████████▍ | 5805/6844 [22:53<04:04,  4.25it/s] 85%|████████▍ | 5806/6844 [22:53<04:04,  4.25it/s] 85%|████████▍ | 5807/6844 [22:54<04:04,  4.25it/s] 85%|████████▍ | 5808/6844 [22:54<04:03,  4.25it/s] 85%|████████▍ | 5809/6844 [22:54<04:03,  4.25it/s] 85%|████████▍ | 5810/6844 [22:54<04:03,  4.25it/s] 85%|████████▍ | 5811/6844 [22:54<04:02,  4.26it/s] 85%|████████▍ | 5812/6844 [22:55<04:02,  4.26it/s] 85%|████████▍ | 5813/6844 [22:55<04:02,  4.26it/s] 85%|████████▍ | 5814/6844 [22:55<04:01,  4.26it/s] 85%|████████▍ | 5815/6844 [22:55<04:01,  4.26it/s] 85%|████████▍ | 5816/6844 [22:56<04:01,  4.26it/s] 85%|████████▍ | 5817/6844 [22:56<04:01,  4.26it/s] 85%|████████▌ | 5818/6844 [22:56<04:00,  4.26it/s] 85%|████████▌ | 5819/6844 [22:56<04:00,  4.26it/s] 85%|████████▌ | 5820/6844 [22:57<04:00,  4.25it/s] 85%|████████▌ | 5821/6844 [22:57<04:01,  4.24it/s] 85%|████████▌ | 5822/6844 [22:57<04:00,  4.24it/s] 85%|████████▌ | 5823/6844 [22:57<04:00,  4.25it/s] 85%|████████▌ | 5824/6844 [22:58<03:59,  4.25it/s] 85%|████████▌ | 5825/6844 [22:58<03:59,  4.25it/s]                                                   {'loss': 4.3531, 'grad_norm': 0.1469997614622116, 'learning_rate': 0.0003962043962987584, 'epoch': 0.17}
- 85%|████████▌ | 5825/6844 [22:58<03:59,  4.25it/s] 85%|████████▌ | 5826/6844 [22:58<04:00,  4.24it/s] 85%|████████▌ | 5827/6844 [22:58<03:59,  4.24it/s] 85%|████████▌ | 5828/6844 [22:58<03:59,  4.24it/s] 85%|████████▌ | 5829/6844 [22:59<03:59,  4.25it/s] 85%|████████▌ | 5830/6844 [22:59<03:58,  4.25it/s] 85%|████████▌ | 5831/6844 [22:59<03:58,  4.25it/s] 85%|████████▌ | 5832/6844 [22:59<03:57,  4.25it/s] 85%|████████▌ | 5833/6844 [23:00<03:57,  4.25it/s] 85%|████████▌ | 5834/6844 [23:00<03:57,  4.25it/s] 85%|████████▌ | 5835/6844 [23:00<03:57,  4.25it/s] 85%|████████▌ | 5836/6844 [23:00<03:56,  4.26it/s] 85%|████████▌ | 5837/6844 [23:01<03:56,  4.26it/s] 85%|████████▌ | 5838/6844 [23:01<03:55,  4.27it/s] 85%|████████▌ | 5839/6844 [23:01<03:55,  4.27it/s] 85%|████████▌ | 5840/6844 [23:01<03:55,  4.26it/s] 85%|████████▌ | 5841/6844 [23:02<03:54,  4.27it/s] 85%|████████▌ | 5842/6844 [23:02<03:54,  4.27it/s] 85%|████████▌ | 5843/6844 [23:02<03:54,  4.26it/s] 85%|████████▌ | 5844/6844 [23:02<03:54,  4.26it/s] 85%|████████▌ | 5845/6844 [23:02<03:54,  4.27it/s] 85%|████████▌ | 5846/6844 [23:03<03:53,  4.27it/s] 85%|████████▌ | 5847/6844 [23:03<03:53,  4.26it/s] 85%|████████▌ | 5848/6844 [23:03<03:54,  4.26it/s] 85%|████████▌ | 5849/6844 [23:03<03:54,  4.25it/s] 85%|████████▌ | 5850/6844 [23:04<03:53,  4.25it/s]{'loss': 4.3332, 'grad_norm': 0.14448854327201843, 'learning_rate': 0.000377415440571277, 'epoch': 0.17}
-                                                    85%|████████▌ | 5850/6844 [23:04<03:53,  4.25it/s] 85%|████████▌ | 5851/6844 [23:04<03:54,  4.24it/s] 86%|████████▌ | 5852/6844 [23:04<03:54,  4.24it/s] 86%|████████▌ | 5853/6844 [23:04<03:53,  4.24it/s] 86%|████████▌ | 5854/6844 [23:05<03:53,  4.24it/s] 86%|████████▌ | 5855/6844 [23:05<03:53,  4.24it/s] 86%|████████▌ | 5856/6844 [23:05<03:52,  4.24it/s] 86%|████████▌ | 5857/6844 [23:05<03:52,  4.25it/s] 86%|████████▌ | 5858/6844 [23:06<03:51,  4.25it/s] 86%|████████▌ | 5859/6844 [23:06<03:51,  4.25it/s] 86%|████████▌ | 5860/6844 [23:06<03:51,  4.26it/s] 86%|████████▌ | 5861/6844 [23:06<03:50,  4.26it/s] 86%|████████▌ | 5862/6844 [23:06<03:50,  4.26it/s] 86%|████████▌ | 5863/6844 [23:07<03:50,  4.26it/s] 86%|████████▌ | 5864/6844 [23:07<03:50,  4.26it/s] 86%|████████▌ | 5865/6844 [23:07<03:50,  4.25it/s] 86%|████████▌ | 5866/6844 [23:07<03:49,  4.26it/s] 86%|████████▌ | 5867/6844 [23:08<03:49,  4.26it/s] 86%|████████▌ | 5868/6844 [23:08<03:49,  4.26it/s] 86%|████████▌ | 5869/6844 [23:08<03:49,  4.25it/s] 86%|████████▌ | 5870/6844 [23:08<03:49,  4.25it/s] 86%|████████▌ | 5871/6844 [23:09<03:48,  4.26it/s] 86%|████████▌ | 5872/6844 [23:09<03:48,  4.25it/s] 86%|████████▌ | 5873/6844 [23:09<03:48,  4.25it/s] 86%|████████▌ | 5874/6844 [23:09<03:48,  4.25it/s] 86%|████████▌ | 5875/6844 [23:10<03:47,  4.25it/s]                                                   {'loss': 4.3443, 'grad_norm': 0.15255220234394073, 'learning_rate': 0.0003590529494263416, 'epoch': 0.17}
- 86%|████████▌ | 5875/6844 [23:10<03:47,  4.25it/s] 86%|████████▌ | 5876/6844 [23:10<03:48,  4.24it/s] 86%|████████▌ | 5877/6844 [23:10<03:48,  4.24it/s] 86%|████████▌ | 5878/6844 [23:10<03:47,  4.24it/s] 86%|████████▌ | 5879/6844 [23:10<03:47,  4.24it/s] 86%|████████▌ | 5880/6844 [23:11<03:48,  4.22it/s] 86%|████████▌ | 5881/6844 [23:11<03:47,  4.22it/s] 86%|████████▌ | 5882/6844 [23:11<03:47,  4.23it/s] 86%|████████▌ | 5883/6844 [23:11<03:47,  4.23it/s] 86%|████████▌ | 5884/6844 [23:12<03:46,  4.24it/s] 86%|████████▌ | 5885/6844 [23:12<03:46,  4.24it/s] 86%|████████▌ | 5886/6844 [23:12<03:45,  4.24it/s] 86%|████████▌ | 5887/6844 [23:12<03:45,  4.25it/s] 86%|████████▌ | 5888/6844 [23:13<03:44,  4.25it/s] 86%|████████▌ | 5889/6844 [23:13<03:44,  4.26it/s] 86%|████████▌ | 5890/6844 [23:13<03:44,  4.25it/s] 86%|████████▌ | 5891/6844 [23:13<03:43,  4.25it/s] 86%|████████▌ | 5892/6844 [23:14<03:44,  4.25it/s] 86%|████████▌ | 5893/6844 [23:14<03:43,  4.25it/s] 86%|████████▌ | 5894/6844 [23:14<03:43,  4.25it/s] 86%|████████▌ | 5895/6844 [23:14<03:42,  4.26it/s] 86%|████████▌ | 5896/6844 [23:14<03:42,  4.26it/s] 86%|████████▌ | 5897/6844 [23:15<03:51,  4.09it/s] 86%|████████▌ | 5898/6844 [23:15<03:59,  3.96it/s] 86%|████████▌ | 5899/6844 [23:15<03:53,  4.04it/s] 86%|████████▌ | 5900/6844 [23:15<03:50,  4.10it/s]{'loss': 4.3432, 'grad_norm': 0.15096712112426758, 'learning_rate': 0.00034111990883139954, 'epoch': 0.17}
-                                                    86%|████████▌ | 5900/6844 [23:15<03:50,  4.10it/s] 86%|████████▌ | 5901/6844 [23:16<03:48,  4.13it/s] 86%|████████▌ | 5902/6844 [23:16<03:46,  4.17it/s] 86%|████████▋ | 5903/6844 [23:16<03:44,  4.20it/s] 86%|████████▋ | 5904/6844 [23:16<03:42,  4.22it/s] 86%|████████▋ | 5905/6844 [23:17<03:42,  4.22it/s] 86%|████████▋ | 5906/6844 [23:17<03:41,  4.23it/s] 86%|████████▋ | 5907/6844 [23:17<03:40,  4.24it/s] 86%|████████▋ | 5908/6844 [23:17<03:40,  4.25it/s] 86%|████████▋ | 5909/6844 [23:18<03:40,  4.24it/s] 86%|████████▋ | 5910/6844 [23:18<03:40,  4.24it/s] 86%|████████▋ | 5911/6844 [23:18<03:39,  4.25it/s] 86%|████████▋ | 5912/6844 [23:18<03:39,  4.25it/s] 86%|████████▋ | 5913/6844 [23:19<03:38,  4.26it/s] 86%|████████▋ | 5914/6844 [23:19<03:38,  4.25it/s] 86%|████████▋ | 5915/6844 [23:19<03:38,  4.26it/s] 86%|████████▋ | 5916/6844 [23:19<03:38,  4.25it/s] 86%|████████▋ | 5917/6844 [23:19<03:38,  4.25it/s] 86%|████████▋ | 5918/6844 [23:20<03:37,  4.25it/s] 86%|████████▋ | 5919/6844 [23:20<03:37,  4.26it/s] 86%|████████▋ | 5920/6844 [23:20<03:37,  4.25it/s] 87%|████████▋ | 5921/6844 [23:20<03:37,  4.25it/s] 87%|████████▋ | 5922/6844 [23:21<03:36,  4.26it/s] 87%|████████▋ | 5923/6844 [23:21<03:36,  4.26it/s] 87%|████████▋ | 5924/6844 [23:21<03:35,  4.26it/s] 87%|████████▋ | 5925/6844 [23:21<03:35,  4.26it/s]{'loss': 4.3315, 'grad_norm': 0.13999615609645844, 'learning_rate': 0.0003236192349199432, 'epoch': 0.17}                                                   
- 87%|████████▋ | 5925/6844 [23:21<03:35,  4.26it/s] 87%|████████▋ | 5926/6844 [23:22<03:36,  4.24it/s] 87%|████████▋ | 5927/6844 [23:22<03:36,  4.23it/s] 87%|████████▋ | 5928/6844 [23:22<03:36,  4.24it/s] 87%|████████▋ | 5929/6844 [23:22<03:35,  4.24it/s] 87%|████████▋ | 5930/6844 [23:23<03:35,  4.24it/s] 87%|████████▋ | 5931/6844 [23:23<03:34,  4.25it/s] 87%|████████▋ | 5932/6844 [23:23<03:34,  4.25it/s] 87%|████████▋ | 5933/6844 [23:23<03:34,  4.25it/s] 87%|████████▋ | 5934/6844 [23:23<03:34,  4.25it/s] 87%|████████▋ | 5935/6844 [23:24<03:34,  4.24it/s] 87%|████████▋ | 5936/6844 [23:24<03:34,  4.24it/s] 87%|████████▋ | 5937/6844 [23:24<03:34,  4.23it/s] 87%|████████▋ | 5938/6844 [23:24<03:33,  4.24it/s] 87%|████████▋ | 5939/6844 [23:25<03:33,  4.24it/s] 87%|████████▋ | 5940/6844 [23:25<03:32,  4.25it/s] 87%|████████▋ | 5941/6844 [23:25<03:32,  4.25it/s] 87%|████████▋ | 5942/6844 [23:25<03:31,  4.26it/s] 87%|████████▋ | 5943/6844 [23:26<03:31,  4.26it/s] 87%|████████▋ | 5944/6844 [23:26<03:31,  4.25it/s] 87%|████████▋ | 5945/6844 [23:26<03:31,  4.26it/s] 87%|████████▋ | 5946/6844 [23:26<03:30,  4.26it/s] 87%|████████▋ | 5947/6844 [23:27<03:30,  4.26it/s] 87%|████████▋ | 5948/6844 [23:27<03:30,  4.26it/s] 87%|████████▋ | 5949/6844 [23:27<03:30,  4.26it/s] 87%|████████▋ | 5950/6844 [23:27<03:29,  4.26it/s]{'loss': 4.3517, 'grad_norm': 0.14998839795589447, 'learning_rate': 0.0003065537735173118, 'epoch': 0.17}                                                   
- 87%|████████▋ | 5950/6844 [23:27<03:29,  4.26it/s] 87%|████████▋ | 5951/6844 [23:27<03:30,  4.23it/s] 87%|████████▋ | 5952/6844 [23:28<03:30,  4.25it/s] 87%|████████▋ | 5953/6844 [23:28<03:29,  4.25it/s] 87%|████████▋ | 5954/6844 [23:28<03:29,  4.26it/s] 87%|████████▋ | 5955/6844 [23:28<03:29,  4.25it/s] 87%|████████▋ | 5956/6844 [23:29<03:28,  4.26it/s] 87%|████████▋ | 5957/6844 [23:29<03:27,  4.27it/s] 87%|████████▋ | 5958/6844 [23:29<03:27,  4.26it/s] 87%|████████▋ | 5959/6844 [23:29<03:27,  4.26it/s] 87%|████████▋ | 5960/6844 [23:30<03:27,  4.26it/s] 87%|████████▋ | 5961/6844 [23:30<03:27,  4.26it/s] 87%|████████▋ | 5962/6844 [23:30<03:27,  4.26it/s] 87%|████████▋ | 5963/6844 [23:30<03:26,  4.26it/s] 87%|████████▋ | 5964/6844 [23:31<03:26,  4.25it/s] 87%|████████▋ | 5965/6844 [23:31<03:26,  4.25it/s] 87%|████████▋ | 5966/6844 [23:31<03:26,  4.25it/s] 87%|████████▋ | 5967/6844 [23:31<03:25,  4.26it/s] 87%|████████▋ | 5968/6844 [23:31<03:25,  4.26it/s] 87%|████████▋ | 5969/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5970/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5971/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5972/6844 [23:32<03:24,  4.26it/s] 87%|████████▋ | 5973/6844 [23:33<03:24,  4.25it/s] 87%|████████▋ | 5974/6844 [23:33<03:24,  4.26it/s] 87%|████████▋ | 5975/6844 [23:33<03:24,  4.26it/s]                                                   {'loss': 4.34, 'grad_norm': 0.15449412167072296, 'learning_rate': 0.00028992629967792584, 'epoch': 0.17}
- 87%|████████▋ | 5975/6844 [23:33<03:24,  4.26it/s] 87%|████████▋ | 5976/6844 [23:33<03:24,  4.25it/s] 87%|████████▋ | 5977/6844 [23:34<03:23,  4.25it/s] 87%|████████▋ | 5978/6844 [23:34<03:23,  4.25it/s] 87%|████████▋ | 5979/6844 [23:34<03:23,  4.25it/s] 87%|████████▋ | 5980/6844 [23:34<03:22,  4.26it/s] 87%|████████▋ | 5981/6844 [23:35<03:22,  4.25it/s] 87%|████████▋ | 5982/6844 [23:35<03:22,  4.26it/s] 87%|████████▋ | 5983/6844 [23:35<03:22,  4.26it/s] 87%|████████▋ | 5984/6844 [23:35<03:21,  4.26it/s] 87%|████████▋ | 5985/6844 [23:35<03:21,  4.26it/s] 87%|████████▋ | 5986/6844 [23:36<03:21,  4.26it/s] 87%|████████▋ | 5987/6844 [23:36<03:20,  4.26it/s] 87%|████████▋ | 5988/6844 [23:36<03:20,  4.27it/s] 88%|████████▊ | 5989/6844 [23:36<03:20,  4.26it/s] 88%|████████▊ | 5990/6844 [23:37<03:20,  4.26it/s] 88%|████████▊ | 5991/6844 [23:37<03:20,  4.26it/s] 88%|████████▊ | 5992/6844 [23:37<03:19,  4.26it/s] 88%|████████▊ | 5993/6844 [23:37<03:19,  4.26it/s] 88%|████████▊ | 5994/6844 [23:38<03:19,  4.25it/s] 88%|████████▊ | 5995/6844 [23:38<03:19,  4.26it/s] 88%|████████▊ | 5996/6844 [23:38<03:19,  4.26it/s] 88%|████████▊ | 5997/6844 [23:38<03:18,  4.26it/s] 88%|████████▊ | 5998/6844 [23:39<03:18,  4.26it/s] 88%|████████▊ | 5999/6844 [23:39<03:18,  4.26it/s] 88%|████████▊ | 6000/6844 [23:39<03:18,  4.25it/s]                                                   {'loss': 4.3321, 'grad_norm': 0.1391957551240921, 'learning_rate': 0.00027373951723402726, 'epoch': 0.18}
- 88%|████████▊ | 6000/6844 [23:39<03:18,  4.25it/s] 88%|████████▊ | 6001/6844 [23:39<03:18,  4.24it/s] 88%|████████▊ | 6002/6844 [23:39<03:18,  4.25it/s] 88%|████████▊ | 6003/6844 [23:40<03:17,  4.25it/s] 88%|████████▊ | 6004/6844 [23:40<03:17,  4.26it/s] 88%|████████▊ | 6005/6844 [23:40<03:16,  4.26it/s] 88%|████████▊ | 6006/6844 [23:40<03:16,  4.26it/s] 88%|████████▊ | 6007/6844 [23:41<03:16,  4.26it/s] 88%|████████▊ | 6008/6844 [23:41<03:16,  4.26it/s] 88%|████████▊ | 6009/6844 [23:41<03:16,  4.26it/s] 88%|████████▊ | 6010/6844 [23:41<03:15,  4.26it/s] 88%|████████▊ | 6011/6844 [23:42<03:15,  4.25it/s] 88%|████████▊ | 6012/6844 [23:42<03:15,  4.26it/s] 88%|████████▊ | 6013/6844 [23:42<03:15,  4.26it/s] 88%|████████▊ | 6014/6844 [23:42<03:15,  4.25it/s] 88%|████████▊ | 6015/6844 [23:43<03:15,  4.25it/s] 88%|████████▊ | 6016/6844 [23:43<03:14,  4.25it/s] 88%|████████▊ | 6017/6844 [23:43<03:14,  4.25it/s] 88%|████████▊ | 6018/6844 [23:43<03:14,  4.25it/s] 88%|████████▊ | 6019/6844 [23:43<03:14,  4.25it/s] 88%|████████▊ | 6020/6844 [23:44<03:16,  4.20it/s] 88%|████████▊ | 6021/6844 [23:44<03:15,  4.21it/s] 88%|████████▊ | 6022/6844 [23:44<03:14,  4.22it/s] 88%|████████▊ | 6023/6844 [23:44<03:13,  4.23it/s] 88%|████████▊ | 6024/6844 [23:45<03:13,  4.24it/s] 88%|████████▊ | 6025/6844 [23:45<03:23,  4.03it/s]                                                   {'loss': 4.338, 'grad_norm': 0.14755654335021973, 'learning_rate': 0.00025799605835600403, 'epoch': 0.18}
- 88%|████████▊ | 6025/6844 [23:45<03:23,  4.03it/s] 88%|████████▊ | 6026/6844 [23:45<03:20,  4.08it/s] 88%|████████▊ | 6027/6844 [23:45<03:17,  4.13it/s] 88%|████████▊ | 6028/6844 [23:46<03:16,  4.16it/s] 88%|████████▊ | 6029/6844 [23:46<03:14,  4.18it/s] 88%|████████▊ | 6030/6844 [23:46<03:13,  4.21it/s] 88%|████████▊ | 6031/6844 [23:46<03:12,  4.23it/s] 88%|████████▊ | 6032/6844 [23:47<03:11,  4.23it/s] 88%|████████▊ | 6033/6844 [23:47<03:11,  4.24it/s] 88%|████████▊ | 6034/6844 [23:47<03:10,  4.25it/s] 88%|████████▊ | 6035/6844 [23:47<03:10,  4.24it/s] 88%|████████▊ | 6036/6844 [23:48<03:10,  4.24it/s] 88%|████████▊ | 6037/6844 [23:48<03:10,  4.24it/s] 88%|████████▊ | 6038/6844 [23:48<03:09,  4.25it/s] 88%|██████��█▊ | 6039/6844 [23:48<03:09,  4.25it/s] 88%|████████▊ | 6040/6844 [23:48<03:09,  4.25it/s] 88%|████████▊ | 6041/6844 [23:49<03:08,  4.25it/s] 88%|████████▊ | 6042/6844 [23:49<03:08,  4.25it/s] 88%|████████▊ | 6043/6844 [23:49<03:08,  4.26it/s] 88%|████████▊ | 6044/6844 [23:49<03:08,  4.25it/s] 88%|████████▊ | 6045/6844 [23:50<03:07,  4.25it/s] 88%|████████▊ | 6046/6844 [23:50<03:07,  4.26it/s] 88%|████████▊ | 6047/6844 [23:50<03:07,  4.26it/s] 88%|████████▊ | 6048/6844 [23:50<03:06,  4.26it/s] 88%|████████▊ | 6049/6844 [23:51<03:06,  4.25it/s] 88%|████████▊ | 6050/6844 [23:51<03:06,  4.25it/s]{'loss': 4.327, 'grad_norm': 0.1383620947599411, 'learning_rate': 0.00024269848312436683, 'epoch': 0.18}                                                   
- 88%|████████▊ | 6050/6844 [23:51<03:06,  4.25it/s] 88%|████████▊ | 6051/6844 [23:51<03:07,  4.24it/s] 88%|████████▊ | 6052/6844 [23:51<03:06,  4.25it/s] 88%|████████▊ | 6053/6844 [23:52<03:06,  4.24it/s] 88%|████████▊ | 6054/6844 [23:52<03:06,  4.25it/s] 88%|████████▊ | 6055/6844 [23:52<03:05,  4.25it/s] 88%|████████▊ | 6056/6844 [23:52<03:05,  4.25it/s] 89%|████████▊ | 6057/6844 [23:52<03:05,  4.25it/s] 89%|████████▊ | 6058/6844 [23:53<03:05,  4.25it/s] 89%|████████▊ | 6059/6844 [23:53<03:04,  4.25it/s] 89%|████████▊ | 6060/6844 [23:53<03:04,  4.24it/s] 89%|████████▊ | 6061/6844 [23:53<03:04,  4.25it/s] 89%|████████▊ | 6062/6844 [23:54<03:03,  4.25it/s] 89%|████████▊ | 6063/6844 [23:54<03:03,  4.25it/s] 89%|████████▊ | 6064/6844 [23:54<03:03,  4.25it/s] 89%|████████▊ | 6065/6844 [23:54<03:03,  4.25it/s] 89%|████████▊ | 6066/6844 [23:55<03:03,  4.25it/s] 89%|████████▊ | 6067/6844 [23:55<03:02,  4.25it/s] 89%|████████▊ | 6068/6844 [23:55<03:02,  4.25it/s] 89%|████████▊ | 6069/6844 [23:55<03:02,  4.25it/s] 89%|████████▊ | 6070/6844 [23:56<03:01,  4.25it/s] 89%|████████▊ | 6071/6844 [23:56<03:01,  4.25it/s] 89%|████████▊ | 6072/6844 [23:56<03:01,  4.25it/s] 89%|████████▊ | 6073/6844 [23:56<03:01,  4.25it/s] 89%|████████▊ | 6074/6844 [23:56<03:01,  4.25it/s] 89%|████████▉ | 6075/6844 [23:57<03:01,  4.25it/s]                                                   {'loss': 4.3364, 'grad_norm': 0.1434820145368576, 'learning_rate': 0.00022784927911344912, 'epoch': 0.18}
- 89%|████████▉ | 6075/6844 [23:57<03:01,  4.25it/s] 89%|████████▉ | 6076/6844 [23:57<03:01,  4.23it/s] 89%|████████▉ | 6077/6844 [23:57<03:01,  4.23it/s] 89%|████████▉ | 6078/6844 [23:57<03:00,  4.23it/s] 89%|████████▉ | 6079/6844 [23:58<03:00,  4.24it/s] 89%|████████▉ | 6080/6844 [23:58<03:00,  4.24it/s] 89%|████████▉ | 6081/6844 [23:58<03:00,  4.24it/s] 89%|████████▉ | 6082/6844 [23:58<02:59,  4.24it/s] 89%|████████▉ | 6083/6844 [23:59<02:59,  4.23it/s] 89%|████████▉ | 6084/6844 [23:59<02:59,  4.23it/s] 89%|████████▉ | 6085/6844 [23:59<02:59,  4.24it/s] 89%|████████▉ | 6086/6844 [23:59<02:58,  4.25it/s] 89%|████████▉ | 6087/6844 [24:00<02:58,  4.25it/s] 89%|████████▉ | 6088/6844 [24:00<02:58,  4.24it/s] 89%|████████▉ | 6089/6844 [24:00<02:57,  4.25it/s] 89%|████████▉ | 6090/6844 [24:00<02:57,  4.24it/s] 89%|████████▉ | 6091/6844 [24:00<02:57,  4.25it/s] 89%|████████▉ | 6092/6844 [24:01<02:57,  4.25it/s] 89%|████████▉ | 6093/6844 [24:01<02:56,  4.25it/s] 89%|████████▉ | 6094/6844 [24:01<02:56,  4.25it/s] 89%|████████▉ | 6095/6844 [24:01<02:56,  4.25it/s] 89%|████████▉ | 6096/6844 [24:02<02:56,  4.25it/s] 89%|████████▉ | 6097/6844 [24:02<02:55,  4.25it/s] 89%|████████▉ | 6098/6844 [24:02<02:55,  4.25it/s] 89%|████████▉ | 6099/6844 [24:02<02:55,  4.25it/s] 89%|████████▉ | 6100/6844 [24:03<02:55,  4.25it/s]{'loss': 4.3346, 'grad_norm': 0.14310364425182343, 'learning_rate': 0.00021345086098689358, 'epoch': 0.18}                                                   
- 89%|████████▉ | 6100/6844 [24:03<02:55,  4.25it/s] 89%|████████▉ | 6101/6844 [24:03<02:56,  4.21it/s] 89%|████████▉ | 6102/6844 [24:03<02:55,  4.22it/s] 89%|████████▉ | 6103/6844 [24:03<02:55,  4.23it/s] 89%|████████▉ | 6104/6844 [24:04<02:54,  4.24it/s] 89%|████████▉ | 6105/6844 [24:04<02:54,  4.23it/s] 89%|████████▉ | 6106/6844 [24:04<02:54,  4.24it/s] 89%|████████▉ | 6107/6844 [24:04<02:53,  4.24it/s] 89%|████████▉ | 6108/6844 [24:04<02:53,  4.25it/s] 89%|████████▉ | 6109/6844 [24:05<02:52,  4.25it/s] 89%|████████▉ | 6110/6844 [24:05<02:52,  4.25it/s] 89%|████████▉ | 6111/6844 [24:05<02:52,  4.25it/s] 89%|████████▉ | 6112/6844 [24:05<02:52,  4.24it/s] 89%|████████▉ | 6113/6844 [24:06<02:52,  4.25it/s] 89%|████████▉ | 6114/6844 [24:06<02:51,  4.25it/s] 89%|████████▉ | 6115/6844 [24:06<02:51,  4.24it/s] 89%|████████▉ | 6116/6844 [24:06<02:51,  4.24it/s] 89%|████████▉ | 6117/6844 [24:07<02:51,  4.25it/s] 89%|████████▉ | 6118/6844 [24:07<02:50,  4.25it/s] 89%|████████▉ | 6119/6844 [24:07<02:50,  4.24it/s] 89%|████████▉ | 6120/6844 [24:07<02:50,  4.25it/s] 89%|████████▉ | 6121/6844 [24:08<02:50,  4.25it/s] 89%|████████▉ | 6122/6844 [24:08<02:49,  4.25it/s] 89%|████████▉ | 6123/6844 [24:08<02:49,  4.25it/s] 89%|████████▉ | 6124/6844 [24:08<02:49,  4.25it/s] 89%|████████▉ | 6125/6844 [24:08<02:49,  4.25it/s]{'loss': 4.3345, 'grad_norm': 0.14386197924613953, 'learning_rate': 0.00019950557010500327, 'epoch': 0.18}
-                                                    89%|████████▉ | 6125/6844 [24:08<02:49,  4.25it/s] 90%|████████▉ | 6126/6844 [24:09<02:49,  4.24it/s] 90%|████████▉ | 6127/6844 [24:09<02:48,  4.24it/s] 90%|████████▉ | 6128/6844 [24:09<02:48,  4.25it/s] 90%|████████▉ | 6129/6844 [24:09<02:48,  4.25it/s] 90%|████████▉ | 6130/6844 [24:10<02:47,  4.25it/s] 90%|████████▉ | 6131/6844 [24:10<02:47,  4.25it/s] 90%|████████▉ | 6132/6844 [24:10<02:47,  4.26it/s] 90%|████████▉ | 6133/6844 [24:10<02:47,  4.26it/s] 90%|████████▉ | 6134/6844 [24:11<02:46,  4.25it/s] 90%|████████▉ | 6135/6844 [24:11<02:46,  4.26it/s] 90%|████████▉ | 6136/6844 [24:11<02:46,  4.26it/s] 90%|████████▉ | 6137/6844 [24:11<02:46,  4.25it/s] 90%|████████▉ | 6138/6844 [24:12<02:45,  4.26it/s] 90%|████████▉ | 6139/6844 [24:12<02:45,  4.26it/s] 90%|████████▉ | 6140/6844 [24:12<02:45,  4.25it/s] 90%|████████▉ | 6141/6844 [24:12<02:45,  4.26it/s] 90%|████████▉ | 6142/6844 [24:12<02:44,  4.26it/s] 90%|████████▉ | 6143/6844 [24:13<02:44,  4.26it/s] 90%|████████▉ | 6144/6844 [24:13<02:44,  4.26it/s] 90%|████████▉ | 6145/6844 [24:13<02:44,  4.26it/s] 90%|████████▉ | 6146/6844 [24:13<02:44,  4.25it/s] 90%|████████▉ | 6147/6844 [24:14<02:44,  4.25it/s] 90%|████████▉ | 6148/6844 [24:14<02:43,  4.25it/s] 90%|████████▉ | 6149/6844 [24:14<02:43,  4.25it/s] 90%|████████▉ | 6150/6844 [24:14<02:43,  4.25it/s]                                                   {'loss': 4.3379, 'grad_norm': 0.14790791273117065, 'learning_rate': 0.0001860156741440029, 'epoch': 0.18}
- 90%|████████▉ | 6150/6844 [24:14<02:43,  4.25it/s] 90%|████████▉ | 6151/6844 [24:15<02:43,  4.24it/s] 90%|████████▉ | 6152/6844 [24:15<02:48,  4.11it/s] 90%|████████▉ | 6153/6844 [24:15<02:48,  4.11it/s] 90%|████████▉ | 6154/6844 [24:15<02:46,  4.15it/s] 90%|████████▉ | 6155/6844 [24:16<02:44,  4.18it/s] 90%|████████▉ | 6156/6844 [24:16<02:43,  4.21it/s] 90%|████████▉ | 6157/6844 [24:16<02:45,  4.14it/s] 90%|████████▉ | 6158/6844 [24:16<02:44,  4.18it/s] 90%|████████▉ | 6159/6844 [24:17<02:43,  4.20it/s] 90%|█████████ | 6160/6844 [24:17<02:42,  4.22it/s] 90%|█████████ | 6161/6844 [24:17<02:41,  4.22it/s] 90%|█████████ | 6162/6844 [24:17<02:41,  4.23it/s] 90%|█████████ | 6163/6844 [24:17<02:40,  4.24it/s] 90%|█████████ | 6164/6844 [24:18<02:40,  4.25it/s] 90%|█████████ | 6165/6844 [24:18<02:39,  4.25it/s] 90%|█████████ | 6166/6844 [24:18<02:39,  4.25it/s] 90%|█████████ | 6167/6844 [24:18<02:39,  4.25it/s] 90%|█████████ | 6168/6844 [24:19<02:38,  4.26it/s] 90%|█████████ | 6169/6844 [24:19<02:38,  4.26it/s] 90%|█████████ | 6170/6844 [24:19<02:38,  4.26it/s] 90%|█████████ | 6171/6844 [24:19<02:37,  4.26it/s] 90%|█████████ | 6172/6844 [24:20<02:37,  4.26it/s] 90%|█████████ | 6173/6844 [24:20<02:37,  4.25it/s] 90%|█████████ | 6174/6844 [24:20<02:37,  4.26it/s] 90%|█████████ | 6175/6844 [24:20<02:36,  4.26it/s]{'loss': 4.3329, 'grad_norm': 0.13726282119750977, 'learning_rate': 0.00017298336672728976, 'epoch': 0.18}                                                   
- 90%|█████████ | 6175/6844 [24:20<02:36,  4.26it/s] 90%|█████████ | 6176/6844 [24:21<02:37,  4.25it/s] 90%|█████████ | 6177/6844 [24:21<02:36,  4.25it/s] 90%|█████████ | 6178/6844 [24:21<02:36,  4.25it/s] 90%|█████████ | 6179/6844 [24:21<02:36,  4.25it/s] 90%|█████████ | 6180/6844 [24:21<02:36,  4.26it/s] 90%|█████████ | 6181/6844 [24:22<02:35,  4.26it/s] 90%|█████████ | 6182/6844 [24:22<02:35,  4.26it/s] 90%|█████████ | 6183/6844 [24:22<02:35,  4.25it/s] 90%|█████████ | 6184/6844 [24:22<02:35,  4.25it/s] 90%|█████████ | 6185/6844 [24:23<02:34,  4.26it/s] 90%|█████████ | 6186/6844 [24:23<02:34,  4.26it/s] 90%|█████████ | 6187/6844 [24:23<02:34,  4.26it/s] 90%|█████████ | 6188/6844 [24:23<02:33,  4.26it/s] 90%|█████████ | 6189/6844 [24:24<02:33,  4.26it/s] 90%|█████████ | 6190/6844 [24:24<02:33,  4.26it/s] 90%|█████████ | 6191/6844 [24:24<02:33,  4.26it/s] 90%|█████████ | 6192/6844 [24:24<02:32,  4.26it/s] 90%|█████████ | 6193/6844 [24:25<02:32,  4.26it/s] 91%|█████████ | 6194/6844 [24:25<02:32,  4.26it/s] 91%|█████████ | 6195/6844 [24:25<02:32,  4.27it/s] 91%|█████████ | 6196/6844 [24:25<02:32,  4.26it/s] 91%|█████████ | 6197/6844 [24:25<02:31,  4.26it/s] 91%|█████████ | 6198/6844 [24:26<02:31,  4.26it/s] 91%|█████████ | 6199/6844 [24:26<02:31,  4.25it/s] 91%|█████████ | 6200/6844 [24:26<02:31,  4.26it/s]                                                   {'loss': 4.3305, 'grad_norm': 0.14337050914764404, 'learning_rate': 0.00016041076706872128, 'epoch': 0.18}
- 91%|█████████ | 6200/6844 [24:26<02:31,  4.26it/s] 91%|█████████ | 6201/6844 [24:26<02:31,  4.24it/s] 91%|█████████ | 6202/6844 [24:27<02:31,  4.25it/s] 91%|█████████ | 6203/6844 [24:27<02:30,  4.25it/s] 91%|█████████ | 6204/6844 [24:27<02:30,  4.25it/s] 91%|█████████ | 6205/6844 [24:27<02:30,  4.25it/s] 91%|█████████ | 6206/6844 [24:28<02:29,  4.26it/s] 91%|█████████ | 6207/6844 [24:28<02:29,  4.26it/s] 91%|█████████ | 6208/6844 [24:28<02:29,  4.26it/s] 91%|█████████ | 6209/6844 [24:28<02:29,  4.25it/s] 91%|█████████ | 6210/6844 [24:29<02:29,  4.25it/s] 91%|█████████ | 6211/6844 [24:29<02:28,  4.25it/s] 91%|█████████ | 6212/6844 [24:29<02:28,  4.26it/s] 91%|█████████ | 6213/6844 [24:29<02:28,  4.26it/s] 91%|█████████ | 6214/6844 [24:29<02:27,  4.26it/s] 91%|█████████ | 6215/6844 [24:30<02:27,  4.26it/s] 91%|█████████ | 6216/6844 [24:30<02:27,  4.25it/s] 91%|█████████ | 6217/6844 [24:30<02:27,  4.25it/s] 91%|█████████ | 6218/6844 [24:30<02:27,  4.26it/s] 91%|█████████ | 6219/6844 [24:31<02:26,  4.25it/s] 91%|█████████ | 6220/6844 [24:31<02:26,  4.25it/s] 91%|█████████ | 6221/6844 [24:31<02:26,  4.25it/s] 91%|█████████ | 6222/6844 [24:31<02:26,  4.25it/s] 91%|█████████ | 6223/6844 [24:32<02:26,  4.25it/s] 91%|█████████ | 6224/6844 [24:32<02:25,  4.25it/s] 91%|█████████ | 6225/6844 [24:32<02:25,  4.25it/s]{'loss': 4.326, 'grad_norm': 0.14342327415943146, 'learning_rate': 0.0001482999196280076, 'epoch': 0.18}
-                                                    91%|█████████ | 6225/6844 [24:32<02:25,  4.25it/s] 91%|█████████ | 6226/6844 [24:32<02:25,  4.24it/s] 91%|█████████ | 6227/6844 [24:33<02:25,  4.24it/s] 91%|█████████ | 6228/6844 [24:33<02:25,  4.24it/s] 91%|█████████ | 6229/6844 [24:33<02:24,  4.25it/s] 91%|█████████ | 6230/6844 [24:33<02:24,  4.25it/s] 91%|█████████ | 6231/6844 [24:33<02:24,  4.25it/s] 91%|█████████ | 6232/6844 [24:34<02:24,  4.24it/s] 91%|█████████ | 6233/6844 [24:34<02:23,  4.24it/s] 91%|█████████ | 6234/6844 [24:34<02:23,  4.25it/s] 91%|█████████ | 6235/6844 [24:34<02:23,  4.25it/s] 91%|█████████ | 6236/6844 [24:35<02:23,  4.25it/s] 91%|█████████ | 6237/6844 [24:35<02:22,  4.26it/s] 91%|█████████ | 6238/6844 [24:35<02:22,  4.25it/s] 91%|█████████ | 6239/6844 [24:35<02:22,  4.26it/s] 91%|█████████ | 6240/6844 [24:36<02:21,  4.26it/s] 91%|█████████ | 6241/6844 [24:36<02:21,  4.26it/s] 91%|█████████ | 6242/6844 [24:36<02:21,  4.26it/s] 91%|█████████ | 6243/6844 [24:36<02:21,  4.25it/s] 91%|█████████ | 6244/6844 [24:36<02:20,  4.26it/s] 91%|█████████ | 6245/6844 [24:37<02:20,  4.25it/s] 91%|█████████▏| 6246/6844 [24:37<02:20,  4.26it/s] 91%|█████████▏| 6247/6844 [24:37<02:20,  4.25it/s] 91%|█████████▏| 6248/6844 [24:37<02:20,  4.25it/s] 91%|█████████▏| 6249/6844 [24:38<02:20,  4.25it/s] 91%|█████████▏| 6250/6844 [24:38<02:19,  4.25it/s]                                                   {'loss': 4.3366, 'grad_norm': 0.14179953932762146, 'learning_rate': 0.00013665279377825235, 'epoch': 0.18}
- 91%|█████████▏| 6250/6844 [24:38<02:19,  4.25it/s] 91%|█████████▏| 6251/6844 [24:38<02:20,  4.22it/s] 91%|█████████▏| 6252/6844 [24:38<02:20,  4.23it/s] 91%|█████████▏| 6253/6844 [24:39<02:19,  4.24it/s] 91%|█████████▏| 6254/6844 [24:39<02:18,  4.25it/s] 91%|█████████▏| 6255/6844 [24:39<02:18,  4.26it/s] 91%|█████████▏| 6256/6844 [24:39<02:18,  4.25it/s] 91%|█████████▏| 6257/6844 [24:40<02:18,  4.25it/s] 91%|█████████▏| 6258/6844 [24:40<02:17,  4.25it/s] 91%|█████████▏| 6259/6844 [24:40<02:17,  4.25it/s] 91%|█████████▏| 6260/6844 [24:40<02:17,  4.25it/s] 91%|█████████▏| 6261/6844 [24:40<02:17,  4.25it/s] 91%|█████████▏| 6262/6844 [24:41<02:16,  4.26it/s] 92%|█████████▏| 6263/6844 [24:41<02:16,  4.25it/s] 92%|█████████▏| 6264/6844 [24:41<02:16,  4.25it/s] 92%|█████████▏| 6265/6844 [24:41<02:16,  4.25it/s] 92%|█████████▏| 6266/6844 [24:42<02:20,  4.13it/s] 92%|█████████▏| 6267/6844 [24:42<02:18,  4.16it/s] 92%|█████████▏| 6268/6844 [24:42<02:17,  4.19it/s] 92%|█████████▏| 6269/6844 [24:42<02:16,  4.21it/s] 92%|█████████▏| 6270/6844 [24:43<02:15,  4.22it/s] 92%|█████████▏| 6271/6844 [24:43<02:15,  4.23it/s] 92%|█████████▏| 6272/6844 [24:43<02:14,  4.24it/s] 92%|█████████▏| 6273/6844 [24:43<02:14,  4.25it/s] 92%|█████████▏| 6274/6844 [24:44<02:14,  4.25it/s] 92%|█████████▏| 6275/6844 [24:44<02:13,  4.26it/s]{'loss': 4.3296, 'grad_norm': 0.1381893903017044, 'learning_rate': 0.00012547128348571436, 'epoch': 0.18}                                                   
- 92%|█████████▏| 6275/6844 [24:44<02:13,  4.26it/s] 92%|█████████▏| 6276/6844 [24:44<02:13,  4.24it/s] 92%|█████████▏| 6277/6844 [24:44<02:13,  4.25it/s] 92%|█████████▏| 6278/6844 [24:45<02:13,  4.25it/s] 92%|█████████▏| 6279/6844 [24:45<02:17,  4.12it/s] 92%|█████████▏| 6280/6844 [24:45<02:21,  4.00it/s] 92%|█████████▏| 6281/6844 [24:45<02:18,  4.07it/s] 92%|█████████▏| 6282/6844 [24:46<02:16,  4.12it/s] 92%|█████████▏| 6283/6844 [24:46<02:15,  4.14it/s] 92%|█████████▏| 6284/6844 [24:46<02:14,  4.18it/s] 92%|█████████▏| 6285/6844 [24:46<02:12,  4.20it/s] 92%|█████████▏| 6286/6844 [24:46<02:12,  4.22it/s] 92%|█████████▏| 6287/6844 [24:47<02:11,  4.23it/s] 92%|█████████▏| 6288/6844 [24:47<02:11,  4.23it/s] 92%|█████████▏| 6289/6844 [24:47<02:10,  4.24it/s] 92%|█████████▏| 6290/6844 [24:47<02:10,  4.24it/s] 92%|█████████▏| 6291/6844 [24:48<02:10,  4.25it/s] 92%|█████████▏| 6292/6844 [24:48<02:09,  4.25it/s] 92%|█████████▏| 6293/6844 [24:48<02:09,  4.25it/s] 92%|█████████▏| 6294/6844 [24:48<02:09,  4.25it/s] 92%|█████████▏| 6295/6844 [24:49<02:09,  4.25it/s] 92%|█████████▏| 6296/6844 [24:49<02:08,  4.25it/s] 92%|█████████▏| 6297/6844 [24:49<02:08,  4.25it/s] 92%|█████████▏| 6298/6844 [24:49<02:08,  4.25it/s] 92%|█████████▏| 6299/6844 [24:50<02:08,  4.26it/s] 92%|█████████▏| 6300/6844 [24:50<02:07,  4.25it/s]                                                   {'loss': 4.3327, 'grad_norm': 0.1378166675567627, 'learning_rate': 0.00011475720700182101, 'epoch': 0.18}
- 92%|█████████▏| 6300/6844 [24:50<02:07,  4.25it/s] 92%|█████████▏| 6301/6844 [24:50<02:08,  4.24it/s] 92%|█████████▏| 6302/6844 [24:50<02:07,  4.25it/s] 92%|█████████▏| 6303/6844 [24:50<02:07,  4.25it/s] 92%|█████████▏| 6304/6844 [24:51<02:07,  4.24it/s] 92%|█████████▏| 6305/6844 [24:51<02:07,  4.24it/s] 92%|█████████▏| 6306/6844 [24:51<02:06,  4.24it/s] 92%|█████████▏| 6307/6844 [24:51<02:06,  4.25it/s] 92%|█████████▏| 6308/6844 [24:52<02:06,  4.24it/s] 92%|█████████▏| 6309/6844 [24:52<02:05,  4.25it/s] 92%|█████████▏| 6310/6844 [24:52<02:05,  4.25it/s] 92%|█████████▏| 6311/6844 [24:52<02:05,  4.25it/s] 92%|█████████▏| 6312/6844 [24:53<02:04,  4.26it/s] 92%|█████████▏| 6313/6844 [24:53<02:04,  4.26it/s] 92%|█████████▏| 6314/6844 [24:53<02:04,  4.26it/s] 92%|█████████▏| 6315/6844 [24:53<02:04,  4.26it/s] 92%|█████████▏| 6316/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6317/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6318/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6319/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6320/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6321/6844 [24:55<02:02,  4.25it/s] 92%|█████████▏| 6322/6844 [24:55<02:02,  4.25it/s] 92%|█████████▏| 6323/6844 [24:55<02:02,  4.26it/s] 92%|█████████▏| 6324/6844 [24:55<02:02,  4.26it/s] 92%|█████████▏| 6325/6844 [24:56<02:02,  4.25it/s]{'loss': 4.3305, 'grad_norm': 0.13618585467338562, 'learning_rate': 0.00010451230656749955, 'epoch': 0.18}                                                   
- 92%|█████████▏| 6325/6844 [24:56<02:02,  4.25it/s] 92%|█████████▏| 6326/6844 [24:56<02:02,  4.23it/s] 92%|█████████▏| 6327/6844 [24:56<02:01,  4.24it/s] 92%|█████████▏| 6328/6844 [24:56<02:01,  4.25it/s] 92%|█████████▏| 6329/6844 [24:57<02:01,  4.25it/s] 92%|█████████▏| 6330/6844 [24:57<02:01,  4.25it/s] 93%|█████████▎| 6331/6844 [24:57<02:00,  4.25it/s] 93%|█████████▎| 6332/6844 [24:57<02:00,  4.25it/s] 93%|█████████▎| 6333/6844 [24:58<02:00,  4.26it/s] 93%|█████████▎| 6334/6844 [24:58<01:59,  4.25it/s] 93%|█████████▎| 6335/6844 [24:58<01:59,  4.25it/s] 93%|█████████▎| 6336/6844 [24:58<01:59,  4.25it/s] 93%|█████████▎| 6337/6844 [24:58<01:59,  4.25it/s] 93%|█████████▎| 6338/6844 [24:59<01:58,  4.25it/s] 93%|█████████▎| 6339/6844 [24:59<01:58,  4.25it/s] 93%|█████████▎| 6340/6844 [24:59<01:58,  4.25it/s] 93%|█████████▎| 6341/6844 [24:59<01:58,  4.26it/s] 93%|█████████▎| 6342/6844 [25:00<01:57,  4.26it/s] 93%|█████████▎| 6343/6844 [25:00<01:57,  4.26it/s] 93%|█████████▎| 6344/6844 [25:00<01:57,  4.25it/s] 93%|█████████▎| 6345/6844 [25:00<01:57,  4.26it/s] 93%|█████████▎| 6346/6844 [25:01<01:57,  4.24it/s] 93%|█████████▎| 6347/6844 [25:01<01:57,  4.25it/s] 93%|█████████▎| 6348/6844 [25:01<01:56,  4.25it/s] 93%|█████████▎| 6349/6844 [25:01<01:56,  4.24it/s] 93%|█████████▎| 6350/6844 [25:02<01:56,  4.24it/s]{'loss': 4.3306, 'grad_norm': 0.14046847820281982, 'learning_rate': 9.473824812986786e-05, 'epoch': 0.19}
-                                                    93%|█████████▎| 6350/6844 [25:02<01:56,  4.24it/s] 93%|█████████▎| 6351/6844 [25:02<01:56,  4.22it/s] 93%|█████████▎| 6352/6844 [25:02<01:56,  4.23it/s] 93%|█████████▎| 6353/6844 [25:02<01:55,  4.24it/s] 93%|█████████▎| 6354/6844 [25:02<01:55,  4.24it/s] 93%|█████████▎| 6355/6844 [25:03<01:55,  4.24it/s] 93%|█████████▎| 6356/6844 [25:03<01:54,  4.25it/s] 93%|█████████▎| 6357/6844 [25:03<01:54,  4.25it/s] 93%|█████████▎| 6358/6844 [25:03<01:54,  4.25it/s] 93%|█████████▎| 6359/6844 [25:04<01:54,  4.25it/s] 93%|█████████▎| 6360/6844 [25:04<01:53,  4.25it/s] 93%|█████████▎| 6361/6844 [25:04<01:53,  4.26it/s] 93%|█████████▎| 6362/6844 [25:04<01:53,  4.25it/s] 93%|█████████▎| 6363/6844 [25:05<01:52,  4.26it/s] 93%|█████████▎| 6364/6844 [25:05<01:52,  4.26it/s] 93%|█████████▎| 6365/6844 [25:05<01:52,  4.26it/s] 93%|█████████▎| 6366/6844 [25:05<01:52,  4.25it/s] 93%|█████████▎| 6367/6844 [25:06<01:52,  4.24it/s] 93%|█████████▎| 6368/6844 [25:06<02:30,  3.16it/s] 93%|█████████▎| 6369/6844 [25:06<02:18,  3.42it/s] 93%|█████████▎| 6370/6844 [25:06<02:10,  3.63it/s] 93%|█████████▎| 6371/6844 [25:07<02:04,  3.80it/s] 93%|█████████▎| 6372/6844 [25:07<02:00,  3.93it/s] 93%|█████████▎| 6373/6844 [25:07<01:57,  4.02it/s] 93%|█████████▎| 6374/6844 [25:07<01:54,  4.09it/s] 93%|█████████▎| 6375/6844 [25:08<01:53,  4.14it/s]{'loss': 4.3225, 'grad_norm': 0.1409275382757187, 'learning_rate': 8.5436621071329e-05, 'epoch': 0.19}
-                                                    93%|█████████▎| 6375/6844 [25:08<01:53,  4.14it/s] 93%|█████████▎| 6376/6844 [25:08<01:52,  4.16it/s] 93%|█████████▎| 6377/6844 [25:08<01:51,  4.19it/s] 93%|█████████▎| 6378/6844 [25:08<01:50,  4.21it/s] 93%|█████████▎| 6379/6844 [25:09<01:50,  4.22it/s] 93%|█████████▎| 6380/6844 [25:09<01:49,  4.23it/s] 93%|█████████▎| 6381/6844 [25:09<01:49,  4.24it/s] 93%|█████████▎| 6382/6844 [25:09<01:48,  4.25it/s] 93%|█████████▎| 6383/6844 [25:10<01:48,  4.25it/s] 93%|█████████▎| 6384/6844 [25:10<01:47,  4.26it/s] 93%|█████████▎| 6385/6844 [25:10<01:47,  4.26it/s] 93%|█████████▎| 6386/6844 [25:10<01:47,  4.26it/s] 93%|█████████▎| 6387/6844 [25:10<01:47,  4.26it/s] 93%|█████████▎| 6388/6844 [25:11<01:46,  4.26it/s] 93%|█████████▎| 6389/6844 [25:11<01:46,  4.27it/s] 93%|█████████▎| 6390/6844 [25:11<01:46,  4.26it/s] 93%|█████████▎| 6391/6844 [25:11<01:46,  4.26it/s] 93%|█████████▎| 6392/6844 [25:12<01:46,  4.26it/s] 93%|█████████▎| 6393/6844 [25:12<01:45,  4.26it/s] 93%|█████████▎| 6394/6844 [25:12<01:45,  4.25it/s] 93%|█████████▎| 6395/6844 [25:12<01:45,  4.25it/s] 93%|█████████▎| 6396/6844 [25:13<01:45,  4.25it/s] 93%|█████████▎| 6397/6844 [25:13<01:45,  4.25it/s] 93%|█████████▎| 6398/6844 [25:13<01:44,  4.26it/s] 93%|█████████▎| 6399/6844 [25:13<01:44,  4.26it/s] 94%|█████████▎| 6400/6844 [25:14<01:44,  4.26it/s]                                                   {'loss': 4.3384, 'grad_norm': 0.14192187786102295, 'learning_rate': 7.660893795112078e-05, 'epoch': 0.19}
- 94%|█████████▎| 6400/6844 [25:14<01:44,  4.26it/s] 94%|█████████▎| 6401/6844 [25:14<01:44,  4.24it/s] 94%|█████████▎| 6402/6844 [25:14<01:44,  4.24it/s] 94%|█████████▎| 6403/6844 [25:14<01:43,  4.25it/s] 94%|█████████▎| 6404/6844 [25:14<01:43,  4.25it/s] 94%|█████████▎| 6405/6844 [25:15<01:47,  4.09it/s] 94%|█████████▎| 6406/6844 [25:15<01:50,  3.97it/s] 94%|█████████▎| 6407/6844 [25:15<01:49,  4.00it/s] 94%|█████████▎| 6408/6844 [25:16<01:46,  4.08it/s] 94%|█████████▎| 6409/6844 [25:16<01:45,  4.13it/s] 94%|█████████▎| 6410/6844 [25:16<01:44,  4.17it/s] 94%|█████████▎| 6411/6844 [25:16<01:43,  4.19it/s] 94%|█████████▎| 6412/6844 [25:16<01:42,  4.20it/s] 94%|█████████▎| 6413/6844 [25:17<01:42,  4.22it/s] 94%|█████████▎| 6414/6844 [25:17<01:41,  4.23it/s] 94%|█████████▎| 6415/6844 [25:17<01:41,  4.24it/s] 94%|█████████▎| 6416/6844 [25:17<01:40,  4.24it/s] 94%|█████████▍| 6417/6844 [25:18<01:40,  4.25it/s] 94%|█████████▍| 6418/6844 [25:18<01:40,  4.25it/s] 94%|█████████▍| 6419/6844 [25:18<01:39,  4.26it/s] 94%|█████████▍| 6420/6844 [25:18<01:39,  4.26it/s] 94%|█████████▍| 6421/6844 [25:19<01:39,  4.26it/s] 94%|█████████▍| 6422/6844 [25:19<01:39,  4.25it/s] 94%|█████████▍| 6423/6844 [25:19<01:38,  4.26it/s] 94%|█████████▍| 6424/6844 [25:19<01:38,  4.26it/s] 94%|█████████▍| 6425/6844 [25:19<01:38,  4.26it/s]{'loss': 4.3195, 'grad_norm': 0.13702620565891266, 'learning_rate': 6.825663425935236e-05, 'epoch': 0.19}
-                                                    94%|█████████▍| 6425/6844 [25:19<01:38,  4.26it/s] 94%|█████████▍| 6426/6844 [25:20<01:38,  4.24it/s] 94%|█████████▍| 6427/6844 [25:20<01:38,  4.25it/s] 94%|█████████▍| 6428/6844 [25:20<01:37,  4.25it/s] 94%|█████████▍| 6429/6844 [25:20<01:37,  4.25it/s] 94%|█████████▍| 6430/6844 [25:21<01:37,  4.25it/s] 94%|█████████▍| 6431/6844 [25:21<01:37,  4.25it/s] 94%|█████████▍| 6432/6844 [25:21<01:37,  4.24it/s] 94%|█████████▍| 6433/6844 [25:21<01:36,  4.24it/s] 94%|█████████▍| 6434/6844 [25:22<01:36,  4.25it/s] 94%|█████████▍| 6435/6844 [25:22<01:36,  4.25it/s] 94%|█████████▍| 6436/6844 [25:22<01:35,  4.25it/s] 94%|█████████▍| 6437/6844 [25:22<01:35,  4.25it/s] 94%|█████████▍| 6438/6844 [25:23<01:35,  4.25it/s] 94%|█████████▍| 6439/6844 [25:23<01:35,  4.26it/s] 94%|█████████▍| 6440/6844 [25:23<01:34,  4.26it/s] 94%|█████████▍| 6441/6844 [25:23<01:34,  4.26it/s] 94%|█████████▍| 6442/6844 [25:23<01:34,  4.25it/s] 94%|█████████▍| 6443/6844 [25:24<01:34,  4.26it/s] 94%|█████████▍| 6444/6844 [25:24<01:33,  4.26it/s] 94%|█████████▍| 6445/6844 [25:24<01:33,  4.26it/s] 94%|█████████▍| 6446/6844 [25:24<01:33,  4.26it/s] 94%|█████████▍| 6447/6844 [25:25<01:33,  4.26it/s] 94%|█████████▍| 6448/6844 [25:25<01:32,  4.26it/s] 94%|█████████▍| 6449/6844 [25:25<01:32,  4.26it/s] 94%|█████████▍| 6450/6844 [25:25<01:32,  4.26it/s]                                                   {'loss': 4.3262, 'grad_norm': 0.14071029424667358, 'learning_rate': 6.0381068183577806e-05, 'epoch': 0.19}
- 94%|█████████▍| 6450/6844 [25:25<01:32,  4.26it/s] 94%|█████████▍| 6451/6844 [25:26<01:32,  4.25it/s] 94%|█████████▍| 6452/6844 [25:26<01:32,  4.25it/s] 94%|█████████▍| 6453/6844 [25:26<01:32,  4.25it/s] 94%|█████████▍| 6454/6844 [25:26<01:31,  4.26it/s] 94%|█████████▍| 6455/6844 [25:27<01:31,  4.26it/s] 94%|█████████▍| 6456/6844 [25:27<01:30,  4.26it/s] 94%|█████████▍| 6457/6844 [25:27<01:30,  4.26it/s] 94%|█████████▍| 6458/6844 [25:27<01:30,  4.26it/s] 94%|█████████▍| 6459/6844 [25:27<01:30,  4.26it/s] 94%|█████████▍| 6460/6844 [25:28<01:30,  4.26it/s] 94%|█████████▍| 6461/6844 [25:28<01:30,  4.25it/s] 94%|█████████▍| 6462/6844 [25:28<01:29,  4.25it/s] 94%|█████████▍| 6463/6844 [25:28<01:29,  4.25it/s] 94%|█████████▍| 6464/6844 [25:29<01:29,  4.25it/s] 94%|█████████▍| 6465/6844 [25:29<01:29,  4.25it/s] 94%|█████████▍| 6466/6844 [25:29<01:28,  4.25it/s] 94%|█████████▍| 6467/6844 [25:29<01:28,  4.25it/s] 95%|█████████▍| 6468/6844 [25:30<01:28,  4.25it/s] 95%|█████████▍| 6469/6844 [25:30<01:28,  4.25it/s] 95%|█████████▍| 6470/6844 [25:30<01:27,  4.26it/s] 95%|█████████▍| 6471/6844 [25:30<01:27,  4.26it/s] 95%|█████████▍| 6472/6844 [25:31<01:27,  4.26it/s] 95%|█████████▍| 6473/6844 [25:31<01:27,  4.26it/s] 95%|█████████▍| 6474/6844 [25:31<01:27,  4.25it/s] 95%|█████████▍| 6475/6844 [25:31<01:26,  4.25it/s]{'loss': 4.34, 'grad_norm': 0.13873043656349182, 'learning_rate': 5.298352038793652e-05, 'epoch': 0.19}
-                                                    95%|█████████▍| 6475/6844 [25:31<01:26,  4.25it/s] 95%|█████████▍| 6476/6844 [25:31<01:26,  4.24it/s] 95%|█████████▍| 6477/6844 [25:32<01:26,  4.25it/s] 95%|█████████▍| 6478/6844 [25:32<01:26,  4.25it/s] 95%|█████████▍| 6479/6844 [25:32<01:25,  4.25it/s] 95%|█████████▍| 6480/6844 [25:32<01:25,  4.25it/s] 95%|█████████▍| 6481/6844 [25:33<01:25,  4.25it/s] 95%|█████████▍| 6482/6844 [25:33<01:25,  4.25it/s] 95%|█████████▍| 6483/6844 [25:33<01:24,  4.25it/s] 95%|█████████▍| 6484/6844 [25:33<01:24,  4.25it/s] 95%|��████████▍| 6485/6844 [25:34<01:24,  4.25it/s] 95%|█████████▍| 6486/6844 [25:34<01:24,  4.25it/s] 95%|█████████▍| 6487/6844 [25:34<01:23,  4.26it/s] 95%|█████████▍| 6488/6844 [25:34<01:23,  4.26it/s] 95%|█████████▍| 6489/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6490/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6491/6844 [25:35<01:22,  4.26it/s] 95%|█████████▍| 6492/6844 [25:35<01:22,  4.26it/s] 95%|█████████▍| 6493/6844 [25:35<01:22,  4.26it/s] 95%|█████████▍| 6494/6844 [25:36<01:22,  4.27it/s] 95%|█████████▍| 6495/6844 [25:36<01:22,  4.25it/s] 95%|█████████▍| 6496/6844 [25:36<01:21,  4.25it/s] 95%|█████████▍| 6497/6844 [25:36<01:21,  4.25it/s] 95%|█████████▍| 6498/6844 [25:37<01:21,  4.25it/s] 95%|█████████▍| 6499/6844 [25:37<01:21,  4.25it/s] 95%|█████████▍| 6500/6844 [25:37<01:20,  4.25it/s]                                                   {'loss': 4.3301, 'grad_norm': 0.13761651515960693, 'learning_rate': 4.606519380490315e-05, 'epoch': 0.19}
- 95%|█████████▍| 6500/6844 [25:37<01:20,  4.25it/s] 95%|█████████▍| 6501/6844 [25:37<01:20,  4.24it/s] 95%|█████████▌| 6502/6844 [25:38<01:20,  4.24it/s] 95%|█████████▌| 6503/6844 [25:38<01:20,  4.24it/s] 95%|█████████▌| 6504/6844 [25:38<01:19,  4.25it/s] 95%|█████████▌| 6505/6844 [25:38<01:19,  4.25it/s] 95%|█████████▌| 6506/6844 [25:39<01:19,  4.26it/s] 95%|█████████▌| 6507/6844 [25:39<01:19,  4.26it/s] 95%|█████████▌| 6508/6844 [25:39<01:18,  4.26it/s] 95%|█████████▌| 6509/6844 [25:39<01:18,  4.25it/s] 95%|█████████▌| 6510/6844 [25:39<01:18,  4.26it/s] 95%|█████████▌| 6511/6844 [25:40<01:18,  4.26it/s] 95%|█████████▌| 6512/6844 [25:40<01:17,  4.26it/s] 95%|█████████▌| 6513/6844 [25:40<01:17,  4.25it/s] 95%|█████████▌| 6514/6844 [25:40<01:17,  4.25it/s] 95%|█████████▌| 6515/6844 [25:41<01:17,  4.25it/s] 95%|█████████▌| 6516/6844 [25:41<01:17,  4.24it/s] 95%|█████████▌| 6517/6844 [25:41<01:17,  4.24it/s] 95%|█████████▌| 6518/6844 [25:41<01:16,  4.24it/s] 95%|█████████▌| 6519/6844 [25:42<01:16,  4.24it/s] 95%|█████████▌| 6520/6844 [25:42<01:16,  4.24it/s] 95%|█████████▌| 6521/6844 [25:42<01:16,  4.25it/s] 95%|█████████▌| 6522/6844 [25:42<01:15,  4.24it/s] 95%|█████████▌| 6523/6844 [25:43<01:15,  4.24it/s] 95%|█████████▌| 6524/6844 [25:43<01:15,  4.25it/s] 95%|█████████▌| 6525/6844 [25:43<01:15,  4.25it/s]                                                   {'loss': 4.3409, 'grad_norm': 0.14280785620212555, 'learning_rate': 3.9627213439674015e-05, 'epoch': 0.19}
- 95%|█████████▌| 6525/6844 [25:43<01:15,  4.25it/s] 95%|█████████▌| 6526/6844 [25:43<01:15,  4.23it/s] 95%|█████████▌| 6527/6844 [25:43<01:14,  4.23it/s] 95%|█████████▌| 6528/6844 [25:44<01:14,  4.23it/s] 95%|█████████▌| 6529/6844 [25:44<01:14,  4.24it/s] 95%|█████████▌| 6530/6844 [25:44<01:14,  4.23it/s] 95%|█████████▌| 6531/6844 [25:44<01:13,  4.24it/s] 95%|█████████▌| 6532/6844 [25:45<01:13,  4.24it/s] 95%|█████████▌| 6533/6844 [25:45<01:17,  4.01it/s] 95%|█████████▌| 6534/6844 [25:45<01:16,  4.03it/s] 95%|█████████▌| 6535/6844 [25:45<01:15,  4.10it/s] 95%|█████████▌| 6536/6844 [25:46<01:14,  4.15it/s] 96%|█████████▌| 6537/6844 [25:46<01:13,  4.17it/s] 96%|█████████▌| 6538/6844 [25:46<01:12,  4.19it/s] 96%|█████████▌| 6539/6844 [25:46<01:12,  4.21it/s] 96%|█████████▌| 6540/6844 [25:47<01:11,  4.23it/s] 96%|█████████▌| 6541/6844 [25:47<01:11,  4.23it/s] 96%|█████████▌| 6542/6844 [25:47<01:11,  4.24it/s] 96%|█████████▌| 6543/6844 [25:47<01:10,  4.25it/s] 96%|█████████▌| 6544/6844 [25:48<01:10,  4.25it/s] 96%|█████████▌| 6545/6844 [25:48<01:10,  4.25it/s] 96%|█████████▌| 6546/6844 [25:48<01:09,  4.26it/s] 96%|█████████▌| 6547/6844 [25:48<01:09,  4.26it/s] 96%|█████████▌| 6548/6844 [25:48<01:09,  4.26it/s] 96%|█████████▌| 6549/6844 [25:49<01:09,  4.26it/s] 96%|█████████▌| 6550/6844 [25:49<01:09,  4.26it/s]{'loss': 4.3414, 'grad_norm': 0.14158646762371063, 'learning_rate': 3.367062618722883e-05, 'epoch': 0.19}
-                                                    96%|█████████▌| 6550/6844 [25:49<01:09,  4.26it/s] 96%|█████████▌| 6551/6844 [25:49<01:09,  4.24it/s] 96%|█████████▌| 6552/6844 [25:49<01:08,  4.25it/s] 96%|█████████▌| 6553/6844 [25:50<01:08,  4.25it/s] 96%|█████████▌| 6554/6844 [25:50<01:08,  4.25it/s] 96%|█████████▌| 6555/6844 [25:50<01:08,  4.25it/s] 96%|█████████▌| 6556/6844 [25:50<01:07,  4.25it/s] 96%|█████████▌| 6557/6844 [25:51<01:07,  4.25it/s] 96%|█████████▌| 6558/6844 [25:51<01:07,  4.25it/s] 96%|█████████▌| 6559/6844 [25:51<01:06,  4.26it/s] 96%|█████████▌| 6560/6844 [25:51<01:06,  4.26it/s] 96%|█████████▌| 6561/6844 [25:52<01:06,  4.26it/s] 96%|█████████▌| 6562/6844 [25:52<01:06,  4.25it/s] 96%|█████████▌| 6563/6844 [25:52<01:06,  4.25it/s] 96%|█████████▌| 6564/6844 [25:52<01:05,  4.25it/s] 96%|█████████▌| 6565/6844 [25:52<01:05,  4.25it/s] 96%|█████████▌| 6566/6844 [25:53<01:05,  4.26it/s] 96%|█████████▌| 6567/6844 [25:53<01:05,  4.25it/s] 96%|█████████▌| 6568/6844 [25:53<01:04,  4.26it/s] 96%|█████████▌| 6569/6844 [25:53<01:04,  4.26it/s] 96%|█████████▌| 6570/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6571/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6572/6844 [25:54<01:03,  4.26it/s] 96%|█████████▌| 6573/6844 [25:54<01:03,  4.26it/s] 96%|█████████▌| 6574/6844 [25:55<01:03,  4.26it/s] 96%|█████████▌| 6575/6844 [25:55<01:03,  4.26it/s]                                                   {'loss': 4.3205, 'grad_norm': 0.1395287662744522, 'learning_rate': 2.819640066209217e-05, 'epoch': 0.19}
- 96%|█████████▌| 6575/6844 [25:55<01:03,  4.26it/s] 96%|█████████▌| 6576/6844 [25:55<01:03,  4.24it/s] 96%|█████████▌| 6577/6844 [25:55<01:02,  4.25it/s] 96%|█████████▌| 6578/6844 [25:56<01:02,  4.24it/s] 96%|█████████▌| 6579/6844 [25:56<01:02,  4.24it/s] 96%|█████████▌| 6580/6844 [25:56<01:02,  4.25it/s] 96%|█████████▌| 6581/6844 [25:56<01:01,  4.25it/s] 96%|█████████▌| 6582/6844 [25:56<01:01,  4.26it/s] 96%|█████████▌| 6583/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6584/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6585/6844 [25:57<01:00,  4.26it/s] 96%|█████████▌| 6586/6844 [25:57<01:00,  4.26it/s] 96%|█████████▌| 6587/6844 [25:58<01:00,  4.26it/s] 96%|█████████▋| 6588/6844 [25:58<01:00,  4.26it/s] 96%|█████████▋| 6589/6844 [25:58<00:59,  4.26it/s] 96%|█████████▋| 6590/6844 [25:58<00:59,  4.25it/s] 96%|█████████▋| 6591/6844 [25:59<00:59,  4.26it/s] 96%|█████████▋| 6592/6844 [25:59<00:59,  4.26it/s] 96%|█████████▋| 6593/6844 [25:59<00:58,  4.26it/s] 96%|█████████▋| 6594/6844 [25:59<00:58,  4.26it/s] 96%|█████████▋| 6595/6844 [26:00<00:58,  4.26it/s] 96%|█████████▋| 6596/6844 [26:00<00:58,  4.26it/s] 96%|█████████▋| 6597/6844 [26:00<00:57,  4.26it/s] 96%|█████████▋| 6598/6844 [26:00<00:57,  4.26it/s] 96%|█████████▋| 6599/6844 [26:00<00:57,  4.26it/s] 96%|█████████▋| 6600/6844 [26:01<00:57,  4.25it/s]{'loss': 4.3275, 'grad_norm': 0.13956356048583984, 'learning_rate': 2.320542704082451e-05, 'epoch': 0.19}                                                   
- 96%|█████████▋| 6600/6844 [26:01<00:57,  4.25it/s] 96%|█████████▋| 6601/6844 [26:01<00:57,  4.24it/s] 96%|█████████▋| 6602/6844 [26:01<00:56,  4.25it/s] 96%|█████████▋| 6603/6844 [26:01<00:56,  4.25it/s] 96%|█████████▋| 6604/6844 [26:02<00:56,  4.24it/s] 97%|█████████▋| 6605/6844 [26:02<00:56,  4.24it/s] 97%|█████████▋| 6606/6844 [26:02<00:56,  4.25it/s] 97%|█████████▋| 6607/6844 [26:02<00:55,  4.25it/s] 97%|█████████▋| 6608/6844 [26:03<00:55,  4.25it/s] 97%|█████████▋| 6609/6844 [26:03<00:55,  4.25it/s] 97%|█████████▋| 6610/6844 [26:03<00:55,  4.25it/s] 97%|███���█████▋| 6611/6844 [26:03<00:54,  4.26it/s] 97%|█████████▋| 6612/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6613/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6614/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6615/6844 [26:04<00:53,  4.26it/s] 97%|█████████▋| 6616/6844 [26:04<00:53,  4.26it/s] 97%|█████████▋| 6617/6844 [26:05<00:53,  4.26it/s] 97%|█████████▋| 6618/6844 [26:05<00:53,  4.26it/s] 97%|█████████▋| 6619/6844 [26:05<00:52,  4.26it/s] 97%|█████████▋| 6620/6844 [26:05<00:52,  4.26it/s] 97%|█████████▋| 6621/6844 [26:06<00:52,  4.25it/s] 97%|█████████▋| 6622/6844 [26:06<00:52,  4.25it/s] 97%|█████████▋| 6623/6844 [26:06<00:51,  4.25it/s] 97%|█████████▋| 6624/6844 [26:06<00:51,  4.26it/s] 97%|█████████▋| 6625/6844 [26:07<00:51,  4.26it/s]                                                   {'loss': 4.3431, 'grad_norm': 0.13508817553520203, 'learning_rate': 1.869851691726965e-05, 'epoch': 0.19}
- 97%|█████████▋| 6625/6844 [26:07<00:51,  4.26it/s] 97%|█████████▋| 6626/6844 [26:07<00:51,  4.24it/s] 97%|█████████▋| 6627/6844 [26:07<00:51,  4.25it/s] 97%|█████████▋| 6628/6844 [26:07<00:50,  4.25it/s] 97%|█████████▋| 6629/6844 [26:08<00:50,  4.25it/s] 97%|█████████▋| 6630/6844 [26:08<00:50,  4.25it/s] 97%|█████████▋| 6631/6844 [26:08<00:50,  4.25it/s] 97%|█████████▋| 6632/6844 [26:08<00:49,  4.25it/s] 97%|█████████▋| 6633/6844 [26:08<00:49,  4.25it/s] 97%|█████████▋| 6634/6844 [26:09<00:49,  4.25it/s] 97%|█████████▋| 6635/6844 [26:09<00:49,  4.25it/s] 97%|█████████▋| 6636/6844 [26:09<00:48,  4.26it/s] 97%|█████████▋| 6637/6844 [26:09<00:48,  4.26it/s] 97%|█████████▋| 6638/6844 [26:10<00:48,  4.26it/s] 97%|█████████▋| 6639/6844 [26:10<00:48,  4.25it/s] 97%|█████████▋| 6640/6844 [26:10<00:47,  4.25it/s] 97%|█████████▋| 6641/6844 [26:10<00:47,  4.25it/s] 97%|█████████▋| 6642/6844 [26:11<00:47,  4.25it/s] 97%|█████████▋| 6643/6844 [26:11<00:47,  4.26it/s] 97%|█████████▋| 6644/6844 [26:11<00:46,  4.26it/s] 97%|█████████▋| 6645/6844 [26:11<00:46,  4.26it/s] 97%|█████████▋| 6646/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6647/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6648/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6649/6844 [26:12<00:45,  4.26it/s] 97%|█████████▋| 6650/6844 [26:12<00:45,  4.26it/s]{'loss': 4.3317, 'grad_norm': 0.1405188888311386, 'learning_rate': 1.4676403170577613e-05, 'epoch': 0.19}                                                   
- 97%|█████████▋| 6650/6844 [26:12<00:45,  4.26it/s] 97%|█████████▋| 6651/6844 [26:13<00:45,  4.24it/s] 97%|█████████▋| 6652/6844 [26:13<00:45,  4.25it/s] 97%|█████████▋| 6653/6844 [26:13<00:44,  4.25it/s] 97%|█████████▋| 6654/6844 [26:13<00:44,  4.25it/s] 97%|█████████▋| 6655/6844 [26:14<00:44,  4.25it/s] 97%|█████████▋| 6656/6844 [26:14<00:44,  4.25it/s] 97%|█████████▋| 6657/6844 [26:14<00:43,  4.25it/s] 97%|█████████▋| 6658/6844 [26:14<00:43,  4.26it/s] 97%|█████████▋| 6659/6844 [26:15<00:43,  4.25it/s] 97%|█████████▋| 6660/6844 [26:15<00:45,  4.06it/s] 97%|█████████▋| 6661/6844 [26:15<00:46,  3.98it/s] 97%|█████████▋| 6662/6844 [26:15<00:46,  3.94it/s] 97%|█████████▋| 6663/6844 [26:16<00:46,  3.92it/s] 97%|█████████▋| 6664/6844 [26:16<00:46,  3.88it/s] 97%|█████████▋| 6665/6844 [26:16<00:46,  3.84it/s] 97%|█████████▋| 6666/6844 [26:16<00:46,  3.83it/s] 97%|█████████▋| 6667/6844 [26:17<00:46,  3.83it/s] 97%|█████████▋| 6668/6844 [26:17<00:46,  3.82it/s] 97%|█████████▋| 6669/6844 [26:17<00:45,  3.81it/s] 97%|█████████▋| 6670/6844 [26:17<00:45,  3.82it/s] 97%|█████████▋| 6671/6844 [26:18<00:44,  3.87it/s] 97%|█████████▋| 6672/6844 [26:18<00:43,  3.96it/s] 98%|█████████▊| 6673/6844 [26:18<00:42,  4.05it/s] 98%|█████████▊| 6674/6844 [26:18<00:41,  4.11it/s] 98%|█████████▊| 6675/6844 [26:19<00:40,  4.15it/s]                                                   {'loss': 4.3238, 'grad_norm': 0.13697656989097595, 'learning_rate': 1.113973984603167e-05, 'epoch': 0.2}
- 98%|█████████▊| 6675/6844 [26:19<00:40,  4.15it/s] 98%|█████████▊| 6676/6844 [26:19<00:40,  4.17it/s] 98%|█████████▊| 6677/6844 [26:19<00:39,  4.19it/s] 98%|█████████▊| 6678/6844 [26:19<00:39,  4.22it/s] 98%|█████████▊| 6679/6844 [26:20<00:39,  4.22it/s] 98%|█████████▊| 6680/6844 [26:20<00:38,  4.24it/s] 98%|█████████▊| 6681/6844 [26:20<00:38,  4.23it/s] 98%|█████████▊| 6682/6844 [26:20<00:38,  4.21it/s] 98%|█████████▊| 6683/6844 [26:21<00:38,  4.22it/s] 98%|█████████▊| 6684/6844 [26:21<00:37,  4.23it/s] 98%|█████████▊| 6685/6844 [26:21<00:37,  4.24it/s] 98%|█████████▊| 6686/6844 [26:21<00:37,  4.24it/s] 98%|█████████▊| 6687/6844 [26:21<00:37,  4.24it/s] 98%|█████████▊| 6688/6844 [26:22<00:36,  4.24it/s] 98%|█████████▊| 6689/6844 [26:22<00:36,  4.25it/s] 98%|█████████▊| 6690/6844 [26:22<00:36,  4.24it/s] 98%|█████████▊| 6691/6844 [26:22<00:36,  4.24it/s] 98%|█████████▊| 6692/6844 [26:23<00:35,  4.25it/s] 98%|█████████▊| 6693/6844 [26:23<00:35,  4.24it/s] 98%|█████████▊| 6694/6844 [26:23<00:35,  4.25it/s] 98%|█████████▊| 6695/6844 [26:23<00:35,  4.25it/s] 98%|█████████▊| 6696/6844 [26:24<00:34,  4.25it/s] 98%|█████████▊| 6697/6844 [26:24<00:34,  4.25it/s] 98%|█████████▊| 6698/6844 [26:24<00:34,  4.25it/s] 98%|█████████▊| 6699/6844 [26:24<00:34,  4.24it/s] 98%|█████████▊| 6700/6844 [26:25<00:33,  4.24it/s]                                                   {'loss': 4.335, 'grad_norm': 0.14217780530452728, 'learning_rate': 8.089102048690732e-06, 'epoch': 0.2}
- 98%|█████████▊| 6700/6844 [26:25<00:33,  4.24it/s] 98%|█████████▊| 6701/6844 [26:25<00:33,  4.23it/s] 98%|█████████▊| 6702/6844 [26:25<00:33,  4.24it/s] 98%|█████████▊| 6703/6844 [26:25<00:33,  4.24it/s] 98%|█████████▊| 6704/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6705/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6706/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6707/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6708/6844 [26:26<00:31,  4.25it/s] 98%|█████████▊| 6709/6844 [26:27<00:31,  4.26it/s] 98%|█████████▊| 6710/6844 [26:27<00:31,  4.26it/s] 98%|█████████▊| 6711/6844 [26:27<00:31,  4.26it/s] 98%|█████████▊| 6712/6844 [26:27<00:31,  4.25it/s] 98%|█████████▊| 6713/6844 [26:28<00:30,  4.26it/s] 98%|█████████▊| 6714/6844 [26:28<00:30,  4.25it/s] 98%|█████████▊| 6715/6844 [26:28<00:30,  4.24it/s] 98%|█████████▊| 6716/6844 [26:28<00:30,  4.25it/s] 98%|█████████▊| 6717/6844 [26:29<00:29,  4.25it/s] 98%|█████████▊| 6718/6844 [26:29<00:29,  4.25it/s] 98%|█████████▊| 6719/6844 [26:29<00:29,  4.24it/s] 98%|█████████▊| 6720/6844 [26:29<00:29,  4.25it/s] 98%|█████████▊| 6721/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6722/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6723/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6724/6844 [26:30<00:28,  4.26it/s] 98%|█████████▊| 6725/6844 [26:30<00:27,  4.26it/s]                                                   {'loss': 4.3188, 'grad_norm': 0.1379408985376358, 'learning_rate': 5.524985849871156e-06, 'epoch': 0.2}
- 98%|█████████▊| 6725/6844 [26:30<00:27,  4.26it/s] 98%|█████████▊| 6726/6844 [26:31<00:27,  4.24it/s] 98%|█████████▊| 6727/6844 [26:31<00:27,  4.25it/s] 98%|█████████▊| 6728/6844 [26:31<00:27,  4.25it/s] 98%|█████████▊| 6729/6844 [26:31<00:27,  4.25it/s] 98%|█████████▊| 6730/6844 [26:32<00:26,  4.25it/s] 98%|█████████▊| 6731/6844 [26:32<00:26,  4.25it/s] 98%|█████████▊| 6732/6844 [26:32<00:26,  4.24it/s] 98%|█████████▊| 6733/6844 [26:32<00:26,  4.25it/s] 98%|█████████▊| 6734/6844 [26:33<00:25,  4.24it/s] 98%|█████████▊| 6735/6844 [26:33<00:25,  4.24it/s] 98%|█████████▊| 6736/6844 [26:33<00:25,  4.24it/s] 98%|███████��█▊| 6737/6844 [26:33<00:25,  4.25it/s] 98%|█████████▊| 6738/6844 [26:34<00:24,  4.25it/s] 98%|█████████▊| 6739/6844 [26:34<00:24,  4.26it/s] 98%|█████████▊| 6740/6844 [26:34<00:24,  4.25it/s] 98%|█████████▊| 6741/6844 [26:34<00:24,  4.25it/s] 99%|█████████▊| 6742/6844 [26:34<00:24,  4.25it/s] 99%|█████████▊| 6743/6844 [26:35<00:23,  4.25it/s] 99%|█████████▊| 6744/6844 [26:35<00:23,  4.25it/s] 99%|█████████▊| 6745/6844 [26:35<00:23,  4.25it/s] 99%|█████████▊| 6746/6844 [26:35<00:23,  4.25it/s] 99%|█████████▊| 6747/6844 [26:36<00:22,  4.26it/s] 99%|█████████▊| 6748/6844 [26:36<00:22,  4.25it/s] 99%|█████████▊| 6749/6844 [26:36<00:22,  4.25it/s] 99%|█████████▊| 6750/6844 [26:36<00:22,  4.25it/s]{'loss': 4.3354, 'grad_norm': 0.13937273621559143, 'learning_rate': 3.447808206479608e-06, 'epoch': 0.2}
-                                                    99%|█████████▊| 6750/6844 [26:36<00:22,  4.25it/s] 99%|█████████▊| 6751/6844 [26:37<00:21,  4.23it/s] 99%|█████████▊| 6752/6844 [26:37<00:21,  4.23it/s] 99%|█████████▊| 6753/6844 [26:37<00:21,  4.24it/s] 99%|█████████▊| 6754/6844 [26:37<00:21,  4.24it/s] 99%|█████████▊| 6755/6844 [26:38<00:20,  4.24it/s] 99%|█████████▊| 6756/6844 [26:38<00:20,  4.24it/s] 99%|█████████▊| 6757/6844 [26:38<00:20,  4.24it/s] 99%|█████████▊| 6758/6844 [26:38<00:20,  4.24it/s] 99%|█████████▉| 6759/6844 [26:38<00:20,  4.25it/s] 99%|█████████▉| 6760/6844 [26:39<00:19,  4.25it/s] 99%|█████████▉| 6761/6844 [26:39<00:19,  4.25it/s] 99%|█████████▉| 6762/6844 [26:39<00:19,  4.24it/s] 99%|█████████▉| 6763/6844 [26:39<00:19,  4.24it/s] 99%|█████████▉| 6764/6844 [26:40<00:18,  4.24it/s] 99%|█████████▉| 6765/6844 [26:40<00:18,  4.24it/s] 99%|█████████▉| 6766/6844 [26:40<00:18,  4.24it/s] 99%|█████████▉| 6767/6844 [26:40<00:18,  4.24it/s] 99%|█████████▉| 6768/6844 [26:41<00:17,  4.25it/s] 99%|█████████▉| 6769/6844 [26:41<00:17,  4.26it/s] 99%|█████████▉| 6770/6844 [26:41<00:17,  4.25it/s] 99%|█████████▉| 6771/6844 [26:41<00:17,  4.25it/s] 99%|█████████▉| 6772/6844 [26:42<00:16,  4.25it/s] 99%|█████████▉| 6773/6844 [26:42<00:16,  4.24it/s] 99%|█████████▉| 6774/6844 [26:42<00:16,  4.24it/s] 99%|█████████▉| 6775/6844 [26:42<00:16,  4.25it/s]                                                   {'loss': 4.3242, 'grad_norm': 0.1401301920413971, 'learning_rate': 1.8579068932096376e-06, 'epoch': 0.2}
- 99%|█████████▉| 6775/6844 [26:42<00:16,  4.25it/s] 99%|█████████▉| 6776/6844 [26:42<00:16,  4.23it/s] 99%|█████████▉| 6777/6844 [26:43<00:15,  4.23it/s] 99%|█████████▉| 6778/6844 [26:43<00:15,  4.24it/s] 99%|█████████▉| 6779/6844 [26:43<00:15,  4.24it/s] 99%|█████████▉| 6780/6844 [26:43<00:15,  4.25it/s] 99%|█████████▉| 6781/6844 [26:44<00:14,  4.24it/s] 99%|█████████▉| 6782/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6783/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6784/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6785/6844 [26:45<00:13,  4.25it/s] 99%|█████████▉| 6786/6844 [26:45<00:13,  4.25it/s] 99%|█████████▉| 6787/6844 [26:45<00:13,  4.11it/s] 99%|█████████▉| 6788/6844 [26:45<00:13,  4.15it/s] 99%|█████████▉| 6789/6844 [26:46<00:13,  4.18it/s] 99%|█████████▉| 6790/6844 [26:46<00:12,  4.19it/s] 99%|█████████▉| 6791/6844 [26:46<00:12,  4.21it/s] 99%|█████████▉| 6792/6844 [26:46<00:12,  4.22it/s] 99%|█████████▉| 6793/6844 [26:46<00:12,  4.23it/s] 99%|█████████▉| 6794/6844 [26:47<00:11,  4.23it/s] 99%|█████████▉| 6795/6844 [26:47<00:11,  4.24it/s] 99%|█████████▉| 6796/6844 [26:47<00:11,  4.24it/s] 99%|█████████▉| 6797/6844 [26:47<00:11,  4.25it/s] 99%|█████████▉| 6798/6844 [26:48<00:10,  4.24it/s] 99%|█████████▉| 6799/6844 [26:48<00:10,  4.24it/s] 99%|█████████▉| 6800/6844 [26:48<00:10,  4.24it/s]{'loss': 4.3237, 'grad_norm': 0.1421765387058258, 'learning_rate': 7.555404476162764e-07, 'epoch': 0.2}
-                                                    99%|█████████▉| 6800/6844 [26:48<00:10,  4.24it/s] 99%|█████████▉| 6801/6844 [26:48<00:10,  4.23it/s] 99%|█████████▉| 6802/6844 [26:49<00:09,  4.24it/s] 99%|█████████▉| 6803/6844 [26:49<00:09,  4.24it/s] 99%|█████████▉| 6804/6844 [26:49<00:09,  4.24it/s] 99%|█████████▉| 6805/6844 [26:49<00:09,  4.24it/s] 99%|█████████▉| 6806/6844 [26:50<00:08,  4.24it/s] 99%|█████████▉| 6807/6844 [26:50<00:08,  4.25it/s] 99%|█████████▉| 6808/6844 [26:50<00:08,  4.25it/s] 99%|█████████▉| 6809/6844 [26:50<00:08,  4.25it/s]100%|█████████▉| 6810/6844 [26:50<00:07,  4.25it/s]100%|█████████▉| 6811/6844 [26:51<00:07,  4.25it/s]100%|█████████▉| 6812/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6813/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6814/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6815/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6816/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6817/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6818/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6819/6844 [26:53<00:05,  4.25it/s]100%|█████████▉| 6820/6844 [26:53<00:05,  4.24it/s]100%|█████████▉| 6821/6844 [26:53<00:05,  4.25it/s]100%|█████████▉| 6822/6844 [26:53<00:05,  4.24it/s]100%|█████████▉| 6823/6844 [26:54<00:04,  4.25it/s]100%|█████████▉| 6824/6844 [26:54<00:04,  4.25it/s]100%|█████████▉| 6825/6844 [26:54<00:04,  4.26it/s]                                                   {'loss': 4.3274, 'grad_norm': 0.14067576825618744, 'learning_rate': 1.4088812807466767e-07, 'epoch': 0.2}
-100%|█████████▉| 6825/6844 [26:54<00:04,  4.26it/s]100%|█████████▉| 6826/6844 [26:54<00:04,  4.24it/s]100%|█████████▉| 6827/6844 [26:54<00:04,  4.24it/s]100%|█████████▉| 6828/6844 [26:55<00:03,  4.24it/s]100%|█████████▉| 6829/6844 [26:55<00:03,  4.24it/s]100%|█████████▉| 6830/6844 [26:55<00:03,  4.24it/s]100%|█████████▉| 6831/6844 [26:55<00:03,  4.25it/s]100%|█████████▉| 6832/6844 [26:56<00:02,  4.25it/s]100%|█████████▉| 6833/6844 [26:56<00:02,  4.25it/s]100%|█████████▉| 6834/6844 [26:56<00:02,  4.25it/s]100%|█████████▉| 6835/6844 [26:56<00:02,  4.26it/s]100%|█████████▉| 6836/6844 [26:57<00:01,  4.25it/s]100%|█████████▉| 6837/6844 [26:57<00:01,  4.25it/s]100%|█████████▉| 6838/6844 [26:57<00:01,  4.25it/s]100%|█████████▉| 6839/6844 [26:57<00:01,  4.25it/s]100%|█████████▉| 6840/6844 [26:58<00:00,  4.25it/s]100%|█████████▉| 6841/6844 [26:58<00:00,  4.25it/s]100%|█████████▉| 6842/6844 [26:58<00:00,  4.25it/s]100%|█████████▉| 6843/6844 [26:58<00:00,  4.25it/s]100%|██████████| 6844/6844 [26:58<00:00,  4.25it/s]                                                   {'train_runtime': 1621.6841, 'train_samples_per_second': 1350.425, 'train_steps_per_second': 4.22, 'train_loss': 4.710128143194612, 'epoch': 0.2}
-100%|██████████| 6844/6844 [27:01<00:00,  4.25it/s]100%|██████████| 6844/6844 [27:01<00:00,  4.22it/s]
+  0%|          | 1/6844 [00:01<3:18:16,  1.74s/it]  0%|          | 2/6844 [00:02<1:54:19,  1.00s/it]  0%|          | 3/6844 [00:02<1:31:29,  1.25it/s]  0%|          | 4/6844 [00:03<1:06:12,  1.72it/s]  0%|          | 5/6844 [00:03<52:13,  2.18it/s]    0%|          | 6/6844 [00:03<43:54,  2.60it/s]  0%|          | 7/6844 [00:03<38:30,  2.96it/s]  0%|          | 8/6844 [00:03<34:56,  3.26it/s]  0%|          | 9/6844 [00:04<32:34,  3.50it/s]  0%|          | 10/6844 [00:04<30:54,  3.68it/s]  0%|          | 11/6844 [00:04<29:48,  3.82it/s]  0%|          | 12/6844 [00:04<29:02,  3.92it/s]  0%|          | 13/6844 [00:05<28:29,  3.99it/s]  0%|          | 14/6844 [00:05<28:08,  4.04it/s]  0%|          | 15/6844 [00:05<27:52,  4.08it/s]  0%|          | 16/6844 [00:05<27:41,  4.11it/s]  0%|          | 17/6844 [00:06<27:35,  4.12it/s]  0%|          | 18/6844 [00:06<27:29,  4.14it/s]  0%|          | 19/6844 [00:06<27:28,  4.14it/s]  0%|          | 20/6844 [00:06<27:23,  4.15it/s]  0%|          | 21/6844 [00:07<27:17,  4.17it/s]  0%|          | 22/6844 [00:07<27:13,  4.18it/s]  0%|          | 23/6844 [00:07<27:12,  4.18it/s]  0%|          | 24/6844 [00:07<27:14,  4.17it/s]  0%|          | 25/6844 [00:08<27:12,  4.18it/s]{'loss': 10.6693, 'grad_norm': 0.7333569526672363, 'learning_rate': 0.00021897810218978101, 'epoch': 0.0}                                                 
+  0%|          | 25/6844 [00:08<27:12,  4.18it/s]  0%|          | 26/6844 [00:08<27:30,  4.13it/s]  0%|          | 27/6844 [00:08<27:23,  4.15it/s]  0%|          | 28/6844 [00:08<27:16,  4.16it/s]  0%|          | 29/6844 [00:09<27:12,  4.17it/s]  0%|          | 30/6844 [00:09<27:10,  4.18it/s]  0%|          | 31/6844 [00:09<27:10,  4.18it/s]  0%|          | 32/6844 [00:09<27:09,  4.18it/s]  0%|          | 33/6844 [00:09<27:07,  4.18it/s]  0%|          | 34/6844 [00:10<27:07,  4.18it/s]  1%|          | 35/6844 [00:10<27:06,  4.19it/s]  1%|          | 36/6844 [00:10<27:04,  4.19it/s]  1%|          | 37/6844 [00:10<27:02,  4.20it/s]  1%|          | 38/6844 [00:11<27:01,  4.20it/s]  1%|          | 39/6844 [00:11<27:05,  4.19it/s]  1%|          | 40/6844 [00:11<27:04,  4.19it/s]  1%|          | 41/6844 [00:11<27:04,  4.19it/s]  1%|          | 42/6844 [00:12<27:03,  4.19it/s]  1%|          | 43/6844 [00:12<27:03,  4.19it/s]  1%|          | 44/6844 [00:12<26:59,  4.20it/s]  1%|          | 45/6844 [00:12<26:58,  4.20it/s]  1%|          | 46/6844 [00:13<26:58,  4.20it/s]  1%|          | 47/6844 [00:13<27:05,  4.18it/s]  1%|          | 48/6844 [00:13<27:05,  4.18it/s]  1%|          | 49/6844 [00:13<27:05,  4.18it/s]  1%|          | 50/6844 [00:14<27:04,  4.18it/s]{'loss': 9.9077, 'grad_norm': 0.757684588432312, 'learning_rate': 0.00043795620437956203, 'epoch': 0.0}
+                                                   1%|          | 50/6844 [00:14<27:04,  4.18it/s]  1%|          | 51/6844 [00:14<27:04,  4.18it/s]  1%|          | 52/6844 [00:14<27:03,  4.18it/s]  1%|          | 53/6844 [00:14<26:58,  4.19it/s]  1%|          | 54/6844 [00:15<27:01,  4.19it/s]  1%|          | 55/6844 [00:15<27:00,  4.19it/s]  1%|          | 56/6844 [00:15<27:01,  4.19it/s]  1%|          | 57/6844 [00:15<26:58,  4.19it/s]  1%|          | 58/6844 [00:15<26:56,  4.20it/s]  1%|          | 59/6844 [00:16<26:53,  4.20it/s]  1%|          | 60/6844 [00:16<26:53,  4.20it/s]  1%|          | 61/6844 [00:16<26:54,  4.20it/s]  1%|          | 62/6844 [00:16<27:04,  4.18it/s]  1%|          | 63/6844 [00:17<27:01,  4.18it/s]  1%|          | 64/6844 [00:17<27:00,  4.18it/s]  1%|          | 65/6844 [00:17<26:56,  4.19it/s]  1%|          | 66/6844 [00:17<27:44,  4.07it/s]  1%|          | 67/6844 [00:18<27:36,  4.09it/s]  1%|          | 68/6844 [00:18<27:20,  4.13it/s]  1%|          | 69/6844 [00:18<27:12,  4.15it/s]  1%|          | 70/6844 [00:18<27:06,  4.16it/s]  1%|          | 71/6844 [00:19<26:59,  4.18it/s]  1%|          | 72/6844 [00:19<26:57,  4.19it/s]  1%|          | 73/6844 [00:19<26:53,  4.20it/s]  1%|          | 74/6844 [00:19<26:50,  4.20it/s]  1%|          | 75/6844 [00:20<26:47,  4.21it/s]{'loss': 8.8283, 'grad_norm': 0.683012843132019, 'learning_rate': 0.0006569343065693431, 'epoch': 0.0}
+                                                   1%|          | 75/6844 [00:20<26:47,  4.21it/s]  1%|          | 76/6844 [00:20<26:50,  4.20it/s]  1%|          | 77/6844 [00:20<26:49,  4.21it/s]  1%|          | 78/6844 [00:20<26:46,  4.21it/s]  1%|          | 79/6844 [00:20<26:45,  4.21it/s]  1%|          | 80/6844 [00:21<26:45,  4.21it/s]  1%|          | 81/6844 [00:21<26:43,  4.22it/s]  1%|          | 82/6844 [00:21<26:45,  4.21it/s]  1%|          | 83/6844 [00:21<26:42,  4.22it/s]  1%|          | 84/6844 [00:22<26:41,  4.22it/s]  1%|          | 85/6844 [00:22<26:41,  4.22it/s]  1%|▏         | 86/6844 [00:22<26:42,  4.22it/s]  1%|▏         | 87/6844 [00:22<26:42,  4.22it/s]  1%|▏         | 88/6844 [00:23<26:42,  4.22it/s]  1%|▏         | 89/6844 [00:23<26:41,  4.22it/s]  1%|▏         | 90/6844 [00:23<26:39,  4.22it/s]  1%|▏         | 91/6844 [00:23<26:38,  4.22it/s]  1%|▏         | 92/6844 [00:24<26:39,  4.22it/s]  1%|▏         | 93/6844 [00:24<26:41,  4.22it/s]  1%|▏         | 94/6844 [00:24<26:39,  4.22it/s]  1%|▏         | 95/6844 [00:24<26:39,  4.22it/s]  1%|▏         | 96/6844 [00:25<26:38,  4.22it/s]  1%|▏         | 97/6844 [00:25<26:37,  4.22it/s]  1%|▏         | 98/6844 [00:25<26:37,  4.22it/s]  1%|▏         | 99/6844 [00:25<26:38,  4.22it/s]  1%|▏         | 100/6844 [00:25<26:39,  4.22it/s]                                                  {'loss': 8.0152, 'grad_norm': 0.5642054677009583, 'learning_rate': 0.0008759124087591241, 'epoch': 0.0}
+  1%|▏         | 100/6844 [00:25<26:39,  4.22it/s]  1%|▏         | 101/6844 [00:26<26:42,  4.21it/s]  1%|▏         | 102/6844 [00:26<26:44,  4.20it/s]  2%|▏         | 103/6844 [00:26<26:43,  4.21it/s]  2%|▏         | 104/6844 [00:26<26:40,  4.21it/s]  2%|▏         | 105/6844 [00:27<26:38,  4.22it/s]  2%|▏         | 106/6844 [00:27<26:35,  4.22it/s]  2%|▏         | 107/6844 [00:27<26:34,  4.23it/s]  2%|▏         | 108/6844 [00:27<26:33,  4.23it/s]  2%|▏         | 109/6844 [00:28<26:30,  4.23it/s]  2%|▏         | 110/6844 [00:28<26:34,  4.22it/s]  2%|▏         | 111/6844 [00:28<26:34,  4.22it/s]  2%|▏         | 112/6844 [00:28<26:33,  4.22it/s]  2%|▏         | 113/6844 [00:29<26:35,  4.22it/s]  2%|▏         | 114/6844 [00:29<26:33,  4.22it/s]  2%|▏         | 115/6844 [00:29<26:33,  4.22it/s]  2%|▏         | 116/6844 [00:29<26:35,  4.22it/s]  2%|▏         | 117/6844 [00:29<26:34,  4.22it/s]  2%|▏         | 118/6844 [00:30<26:31,  4.23it/s]  2%|▏         | 119/6844 [00:30<26:31,  4.23it/s]  2%|▏         | 120/6844 [00:30<26:34,  4.22it/s]  2%|▏         | 121/6844 [00:30<26:29,  4.23it/s]  2%|▏         | 122/6844 [00:31<26:28,  4.23it/s]  2%|▏         | 123/6844 [00:31<26:29,  4.23it/s]  2%|▏         | 124/6844 [00:31<26:29,  4.23it/s]  2%|▏         | 125/6844 [00:31<26:26,  4.23it/s]{'loss': 7.4338, 'grad_norm': 0.398320734500885, 'learning_rate': 0.0010948905109489052, 'epoch': 0.0}                                                  
+  2%|▏         | 125/6844 [00:31<26:26,  4.23it/s]  2%|▏         | 126/6844 [00:32<26:30,  4.22it/s]  2%|▏         | 127/6844 [00:32<26:29,  4.23it/s]  2%|▏         | 128/6844 [00:32<26:29,  4.23it/s]  2%|▏         | 129/6844 [00:32<26:25,  4.24it/s]  2%|▏         | 130/6844 [00:33<26:24,  4.24it/s]  2%|▏         | 131/6844 [00:33<26:23,  4.24it/s]  2%|▏         | 132/6844 [00:33<26:22,  4.24it/s]  2%|▏         | 133/6844 [00:33<26:22,  4.24it/s]  2%|▏         | 134/6844 [00:33<26:20,  4.24it/s]  2%|▏         | 135/6844 [00:34<26:21,  4.24it/s]  2%|▏         | 136/6844 [00:34<26:23,  4.24it/s]  2%|▏         | 137/6844 [00:34<26:25,  4.23it/s]  2%|▏         | 138/6844 [00:34<26:23,  4.24it/s]  2%|▏         | 139/6844 [00:35<26:22,  4.24it/s]  2%|▏         | 140/6844 [00:35<26:23,  4.23it/s]  2%|▏         | 141/6844 [00:35<26:22,  4.24it/s]  2%|▏         | 142/6844 [00:35<26:20,  4.24it/s]  2%|▏         | 143/6844 [00:36<26:22,  4.23it/s]  2%|▏         | 144/6844 [00:36<26:19,  4.24it/s]  2%|▏         | 145/6844 [00:36<26:17,  4.25it/s]  2%|▏         | 146/6844 [00:36<26:18,  4.24it/s]  2%|▏         | 147/6844 [00:37<26:16,  4.25it/s]  2%|▏         | 148/6844 [00:37<26:15,  4.25it/s]  2%|▏         | 149/6844 [00:37<26:14,  4.25it/s]  2%|▏         | 150/6844 [00:37<26:15,  4.25it/s]{'loss': 6.9943, 'grad_norm': 0.3815886974334717, 'learning_rate': 0.0013138686131386862, 'epoch': 0.0}
+                                                    2%|▏         | 150/6844 [00:37<26:15,  4.25it/s]  2%|▏         | 151/6844 [00:38<26:19,  4.24it/s]  2%|▏         | 152/6844 [00:38<26:18,  4.24it/s]  2%|▏         | 153/6844 [00:38<26:17,  4.24it/s]  2%|▏         | 154/6844 [00:38<26:15,  4.25it/s]  2%|▏         | 155/6844 [00:38<26:15,  4.25it/s]  2%|▏         | 156/6844 [00:39<26:14,  4.25it/s]  2%|▏         | 157/6844 [00:39<26:14,  4.25it/s]  2%|▏         | 158/6844 [00:39<26:13,  4.25it/s]  2%|▏         | 159/6844 [00:39<26:14,  4.25it/s]  2%|▏         | 160/6844 [00:40<26:12,  4.25it/s]  2%|▏         | 161/6844 [00:40<26:14,  4.25it/s]  2%|▏         | 162/6844 [00:40<26:14,  4.24it/s]  2%|▏         | 163/6844 [00:40<26:16,  4.24it/s]  2%|▏         | 164/6844 [00:41<26:15,  4.24it/s]  2%|▏         | 165/6844 [00:41<26:12,  4.25it/s]  2%|▏         | 166/6844 [00:41<26:12,  4.25it/s]  2%|▏         | 167/6844 [00:41<26:12,  4.25it/s]  2%|▏         | 168/6844 [00:42<26:12,  4.24it/s]  2%|▏         | 169/6844 [00:42<26:13,  4.24it/s]  2%|▏         | 170/6844 [00:42<26:13,  4.24it/s]  2%|▏         | 171/6844 [00:42<26:11,  4.25it/s]  3%|▎         | 172/6844 [00:42<26:10,  4.25it/s]  3%|▎         | 173/6844 [00:43<26:09,  4.25it/s]  3%|▎         | 174/6844 [00:43<26:11,  4.24it/s]  3%|▎         | 175/6844 [00:43<26:11,  4.24it/s]                                                  {'loss': 6.6681, 'grad_norm': 0.4266324043273926, 'learning_rate': 0.0015328467153284673, 'epoch': 0.01}
+  3%|▎         | 175/6844 [00:43<26:11,  4.24it/s]  3%|▎         | 176/6844 [00:43<26:14,  4.23it/s]  3%|▎         | 177/6844 [00:44<26:13,  4.24it/s]  3%|▎         | 178/6844 [00:44<26:13,  4.24it/s]  3%|▎         | 179/6844 [00:44<26:13,  4.24it/s]  3%|▎         | 180/6844 [00:44<26:10,  4.24it/s]  3%|▎         | 181/6844 [00:45<26:09,  4.24it/s]  3%|▎         | 182/6844 [00:45<26:10,  4.24it/s]  3%|▎         | 183/6844 [00:45<26:11,  4.24it/s]  3%|▎         | 184/6844 [00:45<26:10,  4.24it/s]  3%|▎         | 185/6844 [00:46<26:10,  4.24it/s]  3%|▎         | 186/6844 [00:46<26:09,  4.24it/s]  3%|▎         | 187/6844 [00:46<26:08,  4.24it/s]  3%|▎         | 188/6844 [00:46<26:06,  4.25it/s]  3%|▎         | 189/6844 [00:46<26:07,  4.25it/s]  3%|▎         | 190/6844 [00:47<26:09,  4.24it/s]  3%|▎         | 191/6844 [00:47<26:08,  4.24it/s]  3%|▎         | 192/6844 [00:47<26:08,  4.24it/s]  3%|▎         | 193/6844 [00:47<27:08,  4.09it/s]  3%|▎         | 194/6844 [00:48<27:41,  4.00it/s]  3%|▎         | 195/6844 [00:48<28:01,  3.95it/s]  3%|▎         | 196/6844 [00:48<27:37,  4.01it/s]  3%|▎         | 197/6844 [00:48<27:12,  4.07it/s]  3%|▎         | 198/6844 [00:49<26:51,  4.12it/s]  3%|▎         | 199/6844 [00:49<26:36,  4.16it/s]  3%|▎         | 200/6844 [00:49<26:27,  4.19it/s]                                                  {'loss': 6.438, 'grad_norm': 0.3815624415874481, 'learning_rate': 0.0017518248175182481, 'epoch': 0.01}
+  3%|▎         | 200/6844 [00:49<26:27,  4.19it/s]  3%|▎         | 201/6844 [00:49<26:24,  4.19it/s]  3%|▎         | 202/6844 [00:50<26:18,  4.21it/s]  3%|▎         | 203/6844 [00:50<26:13,  4.22it/s]  3%|▎         | 204/6844 [00:50<26:11,  4.23it/s]  3%|▎         | 205/6844 [00:50<26:06,  4.24it/s]  3%|▎         | 206/6844 [00:51<26:04,  4.24it/s]  3%|▎         | 207/6844 [00:51<26:04,  4.24it/s]  3%|▎         | 208/6844 [00:51<26:03,  4.25it/s]  3%|▎         | 209/6844 [00:51<26:02,  4.25it/s]  3%|▎         | 210/6844 [00:51<26:06,  4.23it/s]  3%|▎         | 211/6844 [00:52<26:07,  4.23it/s]  3%|▎         | 212/6844 [00:52<26:08,  4.23it/s]  3%|▎         | 213/6844 [00:52<26:07,  4.23it/s]  3%|▎         | 214/6844 [00:52<26:05,  4.24it/s]  3%|▎         | 215/6844 [00:53<26:04,  4.24it/s]  3%|▎         | 216/6844 [00:53<26:03,  4.24it/s]  3%|▎         | 217/6844 [00:53<26:02,  4.24it/s]  3%|▎         | 218/6844 [00:53<26:03,  4.24it/s]  3%|▎         | 219/6844 [00:54<26:04,  4.23it/s]  3%|▎         | 220/6844 [00:54<26:03,  4.24it/s]  3%|▎         | 221/6844 [00:54<26:01,  4.24it/s]  3%|▎         | 222/6844 [00:54<26:01,  4.24it/s]  3%|▎         | 223/6844 [00:55<26:03,  4.23it/s]  3%|▎         | 224/6844 [00:55<26:02,  4.24it/s]  3%|▎         | 225/6844 [00:55<26:01,  4.24it/s]{'loss': 6.2681, 'grad_norm': 0.3586225211620331, 'learning_rate': 0.001970802919708029, 'epoch': 0.01}                                                  
+  3%|▎         | 225/6844 [00:55<26:01,  4.24it/s]  3%|▎         | 226/6844 [00:55<26:03,  4.23it/s]  3%|▎         | 227/6844 [00:56<26:01,  4.24it/s]  3%|▎         | 228/6844 [00:56<25:59,  4.24it/s]  3%|▎         | 229/6844 [00:56<25:58,  4.24it/s]  3%|▎         | 230/6844 [00:56<25:59,  4.24it/s]  3%|▎         | 231/6844 [00:56<25:58,  4.24it/s]  3%|▎         | 232/6844 [00:57<25:54,  4.25it/s]  3%|▎         | 233/6844 [00:57<25:54,  4.25it/s]  3%|▎         | 234/6844 [00:57<25:54,  4.25it/s]  3%|▎         | 235/6844 [00:57<25:55,  4.25it/s]  3%|▎         | 236/6844 [00:58<25:57,  4.24it/s]  3%|▎         | 237/6844 [00:58<25:56,  4.24it/s]  3%|▎         | 238/6844 [00:58<25:54,  4.25it/s]  3%|▎         | 239/6844 [00:58<25:53,  4.25it/s]  4%|▎         | 240/6844 [00:59<25:55,  4.24it/s]  4%|▎         | 241/6844 [00:59<25:54,  4.25it/s]  4%|▎         | 242/6844 [00:59<25:54,  4.25it/s]  4%|▎         | 243/6844 [00:59<25:55,  4.24it/s]  4%|▎         | 244/6844 [01:00<25:53,  4.25it/s]  4%|▎         | 245/6844 [01:00<25:52,  4.25it/s]  4%|▎         | 246/6844 [01:00<25:52,  4.25it/s]  4%|▎         | 247/6844 [01:00<25:52,  4.25it/s]  4%|▎         | 248/6844 [01:00<25:51,  4.25it/s]  4%|▎         | 249/6844 [01:01<25:51,  4.25it/s]  4%|▎         | 250/6844 [01:01<25:51,  4.25it/s]{'loss': 6.1035, 'grad_norm': 0.34696540236473083, 'learning_rate': 0.0021897810218978104, 'epoch': 0.01}                                                  
+  4%|▎         | 250/6844 [01:01<25:51,  4.25it/s]  4%|▎         | 251/6844 [01:01<25:55,  4.24it/s]  4%|▎         | 252/6844 [01:01<25:54,  4.24it/s]  4%|▎         | 253/6844 [01:02<25:54,  4.24it/s]  4%|▎         | 254/6844 [01:02<25:55,  4.24it/s]  4%|▎         | 255/6844 [01:02<25:56,  4.23it/s]  4%|▎         | 256/6844 [01:02<25:55,  4.24it/s]  4%|▍         | 257/6844 [01:03<25:52,  4.24it/s]  4%|▍         | 258/6844 [01:03<25:54,  4.24it/s]  4%|▍         | 259/6844 [01:03<25:54,  4.24it/s]  4%|▍         | 260/6844 [01:03<25:51,  4.24it/s]  4%|▍         | 261/6844 [01:04<25:51,  4.24it/s]  4%|▍         | 262/6844 [01:04<25:50,  4.25it/s]  4%|▍         | 263/6844 [01:04<25:50,  4.24it/s]  4%|▍         | 264/6844 [01:04<25:50,  4.24it/s]  4%|▍         | 265/6844 [01:04<25:51,  4.24it/s]  4%|▍         | 266/6844 [01:05<25:50,  4.24it/s]  4%|▍         | 267/6844 [01:05<25:55,  4.23it/s]  4%|▍         | 268/6844 [01:05<25:53,  4.23it/s]  4%|▍         | 269/6844 [01:05<25:50,  4.24it/s]  4%|▍         | 270/6844 [01:06<25:47,  4.25it/s]  4%|▍         | 271/6844 [01:06<25:46,  4.25it/s]  4%|▍         | 272/6844 [01:06<25:48,  4.24it/s]  4%|▍         | 273/6844 [01:06<25:48,  4.24it/s]  4%|▍         | 274/6844 [01:07<25:46,  4.25it/s]  4%|▍         | 275/6844 [01:07<25:53,  4.23it/s]{'loss': 5.985, 'grad_norm': 0.3449193239212036, 'learning_rate': 0.0024087591240875912, 'epoch': 0.01}                                                  
+  4%|▍         | 275/6844 [01:07<25:53,  4.23it/s]  4%|▍         | 276/6844 [01:07<25:54,  4.22it/s]  4%|▍         | 277/6844 [01:07<25:50,  4.23it/s]  4%|▍         | 278/6844 [01:08<25:49,  4.24it/s]  4%|▍         | 279/6844 [01:08<25:49,  4.24it/s]  4%|▍         | 280/6844 [01:08<25:49,  4.24it/s]  4%|▍         | 281/6844 [01:08<25:48,  4.24it/s]  4%|▍         | 282/6844 [01:08<25:46,  4.24it/s]  4%|▍         | 283/6844 [01:09<25:46,  4.24it/s]  4%|▍         | 284/6844 [01:09<25:48,  4.24it/s]  4%|▍         | 285/6844 [01:09<25:45,  4.24it/s]  4%|▍         | 286/6844 [01:09<25:44,  4.25it/s]  4%|▍         | 287/6844 [01:10<25:45,  4.24it/s]  4%|▍         | 288/6844 [01:10<25:44,  4.25it/s]  4%|▍         | 289/6844 [01:10<25:43,  4.25it/s]  4%|▍         | 290/6844 [01:10<25:43,  4.25it/s]  4%|▍         | 291/6844 [01:11<25:43,  4.25it/s]  4%|▍         | 292/6844 [01:11<25:43,  4.25it/s]  4%|▍         | 293/6844 [01:11<25:42,  4.25it/s]  4%|▍         | 294/6844 [01:11<25:41,  4.25it/s]  4%|▍         | 295/6844 [01:12<25:40,  4.25it/s]  4%|▍         | 296/6844 [01:12<25:39,  4.25it/s]  4%|▍         | 297/6844 [01:12<25:38,  4.26it/s]  4%|▍         | 298/6844 [01:12<25:39,  4.25it/s]  4%|▍         | 299/6844 [01:12<25:42,  4.24it/s]  4%|▍         | 300/6844 [01:13<25:41,  4.25it/s]                                                  {'loss': 5.8687, 'grad_norm': 0.3332691490650177, 'learning_rate': 0.0026277372262773725, 'epoch': 0.01}
+  4%|▍         | 300/6844 [01:13<25:41,  4.25it/s]  4%|▍         | 301/6844 [01:13<25:48,  4.22it/s]  4%|▍         | 302/6844 [01:13<25:46,  4.23it/s]  4%|▍         | 303/6844 [01:13<25:45,  4.23it/s]  4%|▍         | 304/6844 [01:14<25:45,  4.23it/s]  4%|▍         | 305/6844 [01:14<25:43,  4.24it/s]  4%|▍         | 306/6844 [01:14<25:44,  4.23it/s]  4%|▍         | 307/6844 [01:14<25:44,  4.23it/s]  5%|▍         | 308/6844 [01:15<25:42,  4.24it/s]  5%|▍         | 309/6844 [01:15<25:53,  4.21it/s]  5%|▍         | 310/6844 [01:15<25:48,  4.22it/s]  5%|▍         | 311/6844 [01:15<25:46,  4.22it/s]  5%|▍         | 312/6844 [01:16<25:47,  4.22it/s]  5%|▍         | 313/6844 [01:16<25:44,  4.23it/s]  5%|▍         | 314/6844 [01:16<25:42,  4.23it/s]  5%|▍         | 315/6844 [01:16<25:39,  4.24it/s]  5%|▍         | 316/6844 [01:16<25:46,  4.22it/s]  5%|▍         | 317/6844 [01:17<25:42,  4.23it/s]  5%|▍         | 318/6844 [01:17<25:42,  4.23it/s]  5%|▍         | 319/6844 [01:17<25:39,  4.24it/s]  5%|▍         | 320/6844 [01:17<26:25,  4.11it/s]  5%|▍         | 321/6844 [01:18<26:15,  4.14it/s]  5%|▍         | 322/6844 [01:18<26:05,  4.17it/s]  5%|▍         | 323/6844 [01:18<25:59,  4.18it/s]  5%|▍         | 324/6844 [01:18<25:52,  4.20it/s]  5%|▍         | 325/6844 [01:19<25:47,  4.21it/s]                                                  {'loss': 5.7648, 'grad_norm': 0.4022085964679718, 'learning_rate': 0.0028467153284671533, 'epoch': 0.01}
+  5%|▍         | 325/6844 [01:19<25:47,  4.21it/s]  5%|▍         | 326/6844 [01:19<25:49,  4.21it/s]  5%|▍         | 327/6844 [01:19<25:45,  4.22it/s]  5%|▍         | 328/6844 [01:19<25:43,  4.22it/s]  5%|▍         | 329/6844 [01:20<25:41,  4.23it/s]  5%|▍         | 330/6844 [01:20<25:37,  4.24it/s]  5%|▍         | 331/6844 [01:20<25:34,  4.24it/s]  5%|▍         | 332/6844 [01:20<25:33,  4.25it/s]  5%|▍         | 333/6844 [01:21<25:32,  4.25it/s]  5%|▍         | 334/6844 [01:21<25:32,  4.25it/s]  5%|▍         | 335/6844 [01:21<25:33,  4.24it/s]  5%|▍         | 336/6844 [01:21<25:33,  4.24it/s]  5%|▍         | 337/6844 [01:21<25:29,  4.25it/s]  5%|▍         | 338/6844 [01:22<25:29,  4.25it/s]  5%|▍         | 339/6844 [01:22<25:30,  4.25it/s]  5%|▍         | 340/6844 [01:22<25:29,  4.25it/s]  5%|▍         | 341/6844 [01:22<25:30,  4.25it/s]  5%|▍         | 342/6844 [01:23<25:27,  4.26it/s]  5%|▌         | 343/6844 [01:23<25:27,  4.26it/s]  5%|▌         | 344/6844 [01:23<25:26,  4.26it/s]  5%|▌         | 345/6844 [01:23<25:27,  4.26it/s]  5%|▌         | 346/6844 [01:24<25:28,  4.25it/s]  5%|▌         | 347/6844 [01:24<25:28,  4.25it/s]  5%|▌         | 348/6844 [01:24<25:28,  4.25it/s]  5%|▌         | 349/6844 [01:24<25:27,  4.25it/s]  5%|▌         | 350/6844 [01:25<25:29,  4.24it/s]{'loss': 5.6777, 'grad_norm': 0.3498581051826477, 'learning_rate': 0.0030656934306569346, 'epoch': 0.01}
+                                                    5%|▌         | 350/6844 [01:25<25:29,  4.24it/s]  5%|▌         | 351/6844 [01:25<25:32,  4.24it/s]  5%|▌         | 352/6844 [01:25<25:30,  4.24it/s]  5%|▌         | 353/6844 [01:25<25:28,  4.25it/s]  5%|▌         | 354/6844 [01:25<25:30,  4.24it/s]  5%|▌         | 355/6844 [01:26<25:33,  4.23it/s]  5%|▌         | 356/6844 [01:26<25:33,  4.23it/s]  5%|▌         | 357/6844 [01:26<25:32,  4.23it/s]  5%|▌         | 358/6844 [01:26<25:31,  4.23it/s]  5%|▌         | 359/6844 [01:27<25:30,  4.24it/s]  5%|▌         | 360/6844 [01:27<25:28,  4.24it/s]  5%|▌         | 361/6844 [01:27<25:29,  4.24it/s]  5%|▌         | 362/6844 [01:27<25:27,  4.24it/s]  5%|▌         | 363/6844 [01:28<25:26,  4.24it/s]  5%|▌         | 364/6844 [01:28<25:28,  4.24it/s]  5%|▌         | 365/6844 [01:28<25:26,  4.25it/s]  5%|▌         | 366/6844 [01:28<25:27,  4.24it/s]  5%|▌         | 367/6844 [01:29<25:27,  4.24it/s]  5%|▌         | 368/6844 [01:29<25:24,  4.25it/s]  5%|▌         | 369/6844 [01:29<25:22,  4.25it/s]  5%|▌         | 370/6844 [01:29<25:22,  4.25it/s]  5%|▌         | 371/6844 [01:29<25:23,  4.25it/s]  5%|▌         | 372/6844 [01:30<25:21,  4.25it/s]  5%|▌         | 373/6844 [01:30<25:20,  4.26it/s]  5%|▌         | 374/6844 [01:30<25:21,  4.25it/s]  5%|▌         | 375/6844 [01:30<25:21,  4.25it/s]{'loss': 5.6087, 'grad_norm': 0.3488433063030243, 'learning_rate': 0.0032846715328467154, 'epoch': 0.01}                                                  
+  5%|▌         | 375/6844 [01:30<25:21,  4.25it/s]  5%|▌         | 376/6844 [01:31<25:25,  4.24it/s]  6%|▌         | 377/6844 [01:31<25:22,  4.25it/s]  6%|▌         | 378/6844 [01:31<25:21,  4.25it/s]  6%|▌         | 379/6844 [01:31<25:20,  4.25it/s]  6%|▌         | 380/6844 [01:32<25:23,  4.24it/s]  6%|▌         | 381/6844 [01:32<25:30,  4.22it/s]  6%|▌         | 382/6844 [01:32<25:26,  4.23it/s]  6%|▌         | 383/6844 [01:32<25:25,  4.24it/s]  6%|▌         | 384/6844 [01:33<25:22,  4.24it/s]  6%|▌         | 385/6844 [01:33<25:21,  4.25it/s]  6%|▌         | 386/6844 [01:33<25:24,  4.23it/s]  6%|▌         | 387/6844 [01:33<25:22,  4.24it/s]  6%|▌         | 388/6844 [01:33<25:21,  4.24it/s]  6%|▌         | 389/6844 [01:34<25:20,  4.24it/s]  6%|▌         | 390/6844 [01:34<25:20,  4.25it/s]  6%|▌         | 391/6844 [01:34<25:20,  4.24it/s]  6%|▌         | 392/6844 [01:34<25:17,  4.25it/s]  6%|▌         | 393/6844 [01:35<25:18,  4.25it/s]  6%|▌         | 394/6844 [01:35<25:18,  4.25it/s]  6%|▌         | 395/6844 [01:35<25:19,  4.24it/s]  6%|▌         | 396/6844 [01:35<25:20,  4.24it/s]  6%|▌         | 397/6844 [01:36<25:18,  4.24it/s]  6%|▌         | 398/6844 [01:36<25:17,  4.25it/s]  6%|▌         | 399/6844 [01:36<25:16,  4.25it/s]  6%|▌         | 400/6844 [01:36<25:13,  4.26it/s]{'loss': 5.5533, 'grad_norm': 0.36131641268730164, 'learning_rate': 0.0035036496350364962, 'epoch': 0.01}                                                  
+  6%|▌         | 400/6844 [01:36<25:13,  4.26it/s]  6%|▌         | 401/6844 [01:37<25:20,  4.24it/s]  6%|▌         | 402/6844 [01:37<25:17,  4.24it/s]  6%|▌         | 403/6844 [01:37<25:16,  4.25it/s]  6%|▌         | 404/6844 [01:37<25:15,  4.25it/s]  6%|▌         | 405/6844 [01:37<25:14,  4.25it/s]  6%|▌         | 406/6844 [01:38<25:14,  4.25it/s]  6%|▌         | 407/6844 [01:38<25:22,  4.23it/s]  6%|▌         | 408/6844 [01:38<25:20,  4.23it/s]  6%|▌         | 409/6844 [01:38<25:17,  4.24it/s]  6%|▌         | 410/6844 [01:39<25:14,  4.25it/s]  6%|▌         | 411/6844 [01:39<25:17,  4.24it/s]  6%|▌         | 412/6844 [01:39<25:15,  4.24it/s]  6%|▌         | 413/6844 [01:39<25:12,  4.25it/s]  6%|▌         | 414/6844 [01:40<25:13,  4.25it/s]  6%|▌         | 415/6844 [01:40<25:14,  4.25it/s]  6%|▌         | 416/6844 [01:40<25:13,  4.25it/s]  6%|▌         | 417/6844 [01:40<25:13,  4.25it/s]  6%|▌         | 418/6844 [01:41<25:14,  4.24it/s]  6%|▌         | 419/6844 [01:41<25:15,  4.24it/s]  6%|▌         | 420/6844 [01:41<25:11,  4.25it/s]  6%|▌         | 421/6844 [01:41<25:12,  4.25it/s]  6%|▌         | 422/6844 [01:41<25:12,  4.25it/s]  6%|▌         | 423/6844 [01:42<25:12,  4.25it/s]  6%|▌         | 424/6844 [01:42<25:11,  4.25it/s]  6%|▌         | 425/6844 [01:42<25:11,  4.25it/s]{'loss': 5.4926, 'grad_norm': 0.31603214144706726, 'learning_rate': 0.0037226277372262775, 'epoch': 0.01}                                                  
+  6%|▌         | 425/6844 [01:42<25:11,  4.25it/s]  6%|▌         | 426/6844 [01:42<25:15,  4.23it/s]  6%|▌         | 427/6844 [01:43<25:14,  4.24it/s]  6%|▋         | 428/6844 [01:43<25:12,  4.24it/s]  6%|▋         | 429/6844 [01:43<25:10,  4.25it/s]  6%|▋         | 430/6844 [01:43<25:09,  4.25it/s]  6%|▋         | 431/6844 [01:44<25:09,  4.25it/s]  6%|▋         | 432/6844 [01:44<25:07,  4.25it/s]  6%|▋         | 433/6844 [01:44<25:07,  4.25it/s]  6%|▋         | 434/6844 [01:44<25:06,  4.25it/s]  6%|▋         | 435/6844 [01:45<25:09,  4.25it/s]  6%|▋         | 436/6844 [01:45<25:08,  4.25it/s]  6%|▋         | 437/6844 [01:45<25:08,  4.25it/s]  6%|▋         | 438/6844 [01:45<25:07,  4.25it/s]  6%|▋         | 439/6844 [01:46<25:07,  4.25it/s]  6%|▋         | 440/6844 [01:46<25:10,  4.24it/s]  6%|▋         | 441/6844 [01:46<25:10,  4.24it/s]  6%|▋         | 442/6844 [01:46<25:09,  4.24it/s]  6%|▋         | 443/6844 [01:46<25:07,  4.25it/s]  6%|▋         | 444/6844 [01:47<25:08,  4.24it/s]  7%|▋         | 445/6844 [01:47<25:10,  4.24it/s]  7%|▋         | 446/6844 [01:47<25:07,  4.24it/s]  7%|▋         | 447/6844 [01:47<25:58,  4.10it/s]  7%|▋         | 448/6844 [01:48<26:06,  4.08it/s]  7%|▋         | 449/6844 [01:48<25:49,  4.13it/s]  7%|▋         | 450/6844 [01:48<25:34,  4.17it/s]                                                  {'loss': 5.4496, 'grad_norm': 0.29599225521087646, 'learning_rate': 0.003941605839416058, 'epoch': 0.01}
+  7%|▋         | 450/6844 [01:48<25:34,  4.17it/s]  7%|▋         | 451/6844 [01:48<25:28,  4.18it/s]  7%|▋         | 452/6844 [01:49<25:20,  4.20it/s]  7%|▋         | 453/6844 [01:49<25:13,  4.22it/s]  7%|▋         | 454/6844 [01:49<25:12,  4.23it/s]  7%|▋         | 455/6844 [01:49<25:08,  4.24it/s]  7%|▋         | 456/6844 [01:50<25:06,  4.24it/s]  7%|▋         | 457/6844 [01:50<25:05,  4.24it/s]  7%|▋         | 458/6844 [01:50<25:02,  4.25it/s]  7%|▋         | 459/6844 [01:50<25:02,  4.25it/s]  7%|▋         | 460/6844 [01:50<25:01,  4.25it/s]  7%|▋         | 461/6844 [01:51<24:59,  4.26it/s]  7%|▋         | 462/6844 [01:51<24:58,  4.26it/s]  7%|▋         | 463/6844 [01:51<24:59,  4.26it/s]  7%|▋         | 464/6844 [01:51<24:59,  4.26it/s]  7%|▋         | 465/6844 [01:52<24:58,  4.26it/s]  7%|▋         | 466/6844 [01:52<24:56,  4.26it/s]  7%|▋         | 467/6844 [01:52<24:57,  4.26it/s]  7%|▋         | 468/6844 [01:52<24:56,  4.26it/s]  7%|▋         | 469/6844 [01:53<24:57,  4.26it/s]  7%|▋         | 470/6844 [01:53<24:57,  4.26it/s]  7%|▋         | 471/6844 [01:53<24:57,  4.26it/s]  7%|▋         | 472/6844 [01:53<24:59,  4.25it/s]  7%|▋         | 473/6844 [01:54<24:59,  4.25it/s]  7%|▋         | 474/6844 [01:54<25:00,  4.25it/s]  7%|▋         | 475/6844 [01:54<25:00,  4.25it/s]                                                  {'loss': 5.4243, 'grad_norm': 0.29070615768432617, 'learning_rate': 0.00416058394160584, 'epoch': 0.01}
+  7%|▋         | 475/6844 [01:54<25:00,  4.25it/s]  7%|▋         | 476/6844 [01:54<25:02,  4.24it/s]  7%|▋         | 477/6844 [01:54<25:01,  4.24it/s]  7%|▋         | 478/6844 [01:55<24:59,  4.25it/s]  7%|▋         | 479/6844 [01:55<25:00,  4.24it/s]  7%|▋         | 480/6844 [01:55<24:57,  4.25it/s]  7%|▋         | 481/6844 [01:55<24:56,  4.25it/s]  7%|▋         | 482/6844 [01:56<24:57,  4.25it/s]  7%|▋         | 483/6844 [01:56<24:56,  4.25it/s]  7%|▋         | 484/6844 [01:56<24:54,  4.26it/s]  7%|▋         | 485/6844 [01:56<24:56,  4.25it/s]  7%|▋         | 486/6844 [01:57<24:52,  4.26it/s]  7%|▋         | 487/6844 [01:57<24:52,  4.26it/s]  7%|▋         | 488/6844 [01:57<24:52,  4.26it/s]  7%|▋         | 489/6844 [01:57<24:52,  4.26it/s]  7%|▋         | 490/6844 [01:58<24:52,  4.26it/s]  7%|▋         | 491/6844 [01:58<24:50,  4.26it/s]  7%|▋         | 492/6844 [01:58<24:52,  4.26it/s]  7%|▋         | 493/6844 [01:58<24:50,  4.26it/s]  7%|▋         | 494/6844 [01:58<24:50,  4.26it/s]  7%|▋         | 495/6844 [01:59<24:52,  4.25it/s]  7%|▋         | 496/6844 [01:59<24:55,  4.24it/s]  7%|▋         | 497/6844 [01:59<24:52,  4.25it/s]  7%|▋         | 498/6844 [01:59<24:54,  4.25it/s]  7%|▋         | 499/6844 [02:00<24:53,  4.25it/s]  7%|▋         | 500/6844 [02:00<24:52,  4.25it/s]                                                  {'loss': 5.3709, 'grad_norm': 0.28674590587615967, 'learning_rate': 0.004379562043795621, 'epoch': 0.01}
+  7%|▋         | 500/6844 [02:00<24:52,  4.25it/s]  7%|▋         | 501/6844 [02:00<24:56,  4.24it/s]  7%|▋         | 502/6844 [02:00<24:54,  4.24it/s]  7%|▋         | 503/6844 [02:01<24:54,  4.24it/s]  7%|▋         | 504/6844 [02:01<24:54,  4.24it/s]  7%|▋         | 505/6844 [02:01<24:52,  4.25it/s]  7%|▋         | 506/6844 [02:01<24:51,  4.25it/s]  7%|▋         | 507/6844 [02:02<24:51,  4.25it/s]  7%|▋         | 508/6844 [02:02<24:50,  4.25it/s]  7%|▋         | 509/6844 [02:02<24:48,  4.25it/s]  7%|▋         | 510/6844 [02:02<24:49,  4.25it/s]  7%|▋         | 511/6844 [02:02<24:49,  4.25it/s]  7%|▋         | 512/6844 [02:03<24:48,  4.25it/s]  7%|▋         | 513/6844 [02:03<24:47,  4.26it/s]  8%|▊         | 514/6844 [02:03<24:48,  4.25it/s]  8%|▊         | 515/6844 [02:03<24:46,  4.26it/s]  8%|▊         | 516/6844 [02:04<24:46,  4.26it/s]  8%|▊         | 517/6844 [02:04<24:45,  4.26it/s]  8%|▊         | 518/6844 [02:04<24:46,  4.26it/s]  8%|▊         | 519/6844 [02:04<24:50,  4.24it/s]  8%|▊         | 520/6844 [02:05<24:49,  4.25it/s]  8%|▊         | 521/6844 [02:05<24:47,  4.25it/s]  8%|▊         | 522/6844 [02:05<24:45,  4.26it/s]  8%|▊         | 523/6844 [02:05<24:46,  4.25it/s]  8%|▊         | 524/6844 [02:06<24:46,  4.25it/s]  8%|▊         | 525/6844 [02:06<24:44,  4.26it/s]{'loss': 5.3395, 'grad_norm': 0.26327675580978394, 'learning_rate': 0.004598540145985402, 'epoch': 0.02}
+                                                    8%|▊         | 525/6844 [02:06<24:44,  4.26it/s]  8%|▊         | 526/6844 [02:06<24:48,  4.24it/s]  8%|▊         | 527/6844 [02:06<24:44,  4.26it/s]  8%|▊         | 528/6844 [02:06<24:48,  4.24it/s]  8%|▊         | 529/6844 [02:07<24:47,  4.24it/s]  8%|▊         | 530/6844 [02:07<24:46,  4.25it/s]  8%|▊         | 531/6844 [02:07<24:50,  4.23it/s]  8%|▊         | 532/6844 [02:07<24:48,  4.24it/s]  8%|▊         | 533/6844 [02:08<24:46,  4.24it/s]  8%|▊         | 534/6844 [02:08<24:46,  4.24it/s]  8%|▊         | 535/6844 [02:08<24:44,  4.25it/s]  8%|▊         | 536/6844 [02:08<24:44,  4.25it/s]  8%|▊         | 537/6844 [02:09<24:44,  4.25it/s]  8%|▊         | 538/6844 [02:09<24:43,  4.25it/s]  8%|▊         | 539/6844 [02:09<24:39,  4.26it/s]  8%|▊         | 540/6844 [02:09<24:37,  4.27it/s]  8%|▊         | 541/6844 [02:10<24:38,  4.26it/s]  8%|▊         | 542/6844 [02:10<24:39,  4.26it/s]  8%|▊         | 543/6844 [02:10<24:38,  4.26it/s]  8%|▊         | 544/6844 [02:10<24:37,  4.26it/s]  8%|▊         | 545/6844 [02:10<24:37,  4.26it/s]  8%|▊         | 546/6844 [02:11<24:40,  4.25it/s]  8%|▊         | 547/6844 [02:11<24:39,  4.26it/s]  8%|▊         | 548/6844 [02:11<24:38,  4.26it/s]  8%|▊         | 549/6844 [02:11<24:36,  4.26it/s]  8%|▊         | 550/6844 [02:12<24:49,  4.23it/s]                                                  {'loss': 5.3169, 'grad_norm': 0.2535146474838257, 'learning_rate': 0.0048175182481751825, 'epoch': 0.02}
+  8%|▊         | 550/6844 [02:12<24:49,  4.23it/s]  8%|▊         | 551/6844 [02:12<24:51,  4.22it/s]  8%|▊         | 552/6844 [02:12<24:44,  4.24it/s]  8%|▊         | 553/6844 [02:12<24:40,  4.25it/s]  8%|▊         | 554/6844 [02:13<24:40,  4.25it/s]  8%|▊         | 555/6844 [02:13<24:43,  4.24it/s]  8%|▊         | 556/6844 [02:13<24:41,  4.25it/s]  8%|▊         | 557/6844 [02:13<24:39,  4.25it/s]  8%|▊         | 558/6844 [02:14<24:39,  4.25it/s]  8%|▊         | 559/6844 [02:14<24:39,  4.25it/s]  8%|▊         | 560/6844 [02:14<24:39,  4.25it/s]  8%|▊         | 561/6844 [02:14<24:39,  4.25it/s]  8%|▊         | 562/6844 [02:14<24:38,  4.25it/s]  8%|▊         | 563/6844 [02:15<24:37,  4.25it/s]  8%|▊         | 564/6844 [02:15<24:38,  4.25it/s]  8%|▊         | 565/6844 [02:15<24:35,  4.26it/s]  8%|▊         | 566/6844 [02:15<24:34,  4.26it/s]  8%|▊         | 567/6844 [02:16<24:32,  4.26it/s]  8%|▊         | 568/6844 [02:16<24:34,  4.26it/s]  8%|▊         | 569/6844 [02:16<24:34,  4.26it/s]  8%|▊         | 570/6844 [02:16<24:37,  4.25it/s]  8%|▊         | 571/6844 [02:17<24:36,  4.25it/s]  8%|▊         | 572/6844 [02:17<24:35,  4.25it/s]  8%|▊         | 573/6844 [02:17<24:36,  4.25it/s]  8%|▊         | 574/6844 [02:17<24:33,  4.25it/s]  8%|▊         | 575/6844 [02:18<25:28,  4.10it/s]{'loss': 5.2769, 'grad_norm': 0.24613888561725616, 'learning_rate': 0.005036496350364963, 'epoch': 0.02}
+                                                    8%|▊         | 575/6844 [02:18<25:28,  4.10it/s]  8%|▊         | 576/6844 [02:18<26:03,  4.01it/s]  8%|▊         | 577/6844 [02:18<26:30,  3.94it/s]  8%|▊         | 578/6844 [02:18<26:33,  3.93it/s]  8%|▊         | 579/6844 [02:19<26:37,  3.92it/s]  8%|▊         | 580/6844 [02:19<26:02,  4.01it/s]  8%|▊         | 581/6844 [02:19<25:35,  4.08it/s]  9%|▊         | 582/6844 [02:19<25:15,  4.13it/s]  9%|▊         | 583/6844 [02:20<25:02,  4.17it/s]  9%|▊         | 584/6844 [02:20<24:52,  4.20it/s]  9%|▊         | 585/6844 [02:20<24:43,  4.22it/s]  9%|▊         | 586/6844 [02:20<24:38,  4.23it/s]  9%|▊         | 587/6844 [02:20<24:34,  4.24it/s]  9%|▊         | 588/6844 [02:21<24:35,  4.24it/s]  9%|▊         | 589/6844 [02:21<24:33,  4.24it/s]  9%|▊         | 590/6844 [02:21<24:31,  4.25it/s]  9%|▊         | 591/6844 [02:21<24:32,  4.25it/s]  9%|▊         | 592/6844 [02:22<24:33,  4.24it/s]  9%|▊         | 593/6844 [02:22<24:31,  4.25it/s]  9%|▊         | 594/6844 [02:22<24:30,  4.25it/s]  9%|▊         | 595/6844 [02:22<24:29,  4.25it/s]  9%|▊         | 596/6844 [02:23<24:31,  4.25it/s]  9%|▊         | 597/6844 [02:23<24:32,  4.24it/s]  9%|▊         | 598/6844 [02:23<24:34,  4.24it/s]  9%|▉         | 599/6844 [02:23<24:33,  4.24it/s]  9%|▉         | 600/6844 [02:24<24:31,  4.24it/s]                                                  {'loss': 5.2549, 'grad_norm': 0.22347450256347656, 'learning_rate': 0.005255474452554745, 'epoch': 0.02}
+  9%|▉         | 600/6844 [02:24<24:31,  4.24it/s]  9%|▉         | 601/6844 [02:24<24:34,  4.23it/s]  9%|▉         | 602/6844 [02:24<24:31,  4.24it/s]  9%|▉         | 603/6844 [02:24<24:31,  4.24it/s]  9%|▉         | 604/6844 [02:24<24:29,  4.25it/s]  9%|▉         | 605/6844 [02:25<24:30,  4.24it/s]  9%|▉         | 606/6844 [02:25<24:30,  4.24it/s]  9%|▉         | 607/6844 [02:25<24:32,  4.23it/s]  9%|▉         | 608/6844 [02:25<24:33,  4.23it/s]  9%|▉         | 609/6844 [02:26<24:32,  4.24it/s]  9%|▉         | 610/6844 [02:26<24:33,  4.23it/s]  9%|▉         | 611/6844 [02:26<24:31,  4.24it/s]  9%|▉         | 612/6844 [02:26<24:30,  4.24it/s]  9%|▉         | 613/6844 [02:27<24:28,  4.24it/s]  9%|▉         | 614/6844 [02:27<24:28,  4.24it/s]  9%|▉         | 615/6844 [02:27<24:26,  4.25it/s]  9%|▉         | 616/6844 [02:27<24:26,  4.25it/s]  9%|▉         | 617/6844 [02:28<24:26,  4.25it/s]  9%|▉         | 618/6844 [02:28<24:26,  4.25it/s]  9%|▉         | 619/6844 [02:28<24:26,  4.25it/s]  9%|▉         | 620/6844 [02:28<24:27,  4.24it/s]  9%|▉         | 621/6844 [02:28<24:25,  4.25it/s]  9%|▉         | 622/6844 [02:29<24:24,  4.25it/s]  9%|▉         | 623/6844 [02:29<24:23,  4.25it/s]  9%|▉         | 624/6844 [02:29<24:26,  4.24it/s]  9%|▉         | 625/6844 [02:29<24:24,  4.25it/s]{'loss': 5.2271, 'grad_norm': 0.23786886036396027, 'learning_rate': 0.005474452554744526, 'epoch': 0.02}
+                                                    9%|▉         | 625/6844 [02:29<24:24,  4.25it/s]  9%|▉         | 626/6844 [02:30<24:28,  4.23it/s]  9%|▉         | 627/6844 [02:30<24:27,  4.24it/s]  9%|▉         | 628/6844 [02:30<24:25,  4.24it/s]  9%|▉         | 629/6844 [02:30<24:26,  4.24it/s]  9%|▉         | 630/6844 [02:31<24:26,  4.24it/s]  9%|▉         | 631/6844 [02:31<24:25,  4.24it/s]  9%|▉         | 632/6844 [02:31<24:22,  4.25it/s]  9%|▉         | 633/6844 [02:31<24:23,  4.24it/s]  9%|▉         | 634/6844 [02:32<24:25,  4.24it/s]  9%|▉         | 635/6844 [02:32<24:24,  4.24it/s]  9%|▉         | 636/6844 [02:32<24:24,  4.24it/s]  9%|▉         | 637/6844 [02:32<24:23,  4.24it/s]  9%|▉         | 638/6844 [02:33<24:23,  4.24it/s]  9%|▉         | 639/6844 [02:33<24:26,  4.23it/s]  9%|▉         | 640/6844 [02:33<24:24,  4.23it/s]  9%|▉         | 641/6844 [02:33<24:24,  4.24it/s]  9%|▉         | 642/6844 [02:33<24:22,  4.24it/s]  9%|▉         | 643/6844 [02:34<24:22,  4.24it/s]  9%|▉         | 644/6844 [02:34<24:18,  4.25it/s]  9%|▉         | 645/6844 [02:34<24:20,  4.25it/s]  9%|▉         | 646/6844 [02:34<24:19,  4.25it/s]  9%|▉         | 647/6844 [02:35<24:19,  4.25it/s]  9%|▉         | 648/6844 [02:35<24:19,  4.25it/s]  9%|▉         | 649/6844 [02:35<24:17,  4.25it/s]  9%|▉         | 650/6844 [02:35<24:17,  4.25it/s]                                                  {'loss': 5.2112, 'grad_norm': 0.21372319757938385, 'learning_rate': 0.005693430656934307, 'epoch': 0.02}
+  9%|▉         | 650/6844 [02:35<24:17,  4.25it/s] 10%|▉         | 651/6844 [02:36<24:22,  4.23it/s] 10%|▉         | 652/6844 [02:36<32:50,  3.14it/s] 10%|▉         | 653/6844 [02:36<30:15,  3.41it/s] 10%|▉         | 654/6844 [02:37<28:27,  3.63it/s] 10%|▉         | 655/6844 [02:37<27:10,  3.79it/s] 10%|▉         | 656/6844 [02:37<26:18,  3.92it/s] 10%|▉         | 657/6844 [02:37<25:41,  4.01it/s] 10%|▉         | 658/6844 [02:37<25:15,  4.08it/s] 10%|▉         | 659/6844 [02:38<24:55,  4.14it/s] 10%|▉         | 660/6844 [02:38<24:43,  4.17it/s] 10%|▉         | 661/6844 [02:38<24:34,  4.19it/s] 10%|▉         | 662/6844 [02:38<24:28,  4.21it/s] 10%|▉         | 663/6844 [02:39<24:22,  4.23it/s] 10%|▉         | 664/6844 [02:39<24:17,  4.24it/s] 10%|▉         | 665/6844 [02:39<24:15,  4.25it/s] 10%|▉         | 666/6844 [02:39<24:13,  4.25it/s] 10%|▉         | 667/6844 [02:40<24:14,  4.25it/s] 10%|▉         | 668/6844 [02:40<24:12,  4.25it/s] 10%|▉         | 669/6844 [02:40<24:17,  4.24it/s] 10%|▉         | 670/6844 [02:40<24:17,  4.24it/s] 10%|▉         | 671/6844 [02:41<24:14,  4.25it/s] 10%|▉         | 672/6844 [02:41<24:11,  4.25it/s] 10%|▉         | 673/6844 [02:41<24:17,  4.23it/s] 10%|▉         | 674/6844 [02:41<24:14,  4.24it/s] 10%|▉         | 675/6844 [02:41<24:09,  4.26it/s]{'loss': 5.1898, 'grad_norm': 0.23121479153633118, 'learning_rate': 0.0059124087591240874, 'epoch': 0.02}
+                                                   10%|▉         | 675/6844 [02:41<24:09,  4.26it/s] 10%|▉         | 676/6844 [02:42<24:12,  4.25it/s] 10%|▉         | 677/6844 [02:42<24:12,  4.25it/s] 10%|▉         | 678/6844 [02:42<24:12,  4.25it/s] 10%|▉         | 679/6844 [02:42<24:09,  4.25it/s] 10%|▉         | 680/6844 [02:43<24:07,  4.26it/s] 10%|▉         | 681/6844 [02:43<24:08,  4.25it/s] 10%|▉         | 682/6844 [02:43<24:08,  4.25it/s] 10%|▉         | 683/6844 [02:43<24:07,  4.26it/s] 10%|▉         | 684/6844 [02:44<24:08,  4.25it/s] 10%|█         | 685/6844 [02:44<24:05,  4.26it/s] 10%|█         | 686/6844 [02:44<24:07,  4.25it/s] 10%|█         | 687/6844 [02:44<24:05,  4.26it/s] 10%|█         | 688/6844 [02:45<24:04,  4.26it/s] 10%|█         | 689/6844 [02:45<24:05,  4.26it/s] 10%|█         | 690/6844 [02:45<24:05,  4.26it/s] 10%|█         | 691/6844 [02:45<24:04,  4.26it/s] 10%|█         | 692/6844 [02:45<24:02,  4.27it/s] 10%|█         | 693/6844 [02:46<24:33,  4.17it/s] 10%|█         | 694/6844 [02:46<24:23,  4.20it/s] 10%|█         | 695/6844 [02:46<24:16,  4.22it/s] 10%|█         | 696/6844 [02:46<24:12,  4.23it/s] 10%|█         | 697/6844 [02:47<24:09,  4.24it/s] 10%|█         | 698/6844 [02:47<24:08,  4.24it/s] 10%|█         | 699/6844 [02:47<24:06,  4.25it/s] 10%|█         | 700/6844 [02:47<24:53,  4.11it/s]                                                  {'loss': 5.1812, 'grad_norm': 0.2025504857301712, 'learning_rate': 0.005999912188580909, 'epoch': 0.02}
+ 10%|█         | 700/6844 [02:47<24:53,  4.11it/s] 10%|█         | 701/6844 [02:48<25:31,  4.01it/s] 10%|█         | 702/6844 [02:48<26:02,  3.93it/s] 10%|█         | 703/6844 [02:48<25:26,  4.02it/s] 10%|█         | 704/6844 [02:48<25:00,  4.09it/s] 10%|█         | 705/6844 [02:49<24:42,  4.14it/s] 10%|█         | 706/6844 [02:49<24:32,  4.17it/s] 10%|█         | 707/6844 [02:49<24:22,  4.20it/s] 10%|█         | 708/6844 [02:49<24:17,  4.21it/s] 10%|█         | 709/6844 [02:50<24:11,  4.23it/s] 10%|█         | 710/6844 [02:50<24:12,  4.22it/s] 10%|█         | 711/6844 [02:50<24:09,  4.23it/s] 10%|█         | 712/6844 [02:50<24:07,  4.24it/s] 10%|█         | 713/6844 [02:51<24:07,  4.24it/s] 10%|█         | 714/6844 [02:51<24:04,  4.24it/s] 10%|█         | 715/6844 [02:51<24:01,  4.25it/s] 10%|█         | 716/6844 [02:51<24:01,  4.25it/s] 10%|█         | 717/6844 [02:51<24:00,  4.25it/s] 10%|█         | 718/6844 [02:52<23:59,  4.26it/s] 11%|█         | 719/6844 [02:52<23:59,  4.25it/s] 11%|█         | 720/6844 [02:52<23:57,  4.26it/s] 11%|█         | 721/6844 [02:52<23:58,  4.26it/s] 11%|█         | 722/6844 [02:53<23:56,  4.26it/s] 11%|█         | 723/6844 [02:53<23:57,  4.26it/s] 11%|█         | 724/6844 [02:53<23:57,  4.26it/s] 11%|█         | 725/6844 [02:53<23:56,  4.26it/s]                                                  {'loss': 5.154, 'grad_norm': 0.2036484330892563, 'learning_rate': 0.005999375581857942, 'epoch': 0.02}
+ 11%|█         | 725/6844 [02:53<23:56,  4.26it/s] 11%|█         | 726/6844 [02:54<24:00,  4.25it/s] 11%|█         | 727/6844 [02:54<24:00,  4.25it/s] 11%|█         | 728/6844 [02:54<23:58,  4.25it/s] 11%|█         | 729/6844 [02:54<23:55,  4.26it/s] 11%|█         | 730/6844 [02:55<23:58,  4.25it/s] 11%|█         | 731/6844 [02:55<23:56,  4.25it/s] 11%|█         | 732/6844 [02:55<23:56,  4.26it/s] 11%|█         | 733/6844 [02:55<23:57,  4.25it/s] 11%|█         | 734/6844 [02:55<23:56,  4.25it/s] 11%|█         | 735/6844 [02:56<23:56,  4.25it/s] 11%|█         | 736/6844 [02:56<23:56,  4.25it/s] 11%|█         | 737/6844 [02:56<23:56,  4.25it/s] 11%|█         | 738/6844 [02:56<23:55,  4.25it/s] 11%|█         | 739/6844 [02:57<23:52,  4.26it/s] 11%|█         | 740/6844 [02:57<23:54,  4.25it/s] 11%|█         | 741/6844 [02:57<23:53,  4.26it/s] 11%|█         | 742/6844 [02:57<23:53,  4.26it/s] 11%|█         | 743/6844 [02:58<23:53,  4.26it/s] 11%|█         | 744/6844 [02:58<23:54,  4.25it/s] 11%|█         | 745/6844 [02:58<23:54,  4.25it/s] 11%|█         | 746/6844 [02:58<23:56,  4.25it/s] 11%|█         | 747/6844 [02:59<24:04,  4.22it/s] 11%|█         | 748/6844 [02:59<24:03,  4.22it/s] 11%|█         | 749/6844 [02:59<24:00,  4.23it/s] 11%|█         | 750/6844 [02:59<23:59,  4.23it/s]                                                  {'loss': 5.1446, 'grad_norm': 0.17195215821266174, 'learning_rate': 0.005998351239686821, 'epoch': 0.02}
+ 11%|█         | 750/6844 [02:59<23:59,  4.23it/s] 11%|█         | 751/6844 [02:59<24:01,  4.23it/s] 11%|█         | 752/6844 [03:00<23:58,  4.23it/s] 11%|█         | 753/6844 [03:00<23:55,  4.24it/s] 11%|█         | 754/6844 [03:00<23:53,  4.25it/s] 11%|█         | 755/6844 [03:00<23:52,  4.25it/s] 11%|█         | 756/6844 [03:01<23:52,  4.25it/s] 11%|█         | 757/6844 [03:01<23:51,  4.25it/s] 11%|█         | 758/6844 [03:01<23:49,  4.26it/s] 11%|█         | 759/6844 [03:01<23:50,  4.25it/s] 11%|█         | 760/6844 [03:02<23:50,  4.25it/s] 11%|█         | 761/6844 [03:02<23:49,  4.26it/s] 11%|█         | 762/6844 [03:02<23:48,  4.26it/s] 11%|█         | 763/6844 [03:02<23:47,  4.26it/s] 11%|█         | 764/6844 [03:03<23:48,  4.25it/s] 11%|█         | 765/6844 [03:03<23:47,  4.26it/s] 11%|█         | 766/6844 [03:03<23:49,  4.25it/s] 11%|█         | 767/6844 [03:03<23:48,  4.25it/s] 11%|█         | 768/6844 [03:03<23:48,  4.25it/s] 11%|█         | 769/6844 [03:04<23:49,  4.25it/s] 11%|█▏        | 770/6844 [03:04<23:48,  4.25it/s] 11%|█▏        | 771/6844 [03:04<23:48,  4.25it/s] 11%|█▏        | 772/6844 [03:04<23:48,  4.25it/s] 11%|█▏        | 773/6844 [03:05<23:45,  4.26it/s] 11%|█▏        | 774/6844 [03:05<23:44,  4.26it/s] 11%|█▏        | 775/6844 [03:05<23:46,  4.26it/s]                                                  {'loss': 5.1046, 'grad_norm': 0.18750570714473724, 'learning_rate': 0.005996839328638209, 'epoch': 0.02}
+ 11%|█▏        | 775/6844 [03:05<23:46,  4.26it/s] 11%|█▏        | 776/6844 [03:05<23:48,  4.25it/s] 11%|█▏        | 777/6844 [03:06<23:44,  4.26it/s] 11%|█▏        | 778/6844 [03:06<23:42,  4.26it/s] 11%|█▏        | 779/6844 [03:06<23:45,  4.26it/s] 11%|█▏        | 780/6844 [03:06<23:45,  4.25it/s] 11%|█▏        | 781/6844 [03:07<23:41,  4.26it/s] 11%|█▏        | 782/6844 [03:07<23:42,  4.26it/s] 11%|█▏        | 783/6844 [03:07<23:47,  4.25it/s] 11%|█▏        | 784/6844 [03:07<23:45,  4.25it/s] 11%|█▏        | 785/6844 [03:07<23:43,  4.26it/s] 11%|█▏        | 786/6844 [03:08<23:42,  4.26it/s] 11%|█▏        | 787/6844 [03:08<23:43,  4.25it/s] 12%|█▏        | 788/6844 [03:08<23:42,  4.26it/s] 12%|█▏        | 789/6844 [03:08<23:41,  4.26it/s] 12%|█▏        | 790/6844 [03:09<23:41,  4.26it/s] 12%|█▏        | 791/6844 [03:09<23:40,  4.26it/s] 12%|█▏        | 792/6844 [03:09<23:40,  4.26it/s] 12%|█▏        | 793/6844 [03:09<23:46,  4.24it/s] 12%|█▏        | 794/6844 [03:10<23:44,  4.25it/s] 12%|█▏        | 795/6844 [03:10<23:42,  4.25it/s] 12%|█▏        | 796/6844 [03:10<23:41,  4.25it/s] 12%|█▏        | 797/6844 [03:10<23:41,  4.26it/s] 12%|█▏        | 798/6844 [03:11<23:40,  4.26it/s] 12%|█▏        | 799/6844 [03:11<23:41,  4.25it/s] 12%|█▏        | 800/6844 [03:11<23:41,  4.25it/s]{'loss': 5.0903, 'grad_norm': 0.17445823550224304, 'learning_rate': 0.005994840094567485, 'epoch': 0.02}
+                                                   12%|█▏        | 800/6844 [03:11<23:41,  4.25it/s] 12%|█▏        | 801/6844 [03:11<23:46,  4.24it/s] 12%|█▏        | 802/6844 [03:11<23:45,  4.24it/s] 12%|█▏        | 803/6844 [03:12<23:43,  4.24it/s] 12%|█▏        | 804/6844 [03:12<23:42,  4.25it/s] 12%|█▏        | 805/6844 [03:12<23:42,  4.25it/s] 12%|█▏        | 806/6844 [03:12<23:40,  4.25it/s] 12%|█▏        | 807/6844 [03:13<23:40,  4.25it/s] 12%|█▏        | 808/6844 [03:13<23:40,  4.25it/s] 12%|█▏        | 809/6844 [03:13<23:39,  4.25it/s] 12%|█▏        | 810/6844 [03:13<23:38,  4.25it/s] 12%|█▏        | 811/6844 [03:14<23:41,  4.24it/s] 12%|█▏        | 812/6844 [03:14<23:38,  4.25it/s] 12%|█▏        | 813/6844 [03:14<23:37,  4.26it/s] 12%|█▏        | 814/6844 [03:14<23:38,  4.25it/s] 12%|█▏        | 815/6844 [03:15<23:37,  4.25it/s] 12%|█▏        | 816/6844 [03:15<23:36,  4.25it/s] 12%|█▏        | 817/6844 [03:15<23:34,  4.26it/s] 12%|█▏        | 818/6844 [03:15<23:55,  4.20it/s] 12%|█▏        | 819/6844 [03:15<23:49,  4.21it/s] 12%|█▏        | 820/6844 [03:16<23:47,  4.22it/s] 12%|█▏        | 821/6844 [03:16<23:43,  4.23it/s] 12%|█▏        | 822/6844 [03:16<23:40,  4.24it/s] 12%|█▏        | 823/6844 [03:16<23:37,  4.25it/s] 12%|█▏        | 824/6844 [03:17<23:37,  4.25it/s] 12%|█▏        | 825/6844 [03:17<23:34,  4.25it/s]                                                  {'loss': 5.0639, 'grad_norm': 0.18563394248485565, 'learning_rate': 0.005992353862574757, 'epoch': 0.02}
+ 12%|█▏        | 825/6844 [03:17<23:34,  4.25it/s] 12%|█▏        | 826/6844 [03:17<23:47,  4.22it/s] 12%|█▏        | 827/6844 [03:17<24:29,  4.10it/s] 12%|█▏        | 828/6844 [03:18<24:59,  4.01it/s] 12%|█▏        | 829/6844 [03:18<24:53,  4.03it/s] 12%|█▏        | 830/6844 [03:18<24:30,  4.09it/s] 12%|█▏        | 831/6844 [03:18<24:11,  4.14it/s] 12%|█▏        | 832/6844 [03:19<23:58,  4.18it/s] 12%|█▏        | 833/6844 [03:19<23:50,  4.20it/s] 12%|█▏        | 834/6844 [03:19<23:44,  4.22it/s] 12%|█▏        | 835/6844 [03:19<23:41,  4.23it/s] 12%|█▏        | 836/6844 [03:20<23:38,  4.24it/s] 12%|█▏        | 837/6844 [03:20<23:35,  4.25it/s] 12%|█▏        | 838/6844 [03:20<23:36,  4.24it/s] 12%|█▏        | 839/6844 [03:20<23:34,  4.25it/s] 12%|█▏        | 840/6844 [03:20<23:31,  4.25it/s] 12%|█▏        | 841/6844 [03:21<23:30,  4.26it/s] 12%|█▏        | 842/6844 [03:21<23:29,  4.26it/s] 12%|█▏        | 843/6844 [03:21<23:29,  4.26it/s] 12%|█▏        | 844/6844 [03:21<23:27,  4.26it/s] 12%|█▏        | 845/6844 [03:22<23:25,  4.27it/s] 12%|█▏        | 846/6844 [03:22<23:27,  4.26it/s] 12%|█▏        | 847/6844 [03:22<23:26,  4.26it/s] 12%|█▏        | 848/6844 [03:22<23:26,  4.26it/s] 12%|█▏        | 849/6844 [03:23<23:26,  4.26it/s] 12%|█▏        | 850/6844 [03:23<23:27,  4.26it/s]                                                  {'loss': 5.0616, 'grad_norm': 0.17097295820713043, 'learning_rate': 0.005989381036951998, 'epoch': 0.02}
+ 12%|█▏        | 850/6844 [03:23<23:27,  4.26it/s] 12%|█▏        | 851/6844 [03:23<23:30,  4.25it/s] 12%|█▏        | 852/6844 [03:23<23:27,  4.26it/s] 12%|█▏        | 853/6844 [03:24<23:25,  4.26it/s] 12%|█▏        | 854/6844 [03:24<23:25,  4.26it/s] 12%|█▏        | 855/6844 [03:24<23:25,  4.26it/s] 13%|█▎        | 856/6844 [03:24<23:25,  4.26it/s] 13%|█▎        | 857/6844 [03:24<23:26,  4.26it/s] 13%|█▎        | 858/6844 [03:25<23:26,  4.26it/s] 13%|█▎        | 859/6844 [03:25<23:27,  4.25it/s] 13%|█▎        | 860/6844 [03:25<23:26,  4.25it/s] 13%|█▎        | 861/6844 [03:25<23:25,  4.26it/s] 13%|█▎        | 862/6844 [03:26<23:24,  4.26it/s] 13%|█▎        | 863/6844 [03:26<23:22,  4.26it/s] 13%|█▎        | 864/6844 [03:26<23:23,  4.26it/s] 13%|█▎        | 865/6844 [03:26<23:23,  4.26it/s] 13%|█▎        | 866/6844 [03:27<23:23,  4.26it/s] 13%|█▎        | 867/6844 [03:27<23:20,  4.27it/s] 13%|█▎        | 868/6844 [03:27<23:20,  4.27it/s] 13%|█▎        | 869/6844 [03:27<23:22,  4.26it/s] 13%|█▎        | 870/6844 [03:28<23:24,  4.25it/s] 13%|█▎        | 871/6844 [03:28<23:23,  4.25it/s] 13%|█▎        | 872/6844 [03:28<23:20,  4.26it/s] 13%|█▎        | 873/6844 [03:28<23:22,  4.26it/s] 13%|█▎        | 874/6844 [03:28<23:22,  4.26it/s] 13%|█▎        | 875/6844 [03:29<23:23,  4.25it/s]{'loss': 5.0247, 'grad_norm': 0.1604214310646057, 'learning_rate': 0.005985922101117307, 'epoch': 0.03}                                                  
+ 13%|█▎        | 875/6844 [03:29<23:23,  4.25it/s] 13%|█▎        | 876/6844 [03:29<23:27,  4.24it/s] 13%|█▎        | 877/6844 [03:29<23:25,  4.24it/s] 13%|█▎        | 878/6844 [03:29<23:23,  4.25it/s] 13%|█▎        | 879/6844 [03:30<23:21,  4.26it/s] 13%|█▎        | 880/6844 [03:30<23:21,  4.25it/s] 13%|█▎        | 881/6844 [03:30<23:23,  4.25it/s] 13%|█▎        | 882/6844 [03:30<23:24,  4.25it/s] 13%|█▎        | 883/6844 [03:31<23:22,  4.25it/s] 13%|█▎        | 884/6844 [03:31<23:23,  4.25it/s] 13%|█▎        | 885/6844 [03:31<23:21,  4.25it/s] 13%|█▎        | 886/6844 [03:31<23:20,  4.25it/s] 13%|█▎        | 887/6844 [03:32<23:19,  4.26it/s] 13%|█▎        | 888/6844 [03:32<23:19,  4.26it/s] 13%|█▎        | 889/6844 [03:32<23:18,  4.26it/s] 13%|█▎        | 890/6844 [03:32<23:19,  4.26it/s] 13%|█▎        | 891/6844 [03:32<23:17,  4.26it/s] 13%|█▎        | 892/6844 [03:33<23:17,  4.26it/s] 13%|█▎        | 893/6844 [03:33<23:18,  4.25it/s] 13%|█▎        | 894/6844 [03:33<23:16,  4.26it/s] 13%|█▎        | 895/6844 [03:33<23:18,  4.25it/s] 13%|█▎        | 896/6844 [03:34<23:18,  4.25it/s] 13%|█▎        | 897/6844 [03:34<23:19,  4.25it/s] 13%|█▎        | 898/6844 [03:34<23:19,  4.25it/s] 13%|█▎        | 899/6844 [03:34<23:25,  4.23it/s] 13%|█▎        | 900/6844 [03:35<23:23,  4.23it/s]                                                  {'loss': 5.0121, 'grad_norm': 0.16679279506206512, 'learning_rate': 0.005981977617536292, 'epoch': 0.03}
+ 13%|█▎        | 900/6844 [03:35<23:23,  4.23it/s] 13%|█▎        | 901/6844 [03:35<23:26,  4.23it/s] 13%|█▎        | 902/6844 [03:35<23:24,  4.23it/s] 13%|█▎        | 903/6844 [03:35<23:21,  4.24it/s] 13%|█▎        | 904/6844 [03:36<23:19,  4.25it/s] 13%|█▎        | 905/6844 [03:36<23:17,  4.25it/s] 13%|█▎        | 906/6844 [03:36<23:15,  4.26it/s] 13%|█▎        | 907/6844 [03:36<23:11,  4.27it/s] 13%|█▎        | 908/6844 [03:36<23:13,  4.26it/s] 13%|█▎        | 909/6844 [03:37<23:13,  4.26it/s] 13%|█▎        | 910/6844 [03:37<23:12,  4.26it/s] 13%|█▎        | 911/6844 [03:37<23:10,  4.27it/s] 13%|█▎        | 912/6844 [03:37<23:12,  4.26it/s] 13%|█▎        | 913/6844 [03:38<23:12,  4.26it/s] 13%|█▎        | 914/6844 [03:38<23:12,  4.26it/s] 13%|█▎        | 915/6844 [03:38<23:12,  4.26it/s] 13%|█▎        | 916/6844 [03:38<23:13,  4.26it/s] 13%|█▎        | 917/6844 [03:39<23:11,  4.26it/s] 13%|█▎        | 918/6844 [03:39<23:14,  4.25it/s] 13%|█▎        | 919/6844 [03:39<23:14,  4.25it/s] 13%|█▎        | 920/6844 [03:39<23:12,  4.25it/s] 13%|█▎        | 921/6844 [03:39<23:10,  4.26it/s] 13%|█▎        | 922/6844 [03:40<23:33,  4.19it/s] 13%|█▎        | 923/6844 [03:40<23:27,  4.21it/s] 14%|█▎        | 924/6844 [03:40<23:23,  4.22it/s] 14%|█▎        | 925/6844 [03:40<23:19,  4.23it/s]{'loss': 4.9925, 'grad_norm': 0.1721288412809372, 'learning_rate': 0.0059775482276306175, 'epoch': 0.03}                                                  
+ 14%|█▎        | 925/6844 [03:40<23:19,  4.23it/s] 14%|█▎        | 926/6844 [03:41<23:24,  4.21it/s] 14%|█▎        | 927/6844 [03:41<23:20,  4.23it/s] 14%|█▎        | 928/6844 [03:41<23:17,  4.23it/s] 14%|█▎        | 929/6844 [03:41<23:18,  4.23it/s] 14%|█▎        | 930/6844 [03:42<23:13,  4.24it/s] 14%|█▎        | 931/6844 [03:42<23:17,  4.23it/s] 14%|█▎        | 932/6844 [03:42<23:15,  4.24it/s] 14%|█▎        | 933/6844 [03:42<23:13,  4.24it/s] 14%|█▎        | 934/6844 [03:43<23:13,  4.24it/s] 14%|█▎        | 935/6844 [03:43<23:14,  4.24it/s] 14%|█▎        | 936/6844 [03:43<23:12,  4.24it/s] 14%|█▎        | 937/6844 [03:43<23:09,  4.25it/s] 14%|█▎        | 938/6844 [03:44<23:10,  4.25it/s] 14%|█▎        | 939/6844 [03:44<23:10,  4.25it/s] 14%|█▎        | 940/6844 [03:44<23:08,  4.25it/s] 14%|█▎        | 941/6844 [03:44<23:08,  4.25it/s] 14%|█▍        | 942/6844 [03:44<23:09,  4.25it/s] 14%|█▍        | 943/6844 [03:45<23:09,  4.25it/s] 14%|█▍        | 944/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 945/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 946/6844 [03:45<23:10,  4.24it/s] 14%|█▍        | 947/6844 [03:46<23:10,  4.24it/s] 14%|█▍        | 948/6844 [03:46<23:09,  4.24it/s] 14%|█▍        | 949/6844 [03:46<23:07,  4.25it/s] 14%|█▍        | 950/6844 [03:46<23:08,  4.25it/s]{'loss': 4.9632, 'grad_norm': 0.17487859725952148, 'learning_rate': 0.005972634651673689, 'epoch': 0.03}
+                                                   14%|█▍        | 950/6844 [03:46<23:08,  4.25it/s] 14%|█▍        | 951/6844 [03:47<23:11,  4.23it/s] 14%|█▍        | 952/6844 [03:47<23:09,  4.24it/s] 14%|█▍        | 953/6844 [03:47<23:09,  4.24it/s] 14%|█▍        | 954/6844 [03:47<23:09,  4.24it/s] 14%|█▍        | 955/6844 [03:48<24:08,  4.06it/s] 14%|█▍        | 956/6844 [03:48<24:42,  3.97it/s] 14%|█▍        | 957/6844 [03:48<24:24,  4.02it/s] 14%|█▍        | 958/6844 [03:48<24:00,  4.09it/s] 14%|█▍        | 959/6844 [03:49<23:43,  4.13it/s] 14%|█▍        | 960/6844 [03:49<23:31,  4.17it/s] 14%|█▍        | 961/6844 [03:49<23:22,  4.20it/s] 14%|█▍        | 962/6844 [03:49<23:16,  4.21it/s] 14%|█▍        | 963/6844 [03:49<23:10,  4.23it/s] 14%|█▍        | 964/6844 [03:50<23:06,  4.24it/s] 14%|█▍        | 965/6844 [03:50<23:06,  4.24it/s] 14%|█▍        | 966/6844 [03:50<23:04,  4.24it/s] 14%|█▍        | 967/6844 [03:50<23:03,  4.25it/s] 14%|█▍        | 968/6844 [03:51<23:02,  4.25it/s] 14%|█▍        | 969/6844 [03:51<23:05,  4.24it/s] 14%|█▍        | 970/6844 [03:51<23:03,  4.25it/s] 14%|█▍        | 971/6844 [03:51<23:03,  4.24it/s] 14%|█▍        | 972/6844 [03:52<23:03,  4.24it/s] 14%|█▍        | 973/6844 [03:52<23:03,  4.24it/s] 14%|█▍        | 974/6844 [03:52<23:02,  4.25it/s] 14%|█▍        | 975/6844 [03:52<23:02,  4.25it/s]{'loss': 4.9765, 'grad_norm': 0.15147057175636292, 'learning_rate': 0.005967237688673535, 'epoch': 0.03}                                                  
+ 14%|█▍        | 975/6844 [03:52<23:02,  4.25it/s] 14%|█▍        | 976/6844 [03:53<23:08,  4.23it/s] 14%|█▍        | 977/6844 [03:53<23:07,  4.23it/s] 14%|█▍        | 978/6844 [03:53<23:05,  4.23it/s] 14%|█▍        | 979/6844 [03:53<23:03,  4.24it/s] 14%|█▍        | 980/6844 [03:53<23:01,  4.24it/s] 14%|█▍        | 981/6844 [03:54<23:00,  4.25it/s] 14%|█▍        | 982/6844 [03:54<22:57,  4.26it/s] 14%|█▍        | 983/6844 [03:54<22:56,  4.26it/s] 14%|█▍        | 984/6844 [03:54<22:56,  4.26it/s] 14%|█▍        | 985/6844 [03:55<22:55,  4.26it/s] 14%|█▍        | 986/6844 [03:55<22:55,  4.26it/s] 14%|█▍        | 987/6844 [03:55<22:55,  4.26it/s] 14%|█▍        | 988/6844 [03:55<22:57,  4.25it/s] 14%|█▍        | 989/6844 [03:56<22:57,  4.25it/s] 14%|█▍        | 990/6844 [03:56<22:55,  4.26it/s] 14%|█▍        | 991/6844 [03:56<22:54,  4.26it/s] 14%|█▍        | 992/6844 [03:56<22:58,  4.25it/s] 15%|█▍        | 993/6844 [03:57<22:57,  4.25it/s] 15%|█▍        | 994/6844 [03:57<22:57,  4.25it/s] 15%|█▍        | 995/6844 [03:57<22:57,  4.25it/s] 15%|█▍        | 996/6844 [03:57<22:57,  4.24it/s] 15%|█▍        | 997/6844 [03:57<22:58,  4.24it/s] 15%|█▍        | 998/6844 [03:58<22:56,  4.25it/s] 15%|█▍        | 999/6844 [03:58<22:59,  4.24it/s] 15%|█▍        | 1000/6844 [03:58<22:55,  4.25it/s]                                                   {'loss': 4.9577, 'grad_norm': 0.15498985350131989, 'learning_rate': 0.005961358216242879, 'epoch': 0.03}
+ 15%|█▍        | 1000/6844 [03:58<22:55,  4.25it/s] 15%|█▍        | 1001/6844 [03:58<22:59,  4.24it/s] 15%|█▍        | 1002/6844 [03:59<22:58,  4.24it/s] 15%|█▍        | 1003/6844 [03:59<22:56,  4.24it/s] 15%|█▍        | 1004/6844 [03:59<22:54,  4.25it/s] 15%|█▍        | 1005/6844 [03:59<22:53,  4.25it/s] 15%|█▍        | 1006/6844 [04:00<22:52,  4.25it/s] 15%|█▍        | 1007/6844 [04:00<22:53,  4.25it/s] 15%|█▍        | 1008/6844 [04:00<22:53,  4.25it/s] 15%|█▍        | 1009/6844 [04:00<22:51,  4.25it/s] 15%|█▍        | 1010/6844 [04:01<22:51,  4.25it/s] 15%|█▍        | 1011/6844 [04:01<22:51,  4.25it/s] 15%|█▍        | 1012/6844 [04:01<22:50,  4.26it/s] 15%|█▍        | 1013/6844 [04:01<22:49,  4.26it/s] 15%|█▍        | 1014/6844 [04:01<22:49,  4.26it/s] 15%|█▍        | 1015/6844 [04:02<23:44,  4.09it/s] 15%|█▍        | 1016/6844 [04:02<23:30,  4.13it/s] 15%|█▍        | 1017/6844 [04:02<23:18,  4.17it/s] 15%|█▍        | 1018/6844 [04:02<23:10,  4.19it/s] 15%|█▍        | 1019/6844 [04:03<23:06,  4.20it/s] 15%|█▍        | 1020/6844 [04:03<23:00,  4.22it/s] 15%|█▍        | 1021/6844 [04:03<22:57,  4.23it/s] 15%|█▍        | 1022/6844 [04:03<22:55,  4.23it/s] 15%|█▍        | 1023/6844 [04:04<22:51,  4.24it/s] 15%|█▍        | 1024/6844 [04:04<22:51,  4.24it/s] 15%|█▍        | 1025/6844 [04:04<22:49,  4.25it/s]                                                   {'loss': 4.9546, 'grad_norm': 0.14613120257854462, 'learning_rate': 0.005954997190456422, 'epoch': 0.03}
+ 15%|█▍        | 1025/6844 [04:04<22:49,  4.25it/s] 15%|█▍        | 1026/6844 [04:04<22:53,  4.24it/s] 15%|█▌        | 1027/6844 [04:05<22:50,  4.24it/s] 15%|█▌        | 1028/6844 [04:05<22:49,  4.25it/s] 15%|█▌        | 1029/6844 [04:05<22:49,  4.24it/s] 15%|█▌        | 1030/6844 [04:05<22:49,  4.25it/s] 15%|█▌        | 1031/6844 [04:06<22:48,  4.25it/s] 15%|█▌        | 1032/6844 [04:06<22:47,  4.25it/s] 15%|█▌        | 1033/6844 [04:06<22:49,  4.24it/s] 15%|█▌        | 1034/6844 [04:06<22:49,  4.24it/s] 15%|█▌        | 1035/6844 [04:06<22:47,  4.25it/s] 15%|█▌        | 1036/6844 [04:07<22:48,  4.25it/s] 15%|█▌        | 1037/6844 [04:07<22:49,  4.24it/s] 15%|█▌        | 1038/6844 [04:07<22:49,  4.24it/s] 15%|█▌        | 1039/6844 [04:07<22:49,  4.24it/s] 15%|█▌        | 1040/6844 [04:08<22:49,  4.24it/s] 15%|█▌        | 1041/6844 [04:08<22:46,  4.25it/s] 15%|█▌        | 1042/6844 [04:08<22:45,  4.25it/s] 15%|█▌        | 1043/6844 [04:08<22:44,  4.25it/s] 15%|█▌        | 1044/6844 [04:09<22:46,  4.25it/s] 15%|█▌        | 1045/6844 [04:09<22:46,  4.24it/s] 15%|█▌        | 1046/6844 [04:09<22:44,  4.25it/s] 15%|█▌        | 1047/6844 [04:09<22:44,  4.25it/s] 15%|█▌        | 1048/6844 [04:10<22:45,  4.25it/s] 15%|█▌        | 1049/6844 [04:10<22:44,  4.25it/s] 15%|█▌        | 1050/6844 [04:10<22:42,  4.25it/s]{'loss': 4.9352, 'grad_norm': 0.16454879939556122, 'learning_rate': 0.0059481556456953836, 'epoch': 0.03}
+                                                    15%|█▌        | 1050/6844 [04:10<22:42,  4.25it/s] 15%|█▌        | 1051/6844 [04:10<22:47,  4.24it/s] 15%|█▌        | 1052/6844 [04:10<22:45,  4.24it/s] 15%|█▌        | 1053/6844 [04:11<22:44,  4.24it/s] 15%|█▌        | 1054/6844 [04:11<22:43,  4.25it/s] 15%|█▌        | 1055/6844 [04:11<22:42,  4.25it/s] 15%|█▌        | 1056/6844 [04:11<22:45,  4.24it/s] 15%|█▌        | 1057/6844 [04:12<22:45,  4.24it/s] 15%|█▌        | 1058/6844 [04:12<22:42,  4.25it/s] 15%|█▌        | 1059/6844 [04:12<22:43,  4.24it/s] 15%|█▌        | 1060/6844 [04:12<22:45,  4.24it/s] 16%|█▌        | 1061/6844 [04:13<22:44,  4.24it/s] 16%|█▌        | 1062/6844 [04:13<22:40,  4.25it/s] 16%|█▌        | 1063/6844 [04:13<22:41,  4.25it/s] 16%|█▌        | 1064/6844 [04:13<22:39,  4.25it/s] 16%|█▌        | 1065/6844 [04:14<22:38,  4.25it/s] 16%|█▌        | 1066/6844 [04:14<22:39,  4.25it/s] 16%|█▌        | 1067/6844 [04:14<22:38,  4.25it/s] 16%|█▌        | 1068/6844 [04:14<22:38,  4.25it/s] 16%|█▌        | 1069/6844 [04:14<22:38,  4.25it/s] 16%|█▌        | 1070/6844 [04:15<22:40,  4.24it/s] 16%|█▌        | 1071/6844 [04:15<22:39,  4.25it/s] 16%|█▌        | 1072/6844 [04:15<22:38,  4.25it/s] 16%|█▌        | 1073/6844 [04:15<22:39,  4.25it/s] 16%|█▌        | 1074/6844 [04:16<22:40,  4.24it/s] 16%|█▌        | 1075/6844 [04:16<22:40,  4.24it/s]                                                   {'loss': 4.9193, 'grad_norm': 0.15430060029029846, 'learning_rate': 0.0059408346944792864, 'epoch': 0.03}
+ 16%|█▌        | 1075/6844 [04:16<22:40,  4.24it/s] 16%|█▌        | 1076/6844 [04:16<22:44,  4.23it/s] 16%|█▌        | 1077/6844 [04:16<22:42,  4.23it/s] 16%|█▌        | 1078/6844 [04:17<22:42,  4.23it/s] 16%|█▌        | 1079/6844 [04:17<22:40,  4.24it/s] 16%|█▌        | 1080/6844 [04:17<22:38,  4.24it/s] 16%|█▌        | 1081/6844 [04:17<22:38,  4.24it/s] 16%|█▌        | 1082/6844 [04:18<22:37,  4.24it/s] 16%|█▌        | 1083/6844 [04:18<22:34,  4.25it/s] 16%|█▌        | 1084/6844 [04:18<22:37,  4.24it/s] 16%|█▌        | 1085/6844 [04:18<22:35,  4.25it/s] 16%|█▌        | 1086/6844 [04:18<22:33,  4.25it/s] 16%|█▌        | 1087/6844 [04:19<22:34,  4.25it/s] 16%|█▌        | 1088/6844 [04:19<22:34,  4.25it/s] 16%|█▌        | 1089/6844 [04:19<22:34,  4.25it/s] 16%|█▌        | 1090/6844 [04:19<22:33,  4.25it/s] 16%|█▌        | 1091/6844 [04:20<22:32,  4.25it/s] 16%|█▌        | 1092/6844 [04:20<22:33,  4.25it/s] 16%|█▌        | 1093/6844 [04:20<22:35,  4.24it/s] 16%|█▌        | 1094/6844 [04:20<22:35,  4.24it/s] 16%|█▌        | 1095/6844 [04:21<22:35,  4.24it/s] 16%|█▌        | 1096/6844 [04:21<22:35,  4.24it/s] 16%|█▌        | 1097/6844 [04:21<22:35,  4.24it/s] 16%|█▌        | 1098/6844 [04:21<22:33,  4.24it/s] 16%|█▌        | 1099/6844 [04:22<22:33,  4.24it/s] 16%|█▌        | 1100/6844 [04:22<22:34,  4.24it/s]                                                   {'loss': 4.9093, 'grad_norm': 0.1608363389968872, 'learning_rate': 0.005933035527285059, 'epoch': 0.03}
+ 16%|█▌        | 1100/6844 [04:22<22:34,  4.24it/s] 16%|█▌        | 1101/6844 [04:22<22:38,  4.23it/s] 16%|█▌        | 1102/6844 [04:22<22:36,  4.23it/s] 16%|█▌        | 1103/6844 [04:22<22:35,  4.24it/s] 16%|█▌        | 1104/6844 [04:23<22:38,  4.23it/s] 16%|█▌        | 1105/6844 [04:23<22:36,  4.23it/s] 16%|█▌        | 1106/6844 [04:23<22:35,  4.23it/s] 16%|█▌        | 1107/6844 [04:23<22:34,  4.24it/s] 16%|█▌        | 1108/6844 [04:24<22:31,  4.24it/s] 16%|█▌        | 1109/6844 [04:24<22:31,  4.24it/s] 16%|█▌        | 1110/6844 [04:24<22:37,  4.22it/s] 16%|█▌        | 1111/6844 [04:24<22:33,  4.23it/s] 16%|█▌        | 1112/6844 [04:25<22:32,  4.24it/s] 16%|█▋        | 1113/6844 [04:25<22:30,  4.24it/s] 16%|█▋        | 1114/6844 [04:25<22:28,  4.25it/s] 16%|█▋        | 1115/6844 [04:25<22:30,  4.24it/s] 16%|█▋        | 1116/6844 [04:26<22:27,  4.25it/s] 16%|█▋        | 1117/6844 [04:26<22:27,  4.25it/s] 16%|█▋        | 1118/6844 [04:26<22:26,  4.25it/s] 16%|█▋        | 1119/6844 [04:26<22:26,  4.25it/s] 16%|█▋        | 1120/6844 [04:26<22:26,  4.25it/s] 16%|█▋        | 1121/6844 [04:27<22:24,  4.26it/s] 16%|█▋        | 1122/6844 [04:27<22:26,  4.25it/s] 16%|█▋        | 1123/6844 [04:27<22:27,  4.24it/s] 16%|█▋        | 1124/6844 [04:27<22:27,  4.25it/s] 16%|█▋        | 1125/6844 [04:28<22:25,  4.25it/s]                                                   {'loss': 4.8955, 'grad_norm': 0.15425319969654083, 'learning_rate': 0.00592475941235344, 'epoch': 0.03}
+ 16%|█▋        | 1125/6844 [04:28<22:25,  4.25it/s] 16%|█▋        | 1126/6844 [04:28<22:32,  4.23it/s] 16%|█▋        | 1127/6844 [04:28<22:30,  4.23it/s] 16%|█▋        | 1128/6844 [04:28<22:28,  4.24it/s] 16%|█▋        | 1129/6844 [04:29<22:27,  4.24it/s] 17%|█▋        | 1130/6844 [04:29<22:27,  4.24it/s] 17%|█▋        | 1131/6844 [04:29<22:27,  4.24it/s] 17%|█▋        | 1132/6844 [04:29<22:26,  4.24it/s] 17%|█▋        | 1133/6844 [04:30<22:25,  4.25it/s] 17%|█▋        | 1134/6844 [04:30<22:23,  4.25it/s] 17%|█▋        | 1135/6844 [04:30<22:23,  4.25it/s] 17%|█▋        | 1136/6844 [04:30<22:21,  4.25it/s] 17%|█▋        | 1137/6844 [04:30<22:25,  4.24it/s] 17%|█▋        | 1138/6844 [04:31<22:25,  4.24it/s] 17%|█▋        | 1139/6844 [04:31<22:23,  4.25it/s] 17%|█▋        | 1140/6844 [04:31<22:23,  4.25it/s] 17%|█▋        | 1141/6844 [04:31<22:23,  4.25it/s] 17%|█▋        | 1142/6844 [04:32<22:21,  4.25it/s] 17%|█▋        | 1143/6844 [04:32<22:18,  4.26it/s] 17%|█▋        | 1144/6844 [04:32<22:19,  4.26it/s] 17%|█▋        | 1145/6844 [04:32<23:32,  4.03it/s] 17%|█▋        | 1146/6844 [04:33<24:09,  3.93it/s] 17%|█▋        | 1147/6844 [04:33<24:25,  3.89it/s] 17%|█▋        | 1148/6844 [04:33<24:30,  3.87it/s] 17%|█▋        | 1149/6844 [04:33<24:32,  3.87it/s] 17%|█▋        | 1150/6844 [04:34<24:39,  3.85it/s]                                                   {'loss': 4.8805, 'grad_norm': 0.14994928240776062, 'learning_rate': 0.005916007695482751, 'epoch': 0.03}
+ 17%|█▋        | 1150/6844 [04:34<24:39,  3.85it/s] 17%|█▋        | 1151/6844 [04:34<24:03,  3.94it/s] 17%|█▋        | 1152/6844 [04:34<23:31,  4.03it/s] 17%|█▋        | 1153/6844 [04:34<23:06,  4.10it/s] 17%|█▋        | 1154/6844 [04:35<22:53,  4.14it/s] 17%|█▋        | 1155/6844 [04:35<22:43,  4.17it/s] 17%|█▋        | 1156/6844 [04:35<22:35,  4.20it/s] 17%|█▋        | 1157/6844 [04:35<22:29,  4.21it/s] 17%|█▋        | 1158/6844 [04:36<22:26,  4.22it/s] 17%|█▋        | 1159/6844 [04:36<22:25,  4.23it/s] 17%|█▋        | 1160/6844 [04:36<22:23,  4.23it/s] 17%|█▋        | 1161/6844 [04:36<22:22,  4.23it/s] 17%|█▋        | 1162/6844 [04:37<22:21,  4.24it/s] 17%|█▋        | 1163/6844 [04:37<22:21,  4.23it/s] 17%|█▋        | 1164/6844 [04:37<22:18,  4.24it/s] 17%|█▋        | 1165/6844 [04:37<22:16,  4.25it/s] 17%|█▋        | 1166/6844 [04:38<22:19,  4.24it/s] 17%|█▋        | 1167/6844 [04:38<22:17,  4.24it/s] 17%|█▋        | 1168/6844 [04:38<22:17,  4.24it/s] 17%|█▋        | 1169/6844 [04:38<22:16,  4.25it/s] 17%|█▋        | 1170/6844 [04:38<22:18,  4.24it/s] 17%|█▋        | 1171/6844 [04:39<22:16,  4.25it/s] 17%|█▋        | 1172/6844 [04:39<22:16,  4.24it/s] 17%|█▋        | 1173/6844 [04:39<22:14,  4.25it/s] 17%|█▋        | 1174/6844 [04:39<22:15,  4.25it/s] 17%|█▋        | 1175/6844 [04:40<22:16,  4.24it/s]{'loss': 4.8893, 'grad_norm': 0.14889311790466309, 'learning_rate': 0.005906781799810053, 'epoch': 0.03}                                                   
+ 17%|█▋        | 1175/6844 [04:40<22:16,  4.24it/s] 17%|█▋        | 1176/6844 [04:40<22:17,  4.24it/s] 17%|█▋        | 1177/6844 [04:40<22:17,  4.24it/s] 17%|█▋        | 1178/6844 [04:40<22:17,  4.24it/s] 17%|█▋        | 1179/6844 [04:41<22:16,  4.24it/s] 17%|█▋        | 1180/6844 [04:41<22:17,  4.24it/s] 17%|█▋        | 1181/6844 [04:41<22:17,  4.23it/s] 17%|█▋        | 1182/6844 [04:41<22:14,  4.24it/s] 17%|█▋        | 1183/6844 [04:42<22:14,  4.24it/s] 17%|█▋        | 1184/6844 [04:42<22:14,  4.24it/s] 17%|█▋        | 1185/6844 [04:42<22:15,  4.24it/s] 17%|█▋        | 1186/6844 [04:42<22:17,  4.23it/s] 17%|█▋        | 1187/6844 [04:42<22:14,  4.24it/s] 17%|█▋        | 1188/6844 [04:43<22:12,  4.25it/s] 17%|█▋        | 1189/6844 [04:43<22:12,  4.24it/s] 17%|█▋        | 1190/6844 [04:43<22:10,  4.25it/s] 17%|█▋        | 1191/6844 [04:43<22:10,  4.25it/s] 17%|█▋        | 1192/6844 [04:44<22:14,  4.24it/s] 17%|█▋        | 1193/6844 [04:44<22:14,  4.24it/s] 17%|█▋        | 1194/6844 [04:44<22:12,  4.24it/s] 17%|█▋        | 1195/6844 [04:44<22:13,  4.24it/s] 17%|█▋        | 1196/6844 [04:45<22:20,  4.21it/s] 17%|█▋        | 1197/6844 [04:45<22:18,  4.22it/s] 18%|█▊        | 1198/6844 [04:45<22:15,  4.23it/s] 18%|█▊        | 1199/6844 [04:45<22:12,  4.24it/s] 18%|█▊        | 1200/6844 [04:46<22:10,  4.24it/s]                                                   {'loss': 4.8795, 'grad_norm': 0.14856208860874176, 'learning_rate': 0.005897083225579728, 'epoch': 0.04}
+ 18%|█▊        | 1200/6844 [04:46<22:10,  4.24it/s] 18%|█▊        | 1201/6844 [04:46<22:14,  4.23it/s] 18%|█▊        | 1202/6844 [04:46<22:12,  4.23it/s] 18%|█▊        | 1203/6844 [04:46<22:10,  4.24it/s] 18%|█▊        | 1204/6844 [04:46<22:10,  4.24it/s] 18%|█▊        | 1205/6844 [04:47<22:10,  4.24it/s] 18%|█▊        | 1206/6844 [04:47<22:10,  4.24it/s] 18%|█▊        | 1207/6844 [04:47<22:12,  4.23it/s] 18%|█▊        | 1208/6844 [04:47<23:20,  4.02it/s] 18%|█▊        | 1209/6844 [04:48<23:06,  4.06it/s] 18%|█▊        | 1210/6844 [04:48<22:46,  4.12it/s] 18%|█▊        | 1211/6844 [04:48<22:34,  4.16it/s] 18%|█▊        | 1212/6844 [04:48<22:26,  4.18it/s] 18%|█▊        | 1213/6844 [04:49<22:18,  4.21it/s] 18%|█▊        | 1214/6844 [04:49<22:13,  4.22it/s] 18%|█▊        | 1215/6844 [04:49<22:09,  4.23it/s] 18%|█▊        | 1216/6844 [04:49<22:08,  4.24it/s] 18%|█▊        | 1217/6844 [04:50<22:06,  4.24it/s] 18%|█▊        | 1218/6844 [04:50<22:07,  4.24it/s] 18%|█▊        | 1219/6844 [04:50<22:06,  4.24it/s] 18%|█▊        | 1220/6844 [04:50<22:06,  4.24it/s] 18%|█▊        | 1221/6844 [04:51<22:04,  4.25it/s] 18%|█▊        | 1222/6844 [04:51<22:04,  4.24it/s] 18%|█▊        | 1223/6844 [04:51<22:04,  4.24it/s] 18%|█▊        | 1224/6844 [04:51<22:04,  4.24it/s] 18%|█▊        | 1225/6844 [04:51<22:04,  4.24it/s]                                                   {'loss': 4.8529, 'grad_norm': 0.14835645258426666, 'learning_rate': 0.005886913549899513, 'epoch': 0.04}
+ 18%|█▊        | 1225/6844 [04:51<22:04,  4.24it/s] 18%|█▊        | 1226/6844 [04:52<22:06,  4.23it/s] 18%|█▊        | 1227/6844 [04:52<22:03,  4.24it/s] 18%|█▊        | 1228/6844 [04:52<22:02,  4.25it/s] 18%|█▊        | 1229/6844 [04:52<22:02,  4.25it/s] 18%|█▊        | 1230/6844 [04:53<22:02,  4.25it/s] 18%|█▊        | 1231/6844 [04:53<22:02,  4.24it/s] 18%|█▊        | 1232/6844 [04:53<22:03,  4.24it/s] 18%|█▊        | 1233/6844 [04:53<22:01,  4.25it/s] 18%|█▊        | 1234/6844 [04:54<22:00,  4.25it/s] 18%|█▊        | 1235/6844 [04:54<22:00,  4.25it/s] 18%|█▊        | 1236/6844 [04:54<22:00,  4.25it/s] 18%|█▊        | 1237/6844 [04:54<22:01,  4.24it/s] 18%|█▊        | 1238/6844 [04:55<22:00,  4.24it/s] 18%|█▊        | 1239/6844 [04:55<21:59,  4.25it/s] 18%|█▊        | 1240/6844 [04:55<22:01,  4.24it/s] 18%|█▊        | 1241/6844 [04:55<22:02,  4.24it/s] 18%|█▊        | 1242/6844 [04:55<22:00,  4.24it/s] 18%|█▊        | 1243/6844 [04:56<21:58,  4.25it/s] 18%|█▊        | 1244/6844 [04:56<21:57,  4.25it/s] 18%|█▊        | 1245/6844 [04:56<21:57,  4.25it/s] 18%|█▊        | 1246/6844 [04:56<21:55,  4.25it/s] 18%|█▊        | 1247/6844 [04:57<21:57,  4.25it/s] 18%|█▊        | 1248/6844 [04:57<21:57,  4.25it/s] 18%|█▊        | 1249/6844 [04:57<21:56,  4.25it/s] 18%|█▊        | 1250/6844 [04:57<21:55,  4.25it/s]{'loss': 4.8511, 'grad_norm': 0.15690676867961884, 'learning_rate': 0.005876274426484057, 'epoch': 0.04}                                                   
+ 18%|█▊        | 1250/6844 [04:57<21:55,  4.25it/s] 18%|█▊        | 1251/6844 [04:58<22:02,  4.23it/s] 18%|█▊        | 1252/6844 [04:58<22:01,  4.23it/s] 18%|█▊        | 1253/6844 [04:58<21:58,  4.24it/s] 18%|█▊        | 1254/6844 [04:58<21:57,  4.24it/s] 18%|█▊        | 1255/6844 [04:59<21:59,  4.24it/s] 18%|█▊        | 1256/6844 [04:59<21:58,  4.24it/s] 18%|█▊        | 1257/6844 [04:59<21:58,  4.24it/s] 18%|█▊        | 1258/6844 [04:59<21:58,  4.24it/s] 18%|█▊        | 1259/6844 [04:59<21:56,  4.24it/s] 18%|█▊        | 1260/6844 [05:00<21:54,  4.25it/s] 18%|█▊        | 1261/6844 [05:00<21:53,  4.25it/s] 18%|█▊        | 1262/6844 [05:00<21:56,  4.24it/s] 18%|█▊        | 1263/6844 [05:00<21:56,  4.24it/s] 18%|█▊        | 1264/6844 [05:01<21:56,  4.24it/s] 18%|█▊        | 1265/6844 [05:01<21:55,  4.24it/s] 18%|█▊        | 1266/6844 [05:01<21:57,  4.24it/s] 19%|█▊        | 1267/6844 [05:01<21:55,  4.24it/s] 19%|█▊        | 1268/6844 [05:02<21:54,  4.24it/s] 19%|█▊        | 1269/6844 [05:02<21:55,  4.24it/s] 19%|█▊        | 1270/6844 [05:02<21:55,  4.24it/s] 19%|█▊        | 1271/6844 [05:02<21:55,  4.24it/s] 19%|█▊        | 1272/6844 [05:03<21:56,  4.23it/s] 19%|█▊        | 1273/6844 [05:03<21:55,  4.23it/s] 19%|█▊        | 1274/6844 [05:03<21:55,  4.23it/s] 19%|█▊        | 1275/6844 [05:03<21:54,  4.24it/s]                                                   {'loss': 4.8496, 'grad_norm': 0.1478860229253769, 'learning_rate': 0.005865167585385992, 'epoch': 0.04}
+ 19%|█▊        | 1275/6844 [05:03<21:54,  4.24it/s] 19%|█▊        | 1276/6844 [05:03<21:57,  4.23it/s] 19%|█▊        | 1277/6844 [05:04<21:53,  4.24it/s] 19%|█▊        | 1278/6844 [05:04<21:51,  4.24it/s] 19%|█▊        | 1279/6844 [05:04<21:52,  4.24it/s] 19%|█▊        | 1280/6844 [05:04<21:49,  4.25it/s] 19%|█▊        | 1281/6844 [05:05<21:50,  4.25it/s] 19%|█▊        | 1282/6844 [05:05<21:50,  4.24it/s] 19%|█▊        | 1283/6844 [05:05<21:49,  4.25it/s] 19%|█▉        | 1284/6844 [05:05<21:52,  4.24it/s] 19%|█▉        | 1285/6844 [05:06<21:54,  4.23it/s] 19%|█▉        | 1286/6844 [05:06<21:54,  4.23it/s] 19%|█▉        | 1287/6844 [05:06<21:52,  4.24it/s] 19%|█▉        | 1288/6844 [05:06<21:51,  4.24it/s] 19%|█▉        | 1289/6844 [05:07<21:51,  4.24it/s] 19%|█▉        | 1290/6844 [05:07<21:50,  4.24it/s] 19%|█▉        | 1291/6844 [05:07<21:50,  4.24it/s] 19%|█▉        | 1292/6844 [05:07<21:49,  4.24it/s] 19%|█▉        | 1293/6844 [05:07<21:47,  4.25it/s] 19%|█▉        | 1294/6844 [05:08<21:45,  4.25it/s] 19%|█▉        | 1295/6844 [05:08<21:47,  4.24it/s] 19%|█▉        | 1296/6844 [05:08<21:47,  4.24it/s] 19%|█▉        | 1297/6844 [05:08<21:45,  4.25it/s] 19%|█▉        | 1298/6844 [05:09<21:43,  4.25it/s] 19%|█▉        | 1299/6844 [05:09<21:45,  4.25it/s] 19%|█▉        | 1300/6844 [05:09<21:44,  4.25it/s]{'loss': 4.8255, 'grad_norm': 0.1491040736436844, 'learning_rate': 0.005853594832714617, 'epoch': 0.04}
+                                                    19%|█▉        | 1300/6844 [05:09<21:44,  4.25it/s] 19%|█▉        | 1301/6844 [05:09<21:47,  4.24it/s] 19%|█▉        | 1302/6844 [05:10<21:45,  4.25it/s] 19%|█▉        | 1303/6844 [05:10<21:43,  4.25it/s] 19%|█▉        | 1304/6844 [05:10<21:42,  4.25it/s] 19%|█▉        | 1305/6844 [05:10<21:41,  4.26it/s] 19%|█▉        | 1306/6844 [05:11<21:42,  4.25it/s] 19%|█▉        | 1307/6844 [05:11<21:43,  4.25it/s] 19%|█▉        | 1308/6844 [05:11<21:43,  4.25it/s] 19%|█▉        | 1309/6844 [05:11<21:45,  4.24it/s] 19%|█▉        | 1310/6844 [05:11<21:43,  4.25it/s] 19%|█▉        | 1311/6844 [05:12<21:42,  4.25it/s] 19%|█▉        | 1312/6844 [05:12<21:43,  4.24it/s] 19%|█▉        | 1313/6844 [05:12<21:45,  4.24it/s] 19%|█▉        | 1314/6844 [05:12<21:44,  4.24it/s] 19%|█▉        | 1315/6844 [05:13<21:43,  4.24it/s] 19%|█▉        | 1316/6844 [05:13<21:41,  4.25it/s] 19%|█▉        | 1317/6844 [05:13<21:41,  4.25it/s] 19%|█▉        | 1318/6844 [05:13<21:40,  4.25it/s] 19%|█▉        | 1319/6844 [05:14<21:41,  4.24it/s] 19%|█▉        | 1320/6844 [05:14<21:39,  4.25it/s] 19%|█▉        | 1321/6844 [05:14<21:42,  4.24it/s] 19%|█▉        | 1322/6844 [05:14<21:41,  4.24it/s] 19%|█▉        | 1323/6844 [05:15<21:40,  4.24it/s] 19%|█▉        | 1324/6844 [05:15<21:40,  4.25it/s] 19%|█▉        | 1325/6844 [05:15<21:40,  4.25it/s]                                                   {'loss': 4.8271, 'grad_norm': 0.13758151233196259, 'learning_rate': 0.00584155805034219, 'epoch': 0.04}
+ 19%|█▉        | 1325/6844 [05:15<21:40,  4.25it/s] 19%|█▉        | 1326/6844 [05:15<21:43,  4.23it/s] 19%|█▉        | 1327/6844 [05:16<21:43,  4.23it/s] 19%|█▉        | 1328/6844 [05:16<21:43,  4.23it/s] 19%|█▉        | 1329/6844 [05:16<21:42,  4.23it/s] 19%|█▉        | 1330/6844 [05:16<21:42,  4.23it/s] 19%|█▉        | 1331/6844 [05:16<21:42,  4.23it/s] 19%|█▉        | 1332/6844 [05:17<21:42,  4.23it/s] 19%|█▉        | 1333/6844 [05:17<21:40,  4.24it/s] 19%|█▉        | 1334/6844 [05:17<21:39,  4.24it/s] 20%|█▉        | 1335/6844 [05:17<22:28,  4.08it/s] 20%|█▉        | 1336/6844 [05:18<22:58,  4.00it/s] 20%|█▉        | 1337/6844 [05:18<22:32,  4.07it/s] 20%|█▉        | 1338/6844 [05:18<22:16,  4.12it/s] 20%|█▉        | 1339/6844 [05:18<22:05,  4.15it/s] 20%|█▉        | 1340/6844 [05:19<21:55,  4.18it/s] 20%|█▉        | 1341/6844 [05:19<21:48,  4.21it/s] 20%|█▉        | 1342/6844 [05:19<21:44,  4.22it/s] 20%|█▉        | 1343/6844 [05:19<21:41,  4.23it/s] 20%|█▉        | 1344/6844 [05:20<21:38,  4.23it/s] 20%|█▉        | 1345/6844 [05:20<21:37,  4.24it/s] 20%|█▉        | 1346/6844 [05:20<21:36,  4.24it/s] 20%|█▉        | 1347/6844 [05:20<21:36,  4.24it/s] 20%|█▉        | 1348/6844 [05:21<21:34,  4.24it/s] 20%|█▉        | 1349/6844 [05:21<21:34,  4.25it/s] 20%|█▉        | 1350/6844 [05:21<21:35,  4.24it/s]{'loss': 4.8232, 'grad_norm': 0.145490363240242, 'learning_rate': 0.005829059195597926, 'epoch': 0.04}                                                   
+ 20%|█▉        | 1350/6844 [05:21<21:35,  4.24it/s] 20%|█▉        | 1351/6844 [05:21<21:36,  4.24it/s] 20%|█▉        | 1352/6844 [05:21<21:36,  4.24it/s] 20%|█▉        | 1353/6844 [05:22<21:34,  4.24it/s] 20%|█▉        | 1354/6844 [05:22<21:36,  4.23it/s] 20%|█▉        | 1355/6844 [05:22<21:36,  4.23it/s] 20%|█▉        | 1356/6844 [05:22<21:34,  4.24it/s] 20%|█▉        | 1357/6844 [05:23<21:35,  4.24it/s] 20%|█▉        | 1358/6844 [05:23<21:35,  4.23it/s] 20%|█▉        | 1359/6844 [05:23<21:33,  4.24it/s] 20%|█▉        | 1360/6844 [05:23<21:32,  4.24it/s] 20%|█▉        | 1361/6844 [05:24<21:32,  4.24it/s] 20%|█▉        | 1362/6844 [05:24<21:30,  4.25it/s] 20%|█▉        | 1363/6844 [05:24<21:29,  4.25it/s] 20%|█▉        | 1364/6844 [05:24<21:29,  4.25it/s] 20%|█▉        | 1365/6844 [05:25<21:28,  4.25it/s] 20%|█▉        | 1366/6844 [05:25<21:28,  4.25it/s] 20%|█▉        | 1367/6844 [05:25<21:27,  4.25it/s] 20%|█▉        | 1368/6844 [05:25<21:29,  4.25it/s] 20%|██        | 1369/6844 [05:25<21:28,  4.25it/s] 20%|██        | 1370/6844 [05:26<21:29,  4.25it/s] 20%|██        | 1371/6844 [05:26<21:28,  4.25it/s] 20%|██        | 1372/6844 [05:26<21:30,  4.24it/s] 20%|██        | 1373/6844 [05:26<21:30,  4.24it/s] 20%|██        | 1374/6844 [05:27<21:29,  4.24it/s] 20%|██        | 1375/6844 [05:27<21:28,  4.24it/s]                                                   {'loss': 4.824, 'grad_norm': 0.15664085745811462, 'learning_rate': 0.0058161003009496995, 'epoch': 0.04}
+ 20%|██        | 1375/6844 [05:27<21:28,  4.24it/s] 20%|██        | 1376/6844 [05:27<21:33,  4.23it/s] 20%|██        | 1377/6844 [05:27<21:30,  4.24it/s] 20%|██        | 1378/6844 [05:28<21:28,  4.24it/s] 20%|██        | 1379/6844 [05:28<21:29,  4.24it/s] 20%|██        | 1380/6844 [05:28<21:27,  4.24it/s] 20%|██        | 1381/6844 [05:28<21:26,  4.25it/s] 20%|██        | 1382/6844 [05:29<21:24,  4.25it/s] 20%|██        | 1383/6844 [05:29<21:26,  4.25it/s] 20%|██        | 1384/6844 [05:29<21:26,  4.24it/s] 20%|██        | 1385/6844 [05:29<21:25,  4.25it/s] 20%|██        | 1386/6844 [05:29<21:25,  4.25it/s] 20%|██        | 1387/6844 [05:30<21:28,  4.23it/s] 20%|██        | 1388/6844 [05:30<21:36,  4.21it/s] 20%|██        | 1389/6844 [05:30<21:31,  4.22it/s] 20%|██        | 1390/6844 [05:30<21:28,  4.23it/s] 20%|██        | 1391/6844 [05:31<21:27,  4.24it/s] 20%|██        | 1392/6844 [05:31<21:24,  4.24it/s] 20%|██        | 1393/6844 [05:31<21:23,  4.25it/s] 20%|██        | 1394/6844 [05:31<21:24,  4.24it/s] 20%|██        | 1395/6844 [05:32<21:25,  4.24it/s] 20%|██        | 1396/6844 [05:32<21:24,  4.24it/s] 20%|██        | 1397/6844 [05:32<21:22,  4.25it/s] 20%|██        | 1398/6844 [05:32<21:22,  4.25it/s] 20%|██        | 1399/6844 [05:33<21:24,  4.24it/s] 20%|██        | 1400/6844 [05:33<21:23,  4.24it/s]{'loss': 4.7977, 'grad_norm': 0.1433509737253189, 'learning_rate': 0.0058026834736735495, 'epoch': 0.04}
+                                                    20%|██        | 1400/6844 [05:33<21:23,  4.24it/s] 20%|██        | 1401/6844 [05:33<21:27,  4.23it/s] 20%|██        | 1402/6844 [05:33<21:26,  4.23it/s] 20%|██        | 1403/6844 [05:33<21:23,  4.24it/s] 21%|██        | 1404/6844 [05:34<21:21,  4.25it/s] 21%|██        | 1405/6844 [05:34<21:21,  4.24it/s] 21%|██        | 1406/6844 [05:34<21:21,  4.24it/s] 21%|██        | 1407/6844 [05:34<21:21,  4.24it/s] 21%|██        | 1408/6844 [05:35<21:21,  4.24it/s] 21%|██        | 1409/6844 [05:35<21:20,  4.24it/s] 21%|██        | 1410/6844 [05:35<21:18,  4.25it/s] 21%|██        | 1411/6844 [05:35<21:17,  4.25it/s] 21%|██        | 1412/6844 [05:36<21:18,  4.25it/s] 21%|██        | 1413/6844 [05:36<21:17,  4.25it/s] 21%|██        | 1414/6844 [05:36<21:16,  4.25it/s] 21%|██        | 1415/6844 [05:36<21:20,  4.24it/s] 21%|██        | 1416/6844 [05:37<21:19,  4.24it/s] 21%|██        | 1417/6844 [05:37<21:19,  4.24it/s] 21%|██        | 1418/6844 [05:37<21:21,  4.23it/s] 21%|██        | 1419/6844 [05:37<21:18,  4.24it/s] 21%|██        | 1420/6844 [05:37<21:19,  4.24it/s] 21%|██        | 1421/6844 [05:38<21:18,  4.24it/s] 21%|██        | 1422/6844 [05:38<21:18,  4.24it/s] 21%|██        | 1423/6844 [05:38<21:18,  4.24it/s] 21%|██        | 1424/6844 [05:38<21:15,  4.25it/s] 21%|██        | 1425/6844 [05:39<21:14,  4.25it/s]{'loss': 4.801, 'grad_norm': 0.13049012422561646, 'learning_rate': 0.005788810895511002, 'epoch': 0.04}
+                                                    21%|██        | 1425/6844 [05:39<21:14,  4.25it/s] 21%|██        | 1426/6844 [05:39<21:17,  4.24it/s] 21%|██        | 1427/6844 [05:39<21:16,  4.24it/s] 21%|██        | 1428/6844 [05:39<21:17,  4.24it/s] 21%|██        | 1429/6844 [05:40<21:16,  4.24it/s] 21%|██        | 1430/6844 [05:40<21:15,  4.25it/s] 21%|██        | 1431/6844 [05:40<21:14,  4.25it/s] 21%|██        | 1432/6844 [05:40<21:13,  4.25it/s] 21%|██        | 1433/6844 [05:41<21:17,  4.24it/s] 21%|██        | 1434/6844 [05:41<21:14,  4.24it/s] 21%|██        | 1435/6844 [05:41<21:12,  4.25it/s] 21%|██        | 1436/6844 [05:41<21:10,  4.26it/s] 21%|██        | 1437/6844 [05:41<21:11,  4.25it/s] 21%|██        | 1438/6844 [05:42<21:10,  4.25it/s] 21%|██        | 1439/6844 [05:42<21:10,  4.25it/s] 21%|██        | 1440/6844 [05:42<21:11,  4.25it/s] 21%|██        | 1441/6844 [05:42<21:13,  4.24it/s] 21%|██        | 1442/6844 [05:43<21:13,  4.24it/s] 21%|██        | 1443/6844 [05:43<21:12,  4.24it/s] 21%|██        | 1444/6844 [05:43<21:13,  4.24it/s] 21%|██        | 1445/6844 [05:43<21:12,  4.24it/s] 21%|██        | 1446/6844 [05:44<21:14,  4.24it/s] 21%|██        | 1447/6844 [05:44<21:13,  4.24it/s] 21%|██        | 1448/6844 [05:44<21:11,  4.24it/s] 21%|██        | 1449/6844 [05:44<21:11,  4.24it/s] 21%|██        | 1450/6844 [05:45<21:10,  4.24it/s]                                                   {'loss': 4.7807, 'grad_norm': 0.142007976770401, 'learning_rate': 0.005774484822314299, 'epoch': 0.04}
+ 21%|██        | 1450/6844 [05:45<21:10,  4.24it/s] 21%|██        | 1451/6844 [05:45<21:14,  4.23it/s] 21%|██        | 1452/6844 [05:45<21:14,  4.23it/s] 21%|██        | 1453/6844 [05:45<21:11,  4.24it/s] 21%|██        | 1454/6844 [05:45<21:10,  4.24it/s] 21%|██▏       | 1455/6844 [05:46<21:09,  4.25it/s] 21%|██▏       | 1456/6844 [05:46<21:11,  4.24it/s] 21%|██▏       | 1457/6844 [05:46<21:10,  4.24it/s] 21%|██▏       | 1458/6844 [05:46<21:11,  4.24it/s] 21%|██▏       | 1459/6844 [05:47<21:08,  4.24it/s] 21%|██▏       | 1460/6844 [05:47<21:08,  4.24it/s] 21%|██▏       | 1461/6844 [05:47<21:07,  4.25it/s] 21%|██▏       | 1462/6844 [05:47<21:54,  4.09it/s] 21%|██▏       | 1463/6844 [05:48<22:43,  3.95it/s] 21%|██▏       | 1464/6844 [05:48<23:02,  3.89it/s] 21%|██▏       | 1465/6844 [05:48<23:10,  3.87it/s] 21%|██▏       | 1466/6844 [05:48<22:50,  3.92it/s] 21%|██▏       | 1467/6844 [05:49<22:20,  4.01it/s] 21%|██▏       | 1468/6844 [05:49<21:57,  4.08it/s] 21%|██▏       | 1469/6844 [05:49<21:43,  4.12it/s] 21%|██▏       | 1470/6844 [05:49<21:32,  4.16it/s] 21%|██▏       | 1471/6844 [05:50<21:23,  4.19it/s] 22%|██▏       | 1472/6844 [05:50<21:17,  4.20it/s] 22%|██▏       | 1473/6844 [05:50<21:14,  4.21it/s] 22%|██▏       | 1474/6844 [05:50<21:10,  4.23it/s] 22%|██▏       | 1475/6844 [05:51<21:08,  4.23it/s]                                                   {'loss': 4.7888, 'grad_norm': 0.1422959268093109, 'learning_rate': 0.005759707583679564, 'epoch': 0.04}
+ 22%|██▏       | 1475/6844 [05:51<21:08,  4.23it/s] 22%|██▏       | 1476/6844 [05:51<21:13,  4.21it/s] 22%|██▏       | 1477/6844 [05:51<21:09,  4.23it/s] 22%|██▏       | 1478/6844 [05:51<21:06,  4.24it/s] 22%|██▏       | 1479/6844 [05:52<21:06,  4.24it/s] 22%|██▏       | 1480/6844 [05:52<21:05,  4.24it/s] 22%|██▏       | 1481/6844 [05:52<21:04,  4.24it/s] 22%|██▏       | 1482/6844 [05:52<21:04,  4.24it/s] 22%|██▏       | 1483/6844 [05:52<21:04,  4.24it/s] 22%|██▏       | 1484/6844 [05:53<21:05,  4.24it/s] 22%|██▏       | 1485/6844 [05:53<21:04,  4.24it/s] 22%|██▏       | 1486/6844 [05:53<21:05,  4.23it/s] 22%|██▏       | 1487/6844 [05:53<21:04,  4.24it/s] 22%|██▏       | 1488/6844 [05:54<21:01,  4.25it/s] 22%|██▏       | 1489/6844 [05:54<21:03,  4.24it/s] 22%|██▏       | 1490/6844 [05:54<21:03,  4.24it/s] 22%|██▏       | 1491/6844 [05:54<21:02,  4.24it/s] 22%|██▏       | 1492/6844 [05:55<21:00,  4.25it/s] 22%|██▏       | 1493/6844 [05:55<20:58,  4.25it/s] 22%|██▏       | 1494/6844 [05:55<20:57,  4.25it/s] 22%|██▏       | 1495/6844 [05:55<20:59,  4.25it/s] 22%|██▏       | 1496/6844 [05:56<20:58,  4.25it/s] 22%|██▏       | 1497/6844 [05:56<20:56,  4.25it/s] 22%|██▏       | 1498/6844 [05:56<20:59,  4.24it/s] 22%|██▏       | 1499/6844 [05:56<20:59,  4.24it/s] 22%|██▏       | 1500/6844 [05:56<20:58,  4.24it/s]                                                   {'loss': 4.7712, 'grad_norm': 0.127494215965271, 'learning_rate': 0.005744481582567984, 'epoch': 0.04}
+ 22%|██▏       | 1500/6844 [05:56<20:58,  4.24it/s] 22%|██▏       | 1501/6844 [05:57<21:02,  4.23it/s] 22%|██▏       | 1502/6844 [05:57<21:02,  4.23it/s] 22%|██▏       | 1503/6844 [05:57<21:00,  4.24it/s] 22%|██▏       | 1504/6844 [05:57<21:00,  4.23it/s] 22%|██▏       | 1505/6844 [05:58<21:00,  4.24it/s] 22%|██▏       | 1506/6844 [05:58<20:58,  4.24it/s] 22%|██▏       | 1507/6844 [05:58<20:57,  4.24it/s] 22%|██▏       | 1508/6844 [05:58<20:58,  4.24it/s] 22%|██▏       | 1509/6844 [05:59<20:57,  4.24it/s] 22%|██▏       | 1510/6844 [05:59<20:55,  4.25it/s] 22%|██▏       | 1511/6844 [05:59<20:54,  4.25it/s] 22%|██▏       | 1512/6844 [05:59<20:54,  4.25it/s] 22%|██▏       | 1513/6844 [06:00<20:54,  4.25it/s] 22%|██▏       | 1514/6844 [06:00<20:53,  4.25it/s] 22%|██▏       | 1515/6844 [06:00<20:50,  4.26it/s] 22%|██▏       | 1516/6844 [06:00<20:52,  4.25it/s] 22%|██▏       | 1517/6844 [06:00<20:52,  4.25it/s] 22%|██▏       | 1518/6844 [06:01<20:54,  4.25it/s] 22%|██▏       | 1519/6844 [06:01<20:54,  4.25it/s] 22%|██▏       | 1520/6844 [06:01<20:53,  4.25it/s] 22%|██▏       | 1521/6844 [06:01<20:52,  4.25it/s] 22%|██▏       | 1522/6844 [06:02<20:51,  4.25it/s] 22%|██▏       | 1523/6844 [06:02<20:52,  4.25it/s] 22%|██▏       | 1524/6844 [06:02<20:51,  4.25it/s] 22%|██▏       | 1525/6844 [06:02<20:52,  4.25it/s]                                                   {'loss': 4.7755, 'grad_norm': 0.1433161497116089, 'learning_rate': 0.005728809294915058, 'epoch': 0.04}
+ 22%|██▏       | 1525/6844 [06:02<20:52,  4.25it/s] 22%|██▏       | 1526/6844 [06:03<20:54,  4.24it/s] 22%|██▏       | 1527/6844 [06:03<20:57,  4.23it/s] 22%|██▏       | 1528/6844 [06:03<20:56,  4.23it/s] 22%|██▏       | 1529/6844 [06:03<20:54,  4.24it/s] 22%|██▏       | 1530/6844 [06:04<20:52,  4.24it/s] 22%|██▏       | 1531/6844 [06:04<20:51,  4.24it/s] 22%|██▏       | 1532/6844 [06:04<20:50,  4.25it/s] 22%|██▏       | 1533/6844 [06:04<20:49,  4.25it/s] 22%|██▏       | 1534/6844 [06:04<20:51,  4.24it/s] 22%|██▏       | 1535/6844 [06:05<20:50,  4.25it/s] 22%|██▏       | 1536/6844 [06:05<20:49,  4.25it/s] 22%|██▏       | 1537/6844 [06:05<20:48,  4.25it/s] 22%|██▏       | 1538/6844 [06:05<20:51,  4.24it/s] 22%|██▏       | 1539/6844 [06:06<20:51,  4.24it/s] 23%|██▎       | 1540/6844 [06:06<20:49,  4.24it/s] 23%|██▎       | 1541/6844 [06:06<20:48,  4.25it/s] 23%|██▎       | 1542/6844 [06:06<20:49,  4.24it/s] 23%|██▎       | 1543/6844 [06:07<20:48,  4.25it/s] 23%|██▎       | 1544/6844 [06:07<20:47,  4.25it/s] 23%|██▎       | 1545/6844 [06:07<20:49,  4.24it/s] 23%|██▎       | 1546/6844 [06:07<20:47,  4.25it/s] 23%|██▎       | 1547/6844 [06:08<20:47,  4.25it/s] 23%|██▎       | 1548/6844 [06:08<20:47,  4.24it/s] 23%|██▎       | 1549/6844 [06:08<20:47,  4.24it/s] 23%|██▎       | 1550/6844 [06:08<20:46,  4.25it/s]                                                   {'loss': 4.7591, 'grad_norm': 0.16510704159736633, 'learning_rate': 0.005712693269227977, 'epoch': 0.05}
+ 23%|██▎       | 1550/6844 [06:08<20:46,  4.25it/s] 23%|██▎       | 1551/6844 [06:08<20:48,  4.24it/s] 23%|██▎       | 1552/6844 [06:09<20:48,  4.24it/s] 23%|██▎       | 1553/6844 [06:09<20:45,  4.25it/s] 23%|██▎       | 1554/6844 [06:09<20:46,  4.24it/s] 23%|██▎       | 1555/6844 [06:09<20:46,  4.24it/s] 23%|██▎       | 1556/6844 [06:10<20:46,  4.24it/s] 23%|██▎       | 1557/6844 [06:10<20:45,  4.25it/s] 23%|██▎       | 1558/6844 [06:10<20:45,  4.25it/s] 23%|██▎       | 1559/6844 [06:10<20:44,  4.25it/s] 23%|██▎       | 1560/6844 [06:11<20:44,  4.25it/s] 23%|██▎       | 1561/6844 [06:11<20:42,  4.25it/s] 23%|██▎       | 1562/6844 [06:11<20:42,  4.25it/s] 23%|██▎       | 1563/6844 [06:11<20:44,  4.24it/s] 23%|██▎       | 1564/6844 [06:12<20:43,  4.25it/s] 23%|██▎       | 1565/6844 [06:12<20:40,  4.25it/s] 23%|██▎       | 1566/6844 [06:12<20:42,  4.25it/s] 23%|██▎       | 1567/6844 [06:12<20:43,  4.24it/s] 23%|██▎       | 1568/6844 [06:12<20:42,  4.25it/s] 23%|██▎       | 1569/6844 [06:13<20:42,  4.25it/s] 23%|██▎       | 1570/6844 [06:13<20:44,  4.24it/s] 23%|██▎       | 1571/6844 [06:13<20:44,  4.24it/s] 23%|██▎       | 1572/6844 [06:13<20:43,  4.24it/s] 23%|██▎       | 1573/6844 [06:14<20:41,  4.25it/s] 23%|██▎       | 1574/6844 [06:14<20:40,  4.25it/s] 23%|██▎       | 1575/6844 [06:14<20:40,  4.25it/s]{'loss': 4.7602, 'grad_norm': 0.14054036140441895, 'learning_rate': 0.005696136126171209, 'epoch': 0.05}                                                   
+ 23%|██▎       | 1575/6844 [06:14<20:40,  4.25it/s] 23%|██▎       | 1576/6844 [06:14<20:43,  4.24it/s] 23%|██▎       | 1577/6844 [06:15<20:43,  4.24it/s] 23%|██▎       | 1578/6844 [06:15<20:42,  4.24it/s] 23%|██▎       | 1579/6844 [06:15<20:41,  4.24it/s] 23%|██▎       | 1580/6844 [06:15<20:40,  4.24it/s] 23%|██▎       | 1581/6844 [06:16<20:41,  4.24it/s] 23%|██▎       | 1582/6844 [06:16<20:40,  4.24it/s] 23%|██▎       | 1583/6844 [06:16<20:38,  4.25it/s] 23%|██▎       | 1584/6844 [06:16<20:37,  4.25it/s] 23%|██▎       | 1585/6844 [06:17<20:37,  4.25it/s] 23%|██▎       | 1586/6844 [06:17<20:42,  4.23it/s] 23%|██▎       | 1587/6844 [06:17<20:40,  4.24it/s] 23%|██▎       | 1588/6844 [06:17<20:43,  4.23it/s] 23%|██▎       | 1589/6844 [06:17<21:26,  4.08it/s] 23%|██▎       | 1590/6844 [06:18<21:13,  4.12it/s] 23%|██▎       | 1591/6844 [06:18<21:01,  4.16it/s] 23%|██▎       | 1592/6844 [06:18<20:53,  4.19it/s] 23%|██▎       | 1593/6844 [06:18<20:49,  4.20it/s] 23%|██▎       | 1594/6844 [06:19<20:46,  4.21it/s] 23%|██▎       | 1595/6844 [06:19<20:43,  4.22it/s] 23%|██▎       | 1596/6844 [06:19<20:42,  4.23it/s] 23%|██▎       | 1597/6844 [06:19<20:41,  4.23it/s] 23%|██▎       | 1598/6844 [06:20<20:40,  4.23it/s] 23%|██▎       | 1599/6844 [06:20<20:40,  4.23it/s] 23%|██▎       | 1600/6844 [06:20<20:38,  4.23it/s]{'loss': 4.747, 'grad_norm': 0.13806675374507904, 'learning_rate': 0.005679140558140343, 'epoch': 0.05}
+                                                    23%|██▎       | 1600/6844 [06:20<20:38,  4.23it/s] 23%|██▎       | 1601/6844 [06:20<20:40,  4.23it/s] 23%|██▎       | 1602/6844 [06:21<20:39,  4.23it/s] 23%|██▎       | 1603/6844 [06:21<20:37,  4.24it/s] 23%|██▎       | 1604/6844 [06:21<20:35,  4.24it/s] 23%|██▎       | 1605/6844 [06:21<20:33,  4.25it/s] 23%|██▎       | 1606/6844 [06:21<20:33,  4.25it/s] 23%|██▎       | 1607/6844 [06:22<20:32,  4.25it/s] 23%|██▎       | 1608/6844 [06:22<20:32,  4.25it/s] 24%|██▎       | 1609/6844 [06:22<20:34,  4.24it/s] 24%|██▎       | 1610/6844 [06:22<20:34,  4.24it/s] 24%|██▎       | 1611/6844 [06:23<20:34,  4.24it/s] 24%|██▎       | 1612/6844 [06:23<20:33,  4.24it/s] 24%|██▎       | 1613/6844 [06:23<20:35,  4.23it/s] 24%|██▎       | 1614/6844 [06:23<20:35,  4.23it/s] 24%|██▎       | 1615/6844 [06:24<20:33,  4.24it/s] 24%|██▎       | 1616/6844 [06:24<20:32,  4.24it/s] 24%|██▎       | 1617/6844 [06:24<20:30,  4.25it/s] 24%|██▎       | 1618/6844 [06:24<20:28,  4.25it/s] 24%|██▎       | 1619/6844 [06:25<20:27,  4.26it/s] 24%|██▎       | 1620/6844 [06:25<20:29,  4.25it/s] 24%|██▎       | 1621/6844 [06:25<20:29,  4.25it/s] 24%|██▎       | 1622/6844 [06:25<20:30,  4.25it/s] 24%|██▎       | 1623/6844 [06:25<20:29,  4.25it/s] 24%|██▎       | 1624/6844 [06:26<20:29,  4.25it/s] 24%|██▎       | 1625/6844 [06:26<20:29,  4.24it/s]                                                   {'loss': 4.7418, 'grad_norm': 0.15534748136997223, 'learning_rate': 0.005661709328824275, 'epoch': 0.05}
+ 24%|██▎       | 1625/6844 [06:26<20:29,  4.24it/s] 24%|██▍       | 1626/6844 [06:26<20:33,  4.23it/s] 24%|██▍       | 1627/6844 [06:26<20:32,  4.23it/s] 24%|██▍       | 1628/6844 [06:27<20:32,  4.23it/s] 24%|██▍       | 1629/6844 [06:27<20:29,  4.24it/s] 24%|██▍       | 1630/6844 [06:27<20:28,  4.25it/s] 24%|██▍       | 1631/6844 [06:27<20:30,  4.24it/s] 24%|██▍       | 1632/6844 [06:28<20:28,  4.24it/s] 24%|██▍       | 1633/6844 [06:28<20:28,  4.24it/s] 24%|██▍       | 1634/6844 [06:28<20:28,  4.24it/s] 24%|██▍       | 1635/6844 [06:28<20:27,  4.24it/s] 24%|██▍       | 1636/6844 [06:29<20:27,  4.24it/s] 24%|██▍       | 1637/6844 [06:29<20:26,  4.25it/s] 24%|██▍       | 1638/6844 [06:29<20:25,  4.25it/s] 24%|██▍       | 1639/6844 [06:29<20:25,  4.25it/s] 24%|██▍       | 1640/6844 [06:29<20:24,  4.25it/s] 24%|██▍       | 1641/6844 [06:30<20:22,  4.25it/s] 24%|██▍       | 1642/6844 [06:30<20:23,  4.25it/s] 24%|██▍       | 1643/6844 [06:30<20:23,  4.25it/s] 24%|██▍       | 1644/6844 [06:30<20:22,  4.25it/s] 24%|██▍       | 1645/6844 [06:31<20:22,  4.25it/s] 24%|██▍       | 1646/6844 [06:31<20:25,  4.24it/s] 24%|██▍       | 1647/6844 [06:31<20:23,  4.25it/s] 24%|██▍       | 1648/6844 [06:31<20:22,  4.25it/s] 24%|██▍       | 1649/6844 [06:32<20:24,  4.24it/s] 24%|██▍       | 1650/6844 [06:32<20:23,  4.25it/s]{'loss': 4.7395, 'grad_norm': 0.13683351874351501, 'learning_rate': 0.005643845272755799, 'epoch': 0.05}                                                   
+ 24%|██▍       | 1650/6844 [06:32<20:23,  4.25it/s] 24%|██▍       | 1651/6844 [06:32<20:27,  4.23it/s] 24%|██▍       | 1652/6844 [06:32<20:25,  4.24it/s] 24%|██▍       | 1653/6844 [06:33<20:23,  4.24it/s] 24%|██▍       | 1654/6844 [06:33<20:22,  4.25it/s] 24%|██▍       | 1655/6844 [06:33<20:21,  4.25it/s] 24%|██▍       | 1656/6844 [06:33<20:21,  4.25it/s] 24%|██▍       | 1657/6844 [06:34<20:20,  4.25it/s] 24%|██▍       | 1658/6844 [06:34<20:21,  4.25it/s] 24%|██▍       | 1659/6844 [06:34<20:21,  4.24it/s] 24%|██▍       | 1660/6844 [06:34<20:21,  4.24it/s] 24%|██▍       | 1661/6844 [06:34<20:21,  4.24it/s] 24%|██▍       | 1662/6844 [06:35<20:20,  4.24it/s] 24%|██▍       | 1663/6844 [06:35<20:21,  4.24it/s] 24%|██▍       | 1664/6844 [06:35<20:19,  4.25it/s] 24%|██▍       | 1665/6844 [06:35<20:17,  4.25it/s] 24%|██▍       | 1666/6844 [06:36<20:18,  4.25it/s] 24%|██▍       | 1667/6844 [06:36<20:19,  4.24it/s] 24%|██▍       | 1668/6844 [06:36<20:18,  4.25it/s] 24%|██▍       | 1669/6844 [06:36<20:18,  4.25it/s] 24%|██▍       | 1670/6844 [06:37<20:19,  4.24it/s] 24%|██▍       | 1671/6844 [06:37<20:20,  4.24it/s] 24%|██▍       | 1672/6844 [06:37<20:19,  4.24it/s] 24%|██▍       | 1673/6844 [06:37<20:16,  4.25it/s] 24%|██▍       | 1674/6844 [06:38<20:18,  4.24it/s] 24%|██▍       | 1675/6844 [06:38<20:17,  4.25it/s]{'loss': 4.726, 'grad_norm': 0.14737311005592346, 'learning_rate': 0.005625551294850669, 'epoch': 0.05}
+                                                    24%|██▍       | 1675/6844 [06:38<20:17,  4.25it/s] 24%|██▍       | 1676/6844 [06:38<20:20,  4.23it/s] 25%|██▍       | 1677/6844 [06:38<20:19,  4.24it/s] 25%|██▍       | 1678/6844 [06:38<20:19,  4.24it/s] 25%|██▍       | 1679/6844 [06:39<20:17,  4.24it/s] 25%|██▍       | 1680/6844 [06:39<20:15,  4.25it/s] 25%|██▍       | 1681/6844 [06:39<20:15,  4.25it/s] 25%|██▍       | 1682/6844 [06:39<20:16,  4.24it/s] 25%|██▍       | 1683/6844 [06:40<20:15,  4.25it/s] 25%|██▍       | 1684/6844 [06:40<20:16,  4.24it/s] 25%|██▍       | 1685/6844 [06:40<20:15,  4.24it/s] 25%|██▍       | 1686/6844 [06:40<20:15,  4.24it/s] 25%|██▍       | 1687/6844 [06:41<20:15,  4.24it/s] 25%|██▍       | 1688/6844 [06:41<20:13,  4.25it/s] 25%|██▍       | 1689/6844 [06:41<20:13,  4.25it/s] 25%|██▍       | 1690/6844 [06:41<20:12,  4.25it/s] 25%|██▍       | 1691/6844 [06:42<20:12,  4.25it/s] 25%|██▍       | 1692/6844 [06:42<20:12,  4.25it/s] 25%|██▍       | 1693/6844 [06:42<20:13,  4.24it/s] 25%|██▍       | 1694/6844 [06:42<20:11,  4.25it/s] 25%|██▍       | 1695/6844 [06:42<20:11,  4.25it/s] 25%|██▍       | 1696/6844 [06:43<20:12,  4.24it/s] 25%|██▍       | 1697/6844 [06:43<20:10,  4.25it/s] 25%|██▍       | 1698/6844 [06:43<20:09,  4.26it/s] 25%|██▍       | 1699/6844 [06:43<20:08,  4.26it/s] 25%|██▍       | 1700/6844 [06:44<20:09,  4.25it/s]                                                   {'loss': 4.7326, 'grad_norm': 0.13586826622486115, 'learning_rate': 0.00560683036993524, 'epoch': 0.05}
+ 25%|██▍       | 1700/6844 [06:44<20:09,  4.25it/s] 25%|██▍       | 1701/6844 [06:44<20:13,  4.24it/s] 25%|██▍       | 1702/6844 [06:44<20:11,  4.24it/s] 25%|██▍       | 1703/6844 [06:44<20:11,  4.24it/s] 25%|██▍       | 1704/6844 [06:45<20:11,  4.24it/s] 25%|██▍       | 1705/6844 [06:45<20:12,  4.24it/s] 25%|██▍       | 1706/6844 [06:45<20:11,  4.24it/s] 25%|██▍       | 1707/6844 [06:45<20:10,  4.24it/s] 25%|██▍       | 1708/6844 [06:46<20:10,  4.24it/s] 25%|██▍       | 1709/6844 [06:46<20:09,  4.24it/s] 25%|██▍       | 1710/6844 [06:46<20:10,  4.24it/s] 25%|██▌       | 1711/6844 [06:46<20:09,  4.25it/s] 25%|██▌       | 1712/6844 [06:46<20:08,  4.25it/s] 25%|██▌       | 1713/6844 [06:47<20:06,  4.25it/s] 25%|██▌       | 1714/6844 [06:47<20:07,  4.25it/s] 25%|██▌       | 1715/6844 [06:47<20:07,  4.25it/s] 25%|██▌       | 1716/6844 [06:47<20:11,  4.23it/s] 25%|██▌       | 1717/6844 [06:48<20:18,  4.21it/s] 25%|██▌       | 1718/6844 [06:48<20:13,  4.22it/s] 25%|██▌       | 1719/6844 [06:48<20:11,  4.23it/s] 25%|██▌       | 1720/6844 [06:48<20:10,  4.23it/s] 25%|██▌       | 1721/6844 [06:49<20:10,  4.23it/s] 25%|██▌       | 1722/6844 [06:49<20:08,  4.24it/s] 25%|██▌       | 1723/6844 [06:49<20:08,  4.24it/s] 25%|██▌       | 1724/6844 [06:49<20:05,  4.25it/s] 25%|██▌       | 1725/6844 [06:50<20:05,  4.25it/s]                                                   {'loss': 4.7207, 'grad_norm': 0.1266665905714035, 'learning_rate': 0.005587685542262703, 'epoch': 0.05}
+ 25%|██▌       | 1725/6844 [06:50<20:05,  4.25it/s] 25%|██▌       | 1726/6844 [06:50<20:11,  4.23it/s] 25%|██▌       | 1727/6844 [06:50<20:08,  4.23it/s] 25%|██▌       | 1728/6844 [06:50<20:08,  4.23it/s] 25%|██▌       | 1729/6844 [06:50<20:06,  4.24it/s] 25%|██▌       | 1730/6844 [06:51<20:05,  4.24it/s] 25%|██▌       | 1731/6844 [06:51<20:03,  4.25it/s] 25%|██▌       | 1732/6844 [06:51<20:05,  4.24it/s] 25%|██▌       | 1733/6844 [06:51<20:03,  4.25it/s] 25%|██▌       | 1734/6844 [06:52<20:04,  4.24it/s] 25%|██▌       | 1735/6844 [06:52<20:05,  4.24it/s] 25%|██▌       | 1736/6844 [06:52<20:04,  4.24it/s] 25%|██▌       | 1737/6844 [06:52<20:04,  4.24it/s] 25%|██▌       | 1738/6844 [06:53<20:04,  4.24it/s] 25%|██▌       | 1739/6844 [06:53<20:03,  4.24it/s] 25%|██▌       | 1740/6844 [06:53<20:00,  4.25it/s] 25%|██▌       | 1741/6844 [06:53<19:57,  4.26it/s] 25%|██▌       | 1742/6844 [06:54<20:01,  4.25it/s] 25%|██▌       | 1743/6844 [06:54<19:59,  4.25it/s] 25%|██▌       | 1744/6844 [06:54<19:58,  4.26it/s] 25%|██▌       | 1745/6844 [06:54<19:57,  4.26it/s] 26%|██▌       | 1746/6844 [06:54<19:58,  4.25it/s] 26%|██▌       | 1747/6844 [06:55<19:59,  4.25it/s] 26%|██▌       | 1748/6844 [06:55<19:57,  4.25it/s] 26%|██▌       | 1749/6844 [06:55<19:57,  4.25it/s] 26%|██▌       | 1750/6844 [06:55<19:58,  4.25it/s]                                                   {'loss': 4.7257, 'grad_norm': 0.14213714003562927, 'learning_rate': 0.0055681199250180715, 'epoch': 0.05}
+ 26%|██▌       | 1750/6844 [06:55<19:58,  4.25it/s] 26%|██▌       | 1751/6844 [06:56<20:03,  4.23it/s] 26%|██▌       | 1752/6844 [06:56<20:02,  4.23it/s] 26%|██▌       | 1753/6844 [06:56<20:01,  4.24it/s] 26%|██▌       | 1754/6844 [06:56<20:01,  4.24it/s] 26%|██▌       | 1755/6844 [06:57<19:59,  4.24it/s] 26%|██▌       | 1756/6844 [06:57<19:59,  4.24it/s] 26%|██▌       | 1757/6844 [06:57<19:59,  4.24it/s] 26%|██▌       | 1758/6844 [06:57<19:58,  4.24it/s] 26%|██▌       | 1759/6844 [06:58<19:58,  4.24it/s] 26%|██▌       | 1760/6844 [06:58<19:59,  4.24it/s] 26%|██▌       | 1761/6844 [06:58<19:57,  4.24it/s] 26%|██▌       | 1762/6844 [06:58<19:57,  4.24it/s] 26%|██▌       | 1763/6844 [06:58<19:57,  4.24it/s] 26%|██▌       | 1764/6844 [06:59<19:57,  4.24it/s] 26%|██▌       | 1765/6844 [06:59<19:56,  4.25it/s] 26%|██▌       | 1766/6844 [06:59<19:56,  4.24it/s] 26%|██▌       | 1767/6844 [06:59<19:56,  4.24it/s] 26%|██▌       | 1768/6844 [07:00<19:56,  4.24it/s] 26%|██▌       | 1769/6844 [07:00<19:56,  4.24it/s] 26%|██▌       | 1770/6844 [07:00<19:55,  4.24it/s] 26%|██▌       | 1771/6844 [07:00<19:56,  4.24it/s] 26%|██▌       | 1772/6844 [07:01<19:54,  4.25it/s] 26%|██▌       | 1773/6844 [07:01<19:54,  4.25it/s] 26%|██▌       | 1774/6844 [07:01<19:54,  4.24it/s] 26%|██▌       | 1775/6844 [07:01<19:54,  4.24it/s]{'loss': 4.7193, 'grad_norm': 0.13305413722991943, 'learning_rate': 0.005548136699811931, 'epoch': 0.05}                                                   
+ 26%|██▌       | 1775/6844 [07:01<19:54,  4.24it/s] 26%|██▌       | 1776/6844 [07:02<19:58,  4.23it/s] 26%|██▌       | 1777/6844 [07:02<19:55,  4.24it/s] 26%|██▌       | 1778/6844 [07:02<19:56,  4.24it/s] 26%|██▌       | 1779/6844 [07:02<19:53,  4.24it/s] 26%|██▌       | 1780/6844 [07:02<19:53,  4.24it/s] 26%|██▌       | 1781/6844 [07:03<19:53,  4.24it/s] 26%|██▌       | 1782/6844 [07:03<19:52,  4.24it/s] 26%|██▌       | 1783/6844 [07:03<19:52,  4.24it/s] 26%|██▌       | 1784/6844 [07:03<19:52,  4.24it/s] 26%|██▌       | 1785/6844 [07:04<19:52,  4.24it/s] 26%|██▌       | 1786/6844 [07:04<19:53,  4.24it/s] 26%|██▌       | 1787/6844 [07:04<19:51,  4.24it/s] 26%|██▌       | 1788/6844 [07:04<19:50,  4.25it/s] 26%|██▌       | 1789/6844 [07:05<19:50,  4.25it/s] 26%|██▌       | 1790/6844 [07:05<19:50,  4.24it/s] 26%|██▌       | 1791/6844 [07:05<19:51,  4.24it/s] 26%|██▌       | 1792/6844 [07:05<19:53,  4.23it/s] 26%|██▌       | 1793/6844 [07:06<19:52,  4.23it/s] 26%|██▌       | 1794/6844 [07:06<19:51,  4.24it/s] 26%|██▌       | 1795/6844 [07:06<19:50,  4.24it/s] 26%|██▌       | 1796/6844 [07:06<19:51,  4.24it/s] 26%|██▋       | 1797/6844 [07:07<19:52,  4.23it/s] 26%|██▋       | 1798/6844 [07:07<19:53,  4.23it/s] 26%|██▋       | 1799/6844 [07:07<19:53,  4.23it/s] 26%|██▋       | 1800/6844 [07:07<19:51,  4.23it/s]                                                   {'loss': 4.7006, 'grad_norm': 0.1312926858663559, 'learning_rate': 0.005527739116163066, 'epoch': 0.05}
+ 26%|██▋       | 1800/6844 [07:07<19:51,  4.23it/s] 26%|██▋       | 1801/6844 [07:07<19:54,  4.22it/s] 26%|██▋       | 1802/6844 [07:08<19:50,  4.24it/s] 26%|██▋       | 1803/6844 [07:08<19:51,  4.23it/s] 26%|██▋       | 1804/6844 [07:08<19:49,  4.24it/s] 26%|██▋       | 1805/6844 [07:08<19:49,  4.24it/s] 26%|██▋       | 1806/6844 [07:09<19:49,  4.24it/s] 26%|██▋       | 1807/6844 [07:09<19:48,  4.24it/s] 26%|██▋       | 1808/6844 [07:09<19:47,  4.24it/s] 26%|██▋       | 1809/6844 [07:09<19:47,  4.24it/s] 26%|██▋       | 1810/6844 [07:10<19:46,  4.24it/s] 26%|██▋       | 1811/6844 [07:10<19:46,  4.24it/s] 26%|██▋       | 1812/6844 [07:10<19:47,  4.24it/s] 26%|██▋       | 1813/6844 [07:10<19:46,  4.24it/s] 27%|██▋       | 1814/6844 [07:11<19:46,  4.24it/s] 27%|██▋       | 1815/6844 [07:11<19:45,  4.24it/s] 27%|██▋       | 1816/6844 [07:11<19:46,  4.24it/s] 27%|██▋       | 1817/6844 [07:11<19:46,  4.24it/s] 27%|██▋       | 1818/6844 [07:11<19:45,  4.24it/s] 27%|██▋       | 1819/6844 [07:12<19:42,  4.25it/s] 27%|██▋       | 1820/6844 [07:12<19:43,  4.24it/s] 27%|██▋       | 1821/6844 [07:12<19:46,  4.23it/s] 27%|██▋       | 1822/6844 [07:12<19:47,  4.23it/s] 27%|██▋       | 1823/6844 [07:13<19:45,  4.24it/s] 27%|██▋       | 1824/6844 [07:13<19:43,  4.24it/s] 27%|██▋       | 1825/6844 [07:13<19:43,  4.24it/s]                                                   {'loss': 4.6967, 'grad_norm': 0.1328314244747162, 'learning_rate': 0.005506930490970056, 'epoch': 0.05}
+ 27%|██▋       | 1825/6844 [07:13<19:43,  4.24it/s] 27%|██▋       | 1826/6844 [07:13<19:45,  4.23it/s] 27%|██▋       | 1827/6844 [07:14<19:43,  4.24it/s] 27%|██▋       | 1828/6844 [07:14<19:43,  4.24it/s] 27%|██▋       | 1829/6844 [07:14<19:42,  4.24it/s] 27%|██▋       | 1830/6844 [07:14<19:40,  4.25it/s] 27%|██▋       | 1831/6844 [07:15<19:39,  4.25it/s] 27%|██▋       | 1832/6844 [07:15<19:40,  4.25it/s] 27%|██▋       | 1833/6844 [07:15<19:41,  4.24it/s] 27%|██▋       | 1834/6844 [07:15<19:38,  4.25it/s] 27%|██▋       | 1835/6844 [07:15<19:38,  4.25it/s] 27%|██▋       | 1836/6844 [07:16<19:38,  4.25it/s] 27%|██▋       | 1837/6844 [07:16<19:39,  4.25it/s] 27%|██▋       | 1838/6844 [07:16<19:39,  4.24it/s] 27%|██▋       | 1839/6844 [07:16<19:41,  4.23it/s] 27%|██▋       | 1840/6844 [07:17<19:41,  4.24it/s] 27%|██▋       | 1841/6844 [07:17<19:39,  4.24it/s] 27%|██▋       | 1842/6844 [07:17<19:37,  4.25it/s] 27%|██▋       | 1843/6844 [07:17<19:40,  4.24it/s] 27%|██▋       | 1844/6844 [07:18<20:25,  4.08it/s] 27%|██▋       | 1845/6844 [07:18<20:45,  4.01it/s] 27%|██▋       | 1846/6844 [07:18<20:29,  4.07it/s] 27%|██▋       | 1847/6844 [07:18<20:12,  4.12it/s] 27%|██▋       | 1848/6844 [07:19<19:59,  4.16it/s] 27%|██▋       | 1849/6844 [07:19<19:52,  4.19it/s] 27%|██▋       | 1850/6844 [07:19<19:47,  4.20it/s]                                                   {'loss': 4.709, 'grad_norm': 0.14089584350585938, 'learning_rate': 0.005485714207971899, 'epoch': 0.05}
+ 27%|██▋       | 1850/6844 [07:19<19:47,  4.20it/s] 27%|██▋       | 1851/6844 [07:19<19:46,  4.21it/s] 27%|██▋       | 1852/6844 [07:20<19:42,  4.22it/s] 27%|██▋       | 1853/6844 [07:20<19:40,  4.23it/s] 27%|██▋       | 1854/6844 [07:20<19:38,  4.23it/s] 27%|██▋       | 1855/6844 [07:20<19:37,  4.24it/s] 27%|██▋       | 1856/6844 [07:20<19:36,  4.24it/s] 27%|██▋       | 1857/6844 [07:21<19:35,  4.24it/s] 27%|██▋       | 1858/6844 [07:21<19:34,  4.25it/s] 27%|██▋       | 1859/6844 [07:21<19:32,  4.25it/s] 27%|██▋       | 1860/6844 [07:21<19:30,  4.26it/s] 27%|██▋       | 1861/6844 [07:22<19:32,  4.25it/s] 27%|██▋       | 1862/6844 [07:22<19:33,  4.25it/s] 27%|██▋       | 1863/6844 [07:22<19:31,  4.25it/s] 27%|██▋       | 1864/6844 [07:22<19:34,  4.24it/s] 27%|██▋       | 1865/6844 [07:23<19:33,  4.24it/s] 27%|██▋       | 1866/6844 [07:23<19:33,  4.24it/s] 27%|██▋       | 1867/6844 [07:23<19:31,  4.25it/s] 27%|██▋       | 1868/6844 [07:23<19:32,  4.25it/s] 27%|██▋       | 1869/6844 [07:24<19:29,  4.25it/s] 27%|██▋       | 1870/6844 [07:24<19:28,  4.26it/s] 27%|██▋       | 1871/6844 [07:24<19:32,  4.24it/s] 27%|██▋       | 1872/6844 [07:24<19:31,  4.24it/s] 27%|██▋       | 1873/6844 [07:24<19:32,  4.24it/s] 27%|██▋       | 1874/6844 [07:25<19:32,  4.24it/s] 27%|██▋       | 1875/6844 [07:25<19:30,  4.24it/s]{'loss': 4.7008, 'grad_norm': 0.1344946324825287, 'learning_rate': 0.0054640937171977835, 'epoch': 0.05}
+                                                    27%|██▋       | 1875/6844 [07:25<19:30,  4.24it/s] 27%|██▋       | 1876/6844 [07:25<19:33,  4.23it/s] 27%|██▋       | 1877/6844 [07:25<19:31,  4.24it/s] 27%|██▋       | 1878/6844 [07:26<19:31,  4.24it/s] 27%|██▋       | 1879/6844 [07:26<19:30,  4.24it/s] 27%|██▋       | 1880/6844 [07:26<19:28,  4.25it/s] 27%|██▋       | 1881/6844 [07:26<19:26,  4.25it/s] 27%|██▋       | 1882/6844 [07:27<19:25,  4.26it/s] 28%|██▊       | 1883/6844 [07:27<19:23,  4.26it/s] 28%|██▊       | 1884/6844 [07:27<19:23,  4.26it/s] 28%|██▊       | 1885/6844 [07:27<19:25,  4.26it/s] 28%|██▊       | 1886/6844 [07:28<19:25,  4.25it/s] 28%|██▊       | 1887/6844 [07:28<19:24,  4.26it/s] 28%|██▊       | 1888/6844 [07:28<19:25,  4.25it/s] 28%|██▊       | 1889/6844 [07:28<19:25,  4.25it/s] 28%|██▊       | 1890/6844 [07:28<19:25,  4.25it/s] 28%|██▊       | 1891/6844 [07:29<19:25,  4.25it/s] 28%|██▊       | 1892/6844 [07:29<19:24,  4.25it/s] 28%|██▊       | 1893/6844 [07:29<19:25,  4.25it/s] 28%|██▊       | 1894/6844 [07:29<19:23,  4.25it/s] 28%|██▊       | 1895/6844 [07:30<19:22,  4.26it/s] 28%|██▊       | 1896/6844 [07:30<19:23,  4.25it/s] 28%|██▊       | 1897/6844 [07:30<19:23,  4.25it/s] 28%|██▊       | 1898/6844 [07:30<19:23,  4.25it/s] 28%|██▊       | 1899/6844 [07:31<19:22,  4.25it/s] 28%|██▊       | 1900/6844 [07:31<19:23,  4.25it/s]{'loss': 4.6819, 'grad_norm': 0.16090862452983856, 'learning_rate': 0.005442072534406062, 'epoch': 0.06}                                                   
+ 28%|██▊       | 1900/6844 [07:31<19:23,  4.25it/s] 28%|██▊       | 1901/6844 [07:31<19:26,  4.24it/s] 28%|██▊       | 1902/6844 [07:31<19:23,  4.25it/s] 28%|██▊       | 1903/6844 [07:32<19:23,  4.25it/s] 28%|██▊       | 1904/6844 [07:32<19:20,  4.26it/s] 28%|██▊       | 1905/6844 [07:32<19:19,  4.26it/s] 28%|██▊       | 1906/6844 [07:32<19:19,  4.26it/s] 28%|██▊       | 1907/6844 [07:32<19:18,  4.26it/s] 28%|██▊       | 1908/6844 [07:33<19:18,  4.26it/s] 28%|██▊       | 1909/6844 [07:33<19:17,  4.26it/s] 28%|██▊       | 1910/6844 [07:33<19:20,  4.25it/s] 28%|██▊       | 1911/6844 [07:33<19:20,  4.25it/s] 28%|██▊       | 1912/6844 [07:34<19:20,  4.25it/s] 28%|██▊       | 1913/6844 [07:34<19:18,  4.25it/s] 28%|██▊       | 1914/6844 [07:34<19:20,  4.25it/s] 28%|██▊       | 1915/6844 [07:34<19:21,  4.24it/s] 28%|██▊       | 1916/6844 [07:35<19:22,  4.24it/s] 28%|██▊       | 1917/6844 [07:35<19:21,  4.24it/s] 28%|██▊       | 1918/6844 [07:35<19:19,  4.25it/s] 28%|██▊       | 1919/6844 [07:35<19:19,  4.25it/s] 28%|██▊       | 1920/6844 [07:36<19:17,  4.25it/s] 28%|██▊       | 1921/6844 [07:36<19:17,  4.25it/s] 28%|██▊       | 1922/6844 [07:36<19:17,  4.25it/s] 28%|██▊       | 1923/6844 [07:36<19:17,  4.25it/s] 28%|██▊       | 1924/6844 [07:36<19:19,  4.24it/s] 28%|██▊       | 1925/6844 [07:37<19:17,  4.25it/s]                                                   {'loss': 4.6847, 'grad_norm': 0.15019293129444122, 'learning_rate': 0.0054196542405125486, 'epoch': 0.06}
+ 28%|██▊       | 1925/6844 [07:37<19:17,  4.25it/s] 28%|██▊       | 1926/6844 [07:37<19:21,  4.24it/s] 28%|██▊       | 1927/6844 [07:37<19:20,  4.24it/s] 28%|██▊       | 1928/6844 [07:37<19:18,  4.24it/s] 28%|██▊       | 1929/6844 [07:38<19:18,  4.24it/s] 28%|██▊       | 1930/6844 [07:38<19:16,  4.25it/s] 28%|██▊       | 1931/6844 [07:38<19:16,  4.25it/s] 28%|██▊       | 1932/6844 [07:38<19:16,  4.25it/s] 28%|██▊       | 1933/6844 [07:39<19:16,  4.25it/s] 28%|██▊       | 1934/6844 [07:39<19:16,  4.25it/s] 28%|██▊       | 1935/6844 [07:39<19:18,  4.24it/s] 28%|██▊       | 1936/6844 [07:39<19:16,  4.24it/s] 28%|██▊       | 1937/6844 [07:40<19:15,  4.25it/s] 28%|██▊       | 1938/6844 [07:40<19:15,  4.25it/s] 28%|██▊       | 1939/6844 [07:40<19:13,  4.25it/s] 28%|██▊       | 1940/6844 [07:40<19:13,  4.25it/s] 28%|██▊       | 1941/6844 [07:40<19:13,  4.25it/s] 28%|██▊       | 1942/6844 [07:41<19:15,  4.24it/s] 28%|██▊       | 1943/6844 [07:41<19:13,  4.25it/s] 28%|██▊       | 1944/6844 [07:41<19:13,  4.25it/s] 28%|██▊       | 1945/6844 [07:41<19:12,  4.25it/s] 28%|██▊       | 1946/6844 [07:42<19:12,  4.25it/s] 28%|██▊       | 1947/6844 [07:42<19:12,  4.25it/s] 28%|██▊       | 1948/6844 [07:42<19:10,  4.26it/s] 28%|██▊       | 1949/6844 [07:42<19:15,  4.24it/s] 28%|██▊       | 1950/6844 [07:43<19:14,  4.24it/s]                                                   {'loss': 4.6797, 'grad_norm': 0.1340915560722351, 'learning_rate': 0.005396842481008223, 'epoch': 0.06}
+ 28%|██▊       | 1950/6844 [07:43<19:14,  4.24it/s] 29%|██▊       | 1951/6844 [07:43<19:15,  4.23it/s] 29%|██▊       | 1952/6844 [07:43<19:14,  4.24it/s] 29%|██▊       | 1953/6844 [07:43<19:13,  4.24it/s] 29%|██▊       | 1954/6844 [07:44<19:10,  4.25it/s] 29%|██▊       | 1955/6844 [07:44<19:09,  4.25it/s] 29%|██▊       | 1956/6844 [07:44<19:12,  4.24it/s] 29%|██▊       | 1957/6844 [07:44<19:12,  4.24it/s] 29%|██▊       | 1958/6844 [07:44<19:11,  4.24it/s] 29%|██▊       | 1959/6844 [07:45<19:09,  4.25it/s] 29%|██▊       | 1960/6844 [07:45<19:07,  4.26it/s] 29%|██▊       | 1961/6844 [07:45<19:07,  4.25it/s] 29%|██▊       | 1962/6844 [07:45<19:08,  4.25it/s] 29%|██▊       | 1963/6844 [07:46<19:09,  4.25it/s] 29%|██▊       | 1964/6844 [07:46<19:07,  4.25it/s] 29%|██▊       | 1965/6844 [07:46<19:05,  4.26it/s] 29%|██▊       | 1966/6844 [07:46<19:06,  4.25it/s] 29%|██▊       | 1967/6844 [07:47<19:07,  4.25it/s] 29%|██▉       | 1968/6844 [07:47<19:06,  4.25it/s] 29%|██▉       | 1969/6844 [07:47<19:06,  4.25it/s] 29%|██▉       | 1970/6844 [07:47<19:09,  4.24it/s] 29%|██▉       | 1971/6844 [07:48<19:47,  4.10it/s] 29%|██▉       | 1972/6844 [07:48<19:35,  4.14it/s] 29%|██▉       | 1973/6844 [07:48<19:25,  4.18it/s] 29%|██▉       | 1974/6844 [07:48<19:19,  4.20it/s] 29%|██▉       | 1975/6844 [07:49<19:14,  4.22it/s]{'loss': 4.6877, 'grad_norm': 0.12787610292434692, 'learning_rate': 0.005373640965366418, 'epoch': 0.06}
+                                                    29%|██▉       | 1975/6844 [07:49<19:14,  4.22it/s] 29%|██▉       | 1976/6844 [07:49<19:14,  4.22it/s] 29%|██▉       | 1977/6844 [07:49<19:09,  4.23it/s] 29%|██▉       | 1978/6844 [07:49<19:09,  4.23it/s] 29%|██▉       | 1979/6844 [07:49<19:06,  4.24it/s] 29%|██▉       | 1980/6844 [07:50<19:07,  4.24it/s] 29%|██▉       | 1981/6844 [07:50<19:05,  4.24it/s] 29%|██▉       | 1982/6844 [07:50<19:04,  4.25it/s] 29%|██▉       | 1983/6844 [07:50<19:02,  4.26it/s] 29%|██▉       | 1984/6844 [07:51<19:02,  4.26it/s] 29%|██▉       | 1985/6844 [07:51<19:02,  4.25it/s] 29%|██▉       | 1986/6844 [07:51<19:01,  4.25it/s] 29%|██▉       | 1987/6844 [07:51<19:02,  4.25it/s] 29%|██▉       | 1988/6844 [07:52<19:04,  4.24it/s] 29%|██▉       | 1989/6844 [07:52<19:02,  4.25it/s] 29%|██▉       | 1990/6844 [07:52<19:02,  4.25it/s] 29%|██▉       | 1991/6844 [07:52<19:01,  4.25it/s] 29%|██▉       | 1992/6844 [07:53<19:02,  4.25it/s] 29%|██▉       | 1993/6844 [07:53<19:04,  4.24it/s] 29%|██▉       | 1994/6844 [07:53<19:03,  4.24it/s] 29%|██▉       | 1995/6844 [07:53<19:04,  4.24it/s] 29%|██▉       | 1996/6844 [07:53<19:02,  4.24it/s] 29%|██▉       | 1997/6844 [07:54<19:00,  4.25it/s] 29%|██▉       | 1998/6844 [07:54<19:00,  4.25it/s] 29%|██▉       | 1999/6844 [07:54<19:01,  4.24it/s] 29%|██▉       | 2000/6844 [07:54<19:01,  4.25it/s]{'loss': 4.6656, 'grad_norm': 0.14361566305160522, 'learning_rate': 0.0053500534664396235, 'epoch': 0.06}                                                   
+ 29%|██▉       | 2000/6844 [07:54<19:01,  4.25it/s] 29%|██▉       | 2001/6844 [07:55<19:04,  4.23it/s] 29%|██▉       | 2002/6844 [07:55<19:03,  4.24it/s] 29%|██▉       | 2003/6844 [07:55<19:01,  4.24it/s] 29%|██▉       | 2004/6844 [07:55<19:01,  4.24it/s] 29%|██▉       | 2005/6844 [07:56<19:00,  4.24it/s] 29%|██▉       | 2006/6844 [07:56<19:00,  4.24it/s] 29%|██▉       | 2007/6844 [07:56<19:00,  4.24it/s] 29%|██▉       | 2008/6844 [07:56<19:00,  4.24it/s] 29%|██▉       | 2009/6844 [07:57<19:00,  4.24it/s] 29%|██▉       | 2010/6844 [07:57<19:00,  4.24it/s] 29%|██▉       | 2011/6844 [07:57<18:59,  4.24it/s] 29%|██▉       | 2012/6844 [07:57<18:57,  4.25it/s] 29%|██▉       | 2013/6844 [07:57<18:57,  4.25it/s] 29%|██▉       | 2014/6844 [07:58<18:56,  4.25it/s] 29%|██▉       | 2015/6844 [07:58<18:56,  4.25it/s] 29%|██▉       | 2016/6844 [07:58<18:56,  4.25it/s] 29%|██▉       | 2017/6844 [07:58<18:57,  4.24it/s] 29%|██▉       | 2018/6844 [07:59<18:56,  4.25it/s] 30%|██▉       | 2019/6844 [07:59<18:55,  4.25it/s] 30%|██▉       | 2020/6844 [07:59<18:56,  4.24it/s] 30%|██▉       | 2021/6844 [07:59<18:56,  4.24it/s] 30%|██▉       | 2022/6844 [08:00<18:55,  4.25it/s] 30%|██▉       | 2023/6844 [08:00<18:56,  4.24it/s] 30%|██▉       | 2024/6844 [08:00<18:55,  4.25it/s] 30%|██▉       | 2025/6844 [08:00<18:55,  4.24it/s]                                                   {'loss': 4.6593, 'grad_norm': 0.12974873185157776, 'learning_rate': 0.00532608381984597, 'epoch': 0.06}
+ 30%|██▉       | 2025/6844 [08:00<18:55,  4.24it/s] 30%|██▉       | 2026/6844 [08:01<18:56,  4.24it/s] 30%|██▉       | 2027/6844 [08:01<18:56,  4.24it/s] 30%|██▉       | 2028/6844 [08:01<18:55,  4.24it/s] 30%|██▉       | 2029/6844 [08:01<18:52,  4.25it/s] 30%|██▉       | 2030/6844 [08:01<18:52,  4.25it/s] 30%|██▉       | 2031/6844 [08:02<18:52,  4.25it/s] 30%|██▉       | 2032/6844 [08:02<18:53,  4.24it/s] 30%|██▉       | 2033/6844 [08:02<18:53,  4.24it/s] 30%|██▉       | 2034/6844 [08:02<18:55,  4.24it/s] 30%|██▉       | 2035/6844 [08:03<18:54,  4.24it/s] 30%|██▉       | 2036/6844 [08:03<18:53,  4.24it/s] 30%|██▉       | 2037/6844 [08:03<18:53,  4.24it/s] 30%|██▉       | 2038/6844 [08:03<18:53,  4.24it/s] 30%|██▉       | 2039/6844 [08:04<18:53,  4.24it/s] 30%|██▉       | 2040/6844 [08:04<18:53,  4.24it/s] 30%|██▉       | 2041/6844 [08:04<18:53,  4.24it/s] 30%|██▉       | 2042/6844 [08:04<18:53,  4.24it/s] 30%|██▉       | 2043/6844 [08:05<18:53,  4.24it/s] 30%|██▉       | 2044/6844 [08:05<18:52,  4.24it/s] 30%|██▉       | 2045/6844 [08:05<18:50,  4.24it/s] 30%|██▉       | 2046/6844 [08:05<18:50,  4.24it/s] 30%|██▉       | 2047/6844 [08:05<18:48,  4.25it/s] 30%|██▉       | 2048/6844 [08:06<18:47,  4.26it/s] 30%|██▉       | 2049/6844 [08:06<18:47,  4.25it/s] 30%|██▉       | 2050/6844 [08:06<18:46,  4.26it/s]{'loss': 4.6568, 'grad_norm': 0.1350453943014145, 'learning_rate': 0.0053017359233455096, 'epoch': 0.06}
+                                                    30%|██▉       | 2050/6844 [08:06<18:46,  4.26it/s] 30%|██▉       | 2051/6844 [08:06<18:50,  4.24it/s] 30%|██▉       | 2052/6844 [08:07<18:50,  4.24it/s] 30%|██▉       | 2053/6844 [08:07<18:49,  4.24it/s] 30%|███       | 2054/6844 [08:07<18:49,  4.24it/s] 30%|███       | 2055/6844 [08:07<18:48,  4.24it/s] 30%|███       | 2056/6844 [08:08<18:48,  4.24it/s] 30%|███       | 2057/6844 [08:08<18:47,  4.25it/s] 30%|███       | 2058/6844 [08:08<18:46,  4.25it/s] 30%|███       | 2059/6844 [08:08<18:46,  4.25it/s] 30%|███       | 2060/6844 [08:09<18:43,  4.26it/s] 30%|███       | 2061/6844 [08:09<18:43,  4.26it/s] 30%|███       | 2062/6844 [08:09<18:43,  4.25it/s] 30%|███       | 2063/6844 [08:09<18:45,  4.25it/s] 30%|███       | 2064/6844 [08:09<18:45,  4.25it/s] 30%|███       | 2065/6844 [08:10<18:44,  4.25it/s] 30%|███       | 2066/6844 [08:10<18:45,  4.25it/s] 30%|███       | 2067/6844 [08:10<18:44,  4.25it/s] 30%|███       | 2068/6844 [08:10<18:44,  4.25it/s] 30%|███       | 2069/6844 [08:11<18:43,  4.25it/s] 30%|███       | 2070/6844 [08:11<18:42,  4.25it/s] 30%|███       | 2071/6844 [08:11<18:43,  4.25it/s] 30%|███       | 2072/6844 [08:11<18:43,  4.25it/s] 30%|███       | 2073/6844 [08:12<18:44,  4.24it/s] 30%|███       | 2074/6844 [08:12<18:45,  4.24it/s] 30%|███       | 2075/6844 [08:12<18:45,  4.24it/s]                                                   {'loss': 4.6555, 'grad_norm': 0.1406068354845047, 'learning_rate': 0.005277013736206391, 'epoch': 0.06}
+ 30%|███       | 2075/6844 [08:12<18:45,  4.24it/s] 30%|███       | 2076/6844 [08:12<18:47,  4.23it/s] 30%|███       | 2077/6844 [08:13<18:46,  4.23it/s] 30%|███       | 2078/6844 [08:13<18:44,  4.24it/s] 30%|███       | 2079/6844 [08:13<18:43,  4.24it/s] 30%|███       | 2080/6844 [08:13<18:43,  4.24it/s] 30%|███       | 2081/6844 [08:14<25:22,  3.13it/s] 30%|███       | 2082/6844 [08:14<23:25,  3.39it/s] 30%|███       | 2083/6844 [08:14<22:00,  3.61it/s] 30%|███       | 2084/6844 [08:14<20:59,  3.78it/s] 30%|███       | 2085/6844 [08:15<20:17,  3.91it/s] 30%|███       | 2086/6844 [08:15<19:47,  4.01it/s] 30%|███       | 2087/6844 [08:15<19:25,  4.08it/s] 31%|███       | 2088/6844 [08:15<19:10,  4.13it/s] 31%|███       | 2089/6844 [08:16<19:00,  4.17it/s] 31%|███       | 2090/6844 [08:16<18:52,  4.20it/s] 31%|███       | 2091/6844 [08:16<18:47,  4.22it/s] 31%|███       | 2092/6844 [08:16<18:43,  4.23it/s] 31%|███       | 2093/6844 [08:17<18:47,  4.21it/s] 31%|███       | 2094/6844 [08:17<18:43,  4.23it/s] 31%|███       | 2095/6844 [08:17<18:40,  4.24it/s] 31%|███       | 2096/6844 [08:17<18:38,  4.24it/s] 31%|███       | 2097/6844 [08:18<19:28,  4.06it/s] 31%|███       | 2098/6844 [08:18<19:11,  4.12it/s] 31%|███       | 2099/6844 [08:18<18:58,  4.17it/s] 31%|███       | 2100/6844 [08:18<18:53,  4.18it/s]                                                   {'loss': 4.6505, 'grad_norm': 0.1377834975719452, 'learning_rate': 0.005251921278561038, 'epoch': 0.06}
+ 31%|███       | 2100/6844 [08:18<18:53,  4.18it/s] 31%|███       | 2101/6844 [08:18<18:50,  4.20it/s] 31%|███       | 2102/6844 [08:19<18:46,  4.21it/s] 31%|███       | 2103/6844 [08:19<18:43,  4.22it/s] 31%|███       | 2104/6844 [08:19<18:40,  4.23it/s] 31%|███       | 2105/6844 [08:19<18:37,  4.24it/s] 31%|███       | 2106/6844 [08:20<18:35,  4.25it/s] 31%|███       | 2107/6844 [08:20<18:37,  4.24it/s] 31%|███       | 2108/6844 [08:20<18:34,  4.25it/s] 31%|███       | 2109/6844 [08:20<18:32,  4.25it/s] 31%|███       | 2110/6844 [08:21<18:31,  4.26it/s] 31%|███       | 2111/6844 [08:21<18:31,  4.26it/s] 31%|███       | 2112/6844 [08:21<18:31,  4.26it/s] 31%|███       | 2113/6844 [08:21<18:31,  4.26it/s] 31%|███       | 2114/6844 [08:22<18:31,  4.25it/s] 31%|███       | 2115/6844 [08:22<18:30,  4.26it/s] 31%|███       | 2116/6844 [08:22<18:30,  4.26it/s] 31%|███       | 2117/6844 [08:22<18:30,  4.26it/s] 31%|███       | 2118/6844 [08:22<18:30,  4.25it/s] 31%|███       | 2119/6844 [08:23<18:28,  4.26it/s] 31%|███       | 2120/6844 [08:23<18:28,  4.26it/s] 31%|███       | 2121/6844 [08:23<18:29,  4.26it/s] 31%|███       | 2122/6844 [08:23<18:27,  4.26it/s] 31%|███       | 2123/6844 [08:24<18:26,  4.27it/s] 31%|███       | 2124/6844 [08:24<18:26,  4.27it/s] 31%|███       | 2125/6844 [08:24<18:26,  4.26it/s]{'loss': 4.6519, 'grad_norm': 0.13854774832725525, 'learning_rate': 0.005226462630752421, 'epoch': 0.06}
+                                                    31%|███       | 2125/6844 [08:24<18:26,  4.26it/s] 31%|███       | 2126/6844 [08:24<18:29,  4.25it/s] 31%|███       | 2127/6844 [08:25<18:28,  4.25it/s] 31%|███       | 2128/6844 [08:25<18:29,  4.25it/s] 31%|███       | 2129/6844 [08:25<18:29,  4.25it/s] 31%|███       | 2130/6844 [08:25<18:28,  4.25it/s] 31%|███       | 2131/6844 [08:26<18:30,  4.25it/s] 31%|███       | 2132/6844 [08:26<18:30,  4.24it/s] 31%|███       | 2133/6844 [08:26<18:30,  4.24it/s] 31%|███       | 2134/6844 [08:26<18:29,  4.25it/s] 31%|███       | 2135/6844 [08:26<18:28,  4.25it/s] 31%|███       | 2136/6844 [08:27<18:30,  4.24it/s] 31%|███       | 2137/6844 [08:27<18:28,  4.25it/s] 31%|███       | 2138/6844 [08:27<18:28,  4.25it/s] 31%|███▏      | 2139/6844 [08:27<18:29,  4.24it/s] 31%|███▏      | 2140/6844 [08:28<18:28,  4.24it/s] 31%|███▏      | 2141/6844 [08:28<18:27,  4.25it/s] 31%|███▏      | 2142/6844 [08:28<18:28,  4.24it/s] 31%|███▏      | 2143/6844 [08:28<18:27,  4.24it/s] 31%|███▏      | 2144/6844 [08:29<18:27,  4.24it/s] 31%|███▏      | 2145/6844 [08:29<18:26,  4.25it/s] 31%|███▏      | 2146/6844 [08:29<18:28,  4.24it/s] 31%|███▏      | 2147/6844 [08:29<18:26,  4.24it/s] 31%|███▏      | 2148/6844 [08:30<18:25,  4.25it/s] 31%|███▏      | 2149/6844 [08:30<18:23,  4.25it/s] 31%|███▏      | 2150/6844 [08:30<18:24,  4.25it/s]                                                   {'loss': 4.6498, 'grad_norm': 0.15399087965488434, 'learning_rate': 0.005200641932670547, 'epoch': 0.06}
+ 31%|███▏      | 2150/6844 [08:30<18:24,  4.25it/s] 31%|███▏      | 2151/6844 [08:30<18:27,  4.24it/s] 31%|███▏      | 2152/6844 [08:30<18:28,  4.23it/s] 31%|███▏      | 2153/6844 [08:31<18:26,  4.24it/s] 31%|███▏      | 2154/6844 [08:31<18:24,  4.24it/s] 31%|███▏      | 2155/6844 [08:31<18:23,  4.25it/s] 32%|███▏      | 2156/6844 [08:31<18:23,  4.25it/s] 32%|███▏      | 2157/6844 [08:32<18:21,  4.25it/s] 32%|███▏      | 2158/6844 [08:32<18:22,  4.25it/s] 32%|███▏      | 2159/6844 [08:32<18:21,  4.25it/s] 32%|███▏      | 2160/6844 [08:32<18:23,  4.25it/s] 32%|███▏      | 2161/6844 [08:33<18:21,  4.25it/s] 32%|███▏      | 2162/6844 [08:33<18:21,  4.25it/s] 32%|███▏      | 2163/6844 [08:33<18:21,  4.25it/s] 32%|███▏      | 2164/6844 [08:33<18:20,  4.25it/s] 32%|███▏      | 2165/6844 [08:34<18:21,  4.25it/s] 32%|███▏      | 2166/6844 [08:34<18:19,  4.26it/s] 32%|███▏      | 2167/6844 [08:34<18:22,  4.24it/s] 32%|███▏      | 2168/6844 [08:34<18:20,  4.25it/s] 32%|███▏      | 2169/6844 [08:34<18:22,  4.24it/s] 32%|███▏      | 2170/6844 [08:35<18:22,  4.24it/s] 32%|███▏      | 2171/6844 [08:35<18:22,  4.24it/s] 32%|███▏      | 2172/6844 [08:35<18:20,  4.24it/s] 32%|███▏      | 2173/6844 [08:35<18:21,  4.24it/s] 32%|███▏      | 2174/6844 [08:36<18:20,  4.24it/s] 32%|███▏      | 2175/6844 [08:36<18:19,  4.25it/s]                                                   {'loss': 4.6358, 'grad_norm': 0.1577758491039276, 'learning_rate': 0.0051744633830792626, 'epoch': 0.06}
+ 32%|███▏      | 2175/6844 [08:36<18:19,  4.25it/s] 32%|███▏      | 2176/6844 [08:36<18:21,  4.24it/s] 32%|███▏      | 2177/6844 [08:36<18:20,  4.24it/s] 32%|███▏      | 2178/6844 [08:37<18:19,  4.24it/s] 32%|███▏      | 2179/6844 [08:37<18:22,  4.23it/s] 32%|███▏      | 2180/6844 [08:37<18:20,  4.24it/s] 32%|███▏      | 2181/6844 [08:37<18:21,  4.23it/s] 32%|███▏      | 2182/6844 [08:38<18:19,  4.24it/s] 32%|███▏      | 2183/6844 [08:38<18:20,  4.24it/s] 32%|███▏      | 2184/6844 [08:38<18:21,  4.23it/s] 32%|███▏      | 2185/6844 [08:38<18:19,  4.24it/s] 32%|███▏      | 2186/6844 [08:39<18:19,  4.24it/s] 32%|███▏      | 2187/6844 [08:39<18:18,  4.24it/s] 32%|███▏      | 2188/6844 [08:39<18:20,  4.23it/s] 32%|███▏      | 2189/6844 [08:39<18:18,  4.24it/s] 32%|███▏      | 2190/6844 [08:39<18:16,  4.25it/s] 32%|███▏      | 2191/6844 [08:40<18:14,  4.25it/s] 32%|███▏      | 2192/6844 [08:40<18:14,  4.25it/s] 32%|███▏      | 2193/6844 [08:40<18:14,  4.25it/s] 32%|███▏      | 2194/6844 [08:40<18:14,  4.25it/s] 32%|███▏      | 2195/6844 [08:41<18:12,  4.25it/s] 32%|███▏      | 2196/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2197/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2198/6844 [08:41<18:13,  4.25it/s] 32%|███▏      | 2199/6844 [08:42<18:12,  4.25it/s] 32%|███▏      | 2200/6844 [08:42<18:12,  4.25it/s]                                                   {'loss': 4.6171, 'grad_norm': 0.13524675369262695, 'learning_rate': 0.0051479312389334795, 'epoch': 0.06}
+ 32%|███▏      | 2200/6844 [08:42<18:12,  4.25it/s] 32%|███▏      | 2201/6844 [08:42<18:14,  4.24it/s] 32%|███▏      | 2202/6844 [08:42<18:13,  4.25it/s] 32%|███▏      | 2203/6844 [08:43<18:12,  4.25it/s] 32%|███▏      | 2204/6844 [08:43<18:11,  4.25it/s] 32%|███▏      | 2205/6844 [08:43<18:12,  4.25it/s] 32%|███▏      | 2206/6844 [08:43<18:10,  4.25it/s] 32%|███▏      | 2207/6844 [08:43<18:11,  4.25it/s] 32%|███▏      | 2208/6844 [08:44<18:09,  4.26it/s] 32%|███▏      | 2209/6844 [08:44<18:08,  4.26it/s] 32%|███▏      | 2210/6844 [08:44<18:08,  4.26it/s] 32%|███▏      | 2211/6844 [08:44<18:08,  4.25it/s] 32%|███▏      | 2212/6844 [08:45<18:09,  4.25it/s] 32%|███▏      | 2213/6844 [08:45<18:12,  4.24it/s] 32%|███▏      | 2214/6844 [08:45<18:10,  4.25it/s] 32%|███▏      | 2215/6844 [08:45<18:10,  4.25it/s] 32%|███▏      | 2216/6844 [08:46<18:09,  4.25it/s] 32%|███▏      | 2217/6844 [08:46<18:10,  4.24it/s] 32%|███▏      | 2218/6844 [08:46<18:09,  4.24it/s] 32%|███▏      | 2219/6844 [08:46<18:08,  4.25it/s] 32%|███▏      | 2220/6844 [08:47<18:10,  4.24it/s] 32%|███▏      | 2221/6844 [08:47<18:09,  4.24it/s] 32%|███▏      | 2222/6844 [08:47<18:07,  4.25it/s] 32%|███▏      | 2223/6844 [08:47<18:08,  4.25it/s] 32%|███▏      | 2224/6844 [08:47<18:12,  4.23it/s] 33%|███▎      | 2225/6844 [08:48<18:47,  4.10it/s]                                                   {'loss': 4.641, 'grad_norm': 0.1445131003856659, 'learning_rate': 0.005121049814686943, 'epoch': 0.07}
+ 33%|███▎      | 2225/6844 [08:48<18:47,  4.10it/s] 33%|███▎      | 2226/6844 [08:48<18:38,  4.13it/s] 33%|███▎      | 2227/6844 [08:48<18:29,  4.16it/s] 33%|███▎      | 2228/6844 [08:48<18:21,  4.19it/s] 33%|███▎      | 2229/6844 [08:49<18:16,  4.21it/s] 33%|███▎      | 2230/6844 [08:49<18:12,  4.22it/s] 33%|███▎      | 2231/6844 [08:49<18:10,  4.23it/s] 33%|███▎      | 2232/6844 [08:49<18:06,  4.24it/s] 33%|███▎      | 2233/6844 [08:50<18:06,  4.24it/s] 33%|███▎      | 2234/6844 [08:50<18:11,  4.22it/s] 33%|███▎      | 2235/6844 [08:50<18:10,  4.23it/s] 33%|███▎      | 2236/6844 [08:50<18:07,  4.24it/s] 33%|███▎      | 2237/6844 [08:51<18:08,  4.23it/s] 33%|███▎      | 2238/6844 [08:51<18:07,  4.24it/s] 33%|███▎      | 2239/6844 [08:51<18:05,  4.24it/s] 33%|███▎      | 2240/6844 [08:51<18:03,  4.25it/s] 33%|███▎      | 2241/6844 [08:51<18:04,  4.24it/s] 33%|███▎      | 2242/6844 [08:52<18:03,  4.25it/s] 33%|███▎      | 2243/6844 [08:52<18:03,  4.25it/s] 33%|███▎      | 2244/6844 [08:52<18:04,  4.24it/s] 33%|███▎      | 2245/6844 [08:52<18:04,  4.24it/s] 33%|███▎      | 2246/6844 [08:53<18:04,  4.24it/s] 33%|███▎      | 2247/6844 [08:53<18:02,  4.24it/s] 33%|███▎      | 2248/6844 [08:53<18:02,  4.24it/s] 33%|███▎      | 2249/6844 [08:53<18:02,  4.24it/s] 33%|███▎      | 2250/6844 [08:54<18:01,  4.25it/s]{'loss': 4.6237, 'grad_norm': 0.1420835256576538, 'learning_rate': 0.005093823481590649, 'epoch': 0.07}
+                                                    33%|███▎      | 2250/6844 [08:54<18:01,  4.25it/s] 33%|███▎      | 2251/6844 [08:54<18:04,  4.24it/s] 33%|███▎      | 2252/6844 [08:54<18:03,  4.24it/s] 33%|███▎      | 2253/6844 [08:54<18:00,  4.25it/s] 33%|███▎      | 2254/6844 [08:55<18:01,  4.24it/s] 33%|███▎      | 2255/6844 [08:55<18:00,  4.25it/s] 33%|███▎      | 2256/6844 [08:55<17:59,  4.25it/s] 33%|███▎      | 2257/6844 [08:55<17:59,  4.25it/s] 33%|███▎      | 2258/6844 [08:55<18:00,  4.25it/s] 33%|███▎      | 2259/6844 [08:56<17:58,  4.25it/s] 33%|███▎      | 2260/6844 [08:56<17:58,  4.25it/s] 33%|███▎      | 2261/6844 [08:56<17:57,  4.25it/s] 33%|███▎      | 2262/6844 [08:56<17:57,  4.25it/s] 33%|███▎      | 2263/6844 [08:57<17:57,  4.25it/s] 33%|███▎      | 2264/6844 [08:57<17:56,  4.25it/s] 33%|███▎      | 2265/6844 [08:57<17:56,  4.25it/s] 33%|███▎      | 2266/6844 [08:57<18:01,  4.23it/s] 33%|███▎      | 2267/6844 [08:58<17:58,  4.24it/s] 33%|███▎      | 2268/6844 [08:58<17:57,  4.25it/s] 33%|███▎      | 2269/6844 [08:58<17:57,  4.25it/s] 33%|███▎      | 2270/6844 [08:58<17:55,  4.25it/s] 33%|███▎      | 2271/6844 [08:59<17:55,  4.25it/s] 33%|███▎      | 2272/6844 [08:59<17:55,  4.25it/s] 33%|███▎      | 2273/6844 [08:59<17:57,  4.24it/s] 33%|███▎      | 2274/6844 [08:59<17:55,  4.25it/s] 33%|███▎      | 2275/6844 [08:59<17:54,  4.25it/s]{'loss': 4.6366, 'grad_norm': 0.1427440196275711, 'learning_rate': 0.0050662566669820285, 'epoch': 0.07}                                                   
+ 33%|███▎      | 2275/6844 [08:59<17:54,  4.25it/s] 33%|███▎      | 2276/6844 [09:00<17:57,  4.24it/s] 33%|███▎      | 2277/6844 [09:00<17:56,  4.24it/s] 33%|███▎      | 2278/6844 [09:00<17:56,  4.24it/s] 33%|███▎      | 2279/6844 [09:00<17:55,  4.25it/s] 33%|███▎      | 2280/6844 [09:01<17:53,  4.25it/s] 33%|███▎      | 2281/6844 [09:01<17:53,  4.25it/s] 33%|███▎      | 2282/6844 [09:01<17:52,  4.25it/s] 33%|███▎      | 2283/6844 [09:01<17:53,  4.25it/s] 33%|███▎      | 2284/6844 [09:02<17:51,  4.25it/s] 33%|███▎      | 2285/6844 [09:02<17:53,  4.25it/s] 33%|███▎      | 2286/6844 [09:02<17:52,  4.25it/s] 33%|███▎      | 2287/6844 [09:02<17:50,  4.26it/s] 33%|███▎      | 2288/6844 [09:03<17:49,  4.26it/s] 33%|███▎      | 2289/6844 [09:03<17:48,  4.26it/s] 33%|███▎      | 2290/6844 [09:03<17:49,  4.26it/s] 33%|███▎      | 2291/6844 [09:03<17:49,  4.26it/s] 33%|███▎      | 2292/6844 [09:03<17:47,  4.27it/s] 34%|███▎      | 2293/6844 [09:04<17:47,  4.26it/s] 34%|███▎      | 2294/6844 [09:04<17:48,  4.26it/s] 34%|███▎      | 2295/6844 [09:04<17:48,  4.26it/s] 34%|███▎      | 2296/6844 [09:04<17:48,  4.26it/s] 34%|███▎      | 2297/6844 [09:05<17:49,  4.25it/s] 34%|███▎      | 2298/6844 [09:05<17:50,  4.25it/s] 34%|███▎      | 2299/6844 [09:05<17:49,  4.25it/s] 34%|███▎      | 2300/6844 [09:05<17:49,  4.25it/s]                                                   {'loss': 4.6233, 'grad_norm': 0.14806945621967316, 'learning_rate': 0.005038353853565, 'epoch': 0.07}
+ 34%|███▎      | 2300/6844 [09:05<17:49,  4.25it/s] 34%|███▎      | 2301/6844 [09:06<17:52,  4.24it/s] 34%|███▎      | 2302/6844 [09:06<17:49,  4.25it/s] 34%|███▎      | 2303/6844 [09:06<17:48,  4.25it/s] 34%|███▎      | 2304/6844 [09:06<17:47,  4.25it/s] 34%|███▎      | 2305/6844 [09:07<17:49,  4.24it/s] 34%|███▎      | 2306/6844 [09:07<17:48,  4.25it/s] 34%|███▎      | 2307/6844 [09:07<17:46,  4.25it/s] 34%|███▎      | 2308/6844 [09:07<17:46,  4.25it/s] 34%|███▎      | 2309/6844 [09:07<17:47,  4.25it/s] 34%|███▍      | 2310/6844 [09:08<17:47,  4.25it/s] 34%|███▍      | 2311/6844 [09:08<17:45,  4.25it/s] 34%|███▍      | 2312/6844 [09:08<17:47,  4.25it/s] 34%|███▍      | 2313/6844 [09:08<17:46,  4.25it/s] 34%|███▍      | 2314/6844 [09:09<17:46,  4.25it/s] 34%|███▍      | 2315/6844 [09:09<17:47,  4.24it/s] 34%|███▍      | 2316/6844 [09:09<17:46,  4.25it/s] 34%|███▍      | 2317/6844 [09:09<17:45,  4.25it/s] 34%|███▍      | 2318/6844 [09:10<17:45,  4.25it/s] 34%|███▍      | 2319/6844 [09:10<17:45,  4.25it/s] 34%|███▍      | 2320/6844 [09:10<17:45,  4.25it/s] 34%|███▍      | 2321/6844 [09:10<17:45,  4.25it/s] 34%|███▍      | 2322/6844 [09:11<17:44,  4.25it/s] 34%|███▍      | 2323/6844 [09:11<17:44,  4.25it/s] 34%|███▍      | 2324/6844 [09:11<17:42,  4.25it/s] 34%|███▍      | 2325/6844 [09:11<17:43,  4.25it/s]{'loss': 4.6187, 'grad_norm': 0.1451600044965744, 'learning_rate': 0.0050101195786810306, 'epoch': 0.07}
+                                                    34%|███▍      | 2325/6844 [09:11<17:43,  4.25it/s] 34%|███▍      | 2326/6844 [09:11<17:44,  4.24it/s] 34%|███▍      | 2327/6844 [09:12<17:43,  4.25it/s] 34%|███▍      | 2328/6844 [09:12<17:43,  4.25it/s] 34%|███▍      | 2329/6844 [09:12<17:43,  4.25it/s] 34%|███▍      | 2330/6844 [09:12<17:42,  4.25it/s] 34%|███▍      | 2331/6844 [09:13<17:42,  4.25it/s] 34%|███▍      | 2332/6844 [09:13<17:42,  4.25it/s] 34%|███▍      | 2333/6844 [09:13<17:41,  4.25it/s] 34%|███▍      | 2334/6844 [09:13<17:44,  4.24it/s] 34%|███▍      | 2335/6844 [09:14<17:42,  4.24it/s] 34%|███▍      | 2336/6844 [09:14<17:44,  4.24it/s] 34%|███▍      | 2337/6844 [09:14<17:43,  4.24it/s] 34%|███▍      | 2338/6844 [09:14<17:42,  4.24it/s] 34%|███▍      | 2339/6844 [09:15<17:40,  4.25it/s] 34%|███▍      | 2340/6844 [09:15<17:41,  4.24it/s] 34%|███▍      | 2341/6844 [09:15<17:40,  4.25it/s] 34%|███▍      | 2342/6844 [09:15<17:40,  4.24it/s] 34%|███▍      | 2343/6844 [09:16<17:40,  4.24it/s] 34%|███▍      | 2344/6844 [09:16<17:40,  4.24it/s] 34%|███▍      | 2345/6844 [09:16<17:39,  4.25it/s] 34%|███▍      | 2346/6844 [09:16<17:39,  4.24it/s] 34%|███▍      | 2347/6844 [09:16<17:39,  4.25it/s] 34%|███▍      | 2348/6844 [09:17<17:38,  4.25it/s] 34%|███▍      | 2349/6844 [09:17<17:38,  4.25it/s] 34%|███▍      | 2350/6844 [09:17<17:37,  4.25it/s]                                                   {'loss': 4.6305, 'grad_norm': 0.16337589919567108, 'learning_rate': 0.00498155843357131, 'epoch': 0.07}
+ 34%|███▍      | 2350/6844 [09:17<17:37,  4.25it/s] 34%|███▍      | 2351/6844 [09:17<18:45,  3.99it/s] 34%|███▍      | 2352/6844 [09:18<19:05,  3.92it/s] 34%|███▍      | 2353/6844 [09:18<18:38,  4.02it/s] 34%|███▍      | 2354/6844 [09:18<18:19,  4.09it/s] 34%|███▍      | 2355/6844 [09:18<18:05,  4.14it/s] 34%|███▍      | 2356/6844 [09:19<17:54,  4.18it/s] 34%|███▍      | 2357/6844 [09:19<17:45,  4.21it/s] 34%|███▍      | 2358/6844 [09:19<17:44,  4.21it/s] 34%|███▍      | 2359/6844 [09:19<17:40,  4.23it/s] 34%|███▍      | 2360/6844 [09:20<17:37,  4.24it/s] 34%|███▍      | 2361/6844 [09:20<17:37,  4.24it/s] 35%|███▍      | 2362/6844 [09:20<17:36,  4.24it/s] 35%|███▍      | 2363/6844 [09:20<17:33,  4.25it/s] 35%|███▍      | 2364/6844 [09:21<17:33,  4.25it/s] 35%|███▍      | 2365/6844 [09:21<17:34,  4.25it/s] 35%|███▍      | 2366/6844 [09:21<17:33,  4.25it/s] 35%|███▍      | 2367/6844 [09:21<17:32,  4.25it/s] 35%|███▍      | 2368/6844 [09:21<17:31,  4.26it/s] 35%|███▍      | 2369/6844 [09:22<17:31,  4.26it/s] 35%|███▍      | 2370/6844 [09:22<17:31,  4.25it/s] 35%|███▍      | 2371/6844 [09:22<17:31,  4.25it/s] 35%|███▍      | 2372/6844 [09:22<17:33,  4.25it/s] 35%|███▍      | 2373/6844 [09:23<17:51,  4.17it/s] 35%|███▍      | 2374/6844 [09:23<18:06,  4.11it/s] 35%|███▍      | 2375/6844 [09:23<17:57,  4.15it/s]{'loss': 4.6166, 'grad_norm': 0.14183413982391357, 'learning_rate': 0.004952675062630156, 'epoch': 0.07}
+                                                    35%|███▍      | 2375/6844 [09:23<17:57,  4.15it/s] 35%|███▍      | 2376/6844 [09:23<17:51,  4.17it/s] 35%|███▍      | 2377/6844 [09:24<17:45,  4.19it/s] 35%|███▍      | 2378/6844 [09:24<17:38,  4.22it/s] 35%|███▍      | 2379/6844 [09:24<17:36,  4.23it/s] 35%|███▍      | 2380/6844 [09:24<17:34,  4.24it/s] 35%|███▍      | 2381/6844 [09:25<17:30,  4.25it/s] 35%|███▍      | 2382/6844 [09:25<17:29,  4.25it/s] 35%|███▍      | 2383/6844 [09:25<17:28,  4.25it/s] 35%|███▍      | 2384/6844 [09:25<17:28,  4.25it/s] 35%|███▍      | 2385/6844 [09:25<17:27,  4.26it/s] 35%|███▍      | 2386/6844 [09:26<17:26,  4.26it/s] 35%|███▍      | 2387/6844 [09:26<17:26,  4.26it/s] 35%|███▍      | 2388/6844 [09:26<17:26,  4.26it/s] 35%|███▍      | 2389/6844 [09:26<17:26,  4.26it/s] 35%|███▍      | 2390/6844 [09:27<17:26,  4.26it/s] 35%|███▍      | 2391/6844 [09:27<17:26,  4.26it/s] 35%|███▍      | 2392/6844 [09:27<17:26,  4.26it/s] 35%|███▍      | 2393/6844 [09:27<17:27,  4.25it/s] 35%|███▍      | 2394/6844 [09:28<17:27,  4.25it/s] 35%|███▍      | 2395/6844 [09:28<17:27,  4.25it/s] 35%|███▌      | 2396/6844 [09:28<17:26,  4.25it/s] 35%|███▌      | 2397/6844 [09:28<17:24,  4.26it/s] 35%|███▌      | 2398/6844 [09:29<17:23,  4.26it/s] 35%|███▌      | 2399/6844 [09:29<17:26,  4.25it/s] 35%|███▌      | 2400/6844 [09:29<17:30,  4.23it/s]                                                   {'loss': 4.6185, 'grad_norm': 0.1382555216550827, 'learning_rate': 0.004923474162649782, 'epoch': 0.07}
+ 35%|███▌      | 2400/6844 [09:29<17:30,  4.23it/s] 35%|███▌      | 2401/6844 [09:29<17:34,  4.21it/s] 35%|███▌      | 2402/6844 [09:29<17:32,  4.22it/s] 35%|███▌      | 2403/6844 [09:30<17:27,  4.24it/s] 35%|███▌      | 2404/6844 [09:30<17:27,  4.24it/s] 35%|███▌      | 2405/6844 [09:30<17:24,  4.25it/s] 35%|███▌      | 2406/6844 [09:30<17:24,  4.25it/s] 35%|███▌      | 2407/6844 [09:31<17:24,  4.25it/s] 35%|███▌      | 2408/6844 [09:31<17:24,  4.25it/s] 35%|███▌      | 2409/6844 [09:31<17:48,  4.15it/s] 35%|███▌      | 2410/6844 [09:31<17:40,  4.18it/s] 35%|███▌      | 2411/6844 [09:32<17:34,  4.20it/s] 35%|███▌      | 2412/6844 [09:32<17:29,  4.22it/s] 35%|███▌      | 2413/6844 [09:32<17:27,  4.23it/s] 35%|███▌      | 2414/6844 [09:32<17:25,  4.24it/s] 35%|███▌      | 2415/6844 [09:33<17:24,  4.24it/s] 35%|███▌      | 2416/6844 [09:33<17:23,  4.24it/s] 35%|███▌      | 2417/6844 [09:33<17:22,  4.25it/s] 35%|███▌      | 2418/6844 [09:33<17:22,  4.24it/s] 35%|███▌      | 2419/6844 [09:34<17:22,  4.25it/s] 35%|███▌      | 2420/6844 [09:34<17:20,  4.25it/s] 35%|███▌      | 2421/6844 [09:34<17:18,  4.26it/s] 35%|███▌      | 2422/6844 [09:34<17:17,  4.26it/s] 35%|███▌      | 2423/6844 [09:34<17:17,  4.26it/s] 35%|███▌      | 2424/6844 [09:35<17:17,  4.26it/s] 35%|███▌      | 2425/6844 [09:35<17:18,  4.26it/s]{'loss': 4.6054, 'grad_norm': 0.13524305820465088, 'learning_rate': 0.004893960482056533, 'epoch': 0.07}
+                                                    35%|███▌      | 2425/6844 [09:35<17:18,  4.26it/s] 35%|███▌      | 2426/6844 [09:35<17:21,  4.24it/s] 35%|███▌      | 2427/6844 [09:35<17:19,  4.25it/s] 35%|███▌      | 2428/6844 [09:36<17:19,  4.25it/s] 35%|███▌      | 2429/6844 [09:36<17:17,  4.26it/s] 36%|███▌      | 2430/6844 [09:36<17:17,  4.26it/s] 36%|███▌      | 2431/6844 [09:36<17:16,  4.26it/s] 36%|███▌      | 2432/6844 [09:37<17:17,  4.25it/s] 36%|███▌      | 2433/6844 [09:37<17:17,  4.25it/s] 36%|███▌      | 2434/6844 [09:37<17:16,  4.25it/s] 36%|███▌      | 2435/6844 [09:37<17:17,  4.25it/s] 36%|███▌      | 2436/6844 [09:38<17:17,  4.25it/s] 36%|███▌      | 2437/6844 [09:38<17:15,  4.25it/s] 36%|███▌      | 2438/6844 [09:38<17:15,  4.26it/s] 36%|███▌      | 2439/6844 [09:38<17:14,  4.26it/s] 36%|███▌      | 2440/6844 [09:38<17:13,  4.26it/s] 36%|███▌      | 2441/6844 [09:39<17:14,  4.26it/s] 36%|███▌      | 2442/6844 [09:39<17:14,  4.26it/s] 36%|███▌      | 2443/6844 [09:39<17:14,  4.25it/s] 36%|███▌      | 2444/6844 [09:39<17:14,  4.25it/s] 36%|███▌      | 2445/6844 [09:40<17:13,  4.26it/s] 36%|███▌      | 2446/6844 [09:40<17:13,  4.26it/s] 36%|███▌      | 2447/6844 [09:40<17:12,  4.26it/s] 36%|███▌      | 2448/6844 [09:40<17:12,  4.26it/s] 36%|███▌      | 2449/6844 [09:41<17:13,  4.25it/s] 36%|███▌      | 2450/6844 [09:41<17:15,  4.24it/s]                                                   {'loss': 4.6106, 'grad_norm': 0.14147789776325226, 'learning_rate': 0.00486413882013874, 'epoch': 0.07}
+ 36%|███▌      | 2450/6844 [09:41<17:15,  4.24it/s] 36%|███▌      | 2451/6844 [09:41<17:16,  4.24it/s] 36%|███▌      | 2452/6844 [09:41<17:14,  4.25it/s] 36%|███▌      | 2453/6844 [09:42<17:14,  4.25it/s] 36%|███▌      | 2454/6844 [09:42<17:14,  4.24it/s] 36%|███▌      | 2455/6844 [09:42<17:13,  4.25it/s] 36%|███▌      | 2456/6844 [09:42<17:13,  4.25it/s] 36%|███▌      | 2457/6844 [09:42<17:13,  4.25it/s] 36%|███▌      | 2458/6844 [09:43<17:14,  4.24it/s] 36%|███▌      | 2459/6844 [09:43<17:13,  4.24it/s] 36%|███▌      | 2460/6844 [09:43<17:14,  4.24it/s] 36%|███▌      | 2461/6844 [09:43<17:14,  4.24it/s] 36%|███▌      | 2462/6844 [09:44<17:13,  4.24it/s] 36%|███▌      | 2463/6844 [09:44<17:12,  4.24it/s] 36%|███▌      | 2464/6844 [09:44<17:11,  4.24it/s] 36%|███▌      | 2465/6844 [09:44<17:11,  4.25it/s] 36%|███▌      | 2466/6844 [09:45<17:10,  4.25it/s] 36%|███▌      | 2467/6844 [09:45<17:10,  4.25it/s] 36%|███▌      | 2468/6844 [09:45<17:10,  4.25it/s] 36%|███▌      | 2469/6844 [09:45<17:10,  4.25it/s] 36%|███▌      | 2470/6844 [09:46<17:09,  4.25it/s] 36%|███▌      | 2471/6844 [09:46<17:09,  4.25it/s] 36%|███▌      | 2472/6844 [09:46<17:11,  4.24it/s] 36%|███▌      | 2473/6844 [09:46<17:09,  4.24it/s] 36%|███▌      | 2474/6844 [09:46<17:09,  4.24it/s] 36%|███▌      | 2475/6844 [09:47<17:09,  4.24it/s]                                                   {'loss': 4.5927, 'grad_norm': 0.14319922029972076, 'learning_rate': 0.004834014026266296, 'epoch': 0.07}
+ 36%|███▌      | 2475/6844 [09:47<17:09,  4.24it/s] 36%|███▌      | 2476/6844 [09:47<17:12,  4.23it/s] 36%|███▌      | 2477/6844 [09:47<17:10,  4.24it/s] 36%|███▌      | 2478/6844 [09:47<17:14,  4.22it/s] 36%|███▌      | 2479/6844 [09:48<17:53,  4.07it/s] 36%|███▌      | 2480/6844 [09:48<17:40,  4.12it/s] 36%|███▋      | 2481/6844 [09:48<17:29,  4.16it/s] 36%|███▋      | 2482/6844 [09:48<17:22,  4.18it/s] 36%|███▋      | 2483/6844 [09:49<17:16,  4.21it/s] 36%|███▋      | 2484/6844 [09:49<17:12,  4.22it/s] 36%|███▋      | 2485/6844 [09:49<17:10,  4.23it/s] 36%|███▋      | 2486/6844 [09:49<17:09,  4.23it/s] 36%|███▋      | 2487/6844 [09:50<17:07,  4.24it/s] 36%|███▋      | 2488/6844 [09:50<17:06,  4.24it/s] 36%|███▋      | 2489/6844 [09:50<17:07,  4.24it/s] 36%|███▋      | 2490/6844 [09:50<17:06,  4.24it/s] 36%|███▋      | 2491/6844 [09:50<17:06,  4.24it/s] 36%|███▋      | 2492/6844 [09:51<17:05,  4.24it/s] 36%|███▋      | 2493/6844 [09:51<17:05,  4.24it/s] 36%|███▋      | 2494/6844 [09:51<17:03,  4.25it/s] 36%|███▋      | 2495/6844 [09:51<17:02,  4.25it/s] 36%|███▋      | 2496/6844 [09:52<17:03,  4.25it/s] 36%|███▋      | 2497/6844 [09:52<17:03,  4.25it/s] 36%|███▋      | 2498/6844 [09:52<17:02,  4.25it/s] 37%|███▋      | 2499/6844 [09:52<17:01,  4.25it/s] 37%|███▋      | 2500/6844 [09:53<17:01,  4.25it/s]{'loss': 4.5976, 'grad_norm': 0.16976478695869446, 'learning_rate': 0.004803590999102084, 'epoch': 0.07}
+                                                    37%|███▋      | 2500/6844 [09:53<17:01,  4.25it/s] 37%|███▋      | 2501/6844 [09:53<17:05,  4.23it/s] 37%|███▋      | 2502/6844 [09:53<17:03,  4.24it/s] 37%|███▋      | 2503/6844 [09:53<17:05,  4.23it/s] 37%|███▋      | 2504/6844 [09:54<17:04,  4.24it/s] 37%|███▋      | 2505/6844 [09:54<17:02,  4.24it/s] 37%|███▋      | 2506/6844 [09:54<17:01,  4.25it/s] 37%|███▋      | 2507/6844 [09:54<17:00,  4.25it/s] 37%|███▋      | 2508/6844 [09:54<17:00,  4.25it/s] 37%|███▋      | 2509/6844 [09:55<16:58,  4.25it/s] 37%|███▋      | 2510/6844 [09:55<16:59,  4.25it/s] 37%|███▋      | 2511/6844 [09:55<16:58,  4.25it/s] 37%|███▋      | 2512/6844 [09:55<16:58,  4.25it/s] 37%|███▋      | 2513/6844 [09:56<16:58,  4.25it/s] 37%|███▋      | 2514/6844 [09:56<16:58,  4.25it/s] 37%|███▋      | 2515/6844 [09:56<16:56,  4.26it/s] 37%|███▋      | 2516/6844 [09:56<16:56,  4.26it/s] 37%|███▋      | 2517/6844 [09:57<16:58,  4.25it/s] 37%|███▋      | 2518/6844 [09:57<16:58,  4.25it/s] 37%|███▋      | 2519/6844 [09:57<16:56,  4.25it/s] 37%|███▋      | 2520/6844 [09:57<16:58,  4.24it/s] 37%|███▋      | 2521/6844 [09:58<16:56,  4.25it/s] 37%|███▋      | 2522/6844 [09:58<16:56,  4.25it/s] 37%|███▋      | 2523/6844 [09:58<16:56,  4.25it/s] 37%|███▋      | 2524/6844 [09:58<16:58,  4.24it/s] 37%|███▋      | 2525/6844 [09:58<16:55,  4.25it/s]                                                   {'loss': 4.5986, 'grad_norm': 0.1377922147512436, 'learning_rate': 0.004772874685805399, 'epoch': 0.07}
+ 37%|███▋      | 2525/6844 [09:58<16:55,  4.25it/s] 37%|███▋      | 2526/6844 [09:59<16:58,  4.24it/s] 37%|███▋      | 2527/6844 [09:59<16:58,  4.24it/s] 37%|███▋      | 2528/6844 [09:59<16:57,  4.24it/s] 37%|███▋      | 2529/6844 [09:59<16:56,  4.25it/s] 37%|███▋      | 2530/6844 [10:00<16:54,  4.25it/s] 37%|███▋      | 2531/6844 [10:00<16:54,  4.25it/s] 37%|███▋      | 2532/6844 [10:00<16:53,  4.25it/s] 37%|███▋      | 2533/6844 [10:00<16:52,  4.26it/s] 37%|███▋      | 2534/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2535/6844 [10:01<16:53,  4.25it/s] 37%|███▋      | 2536/6844 [10:01<16:54,  4.25it/s] 37%|███▋      | 2537/6844 [10:01<16:51,  4.26it/s] 37%|███▋      | 2538/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2539/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2540/6844 [10:02<16:53,  4.25it/s] 37%|███▋      | 2541/6844 [10:02<16:51,  4.25it/s] 37%|███▋      | 2542/6844 [10:02<16:52,  4.25it/s] 37%|███▋      | 2543/6844 [10:03<16:52,  4.25it/s] 37%|███▋      | 2544/6844 [10:03<16:52,  4.25it/s] 37%|███▋      | 2545/6844 [10:03<16:52,  4.25it/s] 37%|███▋      | 2546/6844 [10:03<16:53,  4.24it/s] 37%|███▋      | 2547/6844 [10:04<16:51,  4.25it/s] 37%|███▋      | 2548/6844 [10:04<16:51,  4.25it/s] 37%|███▋      | 2549/6844 [10:04<16:51,  4.25it/s] 37%|███▋      | 2550/6844 [10:04<16:50,  4.25it/s]                                                   {'loss': 4.6011, 'grad_norm': 0.1510922759771347, 'learning_rate': 0.004741870081227479, 'epoch': 0.07}
+ 37%|███▋      | 2550/6844 [10:04<16:50,  4.25it/s] 37%|███▋      | 2551/6844 [10:05<16:52,  4.24it/s] 37%|███▋      | 2552/6844 [10:05<16:49,  4.25it/s] 37%|███▋      | 2553/6844 [10:05<16:49,  4.25it/s] 37%|█���█▋      | 2554/6844 [10:05<16:48,  4.25it/s] 37%|███▋      | 2555/6844 [10:06<16:47,  4.26it/s] 37%|███▋      | 2556/6844 [10:06<16:49,  4.25it/s] 37%|███▋      | 2557/6844 [10:06<16:48,  4.25it/s] 37%|███▋      | 2558/6844 [10:06<16:46,  4.26it/s] 37%|███▋      | 2559/6844 [10:06<16:47,  4.25it/s] 37%|███▋      | 2560/6844 [10:07<16:48,  4.25it/s] 37%|███▋      | 2561/6844 [10:07<16:46,  4.25it/s] 37%|███▋      | 2562/6844 [10:07<16:46,  4.25it/s] 37%|███▋      | 2563/6844 [10:07<16:45,  4.26it/s] 37%|███▋      | 2564/6844 [10:08<16:44,  4.26it/s] 37%|███▋      | 2565/6844 [10:08<16:45,  4.26it/s] 37%|███▋      | 2566/6844 [10:08<16:46,  4.25it/s] 38%|███▊      | 2567/6844 [10:08<16:45,  4.25it/s] 38%|███▊      | 2568/6844 [10:09<16:44,  4.26it/s] 38%|███▊      | 2569/6844 [10:09<16:44,  4.26it/s] 38%|███▊      | 2570/6844 [10:09<16:45,  4.25it/s] 38%|███▊      | 2571/6844 [10:09<16:44,  4.26it/s] 38%|███▊      | 2572/6844 [10:10<16:43,  4.26it/s] 38%|███▊      | 2573/6844 [10:10<16:43,  4.26it/s] 38%|███▊      | 2574/6844 [10:10<16:43,  4.25it/s] 38%|███▊      | 2575/6844 [10:10<16:43,  4.26it/s]{'loss': 4.6006, 'grad_norm': 0.15643085539340973, 'learning_rate': 0.004710582227099274, 'epoch': 0.08}
+                                                    38%|███▊      | 2575/6844 [10:10<16:43,  4.26it/s] 38%|███▊      | 2576/6844 [10:10<16:46,  4.24it/s] 38%|███▊      | 2577/6844 [10:11<16:46,  4.24it/s] 38%|███▊      | 2578/6844 [10:11<16:45,  4.24it/s] 38%|███▊      | 2579/6844 [10:11<16:46,  4.24it/s] 38%|███▊      | 2580/6844 [10:11<16:44,  4.24it/s] 38%|███▊      | 2581/6844 [10:12<16:43,  4.25it/s] 38%|███▊      | 2582/6844 [10:12<16:42,  4.25it/s] 38%|███▊      | 2583/6844 [10:12<16:42,  4.25it/s] 38%|███▊      | 2584/6844 [10:12<16:43,  4.25it/s] 38%|███▊      | 2585/6844 [10:13<16:43,  4.25it/s] 38%|███▊      | 2586/6844 [10:13<16:42,  4.25it/s] 38%|███▊      | 2587/6844 [10:13<16:42,  4.24it/s] 38%|███▊      | 2588/6844 [10:13<16:42,  4.25it/s] 38%|███▊      | 2589/6844 [10:14<16:40,  4.25it/s] 38%|███▊      | 2590/6844 [10:14<16:40,  4.25it/s] 38%|███▊      | 2591/6844 [10:14<16:38,  4.26it/s] 38%|███▊      | 2592/6844 [10:14<16:38,  4.26it/s] 38%|███▊      | 2593/6844 [10:14<16:38,  4.26it/s] 38%|███▊      | 2594/6844 [10:15<16:39,  4.25it/s] 38%|███▊      | 2595/6844 [10:15<16:41,  4.24it/s] 38%|███▊      | 2596/6844 [10:15<16:40,  4.25it/s] 38%|███▊      | 2597/6844 [10:15<16:39,  4.25it/s] 38%|███▊      | 2598/6844 [10:16<16:39,  4.25it/s] 38%|███▊      | 2599/6844 [10:16<16:39,  4.25it/s] 38%|███▊      | 2600/6844 [10:16<16:37,  4.25it/s]                                                   {'loss': 4.5724, 'grad_norm': 0.1519373208284378, 'learning_rate': 0.004679016211211607, 'epoch': 0.08}
+ 38%|███▊      | 2600/6844 [10:16<16:37,  4.25it/s] 38%|███▊      | 2601/6844 [10:16<16:41,  4.24it/s] 38%|███▊      | 2602/6844 [10:17<16:41,  4.23it/s] 38%|███▊      | 2603/6844 [10:17<16:41,  4.24it/s] 38%|███▊      | 2604/6844 [10:17<16:40,  4.24it/s] 38%|███▊      | 2605/6844 [10:17<17:20,  4.08it/s] 38%|███▊      | 2606/6844 [10:18<17:46,  3.98it/s] 38%|███▊      | 2607/6844 [10:18<17:25,  4.05it/s] 38%|███▊      | 2608/6844 [10:18<17:10,  4.11it/s] 38%|███▊      | 2609/6844 [10:18<17:00,  4.15it/s] 38%|███▊      | 2610/6844 [10:19<16:52,  4.18it/s] 38%|███▊      | 2611/6844 [10:19<16:46,  4.20it/s] 38%|███▊      | 2612/6844 [10:19<16:43,  4.22it/s] 38%|███▊      | 2613/6844 [10:19<16:40,  4.23it/s] 38%|███▊      | 2614/6844 [10:19<16:37,  4.24it/s] 38%|███▊      | 2615/6844 [10:20<16:36,  4.24it/s] 38%|███▊      | 2616/6844 [10:20<16:35,  4.25it/s] 38%|███▊      | 2617/6844 [10:20<16:34,  4.25it/s] 38%|███▊      | 2618/6844 [10:20<16:33,  4.25it/s] 38%|███▊      | 2619/6844 [10:21<16:33,  4.25it/s] 38%|███▊      | 2620/6844 [10:21<16:32,  4.25it/s] 38%|███▊      | 2621/6844 [10:21<16:32,  4.25it/s] 38%|███▊      | 2622/6844 [10:21<16:31,  4.26it/s] 38%|███▊      | 2623/6844 [10:22<16:33,  4.25it/s] 38%|███▊      | 2624/6844 [10:22<16:33,  4.25it/s] 38%|███▊      | 2625/6844 [10:22<16:34,  4.24it/s]{'loss': 4.5813, 'grad_norm': 0.1314917653799057, 'learning_rate': 0.004647177166587828, 'epoch': 0.08}                                                   
+ 38%|███▊      | 2625/6844 [10:22<16:34,  4.24it/s] 38%|███▊      | 2626/6844 [10:22<16:35,  4.24it/s] 38%|███▊      | 2627/6844 [10:23<16:35,  4.24it/s] 38%|███▊      | 2628/6844 [10:23<16:34,  4.24it/s] 38%|███▊      | 2629/6844 [10:23<16:33,  4.24it/s] 38%|███▊      | 2630/6844 [10:23<16:32,  4.24it/s] 38%|███▊      | 2631/6844 [10:24<16:33,  4.24it/s] 38%|███▊      | 2632/6844 [10:24<16:31,  4.25it/s] 38%|███▊      | 2633/6844 [10:24<16:30,  4.25it/s] 38%|███▊      | 2634/6844 [10:24<16:29,  4.25it/s] 39%|███▊      | 2635/6844 [10:24<16:30,  4.25it/s] 39%|███▊      | 2636/6844 [10:25<16:29,  4.25it/s] 39%|███▊      | 2637/6844 [10:25<16:30,  4.25it/s] 39%|███▊      | 2638/6844 [10:25<16:30,  4.25it/s] 39%|███▊      | 2639/6844 [10:25<16:29,  4.25it/s] 39%|███▊      | 2640/6844 [10:26<16:29,  4.25it/s] 39%|███▊      | 2641/6844 [10:26<16:29,  4.25it/s] 39%|███▊      | 2642/6844 [10:26<16:28,  4.25it/s] 39%|███▊      | 2643/6844 [10:26<16:27,  4.26it/s] 39%|███▊      | 2644/6844 [10:27<16:28,  4.25it/s] 39%|███▊      | 2645/6844 [10:27<16:27,  4.25it/s] 39%|███▊      | 2646/6844 [10:27<16:26,  4.26it/s] 39%|███▊      | 2647/6844 [10:27<16:26,  4.25it/s] 39%|███▊      | 2648/6844 [10:27<16:26,  4.25it/s] 39%|███▊      | 2649/6844 [10:28<16:25,  4.26it/s] 39%|███▊      | 2650/6844 [10:28<16:25,  4.26it/s]                                                   {'loss': 4.5842, 'grad_norm': 0.141914963722229, 'learning_rate': 0.004615070270649131, 'epoch': 0.08}
+ 39%|███▊      | 2650/6844 [10:28<16:25,  4.26it/s] 39%|███▊      | 2651/6844 [10:28<16:29,  4.24it/s] 39%|███▊      | 2652/6844 [10:28<16:29,  4.24it/s] 39%|███▉      | 2653/6844 [10:29<16:27,  4.24it/s] 39%|███▉      | 2654/6844 [10:29<16:26,  4.25it/s] 39%|███▉      | 2655/6844 [10:29<16:27,  4.24it/s] 39%|███▉      | 2656/6844 [10:29<16:28,  4.24it/s] 39%|███▉      | 2657/6844 [10:30<16:27,  4.24it/s] 39%|███▉      | 2658/6844 [10:30<16:26,  4.25it/s] 39%|███▉      | 2659/6844 [10:30<16:26,  4.24it/s] 39%|███▉      | 2660/6844 [10:30<16:26,  4.24it/s] 39%|███▉      | 2661/6844 [10:31<16:26,  4.24it/s] 39%|███▉      | 2662/6844 [10:31<16:24,  4.25it/s] 39%|███▉      | 2663/6844 [10:31<16:23,  4.25it/s] 39%|███▉      | 2664/6844 [10:31<16:22,  4.25it/s] 39%|███▉      | 2665/6844 [10:32<16:22,  4.25it/s] 39%|███▉      | 2666/6844 [10:32<16:23,  4.25it/s] 39%|███▉      | 2667/6844 [10:32<16:23,  4.25it/s] 39%|███▉      | 2668/6844 [10:32<16:22,  4.25it/s] 39%|███▉      | 2669/6844 [10:32<16:23,  4.25it/s] 39%|███▉      | 2670/6844 [10:33<16:22,  4.25it/s] 39%|███▉      | 2671/6844 [10:33<16:22,  4.25it/s] 39%|███▉      | 2672/6844 [10:33<16:21,  4.25it/s] 39%|███▉      | 2673/6844 [10:33<16:21,  4.25it/s] 39%|███▉      | 2674/6844 [10:34<16:20,  4.25it/s] 39%|███▉      | 2675/6844 [10:34<16:22,  4.25it/s]                                                   {'loss': 4.5935, 'grad_norm': 0.20250223577022552, 'learning_rate': 0.0045827007443726316, 'epoch': 0.08}
+ 39%|███▉      | 2675/6844 [10:34<16:22,  4.25it/s] 39%|███▉      | 2676/6844 [10:34<16:26,  4.23it/s] 39%|███▉      | 2677/6844 [10:34<16:24,  4.23it/s] 39%|███▉      | 2678/6844 [10:35<16:22,  4.24it/s] 39%|███▉      | 2679/6844 [10:35<16:22,  4.24it/s] 39%|███▉      | 2680/6844 [10:35<16:21,  4.24it/s] 39%|███▉      | 2681/6844 [10:35<16:20,  4.25it/s] 39%|███▉      | 2682/6844 [10:36<16:20,  4.24it/s] 39%|███▉      | 2683/6844 [10:36<16:20,  4.24it/s] 39%|███▉      | 2684/6844 [10:36<16:19,  4.25it/s] 39%|███▉      | 2685/6844 [10:36<16:18,  4.25it/s] 39%|███▉      | 2686/6844 [10:36<16:19,  4.24it/s] 39%|███▉      | 2687/6844 [10:37<16:21,  4.23it/s] 39%|███▉      | 2688/6844 [10:37<16:20,  4.24it/s] 39%|███▉      | 2689/6844 [10:37<16:19,  4.24it/s] 39%|███▉      | 2690/6844 [10:37<16:19,  4.24it/s] 39%|███▉      | 2691/6844 [10:38<16:17,  4.25it/s] 39%|███▉      | 2692/6844 [10:38<16:17,  4.25it/s] 39%|███▉      | 2693/6844 [10:38<16:18,  4.24it/s] 39%|███▉      | 2694/6844 [10:38<16:16,  4.25it/s] 39%|███▉      | 2695/6844 [10:39<16:17,  4.24it/s] 39%|███▉      | 2696/6844 [10:39<16:16,  4.25it/s] 39%|███▉      | 2697/6844 [10:39<16:15,  4.25it/s] 39%|███▉      | 2698/6844 [10:39<16:15,  4.25it/s] 39%|███▉      | 2699/6844 [10:40<16:14,  4.25it/s] 39%|███▉      | 2700/6844 [10:40<16:15,  4.25it/s]                                                   {'loss': 4.5759, 'grad_norm': 0.13936041295528412, 'learning_rate': 0.00455007385144238, 'epoch': 0.08}
+ 39%|███▉      | 2700/6844 [10:40<16:15,  4.25it/s] 39%|███▉      | 2701/6844 [10:40<16:18,  4.23it/s] 39%|███▉      | 2702/6844 [10:40<16:17,  4.24it/s] 39%|███▉      | 2703/6844 [10:40<16:16,  4.24it/s] 40%|███▉      | 2704/6844 [10:41<16:15,  4.24it/s] 40%|███▉      | 2705/6844 [10:41<16:15,  4.24it/s] 40%|███▉      | 2706/6844 [10:41<16:14,  4.25it/s] 40%|███▉      | 2707/6844 [10:41<16:13,  4.25it/s] 40%|███▉      | 2708/6844 [10:42<16:14,  4.24it/s] 40%|███▉      | 2709/6844 [10:42<16:14,  4.24it/s] 40%|███▉      | 2710/6844 [10:42<16:13,  4.25it/s] 40%|███▉      | 2711/6844 [10:42<16:12,  4.25it/s] 40%|███▉      | 2712/6844 [10:43<16:11,  4.25it/s] 40%|███▉      | 2713/6844 [10:43<16:11,  4.25it/s] 40%|███▉      | 2714/6844 [10:43<16:09,  4.26it/s] 40%|███▉      | 2715/6844 [10:43<16:10,  4.25it/s] 40%|███▉      | 2716/6844 [10:44<16:09,  4.26it/s] 40%|███▉      | 2717/6844 [10:44<16:09,  4.26it/s] 40%|███▉      | 2718/6844 [10:44<16:10,  4.25it/s] 40%|███▉      | 2719/6844 [10:44<16:10,  4.25it/s] 40%|███▉      | 2720/6844 [10:44<16:09,  4.25it/s] 40%|███▉      | 2721/6844 [10:45<16:08,  4.26it/s] 40%|███▉      | 2722/6844 [10:45<16:08,  4.26it/s] 40%|███▉      | 2723/6844 [10:45<16:08,  4.26it/s] 40%|███▉      | 2724/6844 [10:45<16:07,  4.26it/s] 40%|███▉      | 2725/6844 [10:46<16:07,  4.26it/s]{'loss': 4.5819, 'grad_norm': 0.13193322718143463, 'learning_rate': 0.004517194897393414, 'epoch': 0.08}
+                                                    40%|███▉      | 2725/6844 [10:46<16:07,  4.26it/s] 40%|███▉      | 2726/6844 [10:46<16:11,  4.24it/s] 40%|███▉      | 2727/6844 [10:46<16:10,  4.24it/s] 40%|███▉      | 2728/6844 [10:46<16:09,  4.24it/s] 40%|███▉      | 2729/6844 [10:47<16:09,  4.25it/s] 40%|███▉      | 2730/6844 [10:47<16:07,  4.25it/s] 40%|███▉      | 2731/6844 [10:47<16:07,  4.25it/s] 40%|███▉      | 2732/6844 [10:47<16:09,  4.24it/s] 40%|███▉      | 2733/6844 [10:48<16:42,  4.10it/s] 40%|███▉      | 2734/6844 [10:48<16:31,  4.15it/s] 40%|███▉      | 2735/6844 [10:48<16:23,  4.18it/s] 40%|███▉      | 2736/6844 [10:48<16:17,  4.20it/s] 40%|███▉      | 2737/6844 [10:48<16:13,  4.22it/s] 40%|████      | 2738/6844 [10:49<16:09,  4.23it/s] 40%|████      | 2739/6844 [10:49<16:08,  4.24it/s] 40%|████      | 2740/6844 [10:49<16:08,  4.24it/s] 40%|████      | 2741/6844 [10:49<16:06,  4.24it/s] 40%|████      | 2742/6844 [10:50<16:05,  4.25it/s] 40%|████      | 2743/6844 [10:50<16:08,  4.24it/s] 40%|████      | 2744/6844 [10:50<16:05,  4.25it/s] 40%|████      | 2745/6844 [10:50<16:04,  4.25it/s] 40%|████      | 2746/6844 [10:51<16:05,  4.25it/s] 40%|████      | 2747/6844 [10:51<16:03,  4.25it/s] 40%|████      | 2748/6844 [10:51<16:01,  4.26it/s] 40%|████      | 2749/6844 [10:51<16:02,  4.25it/s] 40%|████      | 2750/6844 [10:52<16:04,  4.25it/s]                                                   {'loss': 4.574, 'grad_norm': 0.14633052051067352, 'learning_rate': 0.004484069228749019, 'epoch': 0.08}
+ 40%|████      | 2750/6844 [10:52<16:04,  4.25it/s] 40%|████      | 2751/6844 [10:52<16:05,  4.24it/s] 40%|████      | 2752/6844 [10:52<16:04,  4.24it/s] 40%|████      | 2753/6844 [10:52<16:03,  4.25it/s] 40%|████      | 2754/6844 [10:52<16:02,  4.25it/s] 40%|████      | 2755/6844 [10:53<16:00,  4.26it/s] 40%|████      | 2756/6844 [10:53<16:00,  4.26it/s] 40%|████      | 2757/6844 [10:53<16:01,  4.25it/s] 40%|████      | 2758/6844 [10:53<15:59,  4.26it/s] 40%|████      | 2759/6844 [10:54<15:59,  4.26it/s] 40%|████      | 2760/6844 [10:54<15:58,  4.26it/s] 40%|████      | 2761/6844 [10:54<15:58,  4.26it/s] 40%|████      | 2762/6844 [10:54<15:59,  4.25it/s] 40%|████      | 2763/6844 [10:55<15:58,  4.26it/s] 40%|████      | 2764/6844 [10:55<15:59,  4.25it/s] 40%|████      | 2765/6844 [10:55<15:58,  4.26it/s] 40%|████      | 2766/6844 [10:55<15:58,  4.26it/s] 40%|████      | 2767/6844 [10:56<15:57,  4.26it/s] 40%|████      | 2768/6844 [10:56<15:57,  4.26it/s] 40%|████      | 2769/6844 [10:56<15:56,  4.26it/s] 40%|████      | 2770/6844 [10:56<15:57,  4.25it/s] 40%|████      | 2771/6844 [10:56<15:58,  4.25it/s] 41%|████      | 2772/6844 [10:57<15:58,  4.25it/s] 41%|████      | 2773/6844 [10:57<15:57,  4.25it/s] 41%|████      | 2774/6844 [10:57<15:56,  4.26it/s] 41%|████      | 2775/6844 [10:57<15:57,  4.25it/s]                                                   {'loss': 4.5572, 'grad_norm': 0.14439961314201355, 'learning_rate': 0.004450702232151314, 'epoch': 0.08}
+ 41%|████      | 2775/6844 [10:57<15:57,  4.25it/s] 41%|████      | 2776/6844 [10:58<15:59,  4.24it/s] 41%|████      | 2777/6844 [10:58<15:57,  4.25it/s] 41%|████      | 2778/6844 [10:58<15:56,  4.25it/s] 41%|████      | 2779/6844 [10:58<15:55,  4.25it/s] 41%|████      | 2780/6844 [10:59<15:55,  4.25it/s] 41%|████      | 2781/6844 [10:59<15:55,  4.25it/s] 41%|████      | 2782/6844 [10:59<15:55,  4.25it/s] 41%|████      | 2783/6844 [10:59<15:55,  4.25it/s] 41%|████      | 2784/6844 [11:00<15:54,  4.25it/s] 41%|████      | 2785/6844 [11:00<15:54,  4.25it/s] 41%|████      | 2786/6844 [11:00<15:54,  4.25it/s] 41%|████      | 2787/6844 [11:00<15:53,  4.26it/s] 41%|████      | 2788/6844 [11:00<15:52,  4.26it/s] 41%|████      | 2789/6844 [11:01<15:53,  4.25it/s] 41%|████      | 2790/6844 [11:01<15:52,  4.26it/s] 41%|████      | 2791/6844 [11:01<15:51,  4.26it/s] 41%|████      | 2792/6844 [11:01<15:52,  4.25it/s] 41%|████      | 2793/6844 [11:02<15:53,  4.25it/s] 41%|████      | 2794/6844 [11:02<15:52,  4.25it/s] 41%|████      | 2795/6844 [11:02<15:52,  4.25it/s] 41%|████      | 2796/6844 [11:02<15:52,  4.25it/s] 41%|████      | 2797/6844 [11:03<15:52,  4.25it/s] 41%|████      | 2798/6844 [11:03<15:52,  4.25it/s] 41%|████      | 2799/6844 [11:03<15:51,  4.25it/s] 41%|████      | 2800/6844 [11:03<15:50,  4.25it/s]                                                   {'loss': 4.5631, 'grad_norm': 0.1459944099187851, 'learning_rate': 0.004417099333485319, 'epoch': 0.08}
+ 41%|████      | 2800/6844 [11:03<15:50,  4.25it/s] 41%|████      | 2801/6844 [11:04<15:53,  4.24it/s] 41%|████      | 2802/6844 [11:04<15:52,  4.24it/s] 41%|████      | 2803/6844 [11:04<15:51,  4.25it/s] 41%|████      | 2804/6844 [11:04<15:52,  4.24it/s] 41%|████      | 2805/6844 [11:04<15:51,  4.25it/s] 41%|████      | 2806/6844 [11:05<15:50,  4.25it/s] 41%|████      | 2807/6844 [11:05<15:50,  4.25it/s] 41%|████      | 2808/6844 [11:05<15:48,  4.25it/s] 41%|████      | 2809/6844 [11:05<15:47,  4.26it/s] 41%|████      | 2810/6844 [11:06<15:50,  4.25it/s] 41%|████      | 2811/6844 [11:06<15:47,  4.26it/s] 41%|████      | 2812/6844 [11:06<15:47,  4.26it/s] 41%|████      | 2813/6844 [11:06<15:48,  4.25it/s] 41%|████      | 2814/6844 [11:07<15:48,  4.25it/s] 41%|████      | 2815/6844 [11:07<15:47,  4.25it/s] 41%|████      | 2816/6844 [11:07<15:47,  4.25it/s] 41%|████      | 2817/6844 [11:07<15:49,  4.24it/s] 41%|████      | 2818/6844 [11:08<15:47,  4.25it/s] 41%|████      | 2819/6844 [11:08<15:47,  4.25it/s] 41%|████      | 2820/6844 [11:08<15:46,  4.25it/s] 41%|████      | 2821/6844 [11:08<15:47,  4.25it/s] 41%|████      | 2822/6844 [11:08<15:47,  4.25it/s] 41%|████      | 2823/6844 [11:09<15:45,  4.25it/s] 41%|████▏     | 2824/6844 [11:09<15:46,  4.25it/s] 41%|████▏     | 2825/6844 [11:09<15:45,  4.25it/s]                                                   {'loss': 4.5539, 'grad_norm': 0.13927693665027618, 'learning_rate': 0.00438326599699664, 'epoch': 0.08}
+ 41%|████▏     | 2825/6844 [11:09<15:45,  4.25it/s] 41%|████▏     | 2826/6844 [11:09<15:47,  4.24it/s] 41%|████▏     | 2827/6844 [11:10<15:45,  4.25it/s] 41%|████▏     | 2828/6844 [11:10<15:45,  4.25it/s] 41%|████▏     | 2829/6844 [11:10<15:43,  4.25it/s] 41%|████▏     | 2830/6844 [11:10<15:42,  4.26it/s] 41%|████▏     | 2831/6844 [11:11<15:42,  4.26it/s] 41%|████▏     | 2832/6844 [11:11<15:42,  4.26it/s] 41%|████▏     | 2833/6844 [11:11<15:41,  4.26it/s] 41%|████▏     | 2834/6844 [11:11<15:41,  4.26it/s] 41%|████▏     | 2835/6844 [11:12<15:41,  4.26it/s] 41%|████▏     | 2836/6844 [11:12<15:41,  4.26it/s] 41%|████▏     | 2837/6844 [11:12<15:41,  4.26it/s] 41%|████▏     | 2838/6844 [11:12<15:40,  4.26it/s] 41%|████▏     | 2839/6844 [11:12<15:41,  4.26it/s] 41%|████▏     | 2840/6844 [11:13<15:41,  4.25it/s] 42%|████▏     | 2841/6844 [11:13<15:40,  4.26it/s] 42%|████▏     | 2842/6844 [11:13<15:41,  4.25it/s] 42%|████▏     | 2843/6844 [11:13<15:41,  4.25it/s] 42%|████▏     | 2844/6844 [11:14<15:40,  4.25it/s] 42%|████▏     | 2845/6844 [11:14<15:40,  4.25it/s] 42%|████▏     | 2846/6844 [11:14<15:40,  4.25it/s] 42%|████▏     | 2847/6844 [11:14<15:39,  4.26it/s] 42%|████▏     | 2848/6844 [11:15<15:39,  4.26it/s] 42%|████▏     | 2849/6844 [11:15<15:40,  4.25it/s] 42%|████▏     | 2850/6844 [11:15<15:40,  4.25it/s]                                                   {'loss': 4.5571, 'grad_norm': 0.15194356441497803, 'learning_rate': 0.004349207724402912, 'epoch': 0.08}
+ 42%|████▏     | 2850/6844 [11:15<15:40,  4.25it/s] 42%|████▏     | 2851/6844 [11:15<15:43,  4.23it/s] 42%|████▏     | 2852/6844 [11:16<15:42,  4.24it/s] 42%|████▏     | 2853/6844 [11:16<15:41,  4.24it/s] 42%|████▏     | 2854/6844 [11:16<15:40,  4.24it/s] 42%|████▏     | 2855/6844 [11:16<15:38,  4.25it/s] 42%|████▏     | 2856/6844 [11:16<15:39,  4.24it/s] 42%|████▏     | 2857/6844 [11:17<15:39,  4.25it/s] 42%|████▏     | 2858/6844 [11:17<15:38,  4.25it/s] 42%|████▏     | 2859/6844 [11:17<15:38,  4.25it/s] 42%|████▏     | 2860/6844 [11:17<16:16,  4.08it/s] 42%|████▏     | 2861/6844 [11:18<16:30,  4.02it/s] 42%|████▏     | 2862/6844 [11:18<16:13,  4.09it/s] 42%|████▏     | 2863/6844 [11:18<16:03,  4.13it/s] 42%|████▏     | 2864/6844 [11:18<15:54,  4.17it/s] 42%|████▏     | 2865/6844 [11:19<15:49,  4.19it/s] 42%|████▏     | 2866/6844 [11:19<15:45,  4.21it/s] 42%|████▏     | 2867/6844 [11:19<15:43,  4.22it/s] 42%|████▏     | 2868/6844 [11:19<15:39,  4.23it/s] 42%|████▏     | 2869/6844 [11:20<15:39,  4.23it/s] 42%|████▏     | 2870/6844 [11:20<15:37,  4.24it/s] 42%|████▏     | 2871/6844 [11:20<15:35,  4.25it/s] 42%|████▏     | 2872/6844 [11:20<15:34,  4.25it/s] 42%|████▏     | 2873/6844 [11:21<15:35,  4.25it/s] 42%|████▏     | 2874/6844 [11:21<15:33,  4.25it/s] 42%|████▏     | 2875/6844 [11:21<15:32,  4.26it/s]{'loss': 4.5565, 'grad_norm': 0.16379448771476746, 'learning_rate': 0.004314930053999153, 'epoch': 0.08}
+                                                    42%|████▏     | 2875/6844 [11:21<15:32,  4.26it/s] 42%|████▏     | 2876/6844 [11:21<15:35,  4.24it/s] 42%|████▏     | 2877/6844 [11:21<15:35,  4.24it/s] 42%|████▏     | 2878/6844 [11:22<15:33,  4.25it/s] 42%|████▏     | 2879/6844 [11:22<15:31,  4.25it/s] 42%|████▏     | 2880/6844 [11:22<15:31,  4.25it/s] 42%|████▏     | 2881/6844 [11:22<15:33,  4.25it/s] 42%|████▏     | 2882/6844 [11:23<15:32,  4.25it/s] 42%|████▏     | 2883/6844 [11:23<15:33,  4.24it/s] 42%|████▏     | 2884/6844 [11:23<15:32,  4.25it/s] 42%|████▏     | 2885/6844 [11:23<15:31,  4.25it/s] 42%|████▏     | 2886/6844 [11:24<15:31,  4.25it/s] 42%|████▏     | 2887/6844 [11:24<15:29,  4.25it/s] 42%|████▏     | 2888/6844 [11:24<15:29,  4.25it/s] 42%|████▏     | 2889/6844 [11:24<15:28,  4.26it/s] 42%|████▏     | 2890/6844 [11:25<15:29,  4.26it/s] 42%|████▏     | 2891/6844 [11:25<15:28,  4.26it/s] 42%|████▏     | 2892/6844 [11:25<15:27,  4.26it/s] 42%|████▏     | 2893/6844 [11:25<15:27,  4.26it/s] 42%|████▏     | 2894/6844 [11:25<15:27,  4.26it/s] 42%|████▏     | 2895/6844 [11:26<15:29,  4.25it/s] 42%|████▏     | 2896/6844 [11:26<15:29,  4.25it/s] 42%|████▏     | 2897/6844 [11:26<15:27,  4.25it/s] 42%|████▏     | 2898/6844 [11:26<15:28,  4.25it/s] 42%|████▏     | 2899/6844 [11:27<15:29,  4.24it/s] 42%|████▏     | 2900/6844 [11:27<15:30,  4.24it/s]                                                   {'loss': 4.5571, 'grad_norm': 0.16210487484931946, 'learning_rate': 0.004280438559757174, 'epoch': 0.08}
+ 42%|████▏     | 2900/6844 [11:27<15:30,  4.24it/s] 42%|████▏     | 2901/6844 [11:27<15:33,  4.22it/s] 42%|████▏     | 2902/6844 [11:27<15:31,  4.23it/s] 42%|████▏     | 2903/6844 [11:28<15:30,  4.23it/s] 42%|████▏     | 2904/6844 [11:28<15:28,  4.24it/s] 42%|████▏     | 2905/6844 [11:28<15:28,  4.24it/s] 42%|████▏     | 2906/6844 [11:28<15:28,  4.24it/s] 42%|████▏     | 2907/6844 [11:29<15:27,  4.24it/s] 42%|████▏     | 2908/6844 [11:29<15:27,  4.25it/s] 43%|████▎     | 2909/6844 [11:29<15:28,  4.24it/s] 43%|████▎     | 2910/6844 [11:29<15:28,  4.24it/s] 43%|████▎     | 2911/6844 [11:29<15:28,  4.24it/s] 43%|████▎     | 2912/6844 [11:30<15:27,  4.24it/s] 43%|████▎     | 2913/6844 [11:30<15:27,  4.24it/s] 43%|████▎     | 2914/6844 [11:30<15:25,  4.25it/s] 43%|████▎     | 2915/6844 [11:30<15:24,  4.25it/s] 43%|████▎     | 2916/6844 [11:31<15:25,  4.24it/s] 43%|████▎     | 2917/6844 [11:31<15:25,  4.24it/s] 43%|████▎     | 2918/6844 [11:31<15:24,  4.25it/s] 43%|████▎     | 2919/6844 [11:31<15:24,  4.24it/s] 43%|████▎     | 2920/6844 [11:32<15:25,  4.24it/s] 43%|████▎     | 2921/6844 [11:32<15:26,  4.24it/s] 43%|████▎     | 2922/6844 [11:32<15:25,  4.24it/s] 43%|████▎     | 2923/6844 [11:32<15:24,  4.24it/s] 43%|████▎     | 2924/6844 [11:33<15:23,  4.25it/s] 43%|████▎     | 2925/6844 [11:33<15:21,  4.25it/s]                                                   {'loss': 4.542, 'grad_norm': 0.1450393944978714, 'learning_rate': 0.004245738850419174, 'epoch': 0.09}
+ 43%|████▎     | 2925/6844 [11:33<15:21,  4.25it/s] 43%|████▎     | 2926/6844 [11:33<15:24,  4.24it/s] 43%|████▎     | 2927/6844 [11:33<15:23,  4.24it/s] 43%|████▎     | 2928/6844 [11:33<15:22,  4.25it/s] 43%|████▎     | 2929/6844 [11:34<15:20,  4.25it/s] 43%|████▎     | 2930/6844 [11:34<15:19,  4.25it/s] 43%|████▎     | 2931/6844 [11:34<15:19,  4.26it/s] 43%|████▎     | 2932/6844 [11:34<15:20,  4.25it/s] 43%|████▎     | 2933/6844 [11:35<15:20,  4.25it/s] 43%|████▎     | 2934/6844 [11:35<15:19,  4.25it/s] 43%|████▎     | 2935/6844 [11:35<15:19,  4.25it/s] 43%|████▎     | 2936/6844 [11:35<15:18,  4.25it/s] 43%|████▎     | 2937/6844 [11:36<15:18,  4.26it/s] 43%|████▎     | 2938/6844 [11:36<15:18,  4.25it/s] 43%|████▎     | 2939/6844 [11:36<15:19,  4.25it/s] 43%|████▎     | 2940/6844 [11:36<15:18,  4.25it/s] 43%|████▎     | 2941/6844 [11:37<15:18,  4.25it/s] 43%|████▎     | 2942/6844 [11:37<15:18,  4.25it/s] 43%|████▎     | 2943/6844 [11:37<15:18,  4.25it/s] 43%|████▎     | 2944/6844 [11:37<15:18,  4.25it/s] 43%|████▎     | 2945/6844 [11:37<15:17,  4.25it/s] 43%|████▎     | 2946/6844 [11:38<15:18,  4.25it/s] 43%|████▎     | 2947/6844 [11:38<15:18,  4.24it/s] 43%|████▎     | 2948/6844 [11:38<15:17,  4.25it/s] 43%|████▎     | 2949/6844 [11:38<15:16,  4.25it/s] 43%|████▎     | 2950/6844 [11:39<15:15,  4.26it/s]                                                   {'loss': 4.548, 'grad_norm': 0.1415947675704956, 'learning_rate': 0.004210836568585696, 'epoch': 0.09}
+ 43%|████▎     | 2950/6844 [11:39<15:15,  4.26it/s] 43%|████▎     | 2951/6844 [11:39<15:17,  4.24it/s] 43%|████▎     | 2952/6844 [11:39<15:17,  4.24it/s] 43%|████▎     | 2953/6844 [11:39<15:16,  4.25it/s] 43%|████▎     | 2954/6844 [11:40<15:15,  4.25it/s] 43%|████▎     | 2955/6844 [11:40<15:14,  4.25it/s] 43%|████▎     | 2956/6844 [11:40<15:13,  4.26it/s] 43%|████▎     | 2957/6844 [11:40<15:12,  4.26it/s] 43%|████▎     | 2958/6844 [11:41<15:13,  4.25it/s] 43%|████▎     | 2959/6844 [11:41<15:14,  4.25it/s] 43%|████▎     | 2960/6844 [11:41<15:13,  4.25it/s] 43%|████▎     | 2961/6844 [11:41<15:13,  4.25it/s] 43%|████▎     | 2962/6844 [11:41<15:12,  4.25it/s] 43%|████▎     | 2963/6844 [11:42<15:12,  4.26it/s] 43%|████▎     | 2964/6844 [11:42<15:12,  4.25it/s] 43%|████▎     | 2965/6844 [11:42<15:11,  4.26it/s] 43%|████▎     | 2966/6844 [11:42<15:11,  4.25it/s] 43%|████▎     | 2967/6844 [11:43<15:11,  4.25it/s] 43%|████▎     | 2968/6844 [11:43<15:12,  4.25it/s] 43%|████▎     | 2969/6844 [11:43<15:12,  4.25it/s] 43%|████▎     | 2970/6844 [11:43<15:12,  4.24it/s] 43%|████▎     | 2971/6844 [11:44<15:11,  4.25it/s] 43%|████▎     | 2972/6844 [11:44<15:10,  4.25it/s] 43%|████▎     | 2973/6844 [11:44<15:10,  4.25it/s] 43%|████▎     | 2974/6844 [11:44<15:08,  4.26it/s] 43%|████▎     | 2975/6844 [11:45<15:08,  4.26it/s]                                                   {'loss': 4.5642, 'grad_norm': 0.14495272934436798, 'learning_rate': 0.004175737389798068, 'epoch': 0.09}
+ 43%|████▎     | 2975/6844 [11:45<15:08,  4.26it/s] 43%|████▎     | 2976/6844 [11:45<15:11,  4.24it/s] 43%|████▎     | 2977/6844 [11:45<15:09,  4.25it/s] 44%|████▎     | 2978/6844 [11:45<15:08,  4.26it/s] 44%|████▎     | 2979/6844 [11:45<15:09,  4.25it/s] 44%|████▎     | 2980/6844 [11:46<15:08,  4.26it/s] 44%|████▎     | 2981/6844 [11:46<15:07,  4.26it/s] 44%|████▎     | 2982/6844 [11:46<15:07,  4.26it/s] 44%|████▎     | 2983/6844 [11:46<15:07,  4.25it/s] 44%|████▎     | 2984/6844 [11:47<15:08,  4.25it/s] 44%|████▎     | 2985/6844 [11:47<15:07,  4.25it/s] 44%|████▎     | 2986/6844 [11:47<15:07,  4.25it/s] 44%|████▎     | 2987/6844 [11:47<15:45,  4.08it/s] 44%|████▎     | 2988/6844 [11:48<16:07,  3.98it/s] 44%|████▎     | 2989/6844 [11:48<15:49,  4.06it/s] 44%|████▎     | 2990/6844 [11:48<15:35,  4.12it/s] 44%|████▎     | 2991/6844 [11:48<15:26,  4.16it/s] 44%|████▎     | 2992/6844 [11:49<15:20,  4.19it/s] 44%|████▎     | 2993/6844 [11:49<15:16,  4.20it/s] 44%|████▎     | 2994/6844 [11:49<15:11,  4.22it/s] 44%|████▍     | 2995/6844 [11:49<15:08,  4.24it/s] 44%|████▍     | 2996/6844 [11:50<15:06,  4.25it/s] 44%|████▍     | 2997/6844 [11:50<15:05,  4.25it/s] 44%|███���▍     | 2998/6844 [11:50<15:05,  4.25it/s] 44%|████▍     | 2999/6844 [11:50<15:03,  4.26it/s] 44%|████▍     | 3000/6844 [11:50<15:04,  4.25it/s]                                                   {'loss': 4.5501, 'grad_norm': 0.1388106495141983, 'learning_rate': 0.004140447021615487, 'epoch': 0.09}
+ 44%|████▍     | 3000/6844 [11:50<15:04,  4.25it/s] 44%|████▍     | 3001/6844 [11:51<15:05,  4.24it/s] 44%|████▍     | 3002/6844 [11:51<15:03,  4.25it/s] 44%|████▍     | 3003/6844 [11:51<15:03,  4.25it/s] 44%|████▍     | 3004/6844 [11:51<15:03,  4.25it/s] 44%|████▍     | 3005/6844 [11:52<15:02,  4.25it/s] 44%|████▍     | 3006/6844 [11:52<15:03,  4.25it/s] 44%|████▍     | 3007/6844 [11:52<15:03,  4.25it/s] 44%|████▍     | 3008/6844 [11:52<15:07,  4.23it/s] 44%|████▍     | 3009/6844 [11:53<15:04,  4.24it/s] 44%|████▍     | 3010/6844 [11:53<15:03,  4.24it/s] 44%|████▍     | 3011/6844 [11:53<15:01,  4.25it/s] 44%|████▍     | 3012/6844 [11:53<15:00,  4.26it/s] 44%|████▍     | 3013/6844 [11:54<15:00,  4.26it/s] 44%|████▍     | 3014/6844 [11:54<15:00,  4.25it/s] 44%|████▍     | 3015/6844 [11:54<15:00,  4.25it/s] 44%|████▍     | 3016/6844 [11:54<14:59,  4.26it/s] 44%|████▍     | 3017/6844 [11:54<14:58,  4.26it/s] 44%|████▍     | 3018/6844 [11:55<14:59,  4.25it/s] 44%|████▍     | 3019/6844 [11:55<14:59,  4.25it/s] 44%|████▍     | 3020/6844 [11:55<14:58,  4.26it/s] 44%|████▍     | 3021/6844 [11:55<14:59,  4.25it/s] 44%|████▍     | 3022/6844 [11:56<14:58,  4.25it/s] 44%|████▍     | 3023/6844 [11:56<14:57,  4.26it/s] 44%|████▍     | 3024/6844 [11:56<14:58,  4.25it/s] 44%|████▍     | 3025/6844 [11:56<14:58,  4.25it/s]                                                   {'loss': 4.5406, 'grad_norm': 0.13594277203083038, 'learning_rate': 0.0041049712026869105, 'epoch': 0.09}
+ 44%|████▍     | 3025/6844 [11:56<14:58,  4.25it/s] 44%|████▍     | 3026/6844 [11:57<14:59,  4.24it/s] 44%|████▍     | 3027/6844 [11:57<14:58,  4.25it/s] 44%|████▍     | 3028/6844 [11:57<14:57,  4.25it/s] 44%|████▍     | 3029/6844 [11:57<14:56,  4.26it/s] 44%|████▍     | 3030/6844 [11:58<14:55,  4.26it/s] 44%|████▍     | 3031/6844 [11:58<14:56,  4.25it/s] 44%|████▍     | 3032/6844 [11:58<14:56,  4.25it/s] 44%|████▍     | 3033/6844 [11:58<14:56,  4.25it/s] 44%|████▍     | 3034/6844 [11:58<14:55,  4.25it/s] 44%|████▍     | 3035/6844 [11:59<14:56,  4.25it/s] 44%|████▍     | 3036/6844 [11:59<14:55,  4.25it/s] 44%|████▍     | 3037/6844 [11:59<14:55,  4.25it/s] 44%|████▍     | 3038/6844 [11:59<14:54,  4.26it/s] 44%|████▍     | 3039/6844 [12:00<14:54,  4.25it/s] 44%|████▍     | 3040/6844 [12:00<14:53,  4.26it/s] 44%|████▍     | 3041/6844 [12:00<14:52,  4.26it/s] 44%|████▍     | 3042/6844 [12:00<14:54,  4.25it/s] 44%|████▍     | 3043/6844 [12:01<14:55,  4.25it/s] 44%|████▍     | 3044/6844 [12:01<14:53,  4.26it/s] 44%|████▍     | 3045/6844 [12:01<14:52,  4.26it/s] 45%|████▍     | 3046/6844 [12:01<14:52,  4.25it/s] 45%|████▍     | 3047/6844 [12:02<14:52,  4.25it/s] 45%|████▍     | 3048/6844 [12:02<14:52,  4.25it/s] 45%|████▍     | 3049/6844 [12:02<14:52,  4.25it/s] 45%|████▍     | 3050/6844 [12:02<14:52,  4.25it/s]                                                   {'loss': 4.5451, 'grad_norm': 0.14341653883457184, 'learning_rate': 0.004069315701817865, 'epoch': 0.09}
+ 45%|████▍     | 3050/6844 [12:02<14:52,  4.25it/s] 45%|████▍     | 3051/6844 [12:02<14:55,  4.23it/s] 45%|████▍     | 3052/6844 [12:03<14:54,  4.24it/s] 45%|████▍     | 3053/6844 [12:03<14:53,  4.24it/s] 45%|████▍     | 3054/6844 [12:03<14:52,  4.25it/s] 45%|████▍     | 3055/6844 [12:03<14:50,  4.25it/s] 45%|████▍     | 3056/6844 [12:04<14:51,  4.25it/s] 45%|████▍     | 3057/6844 [12:04<14:51,  4.25it/s] 45%|████▍     | 3058/6844 [12:04<14:50,  4.25it/s] 45%|████▍     | 3059/6844 [12:04<14:49,  4.25it/s] 45%|████▍     | 3060/6844 [12:05<14:49,  4.26it/s] 45%|████▍     | 3061/6844 [12:05<14:48,  4.26it/s] 45%|████▍     | 3062/6844 [12:05<14:48,  4.26it/s] 45%|████▍     | 3063/6844 [12:05<14:49,  4.25it/s] 45%|████▍     | 3064/6844 [12:06<14:48,  4.25it/s] 45%|████▍     | 3065/6844 [12:06<14:47,  4.26it/s] 45%|████▍     | 3066/6844 [12:06<14:48,  4.25it/s] 45%|████▍     | 3067/6844 [12:06<14:48,  4.25it/s] 45%|████▍     | 3068/6844 [12:06<14:48,  4.25it/s] 45%|████▍     | 3069/6844 [12:07<14:48,  4.25it/s] 45%|████▍     | 3070/6844 [12:07<14:48,  4.25it/s] 45%|████▍     | 3071/6844 [12:07<14:47,  4.25it/s] 45%|████▍     | 3072/6844 [12:07<14:46,  4.25it/s] 45%|████▍     | 3073/6844 [12:08<14:46,  4.25it/s] 45%|████▍     | 3074/6844 [12:08<14:46,  4.25it/s] 45%|████▍     | 3075/6844 [12:08<14:44,  4.26it/s]                                                   {'loss': 4.5377, 'grad_norm': 0.1371297687292099, 'learning_rate': 0.00403348631703238, 'epoch': 0.09}
+ 45%|████▍     | 3075/6844 [12:08<14:44,  4.26it/s] 45%|████▍     | 3076/6844 [12:08<14:47,  4.24it/s] 45%|████▍     | 3077/6844 [12:09<14:48,  4.24it/s] 45%|████▍     | 3078/6844 [12:09<14:47,  4.24it/s] 45%|████▍     | 3079/6844 [12:09<14:47,  4.24it/s] 45%|████▌     | 3080/6844 [12:09<14:46,  4.25it/s] 45%|████▌     | 3081/6844 [12:10<14:46,  4.25it/s] 45%|████▌     | 3082/6844 [12:10<14:45,  4.25it/s] 45%|████▌     | 3083/6844 [12:10<14:45,  4.25it/s] 45%|████▌     | 3084/6844 [12:10<14:46,  4.24it/s] 45%|████▌     | 3085/6844 [12:10<14:45,  4.25it/s] 45%|████▌     | 3086/6844 [12:11<14:44,  4.25it/s] 45%|████▌     | 3087/6844 [12:11<14:45,  4.24it/s] 45%|████▌     | 3088/6844 [12:11<14:46,  4.24it/s] 45%|████▌     | 3089/6844 [12:11<14:45,  4.24it/s] 45%|████▌     | 3090/6844 [12:12<14:44,  4.24it/s] 45%|████▌     | 3091/6844 [12:12<14:44,  4.24it/s] 45%|████▌     | 3092/6844 [12:12<14:45,  4.24it/s] 45%|████▌     | 3093/6844 [12:12<14:43,  4.25it/s] 45%|████▌     | 3094/6844 [12:13<14:43,  4.25it/s] 45%|████▌     | 3095/6844 [12:13<14:43,  4.24it/s] 45%|████▌     | 3096/6844 [12:13<14:42,  4.25it/s] 45%|████▌     | 3097/6844 [12:13<14:41,  4.25it/s] 45%|████▌     | 3098/6844 [12:14<14:43,  4.24it/s] 45%|████▌     | 3099/6844 [12:14<14:41,  4.25it/s] 45%|████▌     | 3100/6844 [12:14<14:41,  4.25it/s]                                                   {'loss': 4.5282, 'grad_norm': 0.14779305458068848, 'learning_rate': 0.0039974888746301535, 'epoch': 0.09}
+ 45%|████▌     | 3100/6844 [12:14<14:41,  4.25it/s] 45%|████▌     | 3101/6844 [12:14<14:44,  4.23it/s] 45%|████▌     | 3102/6844 [12:14<14:42,  4.24it/s] 45%|████▌     | 3103/6844 [12:15<14:41,  4.25it/s] 45%|████▌     | 3104/6844 [12:15<14:40,  4.25it/s] 45%|████▌     | 3105/6844 [12:15<14:41,  4.24it/s] 45%|████▌     | 3106/6844 [12:15<14:40,  4.25it/s] 45%|████▌     | 3107/6844 [12:16<14:39,  4.25it/s] 45%|████▌     | 3108/6844 [12:16<14:39,  4.25it/s] 45%|████▌     | 3109/6844 [12:16<14:39,  4.24it/s] 45%|████▌     | 3110/6844 [12:16<14:38,  4.25it/s] 45%|████▌     | 3111/6844 [12:17<14:38,  4.25it/s] 45%|████▌     | 3112/6844 [12:17<14:38,  4.25it/s] 45%|████▌     | 3113/6844 [12:17<14:37,  4.25it/s] 45%|████▌     | 3114/6844 [12:17<14:37,  4.25it/s] 46%|████▌     | 3115/6844 [12:18<15:14,  4.08it/s] 46%|████▌     | 3116/6844 [12:18<15:13,  4.08it/s] 46%|████▌     | 3117/6844 [12:18<15:02,  4.13it/s] 46%|████▌     | 3118/6844 [12:18<14:54,  4.16it/s] 46%|████▌     | 3119/6844 [12:19<14:50,  4.19it/s] 46%|████▌     | 3120/6844 [12:19<14:45,  4.21it/s] 46%|████▌     | 3121/6844 [12:19<14:41,  4.22it/s] 46%|████▌     | 3122/6844 [12:19<14:39,  4.23it/s] 46%|████▌     | 3123/6844 [12:19<14:37,  4.24it/s] 46%|████▌     | 3124/6844 [12:20<14:36,  4.24it/s] 46%|████▌     | 3125/6844 [12:20<14:35,  4.25it/s]                                                   {'loss': 4.523, 'grad_norm': 0.1380717158317566, 'learning_rate': 0.003961329228239124, 'epoch': 0.09}
+ 46%|████▌     | 3125/6844 [12:20<14:35,  4.25it/s] 46%|████▌     | 3126/6844 [12:20<14:39,  4.23it/s] 46%|████▌     | 3127/6844 [12:20<14:37,  4.23it/s] 46%|████▌     | 3128/6844 [12:21<14:35,  4.24it/s] 46%|████▌     | 3129/6844 [12:21<14:34,  4.25it/s] 46%|████▌     | 3130/6844 [12:21<14:33,  4.25it/s] 46%|████▌     | 3131/6844 [12:21<14:33,  4.25it/s] 46%|████▌     | 3132/6844 [12:22<14:32,  4.25it/s] 46%|████▌     | 3133/6844 [12:22<14:32,  4.25it/s] 46%|████▌     | 3134/6844 [12:22<14:55,  4.15it/s] 46%|████▌     | 3135/6844 [12:22<14:48,  4.18it/s] 46%|████▌     | 3136/6844 [12:23<14:43,  4.20it/s] 46%|████▌     | 3137/6844 [12:23<14:39,  4.21it/s] 46%|████▌     | 3138/6844 [12:23<14:40,  4.21it/s] 46%|████▌     | 3139/6844 [12:23<14:36,  4.22it/s] 46%|████▌     | 3140/6844 [12:23<14:36,  4.23it/s] 46%|████▌     | 3141/6844 [12:24<14:33,  4.24it/s] 46%|████▌     | 3142/6844 [12:24<14:33,  4.24it/s] 46%|████▌     | 3143/6844 [12:24<14:31,  4.25it/s] 46%|████▌     | 3144/6844 [12:24<14:30,  4.25it/s] 46%|████▌     | 3145/6844 [12:25<14:29,  4.25it/s] 46%|████▌     | 3146/6844 [12:25<14:28,  4.26it/s] 46%|████▌     | 3147/6844 [12:25<14:28,  4.25it/s] 46%|████▌     | 3148/6844 [12:25<14:29,  4.25it/s] 46%|████▌     | 3149/6844 [12:26<14:28,  4.26it/s] 46%|████▌     | 3150/6844 [12:26<14:27,  4.26it/s]                                                   {'loss': 4.5362, 'grad_norm': 0.1614193469285965, 'learning_rate': 0.003925013257863597, 'epoch': 0.09}
+ 46%|████▌     | 3150/6844 [12:26<14:27,  4.26it/s] 46%|████▌     | 3151/6844 [12:26<14:30,  4.24it/s] 46%|████▌     | 3152/6844 [12:26<14:30,  4.24it/s] 46%|████▌     | 3153/6844 [12:27<14:29,  4.24it/s] 46%|████▌     | 3154/6844 [12:27<14:27,  4.25it/s] 46%|████▌     | 3155/6844 [12:27<14:27,  4.25it/s] 46%|████▌     | 3156/6844 [12:27<14:26,  4.26it/s] 46%|████▌     | 3157/6844 [12:27<14:26,  4.25it/s] 46%|████▌     | 3158/6844 [12:28<14:27,  4.25it/s] 46%|████▌     | 3159/6844 [12:28<14:26,  4.25it/s] 46%|████▌     | 3160/6844 [12:28<14:26,  4.25it/s] 46%|████▌     | 3161/6844 [12:28<14:27,  4.25it/s] 46%|████▌     | 3162/6844 [12:29<14:26,  4.25it/s] 46%|████▌     | 3163/6844 [12:29<14:24,  4.26it/s] 46%|████▌     | 3164/6844 [12:29<14:24,  4.26it/s] 46%|████▌     | 3165/6844 [12:29<14:23,  4.26it/s] 46%|████▋     | 3166/6844 [12:30<14:24,  4.25it/s] 46%|████▋     | 3167/6844 [12:30<14:24,  4.26it/s] 46%|████▋     | 3168/6844 [12:30<14:26,  4.24it/s] 46%|████▋     | 3169/6844 [12:30<14:25,  4.24it/s] 46%|████▋     | 3170/6844 [12:31<14:24,  4.25it/s] 46%|████▋     | 3171/6844 [12:31<14:24,  4.25it/s] 46%|████▋     | 3172/6844 [12:31<14:23,  4.25it/s] 46%|████▋     | 3173/6844 [12:31<14:24,  4.25it/s] 46%|████▋     | 3174/6844 [12:31<14:24,  4.25it/s] 46%|████▋     | 3175/6844 [12:32<14:23,  4.25it/s]                                                   {'loss': 4.5258, 'grad_norm': 0.14657564461231232, 'learning_rate': 0.0038885468689280854, 'epoch': 0.09}
+ 46%|████▋     | 3175/6844 [12:32<14:23,  4.25it/s] 46%|████▋     | 3176/6844 [12:32<14:25,  4.24it/s] 46%|████▋     | 3177/6844 [12:32<14:23,  4.25it/s] 46%|████▋     | 3178/6844 [12:32<14:23,  4.24it/s] 46%|████▋     | 3179/6844 [12:33<14:23,  4.24it/s] 46%|████▋     | 3180/6844 [12:33<14:22,  4.25it/s] 46%|████▋     | 3181/6844 [12:33<14:20,  4.26it/s] 46%|████▋     | 3182/6844 [12:33<14:20,  4.26it/s] 47%|████▋     | 3183/6844 [12:34<14:19,  4.26it/s] 47%|████▋     | 3184/6844 [12:34<14:19,  4.26it/s] 47%|████▋     | 3185/6844 [12:34<14:19,  4.26it/s] 47%|████▋     | 3186/6844 [12:34<14:19,  4.26it/s] 47%|████▋     | 3187/6844 [12:35<14:18,  4.26it/s] 47%|████▋     | 3188/6844 [12:35<14:17,  4.26it/s] 47%|████▋     | 3189/6844 [12:35<14:20,  4.25it/s] 47%|████▋     | 3190/6844 [12:35<14:18,  4.25it/s] 47%|████▋     | 3191/6844 [12:35<14:18,  4.26it/s] 47%|████▋     | 3192/6844 [12:36<14:18,  4.25it/s] 47%|████▋     | 3193/6844 [12:36<14:18,  4.25it/s] 47%|████▋     | 3194/6844 [12:36<14:17,  4.25it/s] 47%|████▋     | 3195/6844 [12:36<14:17,  4.26it/s] 47%|████▋     | 3196/6844 [12:37<14:18,  4.25it/s] 47%|████▋     | 3197/6844 [12:37<14:17,  4.25it/s] 47%|████▋     | 3198/6844 [12:37<14:17,  4.25it/s] 47%|████▋     | 3199/6844 [12:37<14:17,  4.25it/s] 47%|████▋     | 3200/6844 [12:38<14:17,  4.25it/s]                                                   {'loss': 4.5261, 'grad_norm': 0.1468413770198822, 'learning_rate': 0.003851935991317017, 'epoch': 0.09}
+ 47%|████▋     | 3200/6844 [12:38<14:17,  4.25it/s] 47%|████▋     | 3201/6844 [12:38<14:19,  4.24it/s] 47%|████▋     | 3202/6844 [12:38<14:18,  4.24it/s] 47%|████▋     | 3203/6844 [12:38<14:18,  4.24it/s] 47%|████▋     | 3204/6844 [12:39<14:17,  4.24it/s] 47%|████▋     | 3205/6844 [12:39<14:18,  4.24it/s] 47%|████▋     | 3206/6844 [12:39<14:17,  4.24it/s] 47%|████▋     | 3207/6844 [12:39<14:16,  4.25it/s] 47%|████▋     | 3208/6844 [12:39<14:14,  4.25it/s] 47%|████▋     | 3209/6844 [12:40<14:15,  4.25it/s] 47%|████▋     | 3210/6844 [12:40<14:17,  4.24it/s] 47%|████▋     | 3211/6844 [12:40<14:17,  4.24it/s] 47%|████▋     | 3212/6844 [12:40<14:14,  4.25it/s] 47%|████▋     | 3213/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3214/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3215/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3216/6844 [12:41<14:14,  4.25it/s] 47%|████▋     | 3217/6844 [12:42<14:14,  4.24it/s] 47%|████▋     | 3218/6844 [12:42<14:14,  4.24it/s] 47%|████▋     | 3219/6844 [12:42<14:12,  4.25it/s] 47%|████▋     | 3220/6844 [12:42<14:11,  4.25it/s] 47%|████▋     | 3221/6844 [12:43<14:38,  4.12it/s] 47%|████▋     | 3222/6844 [12:43<15:04,  4.01it/s] 47%|████▋     | 3223/6844 [12:43<15:27,  3.90it/s] 47%|████▋     | 3224/6844 [12:43<15:29,  3.89it/s] 47%|████▋     | 3225/6844 [12:44<15:38,  3.86it/s]                                                   {'loss': 4.5213, 'grad_norm': 0.16455137729644775, 'learning_rate': 0.0038151865784104557, 'epoch': 0.09}
+ 47%|████▋     | 3225/6844 [12:44<15:38,  3.86it/s] 47%|████▋     | 3226/6844 [12:44<15:46,  3.82it/s] 47%|████▋     | 3227/6844 [12:44<15:44,  3.83it/s] 47%|████▋     | 3228/6844 [12:44<15:48,  3.81it/s] 47%|████▋     | 3229/6844 [12:45<15:44,  3.83it/s] 47%|████▋     | 3230/6844 [12:45<15:56,  3.78it/s] 47%|████▋     | 3231/6844 [12:45<15:23,  3.91it/s] 47%|████▋     | 3232/6844 [12:45<15:00,  4.01it/s] 47%|████▋     | 3233/6844 [12:46<14:45,  4.08it/s] 47%|████▋     | 3234/6844 [12:46<14:35,  4.13it/s] 47%|████▋     | 3235/6844 [12:46<14:27,  4.16it/s] 47%|████▋     | 3236/6844 [12:46<14:21,  4.19it/s] 47%|████▋     | 3237/6844 [12:47<14:17,  4.21it/s] 47%|████▋     | 3238/6844 [12:47<14:15,  4.22it/s] 47%|████▋     | 3239/6844 [12:47<14:13,  4.22it/s] 47%|████▋     | 3240/6844 [12:47<14:12,  4.23it/s] 47%|████▋     | 3241/6844 [12:48<14:51,  4.04it/s] 47%|████▋     | 3242/6844 [12:48<15:07,  3.97it/s] 47%|████▋     | 3243/6844 [12:48<15:15,  3.93it/s] 47%|████▋     | 3244/6844 [12:48<15:32,  3.86it/s] 47%|████▋     | 3245/6844 [12:49<15:16,  3.93it/s] 47%|████▋     | 3246/6844 [12:49<14:55,  4.02it/s] 47%|████▋     | 3247/6844 [12:49<14:42,  4.08it/s] 47%|████▋     | 3248/6844 [12:49<14:30,  4.13it/s] 47%|████▋     | 3249/6844 [12:50<14:21,  4.17it/s] 47%|████▋     | 3250/6844 [12:50<14:15,  4.20it/s]                                                   {'loss': 4.5153, 'grad_norm': 0.1546912044286728, 'learning_rate': 0.0037783046061160164, 'epoch': 0.09}
+ 47%|████▋     | 3250/6844 [12:50<14:15,  4.20it/s] 48%|████▊     | 3251/6844 [12:50<14:14,  4.20it/s] 48%|████▊     | 3252/6844 [12:50<14:11,  4.22it/s] 48%|████▊     | 3253/6844 [12:51<14:08,  4.23it/s] 48%|████▊     | 3254/6844 [12:51<14:07,  4.24it/s] 48%|████▊     | 3255/6844 [12:51<14:06,  4.24it/s] 48%|████▊     | 3256/6844 [12:51<14:04,  4.25it/s] 48%|████▊     | 3257/6844 [12:51<14:03,  4.25it/s] 48%|████▊     | 3258/6844 [12:52<14:03,  4.25it/s] 48%|████▊     | 3259/6844 [12:52<14:01,  4.26it/s] 48%|████▊     | 3260/6844 [12:52<14:02,  4.25it/s] 48%|████▊     | 3261/6844 [12:52<14:02,  4.25it/s] 48%|████▊     | 3262/6844 [12:53<14:01,  4.26it/s] 48%|████▊     | 3263/6844 [12:53<13:59,  4.27it/s] 48%|████▊     | 3264/6844 [12:53<13:58,  4.27it/s] 48%|████▊     | 3265/6844 [12:53<13:58,  4.27it/s] 48%|████▊     | 3266/6844 [12:54<13:58,  4.27it/s] 48%|████▊     | 3267/6844 [12:54<14:00,  4.26it/s] 48%|████▊     | 3268/6844 [12:54<14:00,  4.25it/s] 48%|████▊     | 3269/6844 [12:54<13:59,  4.26it/s] 48%|████▊     | 3270/6844 [12:54<13:59,  4.26it/s] 48%|████▊     | 3271/6844 [12:55<13:59,  4.26it/s] 48%|████▊     | 3272/6844 [12:55<13:59,  4.25it/s] 48%|████▊     | 3273/6844 [12:55<13:58,  4.26it/s] 48%|████▊     | 3274/6844 [12:55<13:59,  4.25it/s] 48%|████▊     | 3275/6844 [12:56<14:00,  4.25it/s]                                                   {'loss': 4.5203, 'grad_norm': 0.16021664440631866, 'learning_rate': 0.0037412960718971, 'epoch': 0.1}
+ 48%|████▊     | 3275/6844 [12:56<14:00,  4.25it/s] 48%|████▊     | 3276/6844 [12:56<14:02,  4.24it/s] 48%|████▊     | 3277/6844 [12:56<14:01,  4.24it/s] 48%|████▊     | 3278/6844 [12:56<14:00,  4.24it/s] 48%|████▊     | 3279/6844 [12:57<13:59,  4.24it/s] 48%|████▊     | 3280/6844 [12:57<13:59,  4.25it/s] 48%|████▊     | 3281/6844 [12:57<13:57,  4.25it/s] 48%|████▊     | 3282/6844 [12:57<13:58,  4.25it/s] 48%|████▊     | 3283/6844 [12:58<13:56,  4.25it/s] 48%|████▊     | 3284/6844 [12:58<13:56,  4.25it/s] 48%|████▊     | 3285/6844 [12:58<13:56,  4.26it/s] 48%|████▊     | 3286/6844 [12:58<13:55,  4.26it/s] 48%|████▊     | 3287/6844 [12:58<13:54,  4.26it/s] 48%|████▊     | 3288/6844 [12:59<13:56,  4.25it/s] 48%|████▊     | 3289/6844 [12:59<13:55,  4.26it/s] 48%|████▊     | 3290/6844 [12:59<13:55,  4.25it/s] 48%|████▊     | 3291/6844 [12:59<13:55,  4.25it/s] 48%|████▊     | 3292/6844 [13:00<13:55,  4.25it/s] 48%|████▊     | 3293/6844 [13:00<13:53,  4.26it/s] 48%|████▊     | 3294/6844 [13:00<13:54,  4.26it/s] 48%|████▊     | 3295/6844 [13:00<13:52,  4.26it/s] 48%|████▊     | 3296/6844 [13:01<13:54,  4.25it/s] 48%|████▊     | 3297/6844 [13:01<13:53,  4.26it/s] 48%|████▊     | 3298/6844 [13:01<13:53,  4.25it/s] 48%|████▊     | 3299/6844 [13:01<13:52,  4.26it/s] 48%|████▊     | 3300/6844 [13:02<13:53,  4.25it/s]{'loss': 4.5247, 'grad_norm': 0.13298815488815308, 'learning_rate': 0.0037041669937976428, 'epoch': 0.1}                                                   
+ 48%|████▊     | 3300/6844 [13:02<13:53,  4.25it/s] 48%|████▊     | 3301/6844 [13:02<13:54,  4.25it/s] 48%|████▊     | 3302/6844 [13:02<13:54,  4.24it/s] 48%|████▊     | 3303/6844 [13:02<13:53,  4.25it/s] 48%|████▊     | 3304/6844 [13:02<13:53,  4.25it/s] 48%|████▊     | 3305/6844 [13:03<13:51,  4.25it/s] 48%|████▊     | 3306/6844 [13:03<13:52,  4.25it/s] 48%|████▊     | 3307/6844 [13:03<13:50,  4.26it/s] 48%|████▊     | 3308/6844 [13:03<13:49,  4.26it/s] 48%|████▊     | 3309/6844 [13:04<13:49,  4.26it/s] 48%|████▊     | 3310/6844 [13:04<13:49,  4.26it/s] 48%|████▊     | 3311/6844 [13:04<13:48,  4.26it/s] 48%|████▊     | 3312/6844 [13:04<13:48,  4.26it/s] 48%|████▊     | 3313/6844 [13:05<13:48,  4.26it/s] 48%|████▊     | 3314/6844 [13:05<13:48,  4.26it/s] 48%|████▊     | 3315/6844 [13:05<13:47,  4.26it/s] 48%|████▊     | 3316/6844 [13:05<13:47,  4.26it/s] 48%|████▊     | 3317/6844 [13:06<13:49,  4.25it/s] 48%|████▊     | 3318/6844 [13:06<13:49,  4.25it/s] 48%|████▊     | 3319/6844 [13:06<13:47,  4.26it/s] 49%|████▊     | 3320/6844 [13:06<13:47,  4.26it/s] 49%|████▊     | 3321/6844 [13:06<13:47,  4.26it/s] 49%|████▊     | 3322/6844 [13:07<13:47,  4.25it/s] 49%|████▊     | 3323/6844 [13:07<13:48,  4.25it/s] 49%|████▊     | 3324/6844 [13:07<13:47,  4.25it/s] 49%|████▊     | 3325/6844 [13:07<13:45,  4.26it/s]                                                   {'loss': 4.5046, 'grad_norm': 0.13907486200332642, 'learning_rate': 0.0036669234094634955, 'epoch': 0.1}
+ 49%|████▊     | 3325/6844 [13:07<13:45,  4.26it/s] 49%|████▊     | 3326/6844 [13:08<13:47,  4.25it/s] 49%|████▊     | 3327/6844 [13:08<13:46,  4.26it/s] 49%|████▊     | 3328/6844 [13:08<13:45,  4.26it/s] 49%|████▊     | 3329/6844 [13:08<13:44,  4.26it/s] 49%|████▊     | 3330/6844 [13:09<13:45,  4.26it/s] 49%|████▊     | 3331/6844 [13:09<13:46,  4.25it/s] 49%|████▊     | 3332/6844 [13:09<13:51,  4.23it/s] 49%|████▊     | 3333/6844 [13:09<13:49,  4.23it/s] 49%|████▊     | 3334/6844 [13:10<13:47,  4.24it/s] 49%|████▊     | 3335/6844 [13:10<13:46,  4.25it/s] 49%|████▊     | 3336/6844 [13:10<13:46,  4.25it/s] 49%|████▉     | 3337/6844 [13:10<13:44,  4.25it/s] 49%|████▉     | 3338/6844 [13:10<13:45,  4.24it/s] 49%|████▉     | 3339/6844 [13:11<13:44,  4.25it/s] 49%|████▉     | 3340/6844 [13:11<13:43,  4.25it/s] 49%|████▉     | 3341/6844 [13:11<13:42,  4.26it/s] 49%|████▉     | 3342/6844 [13:11<13:41,  4.26it/s] 49%|████▉     | 3343/6844 [13:12<13:41,  4.26it/s] 49%|████▉     | 3344/6844 [13:12<13:40,  4.26it/s] 49%|████▉     | 3345/6844 [13:12<13:41,  4.26it/s] 49%|████▉     | 3346/6844 [13:12<13:41,  4.26it/s] 49%|████▉     | 3347/6844 [13:13<13:40,  4.26it/s] 49%|████▉     | 3348/6844 [13:13<13:39,  4.26it/s] 49%|████▉     | 3349/6844 [13:13<13:38,  4.27it/s] 49%|████▉     | 3350/6844 [13:13<13:36,  4.28it/s]                                                   {'loss': 4.5115, 'grad_norm': 0.1389758139848709, 'learning_rate': 0.0036295713751606394, 'epoch': 0.1}
+ 49%|████▉     | 3350/6844 [13:13<13:36,  4.28it/s] 49%|████▉     | 3351/6844 [13:14<13:39,  4.26it/s] 49%|████▉     | 3352/6844 [13:14<13:39,  4.26it/s] 49%|████▉     | 3353/6844 [13:14<13:39,  4.26it/s] 49%|████▉     | 3354/6844 [13:14<13:38,  4.27it/s] 49%|████▉     | 3355/6844 [13:14<13:39,  4.26it/s] 49%|████▉     | 3356/6844 [13:15<13:38,  4.26it/s] 49%|████▉     | 3357/6844 [13:15<13:38,  4.26it/s] 49%|████▉     | 3358/6844 [13:15<13:38,  4.26it/s] 49%|████▉     | 3359/6844 [13:15<13:38,  4.26it/s] 49%|████▉     | 3360/6844 [13:16<13:38,  4.26it/s] 49%|████▉     | 3361/6844 [13:16<13:37,  4.26it/s] 49%|████▉     | 3362/6844 [13:16<13:36,  4.26it/s] 49%|████▉     | 3363/6844 [13:16<13:36,  4.26it/s] 49%|████▉     | 3364/6844 [13:17<13:35,  4.27it/s] 49%|████▉     | 3365/6844 [13:17<13:35,  4.27it/s] 49%|████▉     | 3366/6844 [13:17<13:35,  4.26it/s] 49%|████▉     | 3367/6844 [13:17<13:35,  4.26it/s] 49%|████▉     | 3368/6844 [13:18<13:38,  4.25it/s] 49%|████▉     | 3369/6844 [13:18<13:38,  4.24it/s] 49%|████▉     | 3370/6844 [13:18<13:38,  4.25it/s] 49%|████▉     | 3371/6844 [13:18<13:35,  4.26it/s] 49%|████▉     | 3372/6844 [13:18<13:35,  4.26it/s] 49%|████▉     | 3373/6844 [13:19<13:35,  4.26it/s] 49%|████▉     | 3374/6844 [13:19<13:35,  4.26it/s] 49%|████▉     | 3375/6844 [13:19<13:34,  4.26it/s]{'loss': 4.5163, 'grad_norm': 0.14226971566677094, 'learning_rate': 0.0035921169647903546, 'epoch': 0.1}                                                   
+ 49%|████▉     | 3375/6844 [13:19<13:34,  4.26it/s] 49%|████▉     | 3376/6844 [13:19<13:37,  4.24it/s] 49%|████▉     | 3377/6844 [13:20<13:36,  4.25it/s] 49%|████▉     | 3378/6844 [13:20<13:35,  4.25it/s] 49%|████▉     | 3379/6844 [13:20<13:35,  4.25it/s] 49%|████▉     | 3380/6844 [13:20<13:34,  4.25it/s] 49%|████▉     | 3381/6844 [13:21<13:33,  4.26it/s] 49%|████▉     | 3382/6844 [13:21<13:33,  4.25it/s] 49%|████▉     | 3383/6844 [13:21<13:33,  4.25it/s] 49%|████▉     | 3384/6844 [13:21<13:33,  4.26it/s] 49%|████▉     | 3385/6844 [13:22<13:32,  4.26it/s] 49%|████▉     | 3386/6844 [13:22<13:32,  4.26it/s] 49%|████▉     | 3387/6844 [13:22<13:31,  4.26it/s] 50%|████▉     | 3388/6844 [13:22<13:32,  4.26it/s] 50%|████▉     | 3389/6844 [13:22<13:31,  4.26it/s] 50%|████▉     | 3390/6844 [13:23<13:31,  4.25it/s] 50%|████▉     | 3391/6844 [13:23<13:30,  4.26it/s] 50%|████▉     | 3392/6844 [13:23<13:30,  4.26it/s] 50%|████▉     | 3393/6844 [13:23<13:31,  4.25it/s] 50%|████▉     | 3394/6844 [13:24<13:31,  4.25it/s] 50%|████▉     | 3395/6844 [13:24<13:30,  4.26it/s] 50%|████▉     | 3396/6844 [13:24<13:29,  4.26it/s] 50%|████▉     | 3397/6844 [13:24<13:31,  4.25it/s] 50%|████▉     | 3398/6844 [13:25<13:31,  4.25it/s] 50%|████▉     | 3399/6844 [13:25<13:30,  4.25it/s] 50%|████▉     | 3400/6844 [13:25<13:29,  4.26it/s]                                                   {'loss': 4.5091, 'grad_norm': 0.14213916659355164, 'learning_rate': 0.003554566268901535, 'epoch': 0.1}
+ 50%|████▉     | 3400/6844 [13:25<13:29,  4.26it/s] 50%|████▉     | 3401/6844 [13:25<13:33,  4.23it/s] 50%|████▉     | 3402/6844 [13:26<13:31,  4.24it/s] 50%|████▉     | 3403/6844 [13:26<13:30,  4.24it/s] 50%|████▉     | 3404/6844 [13:26<13:30,  4.25it/s] 50%|████▉     | 3405/6844 [13:26<13:29,  4.25it/s] 50%|████▉     | 3406/6844 [13:26<13:28,  4.25it/s] 50%|████▉     | 3407/6844 [13:27<13:27,  4.26it/s] 50%|████▉     | 3408/6844 [13:27<13:25,  4.26it/s] 50%|████▉     | 3409/6844 [13:27<13:25,  4.27it/s] 50%|████▉     | 3410/6844 [13:27<13:25,  4.26it/s] 50%|████▉     | 3411/6844 [13:28<13:26,  4.26it/s] 50%|████▉     | 3412/6844 [13:28<13:25,  4.26it/s] 50%|████▉     | 3413/6844 [13:28<13:24,  4.26it/s] 50%|████▉     | 3414/6844 [13:28<13:24,  4.26it/s] 50%|████▉     | 3415/6844 [13:29<13:25,  4.26it/s] 50%|████▉     | 3416/6844 [13:29<13:23,  4.27it/s] 50%|████▉     | 3417/6844 [13:29<13:23,  4.26it/s] 50%|████▉     | 3418/6844 [13:29<13:26,  4.25it/s] 50%|████▉     | 3419/6844 [13:30<13:26,  4.25it/s] 50%|████▉     | 3420/6844 [13:30<13:26,  4.25it/s] 50%|████▉     | 3421/6844 [13:30<13:25,  4.25it/s] 50%|█████     | 3422/6844 [13:30<13:27,  4.24it/s] 50%|█████     | 3423/6844 [13:30<13:25,  4.25it/s] 50%|█████     | 3424/6844 [13:31<13:24,  4.25it/s] 50%|█████     | 3425/6844 [13:31<13:23,  4.25it/s]                                                   {'loss': 4.5241, 'grad_norm': 0.1355195790529251, 'learning_rate': 0.0035169253937002844, 'epoch': 0.1}
+ 50%|█████     | 3425/6844 [13:31<13:23,  4.25it/s] 50%|█████     | 3426/6844 [13:31<13:25,  4.24it/s] 50%|█████     | 3427/6844 [13:31<13:24,  4.25it/s] 50%|█████     | 3428/6844 [13:32<13:23,  4.25it/s] 50%|█████     | 3429/6844 [13:32<13:23,  4.25it/s] 50%|█████     | 3430/6844 [13:32<13:22,  4.25it/s] 50%|█████     | 3431/6844 [13:32<13:22,  4.25it/s] 50%|█████     | 3432/6844 [13:33<13:22,  4.25it/s] 50%|█████     | 3433/6844 [13:33<13:21,  4.25it/s] 50%|█████     | 3434/6844 [13:33<13:20,  4.26it/s] 50%|█████     | 3435/6844 [13:33<13:20,  4.26it/s] 50%|█████     | 3436/6844 [13:34<13:19,  4.26it/s] 50%|█████     | 3437/6844 [13:34<13:19,  4.26it/s] 50%|█████     | 3438/6844 [13:34<13:19,  4.26it/s] 50%|█████     | 3439/6844 [13:34<13:21,  4.25it/s] 50%|█████     | 3440/6844 [13:34<13:20,  4.25it/s] 50%|█████     | 3441/6844 [13:35<13:20,  4.25it/s] 50%|█████     | 3442/6844 [13:35<13:19,  4.25it/s] 50%|█████     | 3443/6844 [13:35<13:19,  4.25it/s] 50%|█████     | 3444/6844 [13:35<13:18,  4.26it/s] 50%|█████     | 3445/6844 [13:36<13:17,  4.26it/s] 50%|█████     | 3446/6844 [13:36<13:18,  4.26it/s] 50%|█████     | 3447/6844 [13:36<13:18,  4.26it/s] 50%|█████     | 3448/6844 [13:36<13:17,  4.26it/s] 50%|█████     | 3449/6844 [13:37<13:17,  4.26it/s] 50%|█████     | 3450/6844 [13:37<13:17,  4.26it/s]                                                   {'loss': 4.5126, 'grad_norm': 0.17895561456680298, 'learning_rate': 0.0034792004600569756, 'epoch': 0.1}
+ 50%|█████     | 3450/6844 [13:37<13:17,  4.26it/s] 50%|█████     | 3451/6844 [13:37<13:19,  4.24it/s] 50%|█████     | 3452/6844 [13:37<13:18,  4.25it/s] 50%|█████     | 3453/6844 [13:38<13:17,  4.25it/s] 50%|█████     | 3454/6844 [13:38<13:16,  4.26it/s] 50%|█████     | 3455/6844 [13:38<13:15,  4.26it/s] 50%|█████     | 3456/6844 [13:38<13:15,  4.26it/s] 51%|█████     | 3457/6844 [13:38<13:14,  4.26it/s] 51%|█████     | 3458/6844 [13:39<13:14,  4.26it/s] 51%|█████     | 3459/6844 [13:39<13:14,  4.26it/s] 51%|█████     | 3460/6844 [13:39<13:14,  4.26it/s] 51%|█████     | 3461/6844 [13:39<13:15,  4.25it/s] 51%|█████     | 3462/6844 [13:40<13:14,  4.26it/s] 51%|█████     | 3463/6844 [13:40<13:13,  4.26it/s] 51%|█████     | 3464/6844 [13:40<13:14,  4.26it/s] 51%|█████     | 3465/6844 [13:40<13:14,  4.25it/s] 51%|█████     | 3466/6844 [13:41<13:12,  4.26it/s] 51%|█████     | 3467/6844 [13:41<13:12,  4.26it/s] 51%|█████     | 3468/6844 [13:41<13:13,  4.26it/s] 51%|█████     | 3469/6844 [13:41<13:12,  4.26it/s] 51%|█████     | 3470/6844 [13:41<13:11,  4.26it/s] 51%|█████     | 3471/6844 [13:42<13:12,  4.26it/s] 51%|█████     | 3472/6844 [13:42<13:10,  4.26it/s] 51%|█████     | 3473/6844 [13:42<13:10,  4.27it/s] 51%|█████     | 3474/6844 [13:42<13:13,  4.24it/s] 51%|█████     | 3475/6844 [13:43<13:12,  4.25it/s]{'loss': 4.4878, 'grad_norm': 0.15845796465873718, 'learning_rate': 0.00344139760251092, 'epoch': 0.1}                                                   
+ 51%|█████     | 3475/6844 [13:43<13:12,  4.25it/s] 51%|█████     | 3476/6844 [13:43<13:13,  4.25it/s] 51%|█████     | 3477/6844 [13:43<13:13,  4.24it/s] 51%|█████     | 3478/6844 [13:43<13:12,  4.25it/s] 51%|█████     | 3479/6844 [13:44<13:11,  4.25it/s] 51%|█████     | 3480/6844 [13:44<13:11,  4.25it/s] 51%|█████     | 3481/6844 [13:44<13:11,  4.25it/s] 51%|█████     | 3482/6844 [13:44<13:09,  4.26it/s] 51%|█████     | 3483/6844 [13:45<13:09,  4.26it/s] 51%|█████     | 3484/6844 [13:45<13:08,  4.26it/s] 51%|█████     | 3485/6844 [13:45<13:09,  4.26it/s] 51%|█████     | 3486/6844 [13:45<13:09,  4.26it/s] 51%|█████     | 3487/6844 [13:45<13:07,  4.26it/s] 51%|█████     | 3488/6844 [13:46<13:07,  4.26it/s] 51%|█████     | 3489/6844 [13:46<13:07,  4.26it/s] 51%|█████     | 3490/6844 [13:46<13:07,  4.26it/s] 51%|█████     | 3491/6844 [13:46<13:07,  4.26it/s] 51%|█████     | 3492/6844 [13:47<13:08,  4.25it/s] 51%|█████     | 3493/6844 [13:47<13:07,  4.26it/s] 51%|█████     | 3494/6844 [13:47<13:07,  4.25it/s] 51%|█████     | 3495/6844 [13:47<13:10,  4.24it/s] 51%|█████     | 3496/6844 [13:48<13:44,  4.06it/s] 51%|█████     | 3497/6844 [13:48<13:33,  4.12it/s] 51%|█████     | 3498/6844 [13:48<13:27,  4.15it/s] 51%|█████     | 3499/6844 [13:48<13:20,  4.18it/s] 51%|█████     | 3500/6844 [13:49<13:16,  4.20it/s]                                                   {'loss': 4.5003, 'grad_norm': 0.1395728886127472, 'learning_rate': 0.003403522968272816, 'epoch': 0.1}
+ 51%|█████     | 3500/6844 [13:49<13:16,  4.20it/s] 51%|█████     | 3501/6844 [13:49<13:16,  4.20it/s] 51%|█████     | 3502/6844 [13:49<13:11,  4.22it/s] 51%|█████     | 3503/6844 [13:49<13:09,  4.23it/s] 51%|█████     | 3504/6844 [13:50<13:07,  4.24it/s] 51%|█████     | 3505/6844 [13:50<13:06,  4.24it/s] 51%|█████     | 3506/6844 [13:50<13:06,  4.24it/s] 51%|█████     | 3507/6844 [13:50<13:05,  4.25it/s] 51%|█████▏    | 3508/6844 [13:50<13:04,  4.25it/s] 51%|█████▏    | 3509/6844 [13:51<13:03,  4.26it/s] 51%|█████▏    | 3510/6844 [13:51<17:37,  3.15it/s] 51%|█████▏    | 3511/6844 [13:51<16:13,  3.42it/s] 51%|█████▏    | 3512/6844 [13:52<15:14,  3.64it/s] 51%|█████▏    | 3513/6844 [13:52<14:33,  3.81it/s] 51%|█████▏    | 3514/6844 [13:52<14:10,  3.91it/s] 51%|█████▏    | 3515/6844 [13:52<13:49,  4.01it/s] 51%|█████▏    | 3516/6844 [13:53<13:34,  4.09it/s] 51%|█████▏    | 3517/6844 [13:53<13:24,  4.14it/s] 51%|█████▏    | 3518/6844 [13:53<13:16,  4.17it/s] 51%|█████▏    | 3519/6844 [13:53<13:11,  4.20it/s] 51%|█████▏    | 3520/6844 [13:54<13:08,  4.22it/s] 51%|█████▏    | 3521/6844 [13:54<13:04,  4.24it/s] 51%|█████▏    | 3522/6844 [13:54<13:03,  4.24it/s] 51%|█████▏    | 3523/6844 [13:54<13:01,  4.25it/s] 51%|█████▏    | 3524/6844 [13:54<12:59,  4.26it/s] 52%|█████▏    | 3525/6844 [13:55<12:59,  4.26it/s]                                                   {'loss': 4.4966, 'grad_norm': 0.1519865244626999, 'learning_rate': 0.003365582716225138, 'epoch': 0.1}
+ 52%|█████▏    | 3525/6844 [13:55<12:59,  4.26it/s] 52%|█████▏    | 3526/6844 [13:55<13:01,  4.25it/s] 52%|█████▏    | 3527/6844 [13:55<13:00,  4.25it/s] 52%|█████▏    | 3528/6844 [13:55<12:59,  4.25it/s] 52%|█████▏    | 3529/6844 [13:56<12:59,  4.25it/s] 52%|█████▏    | 3530/6844 [13:56<12:59,  4.25it/s] 52%|█████▏    | 3531/6844 [13:56<12:57,  4.26it/s] 52%|█████▏    | 3532/6844 [13:56<12:57,  4.26it/s] 52%|█████▏    | 3533/6844 [13:57<12:56,  4.26it/s] 52%|█████▏    | 3534/6844 [13:57<12:57,  4.26it/s] 52%|█████▏    | 3535/6844 [13:57<12:55,  4.27it/s] 52%|█████▏    | 3536/6844 [13:57<12:55,  4.27it/s] 52%|█████▏    | 3537/6844 [13:58<12:55,  4.26it/s] 52%|█████▏    | 3538/6844 [13:58<12:55,  4.26it/s] 52%|█████▏    | 3539/6844 [13:58<12:55,  4.26it/s] 52%|█████▏    | 3540/6844 [13:58<12:55,  4.26it/s] 52%|█████▏    | 3541/6844 [13:58<12:54,  4.27it/s] 52%|█████▏    | 3542/6844 [13:59<12:53,  4.27it/s] 52%|█████▏    | 3543/6844 [13:59<12:53,  4.27it/s] 52%|█████▏    | 3544/6844 [13:59<12:53,  4.27it/s] 52%|█████▏    | 3545/6844 [13:59<12:55,  4.25it/s] 52%|█████▏    | 3546/6844 [14:00<12:54,  4.26it/s] 52%|█████▏    | 3547/6844 [14:00<12:53,  4.26it/s] 52%|█████▏    | 3548/6844 [14:00<12:52,  4.27it/s] 52%|█████▏    | 3549/6844 [14:00<12:52,  4.27it/s] 52%|█████▏    | 3550/6844 [14:01<12:51,  4.27it/s]                                                   {'loss': 4.4979, 'grad_norm': 0.15285973250865936, 'learning_rate': 0.0033275830159206245, 'epoch': 0.1}
+ 52%|█████▏    | 3550/6844 [14:01<12:51,  4.27it/s] 52%|█████▏    | 3551/6844 [14:01<12:53,  4.26it/s] 52%|█████▏    | 3552/6844 [14:01<12:51,  4.27it/s] 52%|█████▏    | 3553/6844 [14:01<12:51,  4.27it/s] 52%|█████▏    | 3554/6844 [14:02<12:51,  4.27it/s] 52%|█████▏    | 3555/6844 [14:02<12:52,  4.26it/s] 52%|█████▏    | 3556/6844 [14:02<12:51,  4.26it/s] 52%|█████▏    | 3557/6844 [14:02<12:50,  4.27it/s] 52%|█████▏    | 3558/6844 [14:02<12:50,  4.27it/s] 52%|█████▏    | 3559/6844 [14:03<12:49,  4.27it/s] 52%|█████▏    | 3560/6844 [14:03<12:49,  4.27it/s] 52%|█████▏    | 3561/6844 [14:03<12:48,  4.27it/s] 52%|█████▏    | 3562/6844 [14:03<12:48,  4.27it/s] 52%|█████▏    | 3563/6844 [14:04<12:48,  4.27it/s] 52%|█████▏    | 3564/6844 [14:04<12:48,  4.27it/s] 52%|█████▏    | 3565/6844 [14:04<12:49,  4.26it/s] 52%|█████▏    | 3566/6844 [14:04<12:48,  4.26it/s] 52%|█████▏    | 3567/6844 [14:05<12:48,  4.26it/s] 52%|█████▏    | 3568/6844 [14:05<12:47,  4.27it/s] 52%|█████▏    | 3569/6844 [14:05<12:48,  4.26it/s] 52%|█████▏    | 3570/6844 [14:05<12:47,  4.27it/s] 52%|█████▏    | 3571/6844 [14:06<12:47,  4.26it/s] 52%|█████▏    | 3572/6844 [14:06<12:46,  4.27it/s] 52%|█████▏    | 3573/6844 [14:06<12:46,  4.27it/s] 52%|█████▏    | 3574/6844 [14:06<12:46,  4.27it/s] 52%|█████▏    | 3575/6844 [14:06<12:46,  4.27it/s]                                                   {'loss': 4.5047, 'grad_norm': 0.15768380463123322, 'learning_rate': 0.003289530046579035, 'epoch': 0.1}
+ 52%|█████▏    | 3575/6844 [14:06<12:46,  4.27it/s] 52%|█████▏    | 3576/6844 [14:07<12:49,  4.25it/s] 52%|█████▏    | 3577/6844 [14:07<12:48,  4.25it/s] 52%|█████▏    | 3578/6844 [14:07<12:47,  4.26it/s] 52%|█████▏    | 3579/6844 [14:07<12:46,  4.26it/s] 52%|█████▏    | 3580/6844 [14:08<12:47,  4.25it/s] 52%|█████▏    | 3581/6844 [14:08<12:46,  4.26it/s] 52%|█████▏    | 3582/6844 [14:08<12:46,  4.26it/s] 52%|█████▏    | 3583/6844 [14:08<12:46,  4.25it/s] 52%|█████▏    | 3584/6844 [14:09<12:46,  4.25it/s] 52%|█████▏    | 3585/6844 [14:09<12:45,  4.26it/s] 52%|█████▏    | 3586/6844 [14:09<12:44,  4.26it/s] 52%|█████▏    | 3587/6844 [14:09<12:44,  4.26it/s] 52%|█████▏    | 3588/6844 [14:10<12:43,  4.27it/s] 52%|█████▏    | 3589/6844 [14:10<12:42,  4.27it/s] 52%|█████▏    | 3590/6844 [14:10<12:44,  4.26it/s] 52%|█████▏    | 3591/6844 [14:10<12:44,  4.26it/s] 52%|█████▏    | 3592/6844 [14:10<12:43,  4.26it/s] 52%|█████▏    | 3593/6844 [14:11<12:42,  4.26it/s] 53%|█████▎    | 3594/6844 [14:11<12:42,  4.26it/s] 53%|█████▎    | 3595/6844 [14:11<12:41,  4.27it/s] 53%|█████▎    | 3596/6844 [14:11<12:40,  4.27it/s] 53%|█████▎    | 3597/6844 [14:12<12:41,  4.26it/s] 53%|█████▎    | 3598/6844 [14:12<12:41,  4.26it/s] 53%|█████▎    | 3599/6844 [14:12<12:41,  4.26it/s] 53%|█████▎    | 3600/6844 [14:12<12:40,  4.26it/s]                                                   {'loss': 4.4975, 'grad_norm': 0.14465612173080444, 'learning_rate': 0.003251429996082328, 'epoch': 0.11}
+ 53%|█████▎    | 3600/6844 [14:12<12:40,  4.26it/s] 53%|█████▎    | 3601/6844 [14:13<12:43,  4.25it/s] 53%|█████▎    | 3602/6844 [14:13<12:42,  4.25it/s] 53%|█████▎    | 3603/6844 [14:13<12:41,  4.25it/s] 53%|█████▎    | 3604/6844 [14:13<12:40,  4.26it/s] 53%|█████▎    | 3605/6844 [14:14<12:39,  4.26it/s] 53%|█████▎    | 3606/6844 [14:14<12:39,  4.26it/s] 53%|█████▎    | 3607/6844 [14:14<12:39,  4.26it/s] 53%|█████▎    | 3608/6844 [14:14<12:39,  4.26it/s] 53%|█████▎    | 3609/6844 [14:14<12:37,  4.27it/s] 53%|█████▎    | 3610/6844 [14:15<12:38,  4.27it/s] 53%|█████▎    | 3611/6844 [14:15<12:38,  4.26it/s] 53%|█████▎    | 3612/6844 [14:15<12:37,  4.26it/s] 53%|█████▎    | 3613/6844 [14:15<12:38,  4.26it/s] 53%|█████▎    | 3614/6844 [14:16<12:38,  4.26it/s] 53%|█████▎    | 3615/6844 [14:16<12:39,  4.25it/s] 53%|█████▎    | 3616/6844 [14:16<12:39,  4.25it/s] 53%|█████▎    | 3617/6844 [14:16<12:38,  4.25it/s] 53%|█████▎    | 3618/6844 [14:17<12:39,  4.25it/s] 53%|█████▎    | 3619/6844 [14:17<12:40,  4.24it/s] 53%|█████▎    | 3620/6844 [14:17<12:38,  4.25it/s] 53%|█████▎    | 3621/6844 [14:17<12:38,  4.25it/s] 53%|█████▎    | 3622/6844 [14:18<12:40,  4.24it/s] 53%|█████▎    | 3623/6844 [14:18<12:39,  4.24it/s] 53%|█████▎    | 3624/6844 [14:18<12:38,  4.24it/s] 53%|█████▎    | 3625/6844 [14:18<12:38,  4.24it/s]                                                   {'loss': 4.4849, 'grad_norm': 0.17490099370479584, 'learning_rate': 0.0032132890599684406, 'epoch': 0.11}
+ 53%|█████▎    | 3625/6844 [14:18<12:38,  4.24it/s] 53%|█████▎    | 3626/6844 [14:18<12:39,  4.24it/s] 53%|█████▎    | 3627/6844 [14:19<12:38,  4.24it/s] 53%|█████▎    | 3628/6844 [14:19<12:37,  4.25it/s] 53%|█████▎    | 3629/6844 [14:19<12:36,  4.25it/s] 53%|█████▎    | 3630/6844 [14:19<12:35,  4.25it/s] 53%|█████▎    | 3631/6844 [14:20<12:35,  4.25it/s] 53%|█████▎    | 3632/6844 [14:20<12:35,  4.25it/s] 53%|█████▎    | 3633/6844 [14:20<12:34,  4.25it/s] 53%|█████▎    | 3634/6844 [14:20<12:34,  4.25it/s] 53%|█████▎    | 3635/6844 [14:21<12:35,  4.25it/s] 53%|█████▎    | 3636/6844 [14:21<12:35,  4.25it/s] 53%|█████▎    | 3637/6844 [14:21<12:34,  4.25it/s] 53%|█████▎    | 3638/6844 [14:21<12:32,  4.26it/s] 53%|█████▎    | 3639/6844 [14:21<12:31,  4.26it/s] 53%|█████▎    | 3640/6844 [14:22<12:31,  4.26it/s] 53%|█████▎    | 3641/6844 [14:22<12:31,  4.26it/s] 53%|█████▎    | 3642/6844 [14:22<12:31,  4.26it/s] 53%|█████▎    | 3643/6844 [14:22<12:32,  4.25it/s] 53%|█████▎    | 3644/6844 [14:23<12:31,  4.26it/s] 53%|█████▎    | 3645/6844 [14:23<12:31,  4.26it/s] 53%|█████▎    | 3646/6844 [14:23<12:31,  4.26it/s] 53%|█████▎    | 3647/6844 [14:23<12:30,  4.26it/s] 53%|█████▎    | 3648/6844 [14:24<12:30,  4.26it/s] 53%|█████▎    | 3649/6844 [14:24<12:32,  4.25it/s] 53%|█████▎    | 3650/6844 [14:24<12:31,  4.25it/s]                                                   {'loss': 4.4785, 'grad_norm': 0.13800890743732452, 'learning_rate': 0.003175113440423816, 'epoch': 0.11}
+ 53%|█████▎    | 3650/6844 [14:24<12:31,  4.25it/s] 53%|█████▎    | 3651/6844 [14:24<12:32,  4.24it/s] 53%|█████▎    | 3652/6844 [14:25<12:31,  4.25it/s] 53%|█████▎    | 3653/6844 [14:25<12:30,  4.25it/s] 53%|█████▎    | 3654/6844 [14:25<12:29,  4.25it/s] 53%|█████▎    | 3655/6844 [14:25<12:29,  4.26it/s] 53%|█████▎    | 3656/6844 [14:25<12:29,  4.25it/s] 53%|█████▎    | 3657/6844 [14:26<12:28,  4.26it/s] 53%|█████▎    | 3658/6844 [14:26<12:28,  4.26it/s] 53%|█████▎    | 3659/6844 [14:26<12:28,  4.26it/s] 53%|█████▎    | 3660/6844 [14:26<12:27,  4.26it/s] 53%|█████▎    | 3661/6844 [14:27<12:27,  4.26it/s] 54%|█████▎    | 3662/6844 [14:27<12:27,  4.26it/s] 54%|█████▎    | 3663/6844 [14:27<12:27,  4.26it/s] 54%|█████▎    | 3664/6844 [14:27<12:26,  4.26it/s] 54%|█████▎    | 3665/6844 [14:28<12:25,  4.26it/s] 54%|█████▎    | 3666/6844 [14:28<12:26,  4.26it/s] 54%|█████▎    | 3667/6844 [14:28<12:25,  4.26it/s] 54%|█████▎    | 3668/6844 [14:28<12:24,  4.26it/s] 54%|█████▎    | 3669/6844 [14:29<12:24,  4.26it/s] 54%|█████▎    | 3670/6844 [14:29<12:27,  4.25it/s] 54%|█████▎    | 3671/6844 [14:29<12:25,  4.26it/s] 54%|█████▎    | 3672/6844 [14:29<12:25,  4.25it/s] 54%|█████▎    | 3673/6844 [14:29<12:25,  4.25it/s] 54%|█████▎    | 3674/6844 [14:30<12:25,  4.25it/s] 54%|█████▎    | 3675/6844 [14:30<12:24,  4.26it/s]{'loss': 4.4869, 'grad_norm': 0.141120046377182, 'learning_rate': 0.003136909345274849, 'epoch': 0.11}                                                   
+ 54%|█████▎    | 3675/6844 [14:30<12:24,  4.26it/s] 54%|█████▎    | 3676/6844 [14:30<12:26,  4.24it/s] 54%|█████▎    | 3677/6844 [14:30<12:25,  4.25it/s] 54%|█████▎    | 3678/6844 [14:31<12:25,  4.25it/s] 54%|█████▍    | 3679/6844 [14:31<12:23,  4.26it/s] 54%|█████▍    | 3680/6844 [14:31<12:23,  4.26it/s] 54%|█████▍    | 3681/6844 [14:31<12:22,  4.26it/s] 54%|█████▍    | 3682/6844 [14:32<12:22,  4.26it/s] 54%|█████▍    | 3683/6844 [14:32<12:21,  4.26it/s] 54%|█████▍    | 3684/6844 [14:32<12:22,  4.26it/s] 54%|█████▍    | 3685/6844 [14:32<12:22,  4.26it/s] 54%|█████▍    | 3686/6844 [14:33<12:22,  4.25it/s] 54%|█████▍    | 3687/6844 [14:33<12:21,  4.26it/s] 54%|█████▍    | 3688/6844 [14:33<12:25,  4.24it/s] 54%|█████▍    | 3689/6844 [14:33<12:24,  4.24it/s] 54%|█████▍    | 3690/6844 [14:33<12:22,  4.25it/s] 54%|█████▍    | 3691/6844 [14:34<12:22,  4.25it/s] 54%|█████▍    | 3692/6844 [14:34<12:20,  4.26it/s] 54%|█████▍    | 3693/6844 [14:34<12:20,  4.26it/s] 54%|█████▍    | 3694/6844 [14:34<12:20,  4.25it/s] 54%|█████▍    | 3695/6844 [14:35<12:20,  4.25it/s] 54%|█████▍    | 3696/6844 [14:35<12:20,  4.25it/s] 54%|█████▍    | 3697/6844 [14:35<12:19,  4.26it/s] 54%|█████▍    | 3698/6844 [14:35<12:18,  4.26it/s] 54%|█████▍    | 3699/6844 [14:36<12:18,  4.26it/s] 54%|█████▍    | 3700/6844 [14:36<12:17,  4.26it/s]                                                   {'loss': 4.4946, 'grad_norm': 0.1520998179912567, 'learning_rate': 0.0030986829869784197, 'epoch': 0.11}
+ 54%|█████▍    | 3700/6844 [14:36<12:17,  4.26it/s] 54%|█████▍    | 3701/6844 [14:36<12:19,  4.25it/s] 54%|█████▍    | 3702/6844 [14:36<12:17,  4.26it/s] 54%|█████▍    | 3703/6844 [14:37<12:15,  4.27it/s] 54%|█████▍    | 3704/6844 [14:37<12:15,  4.27it/s] 54%|█████▍    | 3705/6844 [14:37<12:15,  4.27it/s] 54%|█████▍    | 3706/6844 [14:37<12:14,  4.27it/s] 54%|█████▍    | 3707/6844 [14:37<12:15,  4.27it/s] 54%|█████▍    | 3708/6844 [14:38<12:14,  4.27it/s] 54%|█████▍    | 3709/6844 [14:38<12:15,  4.26it/s] 54%|█████▍    | 3710/6844 [14:38<12:13,  4.27it/s] 54%|█████▍    | 3711/6844 [14:38<12:14,  4.27it/s] 54%|█████▍    | 3712/6844 [14:39<12:13,  4.27it/s] 54%|█████▍    | 3713/6844 [14:39<12:13,  4.27it/s] 54%|█████▍    | 3714/6844 [14:39<12:13,  4.27it/s] 54%|█████▍    | 3715/6844 [14:39<12:13,  4.26it/s] 54%|█████▍    | 3716/6844 [14:40<12:13,  4.26it/s] 54%|█████▍    | 3717/6844 [14:40<12:13,  4.26it/s] 54%|█████▍    | 3718/6844 [14:40<12:13,  4.26it/s] 54%|█████▍    | 3719/6844 [14:40<12:15,  4.25it/s] 54%|█████▍    | 3720/6844 [14:41<12:14,  4.25it/s] 54%|█████▍    | 3721/6844 [14:41<12:13,  4.26it/s] 54%|█████▍    | 3722/6844 [14:41<12:13,  4.26it/s] 54%|█████▍    | 3723/6844 [14:41<12:12,  4.26it/s] 54%|█████▍    | 3724/6844 [14:41<12:12,  4.26it/s] 54%|█████▍    | 3725/6844 [14:42<12:12,  4.26it/s]                                                   {'loss': 4.4763, 'grad_norm': 0.15938375890254974, 'learning_rate': 0.0030604405816116696, 'epoch': 0.11}
+ 54%|█████▍    | 3725/6844 [14:42<12:12,  4.26it/s] 54%|█████▍    | 3726/6844 [14:42<12:14,  4.24it/s] 54%|█████▍    | 3727/6844 [14:42<12:13,  4.25it/s] 54%|█████▍    | 3728/6844 [14:42<12:12,  4.26it/s] 54%|█████▍    | 3729/6844 [14:43<12:12,  4.25it/s] 55%|█████▍    | 3730/6844 [14:43<12:11,  4.26it/s] 55%|█████▍    | 3731/6844 [14:43<12:10,  4.26it/s] 55%|█████▍    | 3732/6844 [14:43<12:10,  4.26it/s] 55%|█████▍    | 3733/6844 [14:44<12:10,  4.26it/s] 55%|█████▍    | 3734/6844 [14:44<12:10,  4.26it/s] 55%|█████▍    | 3735/6844 [14:44<12:09,  4.26it/s] 55%|█████▍    | 3736/6844 [14:44<12:10,  4.25it/s] 55%|█████▍    | 3737/6844 [14:45<12:09,  4.26it/s] 55%|█████▍    | 3738/6844 [14:45<12:09,  4.26it/s] 55%|█████▍    | 3739/6844 [14:45<12:08,  4.26it/s] 55%|█████▍    | 3740/6844 [14:45<12:09,  4.25it/s] 55%|█████▍    | 3741/6844 [14:45<12:08,  4.26it/s] 55%|█████▍    | 3742/6844 [14:46<12:07,  4.26it/s] 55%|█████▍    | 3743/6844 [14:46<12:07,  4.26it/s] 55%|█████▍    | 3744/6844 [14:46<12:07,  4.26it/s] 55%|█████▍    | 3745/6844 [14:46<12:07,  4.26it/s] 55%|█████▍    | 3746/6844 [14:47<12:07,  4.26it/s] 55%|█████▍    | 3747/6844 [14:47<12:07,  4.26it/s] 55%|█████▍    | 3748/6844 [14:47<12:06,  4.26it/s] 55%|█████▍    | 3749/6844 [14:47<12:36,  4.09it/s] 55%|█████▍    | 3750/6844 [14:48<12:55,  3.99it/s]                                                   {'loss': 4.4711, 'grad_norm': 0.15107183158397675, 'learning_rate': 0.0030221883478611933, 'epoch': 0.11}
+ 55%|█████▍    | 3750/6844 [14:48<12:55,  3.99it/s] 55%|█████▍    | 3751/6844 [14:48<12:42,  4.05it/s] 55%|█████▍    | 3752/6844 [14:48<12:31,  4.11it/s] 55%|█████▍    | 3753/6844 [14:48<12:25,  4.15it/s] 55%|█████▍    | 3754/6844 [14:49<12:17,  4.19it/s] 55%|█████▍    | 3755/6844 [14:49<12:12,  4.21it/s] 55%|█████▍    | 3756/6844 [14:49<12:09,  4.23it/s] 55%|█████▍    | 3757/6844 [14:49<12:08,  4.24it/s] 55%|█████▍    | 3758/6844 [14:50<12:06,  4.25it/s] 55%|█████▍    | 3759/6844 [14:50<12:05,  4.25it/s] 55%|█████▍    | 3760/6844 [14:50<12:04,  4.26it/s] 55%|█████▍    | 3761/6844 [14:50<12:03,  4.26it/s] 55%|█████▍    | 3762/6844 [14:50<12:03,  4.26it/s] 55%|█████▍    | 3763/6844 [14:51<12:02,  4.26it/s] 55%|█████▍    | 3764/6844 [14:51<12:02,  4.27it/s] 55%|█████▌    | 3765/6844 [14:51<12:01,  4.27it/s] 55%|█████▌    | 3766/6844 [14:51<12:01,  4.27it/s] 55%|█████▌    | 3767/6844 [14:52<12:02,  4.26it/s] 55%|█████▌    | 3768/6844 [14:52<12:00,  4.27it/s] 55%|█████▌    | 3769/6844 [14:52<12:00,  4.27it/s] 55%|█████▌    | 3770/6844 [14:52<12:00,  4.26it/s] 55%|█████▌    | 3771/6844 [14:53<12:00,  4.27it/s] 55%|█████▌    | 3772/6844 [14:53<11:59,  4.27it/s] 55%|█████▌    | 3773/6844 [14:53<11:58,  4.27it/s] 55%|█████▌    | 3774/6844 [14:53<11:59,  4.27it/s] 55%|█████▌    | 3775/6844 [14:53<11:59,  4.27it/s]                                                   {'loss': 4.4839, 'grad_norm': 0.1369641274213791, 'learning_rate': 0.002983932506011799, 'epoch': 0.11}
+ 55%|█████▌    | 3775/6844 [14:53<11:59,  4.27it/s] 55%|█████▌    | 3776/6844 [14:54<12:02,  4.25it/s] 55%|█████▌    | 3777/6844 [14:54<12:01,  4.25it/s] 55%|█████▌    | 3778/6844 [14:54<12:00,  4.25it/s] 55%|█████▌    | 3779/6844 [14:54<12:00,  4.26it/s] 55%|█████▌    | 3780/6844 [14:55<12:00,  4.26it/s] 55%|█████▌    | 3781/6844 [14:55<11:58,  4.26it/s] 55%|█████▌    | 3782/6844 [14:55<11:58,  4.26it/s] 55%|█████▌    | 3783/6844 [14:55<11:58,  4.26it/s] 55%|█████▌    | 3784/6844 [14:56<11:58,  4.26it/s] 55%|█████▌    | 3785/6844 [14:56<11:56,  4.27it/s] 55%|█████▌    | 3786/6844 [14:56<11:56,  4.27it/s] 55%|█████▌    | 3787/6844 [14:56<11:56,  4.27it/s] 55%|█████▌    | 3788/6844 [14:57<11:57,  4.26it/s] 55%|█████▌    | 3789/6844 [14:57<11:56,  4.27it/s] 55%|█████▌    | 3790/6844 [14:57<11:57,  4.26it/s] 55%|█████▌    | 3791/6844 [14:57<11:57,  4.26it/s] 55%|█████▌    | 3792/6844 [14:57<11:57,  4.26it/s] 55%|█████▌    | 3793/6844 [14:58<11:56,  4.26it/s] 55%|█████▌    | 3794/6844 [14:58<11:56,  4.25it/s] 55%|█████▌    | 3795/6844 [14:58<11:56,  4.26it/s] 55%|█████▌    | 3796/6844 [14:58<11:56,  4.25it/s] 55%|█████▌    | 3797/6844 [14:59<11:55,  4.26it/s] 55%|█████▌    | 3798/6844 [14:59<11:56,  4.25it/s] 56%|█████▌    | 3799/6844 [14:59<11:56,  4.25it/s] 56%|█████▌    | 3800/6844 [14:59<11:56,  4.25it/s]{'loss': 4.4677, 'grad_norm': 0.16757182776927948, 'learning_rate': 0.0029456792769350214, 'epoch': 0.11}                                                   
+ 56%|█████▌    | 3800/6844 [14:59<11:56,  4.25it/s] 56%|█████▌    | 3801/6844 [15:00<11:57,  4.24it/s] 56%|█████▌    | 3802/6844 [15:00<11:55,  4.25it/s] 56%|█████▌    | 3803/6844 [15:00<11:55,  4.25it/s] 56%|█████▌    | 3804/6844 [15:00<11:53,  4.26it/s] 56%|█████▌    | 3805/6844 [15:01<11:54,  4.25it/s] 56%|█████▌    | 3806/6844 [15:01<11:53,  4.26it/s] 56%|█████▌    | 3807/6844 [15:01<11:52,  4.26it/s] 56%|█████▌    | 3808/6844 [15:01<11:52,  4.26it/s] 56%|█████▌    | 3809/6844 [15:01<11:52,  4.26it/s] 56%|█████▌    | 3810/6844 [15:02<11:52,  4.26it/s] 56%|█████▌    | 3811/6844 [15:02<11:52,  4.26it/s] 56%|█████▌    | 3812/6844 [15:02<11:52,  4.25it/s] 56%|█████▌    | 3813/6844 [15:02<11:51,  4.26it/s] 56%|█████▌    | 3814/6844 [15:03<11:50,  4.27it/s] 56%|█████▌    | 3815/6844 [15:03<11:50,  4.26it/s] 56%|█████▌    | 3816/6844 [15:03<11:48,  4.27it/s] 56%|█████▌    | 3817/6844 [15:03<11:49,  4.27it/s] 56%|█████▌    | 3818/6844 [15:04<11:50,  4.26it/s] 56%|█████▌    | 3819/6844 [15:04<11:50,  4.26it/s] 56%|█████▌    | 3820/6844 [15:04<11:49,  4.26it/s] 56%|█████▌    | 3821/6844 [15:04<11:49,  4.26it/s] 56%|█████▌    | 3822/6844 [15:05<11:48,  4.26it/s] 56%|█████▌    | 3823/6844 [15:05<11:49,  4.26it/s] 56%|█████▌    | 3824/6844 [15:05<11:48,  4.26it/s] 56%|█████▌    | 3825/6844 [15:05<11:48,  4.26it/s]{'loss': 4.4775, 'grad_norm': 0.14852973818778992, 'learning_rate': 0.002907434881077519, 'epoch': 0.11}
+                                                    56%|█████▌    | 3825/6844 [15:05<11:48,  4.26it/s] 56%|█████▌    | 3826/6844 [15:05<11:50,  4.25it/s] 56%|█████▌    | 3827/6844 [15:06<11:49,  4.25it/s] 56%|█████▌    | 3828/6844 [15:06<11:49,  4.25it/s] 56%|█████▌    | 3829/6844 [15:06<11:50,  4.25it/s] 56%|█████▌    | 3830/6844 [15:06<11:50,  4.24it/s] 56%|█████▌    | 3831/6844 [15:07<11:49,  4.25it/s] 56%|█████▌    | 3832/6844 [15:07<11:48,  4.25it/s] 56%|█████▌    | 3833/6844 [15:07<11:47,  4.25it/s] 56%|█████▌    | 3834/6844 [15:07<11:46,  4.26it/s] 56%|█████▌    | 3835/6844 [15:08<11:45,  4.26it/s] 56%|█████▌    | 3836/6844 [15:08<11:46,  4.26it/s] 56%|█████▌    | 3837/6844 [15:08<11:45,  4.26it/s] 56%|█████▌    | 3838/6844 [15:08<11:44,  4.27it/s] 56%|█████▌    | 3839/6844 [15:09<11:44,  4.26it/s] 56%|█████▌    | 3840/6844 [15:09<11:44,  4.27it/s] 56%|█████▌    | 3841/6844 [15:09<11:44,  4.26it/s] 56%|█████▌    | 3842/6844 [15:09<11:44,  4.26it/s] 56%|█████▌    | 3843/6844 [15:09<11:44,  4.26it/s] 56%|█████▌    | 3844/6844 [15:10<11:44,  4.26it/s] 56%|█████▌    | 3845/6844 [15:10<11:44,  4.25it/s] 56%|█████▌    | 3846/6844 [15:10<11:43,  4.26it/s] 56%|█████▌    | 3847/6844 [15:10<11:43,  4.26it/s] 56%|█████▌    | 3848/6844 [15:11<11:42,  4.27it/s] 56%|█████▌    | 3849/6844 [15:11<11:41,  4.27it/s] 56%|█████▋    | 3850/6844 [15:11<11:42,  4.26it/s]                                                   {'loss': 4.4734, 'grad_norm': 0.14273488521575928, 'learning_rate': 0.002869205537449566, 'epoch': 0.11}
+ 56%|█████▋    | 3850/6844 [15:11<11:42,  4.26it/s] 56%|█████▋    | 3851/6844 [15:11<11:43,  4.25it/s] 56%|█████▋    | 3852/6844 [15:12<11:43,  4.25it/s] 56%|��████▋    | 3853/6844 [15:12<11:42,  4.25it/s] 56%|█████▋    | 3854/6844 [15:12<11:43,  4.25it/s] 56%|█████▋    | 3855/6844 [15:12<11:41,  4.26it/s] 56%|█████▋    | 3856/6844 [15:13<11:40,  4.26it/s] 56%|█████▋    | 3857/6844 [15:13<11:42,  4.25it/s] 56%|█████▋    | 3858/6844 [15:13<11:41,  4.26it/s] 56%|█████▋    | 3859/6844 [15:13<11:40,  4.26it/s] 56%|█████▋    | 3860/6844 [15:13<11:40,  4.26it/s] 56%|█████▋    | 3861/6844 [15:14<11:39,  4.26it/s] 56%|█████▋    | 3862/6844 [15:14<11:40,  4.26it/s] 56%|█████▋    | 3863/6844 [15:14<11:39,  4.26it/s] 56%|█████▋    | 3864/6844 [15:14<11:39,  4.26it/s] 56%|█████▋    | 3865/6844 [15:15<11:39,  4.26it/s] 56%|█████▋    | 3866/6844 [15:15<11:39,  4.26it/s] 57%|█████▋    | 3867/6844 [15:15<11:38,  4.26it/s] 57%|█████▋    | 3868/6844 [15:15<11:37,  4.26it/s] 57%|█████▋    | 3869/6844 [15:16<11:37,  4.27it/s] 57%|█████▋    | 3870/6844 [15:16<11:37,  4.26it/s] 57%|█████▋    | 3871/6844 [15:16<11:37,  4.26it/s] 57%|█████▋    | 3872/6844 [15:16<11:38,  4.26it/s] 57%|█████▋    | 3873/6844 [15:17<11:37,  4.26it/s] 57%|█████▋    | 3874/6844 [15:17<11:37,  4.26it/s] 57%|█████▋    | 3875/6844 [15:17<11:36,  4.27it/s]                                                   {'loss': 4.4598, 'grad_norm': 0.1560913622379303, 'learning_rate': 0.002830997462613755, 'epoch': 0.11}
+ 57%|█████▋    | 3875/6844 [15:17<11:36,  4.27it/s] 57%|█████▋    | 3876/6844 [15:17<11:39,  4.25it/s] 57%|█████▋    | 3877/6844 [15:17<11:40,  4.23it/s] 57%|█████▋    | 3878/6844 [15:18<12:06,  4.08it/s] 57%|█████▋    | 3879/6844 [15:18<11:57,  4.13it/s] 57%|█████▋    | 3880/6844 [15:18<11:50,  4.17it/s] 57%|█████▋    | 3881/6844 [15:18<11:47,  4.19it/s] 57%|█████▋    | 3882/6844 [15:19<11:44,  4.20it/s] 57%|█████▋    | 3883/6844 [15:19<11:42,  4.22it/s] 57%|█████▋    | 3884/6844 [15:19<11:39,  4.23it/s] 57%|█████▋    | 3885/6844 [15:19<11:38,  4.24it/s] 57%|█████▋    | 3886/6844 [15:20<11:36,  4.24it/s] 57%|█████▋    | 3887/6844 [15:20<11:36,  4.25it/s] 57%|█████▋    | 3888/6844 [15:20<11:35,  4.25it/s] 57%|█████▋    | 3889/6844 [15:20<11:34,  4.26it/s] 57%|█████▋    | 3890/6844 [15:21<11:33,  4.26it/s] 57%|█████▋    | 3891/6844 [15:21<11:33,  4.26it/s] 57%|█████▋    | 3892/6844 [15:21<11:33,  4.26it/s] 57%|█████▋    | 3893/6844 [15:21<11:33,  4.26it/s] 57%|█████▋    | 3894/6844 [15:21<11:31,  4.27it/s] 57%|█████▋    | 3895/6844 [15:22<11:32,  4.26it/s] 57%|█████▋    | 3896/6844 [15:22<11:32,  4.26it/s] 57%|█████▋    | 3897/6844 [15:22<11:31,  4.26it/s] 57%|█████▋    | 3898/6844 [15:22<11:31,  4.26it/s] 57%|█████▋    | 3899/6844 [15:23<11:31,  4.26it/s] 57%|█████▋    | 3900/6844 [15:23<11:30,  4.26it/s]                                                   {'loss': 4.4707, 'grad_norm': 0.1801382303237915, 'learning_rate': 0.0027928168696741136, 'epoch': 0.11}
+ 57%|█████▋    | 3900/6844 [15:23<11:30,  4.26it/s] 57%|█████▋    | 3901/6844 [15:23<11:37,  4.22it/s] 57%|█████▋    | 3902/6844 [15:23<11:35,  4.23it/s] 57%|█████▋    | 3903/6844 [15:24<11:33,  4.24it/s] 57%|█████▋    | 3904/6844 [15:24<11:32,  4.25it/s] 57%|█████▋    | 3905/6844 [15:24<11:31,  4.25it/s] 57%|█████▋    | 3906/6844 [15:24<11:31,  4.25it/s] 57%|█████▋    | 3907/6844 [15:25<11:29,  4.26it/s] 57%|█████▋    | 3908/6844 [15:25<11:28,  4.26it/s] 57%|█████▋    | 3909/6844 [15:25<11:28,  4.27it/s] 57%|█████▋    | 3910/6844 [15:25<11:27,  4.27it/s] 57%|█████▋    | 3911/6844 [15:25<11:27,  4.27it/s] 57%|█████▋    | 3912/6844 [15:26<11:28,  4.26it/s] 57%|█████▋    | 3913/6844 [15:26<11:27,  4.26it/s] 57%|█████▋    | 3914/6844 [15:26<11:27,  4.26it/s] 57%|█████▋    | 3915/6844 [15:26<11:26,  4.27it/s] 57%|█████▋    | 3916/6844 [15:27<11:26,  4.26it/s] 57%|█████▋    | 3917/6844 [15:27<11:26,  4.27it/s] 57%|█████▋    | 3918/6844 [15:27<11:26,  4.26it/s] 57%|█████▋    | 3919/6844 [15:27<11:26,  4.26it/s] 57%|█████▋    | 3920/6844 [15:28<11:25,  4.26it/s] 57%|█████▋    | 3921/6844 [15:28<11:25,  4.27it/s] 57%|█████▋    | 3922/6844 [15:28<11:25,  4.26it/s] 57%|█████▋    | 3923/6844 [15:28<11:25,  4.26it/s] 57%|█████▋    | 3924/6844 [15:29<11:26,  4.26it/s] 57%|█████▋    | 3925/6844 [15:29<11:25,  4.26it/s]                                                   {'loss': 4.4634, 'grad_norm': 0.1460041105747223, 'learning_rate': 0.002754669967265771, 'epoch': 0.11}
+ 57%|█████▋    | 3925/6844 [15:29<11:25,  4.26it/s] 57%|█████▋    | 3926/6844 [15:29<11:26,  4.25it/s] 57%|█████▋    | 3927/6844 [15:29<11:25,  4.25it/s] 57%|█████▋    | 3928/6844 [15:29<11:24,  4.26it/s] 57%|█████▋    | 3929/6844 [15:30<11:23,  4.27it/s] 57%|█████▋    | 3930/6844 [15:30<11:23,  4.26it/s] 57%|█████▋    | 3931/6844 [15:30<11:23,  4.26it/s] 57%|█████▋    | 3932/6844 [15:30<11:23,  4.26it/s] 57%|█████▋    | 3933/6844 [15:31<11:23,  4.26it/s] 57%|█████▋    | 3934/6844 [15:31<11:22,  4.26it/s] 57%|█████▋    | 3935/6844 [15:31<11:22,  4.26it/s] 58%|█████▊    | 3936/6844 [15:31<11:22,  4.26it/s] 58%|█████▊    | 3937/6844 [15:32<11:21,  4.26it/s] 58%|█████▊    | 3938/6844 [15:32<11:21,  4.26it/s] 58%|█████▊    | 3939/6844 [15:32<11:21,  4.26it/s] 58%|█████▊    | 3940/6844 [15:32<11:21,  4.26it/s] 58%|█████▊    | 3941/6844 [15:33<11:20,  4.27it/s] 58%|█████▊    | 3942/6844 [15:33<11:19,  4.27it/s] 58%|█████▊    | 3943/6844 [15:33<11:21,  4.26it/s] 58%|█████▊    | 3944/6844 [15:33<11:21,  4.26it/s] 58%|█████▊    | 3945/6844 [15:33<11:20,  4.26it/s] 58%|█████▊    | 3946/6844 [15:34<11:19,  4.26it/s] 58%|█████▊    | 3947/6844 [15:34<11:18,  4.27it/s] 58%|█████▊    | 3948/6844 [15:34<11:17,  4.27it/s] 58%|█████▊    | 3949/6844 [15:34<11:17,  4.27it/s] 58%|█████▊    | 3950/6844 [15:35<11:18,  4.27it/s]{'loss': 4.4683, 'grad_norm': 0.1453249603509903, 'learning_rate': 0.002716562958545363, 'epoch': 0.12}                                                   
+ 58%|█████▊    | 3950/6844 [15:35<11:18,  4.27it/s] 58%|█████▊    | 3951/6844 [15:35<11:19,  4.26it/s] 58%|█████▊    | 3952/6844 [15:35<11:18,  4.26it/s] 58%|█████▊    | 3953/6844 [15:35<11:18,  4.26it/s] 58%|█████▊    | 3954/6844 [15:36<11:17,  4.26it/s] 58%|█████▊    | 3955/6844 [15:36<11:16,  4.27it/s] 58%|█████▊    | 3956/6844 [15:36<11:17,  4.27it/s] 58%|█████▊    | 3957/6844 [15:36<11:17,  4.26it/s] 58%|█████▊    | 3958/6844 [15:36<11:16,  4.26it/s] 58%|█████▊    | 3959/6844 [15:37<11:15,  4.27it/s] 58%|█████▊    | 3960/6844 [15:37<11:16,  4.27it/s] 58%|█████▊    | 3961/6844 [15:37<11:16,  4.26it/s] 58%|█████▊    | 3962/6844 [15:37<11:16,  4.26it/s] 58%|█████▊    | 3963/6844 [15:38<11:15,  4.27it/s] 58%|█████▊    | 3964/6844 [15:38<11:16,  4.26it/s] 58%|█████▊    | 3965/6844 [15:38<11:16,  4.25it/s] 58%|█████▊    | 3966/6844 [15:38<11:16,  4.26it/s] 58%|█████▊    | 3967/6844 [15:39<11:15,  4.26it/s] 58%|█████▊    | 3968/6844 [15:39<11:14,  4.27it/s] 58%|█████▊    | 3969/6844 [15:39<11:13,  4.27it/s] 58%|█████▊    | 3970/6844 [15:39<11:12,  4.27it/s] 58%|█████▊    | 3971/6844 [15:40<11:13,  4.27it/s] 58%|█████▊    | 3972/6844 [15:40<11:12,  4.27it/s] 58%|█████▊    | 3973/6844 [15:40<11:12,  4.27it/s] 58%|█████▊    | 3974/6844 [15:40<11:12,  4.27it/s] 58%|█████▊    | 3975/6844 [15:40<11:12,  4.27it/s]{'loss': 4.4554, 'grad_norm': 0.13937139511108398, 'learning_rate': 0.0026785020401823194, 'epoch': 0.12}
+                                                    58%|█████▊    | 3975/6844 [15:40<11:12,  4.27it/s] 58%|█████▊    | 3976/6844 [15:41<11:14,  4.25it/s] 58%|█████▊    | 3977/6844 [15:41<11:13,  4.26it/s] 58%|█████▊    | 3978/6844 [15:41<11:12,  4.26it/s] 58%|█████▊    | 3979/6844 [15:41<11:12,  4.26it/s] 58%|█████▊    | 3980/6844 [15:42<11:10,  4.27it/s] 58%|█████▊    | 3981/6844 [15:42<11:09,  4.27it/s] 58%|█████▊    | 3982/6844 [15:42<11:10,  4.27it/s] 58%|█████▊    | 3983/6844 [15:42<11:10,  4.27it/s] 58%|█████▊    | 3984/6844 [15:43<11:10,  4.26it/s] 58%|█████▊    | 3985/6844 [15:43<11:11,  4.26it/s] 58%|█████▊    | 3986/6844 [15:43<11:10,  4.26it/s] 58%|█████▊    | 3987/6844 [15:43<11:11,  4.25it/s] 58%|█████▊    | 3988/6844 [15:44<11:10,  4.26it/s] 58%|█████▊    | 3989/6844 [15:44<11:10,  4.26it/s] 58%|█████▊    | 3990/6844 [15:44<11:09,  4.26it/s] 58%|█████▊    | 3991/6844 [15:44<11:08,  4.26it/s] 58%|█████▊    | 3992/6844 [15:44<11:07,  4.27it/s] 58%|█████▊    | 3993/6844 [15:45<11:08,  4.27it/s] 58%|█████▊    | 3994/6844 [15:45<11:07,  4.27it/s] 58%|█████▊    | 3995/6844 [15:45<11:08,  4.26it/s] 58%|█████▊    | 3996/6844 [15:45<11:08,  4.26it/s] 58%|█████▊    | 3997/6844 [15:46<11:07,  4.26it/s] 58%|█████▊    | 3998/6844 [15:46<11:07,  4.26it/s] 58%|█████▊    | 3999/6844 [15:46<11:07,  4.26it/s] 58%|█████▊    | 4000/6844 [15:46<11:06,  4.27it/s]{'loss': 4.4512, 'grad_norm': 0.1554594486951828, 'learning_rate': 0.0026404934013512095, 'epoch': 0.12}
+                                                    58%|█████▊    | 4000/6844 [15:46<11:06,  4.27it/s] 58%|█████▊    | 4001/6844 [15:47<11:07,  4.26it/s] 58%|█████▊    | 4002/6844 [15:47<11:07,  4.26it/s] 58%|█████▊    | 4003/6844 [15:47<11:06,  4.26it/s] 59%|█████▊    | 4004/6844 [15:47<11:06,  4.26it/s] 59%|█████▊    | 4005/6844 [15:48<11:37,  4.07it/s] 59%|█████▊    | 4006/6844 [15:48<11:28,  4.12it/s] 59%|█████▊    | 4007/6844 [15:48<11:20,  4.17it/s] 59%|█████▊    | 4008/6844 [15:48<11:15,  4.20it/s] 59%|█████▊    | 4009/6844 [15:48<11:11,  4.22it/s] 59%|█████▊    | 4010/6844 [15:49<11:09,  4.23it/s] 59%|█████▊    | 4011/6844 [15:49<11:08,  4.24it/s] 59%|█████▊    | 4012/6844 [15:49<11:06,  4.25it/s] 59%|█████▊    | 4013/6844 [15:49<11:05,  4.25it/s] 59%|█████▊    | 4014/6844 [15:50<11:04,  4.26it/s] 59%|█████▊    | 4015/6844 [15:50<11:04,  4.26it/s] 59%|█████▊    | 4016/6844 [15:50<11:03,  4.26it/s] 59%|█████▊    | 4017/6844 [15:50<11:02,  4.26it/s] 59%|█████▊    | 4018/6844 [15:51<11:02,  4.27it/s] 59%|█████▊    | 4019/6844 [15:51<11:01,  4.27it/s] 59%|█████▊    | 4020/6844 [15:51<11:01,  4.27it/s] 59%|█████▉    | 4021/6844 [15:51<11:01,  4.27it/s] 59%|█████▉    | 4022/6844 [15:52<11:01,  4.27it/s] 59%|█████▉    | 4023/6844 [15:52<11:01,  4.27it/s] 59%|█████▉    | 4024/6844 [15:52<11:01,  4.27it/s] 59%|█████▉    | 4025/6844 [15:52<11:00,  4.27it/s]                                                   {'loss': 4.4466, 'grad_norm': 0.18574051558971405, 'learning_rate': 0.002602543222725306, 'epoch': 0.12}
+ 59%|█████▉    | 4025/6844 [15:52<11:00,  4.27it/s] 59%|█████▉    | 4026/6844 [15:52<11:01,  4.26it/s] 59%|█████▉    | 4027/6844 [15:53<11:01,  4.26it/s] 59%|█████▉    | 4028/6844 [15:53<11:00,  4.26it/s] 59%|█████▉    | 4029/6844 [15:53<11:00,  4.26it/s] 59%|█████▉    | 4030/6844 [15:53<10:59,  4.27it/s] 59%|█████▉    | 4031/6844 [15:54<10:59,  4.27it/s] 59%|█████▉    | 4032/6844 [15:54<10:59,  4.26it/s] 59%|█████▉    | 4033/6844 [15:54<10:59,  4.26it/s] 59%|█████▉    | 4034/6844 [15:54<10:58,  4.26it/s] 59%|█████▉    | 4035/6844 [15:55<10:58,  4.27it/s] 59%|█████▉    | 4036/6844 [15:55<10:58,  4.27it/s] 59%|█████▉    | 4037/6844 [15:55<10:58,  4.26it/s] 59%|█████▉    | 4038/6844 [15:55<10:58,  4.26it/s] 59%|█████▉    | 4039/6844 [15:56<10:57,  4.26it/s] 59%|█████▉    | 4040/6844 [15:56<10:57,  4.26it/s] 59%|█████▉    | 4041/6844 [15:56<10:57,  4.26it/s] 59%|█████▉    | 4042/6844 [15:56<10:57,  4.26it/s] 59%|█████▉    | 4043/6844 [15:56<10:57,  4.26it/s] 59%|█████▉    | 4044/6844 [15:57<10:56,  4.26it/s] 59%|█████▉    | 4045/6844 [15:57<10:55,  4.27it/s] 59%|█████▉    | 4046/6844 [15:57<10:55,  4.27it/s] 59%|█████▉    | 4047/6844 [15:57<10:56,  4.26it/s] 59%|█████▉    | 4048/6844 [15:58<10:55,  4.26it/s] 59%|█████▉    | 4049/6844 [15:58<10:55,  4.26it/s] 59%|█████▉    | 4050/6844 [15:58<10:55,  4.26it/s]                                                   {'loss': 4.4522, 'grad_norm': 0.14195430278778076, 'learning_rate': 0.002564657675471532, 'epoch': 0.12}
+ 59%|█████▉    | 4050/6844 [15:58<10:55,  4.26it/s] 59%|█████▉    | 4051/6844 [15:58<10:56,  4.25it/s] 59%|█████▉    | 4052/6844 [15:59<10:56,  4.26it/s] 59%|█████▉    | 4053/6844 [15:59<10:55,  4.26it/s] 59%|█████▉    | 4054/6844 [15:59<10:56,  4.25it/s] 59%|█████▉    | 4055/6844 [15:59<10:54,  4.26it/s] 59%|█████▉    | 4056/6844 [16:00<10:54,  4.26it/s] 59%|█████▉    | 4057/6844 [16:00<10:53,  4.26it/s] 59%|█████▉    | 4058/6844 [16:00<10:53,  4.26it/s] 59%|█████▉    | 4059/6844 [16:00<10:53,  4.26it/s] 59%|█████▉    | 4060/6844 [16:00<10:53,  4.26it/s] 59%|█████▉    | 4061/6844 [16:01<10:53,  4.26it/s] 59%|█████▉    | 4062/6844 [16:01<10:52,  4.27it/s] 59%|█████▉    | 4063/6844 [16:01<10:51,  4.27it/s] 59%|█████▉    | 4064/6844 [16:01<10:51,  4.27it/s] 59%|█████▉    | 4065/6844 [16:02<10:51,  4.27it/s] 59%|█████▉    | 4066/6844 [16:02<10:51,  4.27it/s] 59%|█████▉    | 4067/6844 [16:02<10:50,  4.27it/s] 59%|█████▉    | 4068/6844 [16:02<10:51,  4.26it/s] 59%|█████▉    | 4069/6844 [16:03<10:51,  4.26it/s] 59%|█████▉    | 4070/6844 [16:03<10:52,  4.25it/s] 59%|█████▉    | 4071/6844 [16:03<10:50,  4.26it/s] 59%|█████▉    | 4072/6844 [16:03<10:50,  4.26it/s] 60%|█████▉    | 4073/6844 [16:04<10:48,  4.27it/s] 60%|█████▉    | 4074/6844 [16:04<10:48,  4.27it/s] 60%|█████▉    | 4075/6844 [16:04<10:48,  4.27it/s]                                                   {'loss': 4.4503, 'grad_norm': 0.16137877106666565, 'learning_rate': 0.002526842920246953, 'epoch': 0.12}
+ 60%|█████▉    | 4075/6844 [16:04<10:48,  4.27it/s] 60%|█████▉    | 4076/6844 [16:04<10:49,  4.26it/s] 60%|█████▉    | 4077/6844 [16:04<10:49,  4.26it/s] 60%|█████▉    | 4078/6844 [16:05<10:48,  4.26it/s] 60%|█████▉    | 4079/6844 [16:05<10:48,  4.26it/s] 60%|█████▉    | 4080/6844 [16:05<10:47,  4.27it/s] 60%|█████▉    | 4081/6844 [16:05<10:48,  4.26it/s] 60%|█████▉    | 4082/6844 [16:06<10:47,  4.27it/s] 60%|█████▉    | 4083/6844 [16:06<10:46,  4.27it/s] 60%|█████▉    | 4084/6844 [16:06<10:46,  4.27it/s] 60%|█████▉    | 4085/6844 [16:06<10:47,  4.26it/s] 60%|█████▉    | 4086/6844 [16:07<10:46,  4.26it/s] 60%|█████▉    | 4087/6844 [16:07<10:46,  4.27it/s] 60%|█████▉    | 4088/6844 [16:07<10:46,  4.27it/s] 60%|█████▉    | 4089/6844 [16:07<10:46,  4.26it/s] 60%|█████▉    | 4090/6844 [16:07<10:45,  4.26it/s] 60%|█████▉    | 4091/6844 [16:08<10:45,  4.26it/s] 60%|█████▉    | 4092/6844 [16:08<10:44,  4.27it/s] 60%|█████▉    | 4093/6844 [16:08<10:44,  4.27it/s] 60%|█████▉    | 4094/6844 [16:08<10:43,  4.27it/s] 60%|█████▉    | 4095/6844 [16:09<10:43,  4.27it/s] 60%|█████▉    | 4096/6844 [16:09<10:43,  4.27it/s] 60%|█████▉    | 4097/6844 [16:09<10:43,  4.27it/s] 60%|█████▉    | 4098/6844 [16:09<10:43,  4.27it/s] 60%|█████▉    | 4099/6844 [16:10<10:43,  4.27it/s] 60%|█████▉    | 4100/6844 [16:10<10:42,  4.27it/s]                                                   {'loss': 4.451, 'grad_norm': 0.15122002363204956, 'learning_rate': 0.002489105106196974, 'epoch': 0.12}
+ 60%|█████▉    | 4100/6844 [16:10<10:42,  4.27it/s] 60%|█████▉    | 4101/6844 [16:10<10:45,  4.25it/s] 60%|█████▉    | 4102/6844 [16:10<10:44,  4.26it/s] 60%|█████▉    | 4103/6844 [16:11<10:43,  4.26it/s] 60%|█████▉    | 4104/6844 [16:11<10:42,  4.26it/s] 60%|█████▉    | 4105/6844 [16:11<10:42,  4.27it/s] 60%|█████▉    | 4106/6844 [16:11<10:42,  4.26it/s] 60%|██████    | 4107/6844 [16:11<10:42,  4.26it/s] 60%|██████    | 4108/6844 [16:12<10:41,  4.26it/s] 60%|██████    | 4109/6844 [16:12<10:41,  4.26it/s] 60%|██████    | 4110/6844 [16:12<10:41,  4.27it/s] 60%|██████    | 4111/6844 [16:12<10:41,  4.26it/s] 60%|██████    | 4112/6844 [16:13<10:40,  4.26it/s] 60%|██████    | 4113/6844 [16:13<10:40,  4.26it/s] 60%|██████    | 4114/6844 [16:13<10:40,  4.26it/s] 60%|██████    | 4115/6844 [16:13<10:39,  4.27it/s] 60%|██████    | 4116/6844 [16:14<10:39,  4.27it/s] 60%|██████    | 4117/6844 [16:14<10:40,  4.26it/s] 60%|██████    | 4118/6844 [16:14<10:39,  4.26it/s] 60%|██████    | 4119/6844 [16:14<10:38,  4.27it/s] 60%|██████    | 4120/6844 [16:15<10:38,  4.26it/s] 60%|██████    | 4121/6844 [16:15<10:38,  4.27it/s] 60%|██████    | 4122/6844 [16:15<10:37,  4.27it/s] 60%|██████    | 4123/6844 [16:15<10:37,  4.27it/s] 60%|██████    | 4124/6844 [16:15<10:38,  4.26it/s] 60%|██████    | 4125/6844 [16:16<10:38,  4.26it/s]{'loss': 4.445, 'grad_norm': 0.15301524102687836, 'learning_rate': 0.0024514503699554235, 'epoch': 0.12}
+                                                    60%|██████    | 4125/6844 [16:16<10:38,  4.26it/s] 60%|██████    | 4126/6844 [16:16<10:38,  4.25it/s] 60%|██████    | 4127/6844 [16:16<10:39,  4.25it/s] 60%|██████    | 4128/6844 [16:16<10:38,  4.25it/s] 60%|██████    | 4129/6844 [16:17<10:37,  4.26it/s] 60%|██████    | 4130/6844 [16:17<10:37,  4.26it/s] 60%|██████    | 4131/6844 [16:17<10:36,  4.26it/s] 60%|██████    | 4132/6844 [16:17<11:03,  4.08it/s] 60%|██████    | 4133/6844 [16:18<11:25,  3.96it/s] 60%|██████    | 4134/6844 [16:18<11:32,  3.91it/s] 60%|██████    | 4135/6844 [16:18<11:39,  3.87it/s] 60%|██████    | 4136/6844 [16:18<11:31,  3.92it/s] 60%|██████    | 4137/6844 [16:19<11:13,  4.02it/s] 60%|██████    | 4138/6844 [16:19<11:02,  4.08it/s] 60%|██████    | 4139/6844 [16:19<10:53,  4.14it/s] 60%|██████    | 4140/6844 [16:19<10:47,  4.17it/s] 61%|██████    | 4141/6844 [16:20<10:42,  4.20it/s] 61%|██████    | 4142/6844 [16:20<10:39,  4.23it/s] 61%|██████    | 4143/6844 [16:20<10:37,  4.24it/s] 61%|██████    | 4144/6844 [16:20<10:35,  4.25it/s] 61%|██████    | 4145/6844 [16:21<10:33,  4.26it/s] 61%|██████    | 4146/6844 [16:21<10:33,  4.26it/s] 61%|██████    | 4147/6844 [16:21<10:34,  4.25it/s] 61%|██████    | 4148/6844 [16:21<10:32,  4.26it/s] 61%|██████    | 4149/6844 [16:21<10:31,  4.27it/s] 61%|██████    | 4150/6844 [16:22<10:31,  4.27it/s]{'loss': 4.4479, 'grad_norm': 0.159125417470932, 'learning_rate': 0.0024138848346466468, 'epoch': 0.12}
+                                                    61%|██████    | 4150/6844 [16:22<10:31,  4.27it/s] 61%|██████    | 4151/6844 [16:22<10:33,  4.25it/s] 61%|██████    | 4152/6844 [16:22<10:47,  4.16it/s] 61%|██████    | 4153/6844 [16:22<10:42,  4.19it/s] 61%|██████    | 4154/6844 [16:23<10:39,  4.21it/s] 61%|██████    | 4155/6844 [16:23<10:36,  4.23it/s] 61%|██████    | 4156/6844 [16:23<10:34,  4.24it/s] 61%|██████    | 4157/6844 [16:23<10:34,  4.24it/s] 61%|██████    | 4158/6844 [16:24<10:33,  4.24it/s] 61%|██████    | 4159/6844 [16:24<10:32,  4.24it/s] 61%|██████    | 4160/6844 [16:24<10:31,  4.25it/s] 61%|██████    | 4161/6844 [16:24<10:31,  4.25it/s] 61%|██████    | 4162/6844 [16:25<10:30,  4.26it/s] 61%|██████    | 4163/6844 [16:25<10:29,  4.26it/s] 61%|██████    | 4164/6844 [16:25<10:29,  4.26it/s] 61%|██████    | 4165/6844 [16:25<10:31,  4.24it/s] 61%|██████    | 4166/6844 [16:25<10:30,  4.25it/s] 61%|██████    | 4167/6844 [16:26<10:28,  4.26it/s] 61%|██████    | 4168/6844 [16:26<10:29,  4.25it/s] 61%|██████    | 4169/6844 [16:26<10:28,  4.25it/s] 61%|██████    | 4170/6844 [16:26<10:28,  4.25it/s] 61%|██████    | 4171/6844 [16:27<10:28,  4.25it/s] 61%|██████    | 4172/6844 [16:27<10:27,  4.26it/s] 61%|██████    | 4173/6844 [16:27<10:26,  4.26it/s] 61%|██████    | 4174/6844 [16:27<10:27,  4.26it/s] 61%|██████    | 4175/6844 [16:28<10:27,  4.25it/s]                                                   {'loss': 4.4368, 'grad_norm': 0.15246126055717468, 'learning_rate': 0.0023764146088898234, 'epoch': 0.12}
+ 61%|██████    | 4175/6844 [16:28<10:27,  4.25it/s] 61%|██████    | 4176/6844 [16:28<10:29,  4.24it/s] 61%|██████    | 4177/6844 [16:28<10:27,  4.25it/s] 61%|██████    | 4178/6844 [16:28<10:26,  4.25it/s] 61%|██████    | 4179/6844 [16:29<10:25,  4.26it/s] 61%|██████    | 4180/6844 [16:29<10:25,  4.26it/s] 61%|██████    | 4181/6844 [16:29<10:24,  4.26it/s] 61%|██████    | 4182/6844 [16:29<10:25,  4.25it/s] 61%|██████    | 4183/6844 [16:29<10:24,  4.26it/s] 61%|██████    | 4184/6844 [16:30<10:24,  4.26it/s] 61%|██████    | 4185/6844 [16:30<10:23,  4.27it/s] 61%|██████    | 4186/6844 [16:30<10:22,  4.27it/s] 61%|██████    | 4187/6844 [16:30<10:21,  4.27it/s] 61%|██████    | 4188/6844 [16:31<10:22,  4.27it/s] 61%|██████    | 4189/6844 [16:31<10:23,  4.26it/s] 61%|██████    | 4190/6844 [16:31<10:22,  4.26it/s] 61%|██████    | 4191/6844 [16:31<10:22,  4.26it/s] 61%|██████▏   | 4192/6844 [16:32<10:22,  4.26it/s] 61%|██████▏   | 4193/6844 [16:32<10:22,  4.26it/s] 61%|██████▏   | 4194/6844 [16:32<10:21,  4.26it/s] 61%|██████▏   | 4195/6844 [16:32<10:20,  4.27it/s] 61%|██████▏   | 4196/6844 [16:33<10:20,  4.26it/s] 61%|██████▏   | 4197/6844 [16:33<10:20,  4.27it/s] 61%|██████▏   | 4198/6844 [16:33<10:19,  4.27it/s] 61%|██████▏   | 4199/6844 [16:33<10:20,  4.26it/s] 61%|██████▏   | 4200/6844 [16:33<10:20,  4.26it/s]                                                   {'loss': 4.4356, 'grad_norm': 0.15507078170776367, 'learning_rate': 0.0023390457858056208, 'epoch': 0.12}
+ 61%|██████▏   | 4200/6844 [16:33<10:20,  4.26it/s] 61%|██████▏   | 4201/6844 [16:34<10:21,  4.25it/s] 61%|██████▏   | 4202/6844 [16:34<10:21,  4.25it/s] 61%|██████▏   | 4203/6844 [16:34<10:21,  4.25it/s] 61%|██████▏   | 4204/6844 [16:34<10:20,  4.26it/s] 61%|██████▏   | 4205/6844 [16:35<10:19,  4.26it/s] 61%|██████▏   | 4206/6844 [16:35<10:19,  4.26it/s] 61%|██████▏   | 4207/6844 [16:35<10:19,  4.26it/s] 61%|██████▏   | 4208/6844 [16:35<10:18,  4.26it/s] 61%|██████▏   | 4209/6844 [16:36<10:17,  4.27it/s] 62%|██████▏   | 4210/6844 [16:36<10:17,  4.26it/s] 62%|██████▏   | 4211/6844 [16:36<10:17,  4.27it/s] 62%|██████▏   | 4212/6844 [16:36<10:16,  4.27it/s] 62%|██████▏   | 4213/6844 [16:37<10:17,  4.26it/s] 62%|██████▏   | 4214/6844 [16:37<10:18,  4.25it/s] 62%|██████▏   | 4215/6844 [16:37<10:17,  4.26it/s] 62%|██████▏   | 4216/6844 [16:37<10:16,  4.27it/s] 62%|██████▏   | 4217/6844 [16:37<10:15,  4.26it/s] 62%|██████▏   | 4218/6844 [16:38<10:15,  4.27it/s] 62%|██████▏   | 4219/6844 [16:38<10:15,  4.27it/s] 62%|██████▏   | 4220/6844 [16:38<10:15,  4.27it/s] 62%|██████▏   | 4221/6844 [16:38<10:13,  4.27it/s] 62%|██████▏   | 4222/6844 [16:39<10:13,  4.27it/s] 62%|██████▏   | 4223/6844 [16:39<10:13,  4.27it/s] 62%|██████▏   | 4224/6844 [16:39<10:14,  4.26it/s] 62%|██████▏   | 4225/6844 [16:39<10:14,  4.26it/s]                                                   {'loss': 4.4347, 'grad_norm': 0.1614111214876175, 'learning_rate': 0.002301784442025384, 'epoch': 0.12}
+ 62%|██████▏   | 4225/6844 [16:39<10:14,  4.26it/s] 62%|██████▏   | 4226/6844 [16:40<10:15,  4.26it/s] 62%|██████▏   | 4227/6844 [16:40<10:14,  4.26it/s] 62%|██████▏   | 4228/6844 [16:40<10:14,  4.26it/s] 62%|██████▏   | 4229/6844 [16:40<10:13,  4.26it/s] 62%|██████▏   | 4230/6844 [16:41<10:13,  4.26it/s] 62%|██████▏   | 4231/6844 [16:41<10:12,  4.27it/s] 62%|██████▏   | 4232/6844 [16:41<10:12,  4.27it/s] 62%|██████▏   | 4233/6844 [16:41<10:11,  4.27it/s] 62%|██████▏   | 4234/6844 [16:41<10:13,  4.26it/s] 62%|██████▏   | 4235/6844 [16:42<10:12,  4.26it/s] 62%|██████▏   | 4236/6844 [16:42<10:12,  4.26it/s] 62%|██████▏   | 4237/6844 [16:42<10:11,  4.27it/s] 62%|██████▏   | 4238/6844 [16:42<10:10,  4.27it/s] 62%|██████▏   | 4239/6844 [16:43<10:09,  4.27it/s] 62%|██████▏   | 4240/6844 [16:43<10:10,  4.27it/s] 62%|██████▏   | 4241/6844 [16:43<10:10,  4.26it/s] 62%|██████▏   | 4242/6844 [16:43<10:10,  4.26it/s] 62%|██████▏   | 4243/6844 [16:44<10:09,  4.27it/s] 62%|██████▏   | 4244/6844 [16:44<10:09,  4.26it/s] 62%|██████▏   | 4245/6844 [16:44<10:09,  4.26it/s] 62%|██████▏   | 4246/6844 [16:44<10:08,  4.27it/s] 62%|██████▏   | 4247/6844 [16:44<10:09,  4.26it/s] 62%|██████▏   | 4248/6844 [16:45<10:08,  4.27it/s] 62%|██████▏   | 4249/6844 [16:45<10:08,  4.26it/s] 62%|██████▏   | 4250/6844 [16:45<10:08,  4.26it/s]                                                   {'loss': 4.4389, 'grad_norm': 0.1576625406742096, 'learning_rate': 0.0022646366367029976, 'epoch': 0.12}
+ 62%|██████▏   | 4250/6844 [16:45<10:08,  4.26it/s] 62%|██████▏   | 4251/6844 [16:45<10:10,  4.25it/s] 62%|██████▏   | 4252/6844 [16:46<10:08,  4.26it/s] 62%|██████▏   | 4253/6844 [16:46<10:08,  4.26it/s] 62%|██████▏   | 4254/6844 [16:46<10:07,  4.26it/s] 62%|██████▏   | 4255/6844 [16:46<10:08,  4.26it/s] 62%|██████▏   | 4256/6844 [16:47<10:07,  4.26it/s] 62%|██████▏   | 4257/6844 [16:47<10:06,  4.27it/s] 62%|██████▏   | 4258/6844 [16:47<10:06,  4.26it/s] 62%|██████▏   | 4259/6844 [16:47<10:06,  4.26it/s] 62%|██████▏   | 4260/6844 [16:48<10:32,  4.09it/s] 62%|██████▏   | 4261/6844 [16:48<10:24,  4.14it/s] 62%|██████▏   | 4262/6844 [16:48<10:18,  4.17it/s] 62%|██████▏   | 4263/6844 [16:48<10:14,  4.20it/s] 62%|██████▏   | 4264/6844 [16:49<10:10,  4.22it/s] 62%|██████▏   | 4265/6844 [16:49<10:09,  4.23it/s] 62%|██████▏   | 4266/6844 [16:49<10:07,  4.24it/s] 62%|██████▏   | 4267/6844 [16:49<10:06,  4.25it/s] 62%|██████▏   | 4268/6844 [16:49<10:05,  4.25it/s] 62%|██████▏   | 4269/6844 [16:50<10:04,  4.26it/s] 62%|██████▏   | 4270/6844 [16:50<10:03,  4.27it/s] 62%|██████▏   | 4271/6844 [16:50<10:03,  4.26it/s] 62%|██████▏   | 4272/6844 [16:50<10:05,  4.25it/s] 62%|██████▏   | 4273/6844 [16:51<10:04,  4.25it/s] 62%|██████▏   | 4274/6844 [16:51<10:03,  4.26it/s] 62%|██████▏   | 4275/6844 [16:51<10:02,  4.26it/s]                                                   {'loss': 4.4358, 'grad_norm': 0.15767168998718262, 'learning_rate': 0.0022276084105295932, 'epoch': 0.12}
+ 62%|██████▏   | 4275/6844 [16:51<10:02,  4.26it/s] 62%|██████▏   | 4276/6844 [16:51<10:05,  4.24it/s] 62%|██████▏   | 4277/6844 [16:52<10:03,  4.25it/s] 63%|██████▎   | 4278/6844 [16:52<10:02,  4.26it/s] 63%|██████▎   | 4279/6844 [16:52<10:02,  4.26it/s] 63%|██████▎   | 4280/6844 [16:52<10:01,  4.26it/s] 63%|██████▎   | 4281/6844 [16:53<10:00,  4.27it/s] 63%|██████▎   | 4282/6844 [16:53<10:00,  4.27it/s] 63%|██████▎   | 4283/6844 [16:53<09:59,  4.27it/s] 63%|██████▎   | 4284/6844 [16:53<09:59,  4.27it/s] 63%|██████▎   | 4285/6844 [16:53<09:59,  4.27it/s] 63%|██████▎   | 4286/6844 [16:54<10:00,  4.26it/s] 63%|██████▎   | 4287/6844 [16:54<09:59,  4.26it/s] 63%|██████▎   | 4288/6844 [16:54<10:00,  4.26it/s] 63%|██████▎   | 4289/6844 [16:54<09:59,  4.26it/s] 63%|██████▎   | 4290/6844 [16:55<09:59,  4.26it/s] 63%|██████▎   | 4291/6844 [16:55<09:58,  4.26it/s] 63%|██████▎   | 4292/6844 [16:55<09:58,  4.26it/s] 63%|██████▎   | 4293/6844 [16:55<09:59,  4.26it/s] 63%|██████▎   | 4294/6844 [16:56<09:58,  4.26it/s] 63%|██████▎   | 4295/6844 [16:56<09:58,  4.26it/s] 63%|██████▎   | 4296/6844 [16:56<09:57,  4.27it/s] 63%|██████▎   | 4297/6844 [16:56<09:57,  4.26it/s] 63%|██████▎   | 4298/6844 [16:56<09:57,  4.26it/s] 63%|██████▎   | 4299/6844 [16:57<09:57,  4.26it/s] 63%|██████▎   | 4300/6844 [16:57<09:57,  4.26it/s]                                                   {'loss': 4.4339, 'grad_norm': 0.13968466222286224, 'learning_rate': 0.0021907057847512573, 'epoch': 0.13}
+ 63%|██████▎   | 4300/6844 [16:57<09:57,  4.26it/s] 63%|██████▎   | 4301/6844 [16:57<09:58,  4.25it/s] 63%|██████▎   | 4302/6844 [16:57<09:57,  4.26it/s] 63%|██████▎   | 4303/6844 [16:58<09:57,  4.26it/s] 63%|██████▎   | 4304/6844 [16:58<09:57,  4.25it/s] 63%|██████▎   | 4305/6844 [16:58<09:57,  4.25it/s] 63%|██████▎   | 4306/6844 [16:58<09:56,  4.26it/s] 63%|██████▎   | 4307/6844 [16:59<09:56,  4.25it/s] 63%|██████▎   | 4308/6844 [16:59<09:56,  4.25it/s] 63%|██████▎   | 4309/6844 [16:59<09:56,  4.25it/s] 63%|██████▎   | 4310/6844 [16:59<09:56,  4.25it/s] 63%|██████▎   | 4311/6844 [17:00<09:55,  4.25it/s] 63%|██████▎   | 4312/6844 [17:00<09:54,  4.26it/s] 63%|██████▎   | 4313/6844 [17:00<09:54,  4.26it/s] 63%|██████▎   | 4314/6844 [17:00<09:54,  4.26it/s] 63%|██████▎   | 4315/6844 [17:00<09:53,  4.26it/s] 63%|██████▎   | 4316/6844 [17:01<09:52,  4.27it/s] 63%|██████▎   | 4317/6844 [17:01<09:52,  4.26it/s] 63%|██████▎   | 4318/6844 [17:01<09:52,  4.27it/s] 63%|██████▎   | 4319/6844 [17:01<09:51,  4.27it/s] 63%|██████▎   | 4320/6844 [17:02<09:51,  4.26it/s] 63%|██████▎   | 4321/6844 [17:02<09:51,  4.27it/s] 63%|██████▎   | 4322/6844 [17:02<09:50,  4.27it/s] 63%|██████▎   | 4323/6844 [17:02<09:50,  4.27it/s] 63%|██████▎   | 4324/6844 [17:03<09:52,  4.26it/s] 63%|██████▎   | 4325/6844 [17:03<09:51,  4.26it/s]{'loss': 4.4206, 'grad_norm': 0.15493439137935638, 'learning_rate': 0.0021539347601899042, 'epoch': 0.13}
+                                                    63%|██████▎   | 4325/6844 [17:03<09:51,  4.26it/s] 63%|██████▎   | 4326/6844 [17:03<09:51,  4.25it/s] 63%|██████▎   | 4327/6844 [17:03<09:50,  4.26it/s] 63%|██████▎   | 4328/6844 [17:04<09:50,  4.26it/s] 63%|██████▎   | 4329/6844 [17:04<09:50,  4.26it/s] 63%|██████▎   | 4330/6844 [17:04<09:50,  4.26it/s] 63%|██████▎   | 4331/6844 [17:04<09:50,  4.26it/s] 63%|██████▎   | 4332/6844 [17:04<09:50,  4.25it/s] 63%|██████▎   | 4333/6844 [17:05<09:49,  4.26it/s] 63%|██████▎   | 4334/6844 [17:05<09:49,  4.26it/s] 63%|██████▎   | 4335/6844 [17:05<09:48,  4.26it/s] 63%|██████▎   | 4336/6844 [17:05<09:48,  4.26it/s] 63%|██████▎   | 4337/6844 [17:06<09:47,  4.27it/s] 63%|██████▎   | 4338/6844 [17:06<09:49,  4.25it/s] 63%|██████▎   | 4339/6844 [17:06<09:49,  4.25it/s] 63%|██████▎   | 4340/6844 [17:06<09:48,  4.26it/s] 63%|██████▎   | 4341/6844 [17:07<09:47,  4.26it/s] 63%|██████▎   | 4342/6844 [17:07<09:47,  4.26it/s] 63%|██████▎   | 4343/6844 [17:07<09:46,  4.27it/s] 63%|██████▎   | 4344/6844 [17:07<09:46,  4.27it/s] 63%|██████▎   | 4345/6844 [17:08<09:46,  4.26it/s] 64%|██████▎   | 4346/6844 [17:08<09:46,  4.26it/s] 64%|██████▎   | 4347/6844 [17:08<09:45,  4.26it/s] 64%|██████▎   | 4348/6844 [17:08<09:46,  4.26it/s] 64%|██████▎   | 4349/6844 [17:08<09:45,  4.26it/s] 64%|██████▎   | 4350/6844 [17:09<09:46,  4.26it/s]                                                   {'loss': 4.4397, 'grad_norm': 0.15584471821784973, 'learning_rate': 0.0021173013162674704, 'epoch': 0.13}
+ 64%|██████▎   | 4350/6844 [17:09<09:46,  4.26it/s] 64%|██████▎   | 4351/6844 [17:09<09:46,  4.25it/s] 64%|██████▎   | 4352/6844 [17:09<09:46,  4.25it/s] 64%|██████▎   | 4353/6844 [17:09<09:45,  4.25it/s] 64%|██████▎   | 4354/6844 [17:10<09:45,  4.26it/s] 64%|██████▎   | 4355/6844 [17:10<09:44,  4.26it/s] 64%|██████▎   | 4356/6844 [17:10<09:44,  4.25it/s] 64%|██████▎   | 4357/6844 [17:10<09:43,  4.26it/s] 64%|██████▎   | 4358/6844 [17:11<09:43,  4.26it/s] 64%|██████▎   | 4359/6844 [17:11<09:44,  4.25it/s] 64%|██████▎   | 4360/6844 [17:11<09:44,  4.25it/s] 64%|██████▎   | 4361/6844 [17:11<09:43,  4.25it/s] 64%|██████▎   | 4362/6844 [17:12<09:43,  4.26it/s] 64%|██████▎   | 4363/6844 [17:12<09:42,  4.26it/s] 64%|██████▍   | 4364/6844 [17:12<09:42,  4.26it/s] 64%|██████▍   | 4365/6844 [17:12<09:43,  4.25it/s] 64%|██████▍   | 4366/6844 [17:12<09:43,  4.25it/s] 64%|██████▍   | 4367/6844 [17:13<09:42,  4.25it/s] 64%|██████▍   | 4368/6844 [17:13<09:41,  4.26it/s] 64%|██████▍   | 4369/6844 [17:13<09:41,  4.25it/s] 64%|██████▍   | 4370/6844 [17:13<09:40,  4.26it/s] 64%|██████▍   | 4371/6844 [17:14<09:39,  4.27it/s] 64%|██████▍   | 4372/6844 [17:14<09:39,  4.27it/s] 64%|██████▍   | 4373/6844 [17:14<09:39,  4.26it/s] 64%|██████▍   | 4374/6844 [17:14<09:38,  4.27it/s] 64%|██████▍   | 4375/6844 [17:15<09:38,  4.27it/s]                                                   {'loss': 4.405, 'grad_norm': 0.1459038108587265, 'learning_rate': 0.0020808114100335814, 'epoch': 0.13}
+ 64%|██████▍   | 4375/6844 [17:15<09:38,  4.27it/s] 64%|██████▍   | 4376/6844 [17:15<09:40,  4.25it/s] 64%|██████▍   | 4377/6844 [17:15<09:39,  4.26it/s] 64%|██████▍   | 4378/6844 [17:15<09:38,  4.26it/s] 64%|██████▍   | 4379/6844 [17:16<09:39,  4.26it/s] 64%|██████▍   | 4380/6844 [17:16<09:39,  4.25it/s] 64%|██████▍   | 4381/6844 [17:16<09:38,  4.26it/s] 64%|██████▍   | 4382/6844 [17:16<09:38,  4.25it/s] 64%|██████▍   | 4383/6844 [17:16<09:38,  4.25it/s] 64%|██████▍   | 4384/6844 [17:17<09:38,  4.25it/s] 64%|██████▍   | 4385/6844 [17:17<09:37,  4.26it/s] 64%|██████▍   | 4386/6844 [17:17<09:37,  4.26it/s] 64%|██████▍   | 4387/6844 [17:17<10:07,  4.05it/s] 64%|██████▍   | 4388/6844 [17:18<10:22,  3.95it/s] 64%|██████▍   | 4389/6844 [17:18<10:07,  4.04it/s] 64%|██████▍   | 4390/6844 [17:18<09:58,  4.10it/s] 64%|██████▍   | 4391/6844 [17:18<09:52,  4.14it/s] 64%|██████▍   | 4392/6844 [17:19<09:48,  4.17it/s] 64%|██████▍   | 4393/6844 [17:19<09:43,  4.20it/s] 64%|██████▍   | 4394/6844 [17:19<09:41,  4.21it/s] 64%|██████▍   | 4395/6844 [17:19<09:38,  4.24it/s] 64%|██████▍   | 4396/6844 [17:20<09:37,  4.24it/s] 64%|██████▍   | 4397/6844 [17:20<09:36,  4.24it/s] 64%|██████▍   | 4398/6844 [17:20<09:35,  4.25it/s] 64%|██████▍   | 4399/6844 [17:20<09:33,  4.26it/s] 64%|██████▍   | 4400/6844 [17:21<09:33,  4.26it/s]                                                   {'loss': 4.43, 'grad_norm': 0.15623979270458221, 'learning_rate': 0.002044470975196864, 'epoch': 0.13}
+ 64%|██████▍   | 4400/6844 [17:21<09:33,  4.26it/s] 64%|██████▍   | 4401/6844 [17:21<09:35,  4.24it/s] 64%|██████▍   | 4402/6844 [17:21<09:34,  4.25it/s] 64%|██████▍   | 4403/6844 [17:21<09:33,  4.25it/s] 64%|██████▍   | 4404/6844 [17:21<09:33,  4.26it/s] 64%|██████▍   | 4405/6844 [17:22<09:33,  4.26it/s] 64%|██████▍   | 4406/6844 [17:22<09:32,  4.26it/s] 64%|██████▍   | 4407/6844 [17:22<09:32,  4.26it/s] 64%|██████▍   | 4408/6844 [17:22<09:31,  4.26it/s] 64%|██████▍   | 4409/6844 [17:23<09:31,  4.26it/s] 64%|██████▍   | 4410/6844 [17:23<09:30,  4.26it/s] 64%|██████▍   | 4411/6844 [17:23<09:30,  4.26it/s] 64%|██████▍   | 4412/6844 [17:23<09:30,  4.26it/s] 64%|██████▍   | 4413/6844 [17:24<09:30,  4.26it/s] 64%|██████▍   | 4414/6844 [17:24<09:31,  4.25it/s] 65%|██████▍   | 4415/6844 [17:24<09:30,  4.25it/s] 65%|██████▍   | 4416/6844 [17:24<09:31,  4.25it/s] 65%|██████▍   | 4417/6844 [17:25<09:31,  4.25it/s] 65%|██████▍   | 4418/6844 [17:25<09:30,  4.25it/s] 65%|██████▍   | 4419/6844 [17:25<09:30,  4.25it/s] 65%|██████▍   | 4420/6844 [17:25<09:29,  4.26it/s] 65%|██████▍   | 4421/6844 [17:25<09:30,  4.25it/s] 65%|██████▍   | 4422/6844 [17:26<09:30,  4.25it/s] 65%|██████▍   | 4423/6844 [17:26<09:29,  4.25it/s] 65%|██████▍   | 4424/6844 [17:26<09:29,  4.25it/s] 65%|██████▍   | 4425/6844 [17:26<09:29,  4.25it/s]                                                   {'loss': 4.4228, 'grad_norm': 0.14917372167110443, 'learning_rate': 0.0020082859211600556, 'epoch': 0.13}
+ 65%|██████▍   | 4425/6844 [17:26<09:29,  4.25it/s] 65%|██████▍   | 4426/6844 [17:27<09:30,  4.24it/s] 65%|██████▍   | 4427/6844 [17:27<09:28,  4.25it/s] 65%|██████▍   | 4428/6844 [17:27<09:28,  4.25it/s] 65%|██████▍   | 4429/6844 [17:27<09:27,  4.25it/s] 65%|██████▍   | 4430/6844 [17:28<09:27,  4.25it/s] 65%|██████▍   | 4431/6844 [17:28<09:27,  4.25it/s] 65%|██████▍   | 4432/6844 [17:28<09:27,  4.25it/s] 65%|██████▍   | 4433/6844 [17:28<09:26,  4.26it/s] 65%|██████▍   | 4434/6844 [17:29<09:24,  4.27it/s] 65%|██████▍   | 4435/6844 [17:29<09:25,  4.26it/s] 65%|██████▍   | 4436/6844 [17:29<09:25,  4.26it/s] 65%|██████▍   | 4437/6844 [17:29<09:24,  4.26it/s] 65%|██████▍   | 4438/6844 [17:29<09:24,  4.26it/s] 65%|██████▍   | 4439/6844 [17:30<09:24,  4.26it/s] 65%|██████▍   | 4440/6844 [17:30<09:24,  4.26it/s] 65%|██████▍   | 4441/6844 [17:30<09:24,  4.26it/s] 65%|██████▍   | 4442/6844 [17:30<09:24,  4.25it/s] 65%|██████▍   | 4443/6844 [17:31<09:24,  4.26it/s] 65%|██████▍   | 4444/6844 [17:31<09:23,  4.26it/s] 65%|██████▍   | 4445/6844 [17:31<09:24,  4.25it/s] 65%|██████▍   | 4446/6844 [17:31<09:23,  4.26it/s] 65%|██████▍   | 4447/6844 [17:32<09:23,  4.25it/s] 65%|██████▍   | 4448/6844 [17:32<09:23,  4.25it/s] 65%|██████▌   | 4449/6844 [17:32<09:23,  4.25it/s] 65%|██████▌   | 4450/6844 [17:32<09:23,  4.25it/s]{'loss': 4.4258, 'grad_norm': 0.14699307084083557, 'learning_rate': 0.0019722621320590597, 'epoch': 0.13}                                                   
+ 65%|██████▌   | 4450/6844 [17:32<09:23,  4.25it/s] 65%|██████▌   | 4451/6844 [17:33<09:24,  4.24it/s] 65%|██████▌   | 4452/6844 [17:33<09:23,  4.25it/s] 65%|██████▌   | 4453/6844 [17:33<09:22,  4.25it/s] 65%|██████▌   | 4454/6844 [17:33<09:21,  4.26it/s] 65%|██████▌   | 4455/6844 [17:33<09:21,  4.25it/s] 65%|██████▌   | 4456/6844 [17:34<09:20,  4.26it/s] 65%|██████▌   | 4457/6844 [17:34<09:20,  4.26it/s] 65%|██████▌   | 4458/6844 [17:34<09:19,  4.26it/s] 65%|██████▌   | 4459/6844 [17:34<09:19,  4.26it/s] 65%|██████▌   | 4460/6844 [17:35<09:18,  4.27it/s] 65%|██████▌   | 4461/6844 [17:35<09:18,  4.27it/s] 65%|██████▌   | 4462/6844 [17:35<09:18,  4.27it/s] 65%|██████▌   | 4463/6844 [17:35<09:19,  4.26it/s] 65%|██████▌   | 4464/6844 [17:36<09:18,  4.26it/s] 65%|██████▌   | 4465/6844 [17:36<09:19,  4.25it/s] 65%|██████▌   | 4466/6844 [17:36<09:18,  4.26it/s] 65%|██████▌   | 4467/6844 [17:36<09:19,  4.25it/s] 65%|██████▌   | 4468/6844 [17:37<09:18,  4.26it/s] 65%|██████▌   | 4469/6844 [17:37<09:18,  4.25it/s] 65%|██████▌   | 4470/6844 [17:37<09:17,  4.26it/s] 65%|██████▌   | 4471/6844 [17:37<09:16,  4.26it/s] 65%|██████▌   | 4472/6844 [17:37<09:17,  4.26it/s] 65%|██████▌   | 4473/6844 [17:38<09:16,  4.26it/s] 65%|██████▌   | 4474/6844 [17:38<09:16,  4.26it/s] 65%|██████▌   | 4475/6844 [17:38<09:16,  4.26it/s]{'loss': 4.4253, 'grad_norm': 0.13887223601341248, 'learning_rate': 0.0019364054658061115, 'epoch': 0.13}                                                   
+ 65%|██████▌   | 4475/6844 [17:38<09:16,  4.26it/s] 65%|██████▌   | 4476/6844 [17:38<09:18,  4.24it/s] 65%|██████▌   | 4477/6844 [17:39<09:17,  4.24it/s] 65%|██████▌   | 4478/6844 [17:39<09:16,  4.25it/s] 65%|██████▌   | 4479/6844 [17:39<09:16,  4.25it/s] 65%|██████▌   | 4480/6844 [17:39<09:15,  4.25it/s] 65%|██████▌   | 4481/6844 [17:40<09:15,  4.26it/s] 65%|██████▌   | 4482/6844 [17:40<09:14,  4.26it/s] 66%|██████▌   | 4483/6844 [17:40<09:14,  4.26it/s] 66%|██████▌   | 4484/6844 [17:40<09:14,  4.25it/s] 66%|██████▌   | 4485/6844 [17:41<09:14,  4.26it/s] 66%|██████▌   | 4486/6844 [17:41<09:14,  4.26it/s] 66%|██████▌   | 4487/6844 [17:41<09:13,  4.26it/s] 66%|██████▌   | 4488/6844 [17:41<09:13,  4.25it/s] 66%|██████▌   | 4489/6844 [17:41<09:13,  4.26it/s] 66%|██████▌   | 4490/6844 [17:42<09:12,  4.26it/s] 66%|██████▌   | 4491/6844 [17:42<09:11,  4.26it/s] 66%|██████▌   | 4492/6844 [17:42<09:11,  4.26it/s] 66%|██████▌   | 4493/6844 [17:42<09:10,  4.27it/s] 66%|██████▌   | 4494/6844 [17:43<09:12,  4.26it/s] 66%|██████▌   | 4495/6844 [17:43<09:11,  4.26it/s] 66%|██████▌   | 4496/6844 [17:43<09:11,  4.26it/s] 66%|██████▌   | 4497/6844 [17:43<09:11,  4.26it/s] 66%|██████▌   | 4498/6844 [17:44<09:11,  4.26it/s] 66%|██████▌   | 4499/6844 [17:44<09:10,  4.26it/s] 66%|██████▌   | 4500/6844 [17:44<09:10,  4.26it/s]                                                   {'loss': 4.4163, 'grad_norm': 0.14742805063724518, 'learning_rate': 0.0019007217531372134, 'epoch': 0.13}
+ 66%|██████▌   | 4500/6844 [17:44<09:10,  4.26it/s] 66%|██████▌   | 4501/6844 [17:44<09:13,  4.24it/s] 66%|██████▌   | 4502/6844 [17:44<09:12,  4.24it/s] 66%|██████▌   | 4503/6844 [17:45<09:11,  4.25it/s] 66%|██████▌   | 4504/6844 [17:45<09:09,  4.26it/s] 66%|██████▌   | 4505/6844 [17:45<09:09,  4.26it/s] 66%|██████▌   | 4506/6844 [17:45<09:08,  4.26it/s] 66%|██████▌   | 4507/6844 [17:46<09:09,  4.25it/s] 66%|██████▌   | 4508/6844 [17:46<09:09,  4.25it/s] 66%|██████▌   | 4509/6844 [17:46<09:09,  4.25it/s] 66%|██████▌   | 4510/6844 [17:46<09:08,  4.25it/s] 66%|██████▌   | 4511/6844 [17:47<09:08,  4.25it/s] 66%|██████▌   | 4512/6844 [17:47<09:07,  4.26it/s] 66%|██████▌   | 4513/6844 [17:47<09:07,  4.25it/s] 66%|██████▌   | 4514/6844 [17:47<09:29,  4.09it/s] 66%|██████▌   | 4515/6844 [17:48<09:43,  3.99it/s] 66%|██████▌   | 4516/6844 [17:48<09:32,  4.07it/s] 66%|██████▌   | 4517/6844 [17:48<09:23,  4.13it/s] 66%|██████▌   | 4518/6844 [17:48<09:18,  4.17it/s] 66%|██████▌   | 4519/6844 [17:49<09:14,  4.19it/s] 66%|██████▌   | 4520/6844 [17:49<09:11,  4.21it/s] 66%|██████▌   | 4521/6844 [17:49<09:09,  4.23it/s] 66%|██████▌   | 4522/6844 [17:49<09:07,  4.24it/s] 66%|██████▌   | 4523/6844 [17:49<09:05,  4.26it/s] 66%|██████▌   | 4524/6844 [17:50<09:04,  4.26it/s] 66%|██████▌   | 4525/6844 [17:50<09:04,  4.26it/s]                                                   {'loss': 4.4148, 'grad_norm': 0.1685606986284256, 'learning_rate': 0.001865216796663978, 'epoch': 0.13}
+ 66%|██████▌   | 4525/6844 [17:50<09:04,  4.26it/s] 66%|██████▌   | 4526/6844 [17:50<09:06,  4.24it/s] 66%|██████▌   | 4527/6844 [17:50<09:05,  4.25it/s] 66%|██████▌   | 4528/6844 [17:51<09:04,  4.25it/s] 66%|██████▌   | 4529/6844 [17:51<09:03,  4.26it/s] 66%|██████▌   | 4530/6844 [17:51<09:03,  4.26it/s] 66%|██████▌   | 4531/6844 [17:51<09:02,  4.27it/s] 66%|██████▌   | 4532/6844 [17:52<09:02,  4.26it/s] 66%|██████▌   | 4533/6844 [17:52<09:01,  4.27it/s] 66%|██████▌   | 4534/6844 [17:52<09:01,  4.27it/s] 66%|██████▋   | 4535/6844 [17:52<09:00,  4.27it/s] 66%|██████▋   | 4536/6844 [17:53<09:00,  4.27it/s] 66%|██████▋   | 4537/6844 [17:53<08:59,  4.27it/s] 66%|██████▋   | 4538/6844 [17:53<09:00,  4.27it/s] 66%|██████▋   | 4539/6844 [17:53<09:00,  4.26it/s] 66%|██████▋   | 4540/6844 [17:53<09:00,  4.27it/s] 66%|██████▋   | 4541/6844 [17:54<08:59,  4.27it/s] 66%|██████▋   | 4542/6844 [17:54<09:00,  4.26it/s] 66%|██████▋   | 4543/6844 [17:54<08:59,  4.26it/s] 66%|██████▋   | 4544/6844 [17:54<08:59,  4.26it/s] 66%|██████▋   | 4545/6844 [17:55<08:58,  4.27it/s] 66%|██████▋   | 4546/6844 [17:55<08:59,  4.26it/s] 66%|██████▋   | 4547/6844 [17:55<08:59,  4.26it/s] 66%|██████▋   | 4548/6844 [17:55<08:59,  4.26it/s] 66%|██████▋   | 4549/6844 [17:56<08:58,  4.26it/s] 66%|██████▋   | 4550/6844 [17:56<08:58,  4.26it/s]                                                   {'loss': 4.4086, 'grad_norm': 0.15384991466999054, 'learning_rate': 0.001829896369930061, 'epoch': 0.13}
+ 66%|██████▋   | 4550/6844 [17:56<08:58,  4.26it/s] 66%|██████▋   | 4551/6844 [17:56<08:59,  4.25it/s] 67%|██████▋   | 4552/6844 [17:56<08:58,  4.26it/s] 67%|██████▋   | 4553/6844 [17:57<08:58,  4.26it/s] 67%|██████▋   | 4554/6844 [17:57<08:57,  4.26it/s] 67%|██████▋   | 4555/6844 [17:57<08:57,  4.26it/s] 67%|██████▋   | 4556/6844 [17:57<08:56,  4.27it/s] 67%|██████▋   | 4557/6844 [17:57<08:56,  4.26it/s] 67%|██████▋   | 4558/6844 [17:58<08:55,  4.27it/s] 67%|██████▋   | 4559/6844 [17:58<08:55,  4.27it/s] 67%|██████▋   | 4560/6844 [17:58<08:55,  4.27it/s] 67%|██████▋   | 4561/6844 [17:58<08:55,  4.26it/s] 67%|██████▋   | 4562/6844 [17:59<08:54,  4.27it/s] 67%|██████▋   | 4563/6844 [17:59<08:55,  4.26it/s] 67%|██████▋   | 4564/6844 [17:59<08:55,  4.26it/s] 67%|██████▋   | 4565/6844 [17:59<08:54,  4.26it/s] 67%|██████▋   | 4566/6844 [18:00<08:54,  4.26it/s] 67%|██████▋   | 4567/6844 [18:00<08:55,  4.26it/s] 67%|██████▋   | 4568/6844 [18:00<08:54,  4.26it/s] 67%|██████▋   | 4569/6844 [18:00<08:54,  4.26it/s] 67%|██████▋   | 4570/6844 [18:01<08:54,  4.25it/s] 67%|██████▋   | 4571/6844 [18:01<08:54,  4.26it/s] 67%|██████▋   | 4572/6844 [18:01<08:53,  4.26it/s] 67%|██████▋   | 4573/6844 [18:01<08:53,  4.26it/s] 67%|██████▋   | 4574/6844 [18:01<08:53,  4.26it/s] 67%|██████▋   | 4575/6844 [18:02<08:53,  4.25it/s]                                                   {'loss': 4.4159, 'grad_norm': 0.1555064171552658, 'learning_rate': 0.0017947662164723055, 'epoch': 0.13}
+ 67%|██████▋   | 4575/6844 [18:02<08:53,  4.25it/s] 67%|██████▋   | 4576/6844 [18:02<08:54,  4.24it/s] 67%|██████▋   | 4577/6844 [18:02<08:53,  4.25it/s] 67%|██████▋   | 4578/6844 [18:02<08:52,  4.26it/s] 67%|██████▋   | 4579/6844 [18:03<08:51,  4.26it/s] 67%|██████▋   | 4580/6844 [18:03<08:51,  4.26it/s] 67%|██████▋   | 4581/6844 [18:03<08:50,  4.26it/s] 67%|██████▋   | 4582/6844 [18:03<08:50,  4.26it/s] 67%|██████▋   | 4583/6844 [18:04<08:50,  4.27it/s] 67%|██████▋   | 4584/6844 [18:04<08:50,  4.26it/s] 67%|██████▋   | 4585/6844 [18:04<08:50,  4.26it/s] 67%|██████▋   | 4586/6844 [18:04<08:49,  4.27it/s] 67%|██████▋   | 4587/6844 [18:05<08:48,  4.27it/s] 67%|██████▋   | 4588/6844 [18:05<08:49,  4.26it/s] 67%|██████▋   | 4589/6844 [18:05<08:48,  4.26it/s] 67%|██████▋   | 4590/6844 [18:05<08:49,  4.26it/s] 67%|██████▋   | 4591/6844 [18:05<08:49,  4.25it/s] 67%|██████▋   | 4592/6844 [18:06<08:49,  4.25it/s] 67%|██████▋   | 4593/6844 [18:06<08:48,  4.26it/s] 67%|██████▋   | 4594/6844 [18:06<08:47,  4.26it/s] 67%|██████▋   | 4595/6844 [18:06<08:48,  4.26it/s] 67%|██████▋   | 4596/6844 [18:07<08:47,  4.26it/s] 67%|██████▋   | 4597/6844 [18:07<08:47,  4.26it/s] 67%|██████▋   | 4598/6844 [18:07<08:47,  4.26it/s] 67%|██████▋   | 4599/6844 [18:07<08:46,  4.26it/s] 67%|██████▋   | 4600/6844 [18:08<08:46,  4.27it/s]                                                   {'loss': 4.4135, 'grad_norm': 0.1371869146823883, 'learning_rate': 0.001759832048886775, 'epoch': 0.13}
+ 67%|██████▋   | 4600/6844 [18:08<08:46,  4.27it/s] 67%|██████▋   | 4601/6844 [18:08<08:47,  4.25it/s] 67%|██████▋   | 4602/6844 [18:08<08:47,  4.25it/s] 67%|██████▋   | 4603/6844 [18:08<08:46,  4.26it/s] 67%|██████▋   | 4604/6844 [18:08<08:45,  4.26it/s] 67%|██████▋   | 4605/6844 [18:09<08:45,  4.26it/s] 67%|██████▋   | 4606/6844 [18:09<08:44,  4.26it/s] 67%|██████▋   | 4607/6844 [18:09<08:44,  4.26it/s] 67%|██████▋   | 4608/6844 [18:09<08:44,  4.26it/s] 67%|██████▋   | 4609/6844 [18:10<08:44,  4.26it/s] 67%|██████▋   | 4610/6844 [18:10<08:44,  4.26it/s] 67%|██████▋   | 4611/6844 [18:10<08:43,  4.27it/s] 67%|██████▋   | 4612/6844 [18:10<08:43,  4.27it/s] 67%|██████▋   | 4613/6844 [18:11<08:42,  4.27it/s] 67%|██████▋   | 4614/6844 [18:11<08:42,  4.27it/s] 67%|██████▋   | 4615/6844 [18:11<08:42,  4.27it/s] 67%|██████▋   | 4616/6844 [18:11<08:42,  4.26it/s] 67%|██████▋   | 4617/6844 [18:12<08:42,  4.26it/s] 67%|██████▋   | 4618/6844 [18:12<08:42,  4.26it/s] 67%|██████▋   | 4619/6844 [18:12<08:42,  4.26it/s] 68%|██████▊   | 4620/6844 [18:12<08:42,  4.26it/s] 68%|██████▊   | 4621/6844 [18:12<08:41,  4.26it/s] 68%|██████▊   | 4622/6844 [18:13<08:41,  4.26it/s] 68%|██████▊   | 4623/6844 [18:13<08:41,  4.26it/s] 68%|██████▊   | 4624/6844 [18:13<08:41,  4.26it/s] 68%|██████▊   | 4625/6844 [18:13<08:41,  4.25it/s]                                                   {'loss': 4.4016, 'grad_norm': 0.14644962549209595, 'learning_rate': 0.0017250995478998146, 'epoch': 0.14}
+ 68%|██████▊   | 4625/6844 [18:13<08:41,  4.25it/s] 68%|██████▊   | 4626/6844 [18:14<08:42,  4.25it/s] 68%|██████▊   | 4627/6844 [18:14<08:40,  4.26it/s] 68%|██████▊   | 4628/6844 [18:14<08:40,  4.26it/s] 68%|██████▊   | 4629/6844 [18:14<08:39,  4.26it/s] 68%|██████▊   | 4630/6844 [18:15<08:40,  4.25it/s] 68%|██████▊   | 4631/6844 [18:15<08:39,  4.26it/s] 68%|██████▊   | 4632/6844 [18:15<08:39,  4.26it/s] 68%|██████▊   | 4633/6844 [18:15<08:39,  4.26it/s] 68%|██████▊   | 4634/6844 [18:16<08:39,  4.26it/s] 68%|██████▊   | 4635/6844 [18:16<08:57,  4.11it/s] 68%|██████▊   | 4636/6844 [18:16<08:53,  4.14it/s] 68%|██████▊   | 4637/6844 [18:16<08:59,  4.09it/s] 68%|██████▊   | 4638/6844 [18:17<08:53,  4.14it/s] 68%|██████▊   | 4639/6844 [18:17<08:48,  4.18it/s] 68%|██████▊   | 4640/6844 [18:17<08:44,  4.20it/s] 68%|██████▊   | 4641/6844 [18:17<08:41,  4.22it/s] 68%|██████▊   | 4642/6844 [18:17<08:42,  4.22it/s] 68%|██████▊   | 4643/6844 [18:18<08:41,  4.22it/s] 68%|██████▊   | 4644/6844 [18:18<08:39,  4.23it/s] 68%|██████▊   | 4645/6844 [18:18<08:38,  4.24it/s] 68%|██████▊   | 4646/6844 [18:18<08:37,  4.25it/s] 68%|██████▊   | 4647/6844 [18:19<08:36,  4.26it/s] 68%|██████▊   | 4648/6844 [18:19<08:35,  4.26it/s] 68%|██████▊   | 4649/6844 [18:19<08:34,  4.27it/s] 68%|██████▊   | 4650/6844 [18:19<08:34,  4.27it/s]{'loss': 4.4061, 'grad_norm': 0.1664084494113922, 'learning_rate': 0.0016905743614442918, 'epoch': 0.14}                                                   
+ 68%|██████▊   | 4650/6844 [18:19<08:34,  4.27it/s] 68%|██████▊   | 4651/6844 [18:20<08:34,  4.26it/s] 68%|██████▊   | 4652/6844 [18:20<08:34,  4.26it/s] 68%|██████▊   | 4653/6844 [18:20<08:33,  4.26it/s] 68%|██████▊   | 4654/6844 [18:20<08:33,  4.27it/s] 68%|██████▊   | 4655/6844 [18:21<08:33,  4.27it/s] 68%|██████▊   | 4656/6844 [18:21<08:33,  4.26it/s] 68%|██████▊   | 4657/6844 [18:21<08:33,  4.26it/s] 68%|██████▊   | 4658/6844 [18:21<08:31,  4.27it/s] 68%|██████▊   | 4659/6844 [18:21<08:30,  4.28it/s] 68%|██████▊   | 4660/6844 [18:22<08:30,  4.27it/s] 68%|██████▊   | 4661/6844 [18:22<08:45,  4.15it/s] 68%|██████▊   | 4662/6844 [18:22<08:57,  4.06it/s] 68%|██████▊   | 4663/6844 [18:22<09:07,  3.98it/s] 68%|██████▊   | 4664/6844 [18:23<09:13,  3.94it/s] 68%|██████▊   | 4665/6844 [18:23<09:16,  3.91it/s] 68%|██████▊   | 4666/6844 [18:23<09:19,  3.89it/s] 68%|██████▊   | 4667/6844 [18:24<09:24,  3.86it/s] 68%|██████▊   | 4668/6844 [18:24<09:26,  3.84it/s] 68%|██████▊   | 4669/6844 [18:24<09:29,  3.82it/s] 68%|██████▊   | 4670/6844 [18:24<09:31,  3.80it/s] 68%|██████▊   | 4671/6844 [18:25<09:29,  3.82it/s] 68%|██████▊   | 4672/6844 [18:25<09:31,  3.80it/s] 68%|██████▊   | 4673/6844 [18:25<09:32,  3.80it/s] 68%|██████▊   | 4674/6844 [18:25<09:32,  3.79it/s] 68%|██████▊   | 4675/6844 [18:26<09:32,  3.79it/s]{'loss': 4.3984, 'grad_norm': 0.16580922901630402, 'learning_rate': 0.001656262103741175, 'epoch': 0.14}
+                                                    68%|██████▊   | 4675/6844 [18:26<09:32,  3.79it/s] 68%|██████▊   | 4676/6844 [18:26<09:34,  3.77it/s] 68%|██████▊   | 4677/6844 [18:26<09:33,  3.78it/s] 68%|██████▊   | 4678/6844 [18:26<09:30,  3.80it/s] 68%|██████▊   | 4679/6844 [18:27<09:29,  3.80it/s] 68%|██████▊   | 4680/6844 [18:27<09:27,  3.82it/s] 68%|██████▊   | 4681/6844 [18:27<09:26,  3.82it/s] 68%|██████▊   | 4682/6844 [18:27<09:27,  3.81it/s] 68%|██████▊   | 4683/6844 [18:28<09:28,  3.80it/s] 68%|██████▊   | 4684/6844 [18:28<09:27,  3.81it/s] 68%|██████▊   | 4685/6844 [18:28<09:25,  3.82it/s] 68%|██████▊   | 4686/6844 [18:29<09:31,  3.78it/s] 68%|██████▊   | 4687/6844 [18:29<09:29,  3.79it/s] 68%|██████▊   | 4688/6844 [18:29<09:29,  3.79it/s] 69%|██████▊   | 4689/6844 [18:29<09:28,  3.79it/s] 69%|██████▊   | 4690/6844 [18:30<09:28,  3.79it/s] 69%|██████▊   | 4691/6844 [18:30<09:28,  3.79it/s] 69%|██████▊   | 4692/6844 [18:30<09:30,  3.77it/s] 69%|██████▊   | 4693/6844 [18:30<09:11,  3.90it/s] 69%|██████▊   | 4694/6844 [18:31<08:57,  4.00it/s] 69%|██████▊   | 4695/6844 [18:31<08:47,  4.07it/s] 69%|██████▊   | 4696/6844 [18:31<08:39,  4.13it/s] 69%|██████▊   | 4697/6844 [18:31<08:34,  4.17it/s] 69%|██████▊   | 4698/6844 [18:32<08:30,  4.20it/s] 69%|██████▊   | 4699/6844 [18:32<08:28,  4.22it/s] 69%|██████▊   | 4700/6844 [18:32<08:26,  4.23it/s]                                                   {'loss': 4.409, 'grad_norm': 0.14350520074367523, 'learning_rate': 0.0016221683543865958, 'epoch': 0.14}
+ 69%|██████▊   | 4700/6844 [18:32<08:26,  4.23it/s] 69%|██████▊   | 4701/6844 [18:32<08:27,  4.23it/s] 69%|██████▊   | 4702/6844 [18:32<08:25,  4.24it/s] 69%|██████▊   | 4703/6844 [18:33<08:23,  4.25it/s] 69%|██████▊   | 4704/6844 [18:33<08:23,  4.25it/s] 69%|██████▊   | 4705/6844 [18:33<08:22,  4.26it/s] 69%|██████▉   | 4706/6844 [18:33<08:23,  4.25it/s] 69%|██████▉   | 4707/6844 [18:34<08:22,  4.25it/s] 69%|██████▉   | 4708/6844 [18:34<08:22,  4.25it/s] 69%|██████▉   | 4709/6844 [18:34<08:22,  4.25it/s] 69%|██████▉   | 4710/6844 [18:34<08:21,  4.25it/s] 69%|██████▉   | 4711/6844 [18:35<08:21,  4.26it/s] 69%|██████▉   | 4712/6844 [18:35<08:20,  4.26it/s] 69%|██████▉   | 4713/6844 [18:35<08:20,  4.26it/s] 69%|██████▉   | 4714/6844 [18:35<08:19,  4.26it/s] 69%|██████▉   | 4715/6844 [18:36<08:20,  4.26it/s] 69%|██████▉   | 4716/6844 [18:36<08:19,  4.26it/s] 69%|██████▉   | 4717/6844 [18:36<08:18,  4.27it/s] 69%|██████▉   | 4718/6844 [18:36<08:18,  4.26it/s] 69%|██████▉   | 4719/6844 [18:36<08:19,  4.26it/s] 69%|██████▉   | 4720/6844 [18:37<08:18,  4.26it/s] 69%|██████▉   | 4721/6844 [18:37<08:18,  4.26it/s] 69%|██████▉   | 4722/6844 [18:37<08:18,  4.26it/s] 69%|██████▉   | 4723/6844 [18:37<08:17,  4.26it/s] 69%|██████▉   | 4724/6844 [18:38<08:17,  4.26it/s] 69%|██████▉   | 4725/6844 [18:38<08:16,  4.26it/s]                                                   {'loss': 4.4024, 'grad_norm': 0.1554800420999527, 'learning_rate': 0.0015882986574445321, 'epoch': 0.14}
+ 69%|██████▉   | 4725/6844 [18:38<08:16,  4.26it/s] 69%|██████▉   | 4726/6844 [18:38<08:19,  4.24it/s] 69%|██████▉   | 4727/6844 [18:38<08:18,  4.25it/s] 69%|██████▉   | 4728/6844 [18:39<08:17,  4.26it/s] 69%|██████▉   | 4729/6844 [18:39<08:16,  4.26it/s] 69%|██████▉   | 4730/6844 [18:39<08:15,  4.26it/s] 69%|██████▉   | 4731/6844 [18:39<08:15,  4.27it/s] 69%|██████▉   | 4732/6844 [18:39<08:14,  4.27it/s] 69%|██████▉   | 4733/6844 [18:40<08:14,  4.27it/s] 69%|██████▉   | 4734/6844 [18:40<08:14,  4.27it/s] 69%|██████▉   | 4735/6844 [18:40<08:14,  4.27it/s] 69%|██████▉   | 4736/6844 [18:40<08:14,  4.27it/s] 69%|██████▉   | 4737/6844 [18:41<08:13,  4.27it/s] 69%|██████▉   | 4738/6844 [18:41<08:12,  4.27it/s] 69%|██████▉   | 4739/6844 [18:41<08:13,  4.27it/s] 69%|██████▉   | 4740/6844 [18:41<08:13,  4.26it/s] 69%|██████▉   | 4741/6844 [18:42<08:12,  4.27it/s] 69%|██████▉   | 4742/6844 [18:42<08:11,  4.27it/s] 69%|██████▉   | 4743/6844 [18:42<08:12,  4.26it/s] 69%|██████▉   | 4744/6844 [18:42<08:12,  4.27it/s] 69%|██████▉   | 4745/6844 [18:43<08:12,  4.27it/s] 69%|██████▉   | 4746/6844 [18:43<08:12,  4.26it/s] 69%|██████▉   | 4747/6844 [18:43<08:12,  4.26it/s] 69%|██████▉   | 4748/6844 [18:43<08:11,  4.26it/s] 69%|██████▉   | 4749/6844 [18:43<08:11,  4.26it/s] 69%|██████▉   | 4750/6844 [18:44<08:11,  4.26it/s]{'loss': 4.3987, 'grad_norm': 0.15840286016464233, 'learning_rate': 0.0015546585205452777, 'epoch': 0.14}
+                                                    69%|██████▉   | 4750/6844 [18:44<08:11,  4.26it/s] 69%|██████▉   | 4751/6844 [18:44<08:13,  4.24it/s] 69%|██████▉   | 4752/6844 [18:44<08:12,  4.25it/s] 69%|██████▉   | 4753/6844 [18:44<08:11,  4.26it/s] 69%|██████▉   | 4754/6844 [18:45<08:10,  4.26it/s] 69%|██████▉   | 4755/6844 [18:45<08:10,  4.26it/s] 69%|██████▉   | 4756/6844 [18:45<08:09,  4.26it/s] 70%|██████▉   | 4757/6844 [18:45<08:10,  4.25it/s] 70%|██████▉   | 4758/6844 [18:46<08:09,  4.26it/s] 70%|██████▉   | 4759/6844 [18:46<08:09,  4.26it/s] 70%|██████▉   | 4760/6844 [18:46<08:09,  4.26it/s] 70%|██████▉   | 4761/6844 [18:46<08:09,  4.26it/s] 70%|██████▉   | 4762/6844 [18:47<08:08,  4.26it/s] 70%|██████▉   | 4763/6844 [18:47<08:08,  4.26it/s] 70%|██████▉   | 4764/6844 [18:47<08:09,  4.25it/s] 70%|██████▉   | 4765/6844 [18:47<08:08,  4.26it/s] 70%|██████▉   | 4766/6844 [18:48<08:32,  4.05it/s] 70%|██████▉   | 4767/6844 [18:48<08:25,  4.11it/s] 70%|██████▉   | 4768/6844 [18:48<08:20,  4.15it/s] 70%|██████▉   | 4769/6844 [18:48<08:15,  4.19it/s] 70%|██████▉   | 4770/6844 [18:48<08:12,  4.21it/s] 70%|██████▉   | 4771/6844 [18:49<08:11,  4.22it/s] 70%|██████▉   | 4772/6844 [18:49<08:09,  4.23it/s] 70%|██████▉   | 4773/6844 [18:49<08:08,  4.24it/s] 70%|██████▉   | 4774/6844 [18:49<08:08,  4.24it/s] 70%|██████▉   | 4775/6844 [18:50<08:07,  4.25it/s]                                                   {'loss': 4.4047, 'grad_norm': 0.1589272916316986, 'learning_rate': 0.0015212534139898328, 'epoch': 0.14}
+ 70%|██████▉   | 4775/6844 [18:50<08:07,  4.25it/s] 70%|██████▉   | 4776/6844 [18:50<08:07,  4.24it/s] 70%|██████▉   | 4777/6844 [18:50<08:06,  4.25it/s] 70%|██████▉   | 4778/6844 [18:50<08:06,  4.25it/s] 70%|██████▉   | 4779/6844 [18:51<08:05,  4.25it/s] 70%|██████▉   | 4780/6844 [18:51<08:05,  4.25it/s] 70%|██████▉   | 4781/6844 [18:51<08:04,  4.26it/s] 70%|██████▉   | 4782/6844 [18:51<08:04,  4.26it/s] 70%|██████▉   | 4783/6844 [18:52<08:03,  4.27it/s] 70%|██████▉   | 4784/6844 [18:52<08:03,  4.26it/s] 70%|██████▉   | 4785/6844 [18:52<08:03,  4.26it/s] 70%|██████▉   | 4786/6844 [18:52<08:03,  4.25it/s] 70%|██████▉   | 4787/6844 [18:52<08:04,  4.25it/s] 70%|██████▉   | 4788/6844 [18:53<08:03,  4.25it/s] 70%|██████▉   | 4789/6844 [18:53<08:03,  4.25it/s] 70%|██████▉   | 4790/6844 [18:53<08:02,  4.25it/s] 70%|███████   | 4791/6844 [18:53<08:02,  4.25it/s] 70%|███████   | 4792/6844 [18:54<08:03,  4.25it/s] 70%|███████   | 4793/6844 [18:54<08:03,  4.25it/s] 70%|███████   | 4794/6844 [18:54<08:02,  4.24it/s] 70%|███████   | 4795/6844 [18:54<08:01,  4.25it/s] 70%|███████   | 4796/6844 [18:55<08:00,  4.26it/s] 70%|███████   | 4797/6844 [18:55<08:00,  4.26it/s] 70%|███████   | 4798/6844 [18:55<08:00,  4.26it/s] 70%|███████   | 4799/6844 [18:55<08:00,  4.26it/s] 70%|███████   | 4800/6844 [18:56<08:00,  4.26it/s]                                                   {'loss': 4.395, 'grad_norm': 0.17526455223560333, 'learning_rate': 0.0014880887698603667, 'epoch': 0.14}
+ 70%|███████   | 4800/6844 [18:56<08:00,  4.26it/s] 70%|███████   | 4801/6844 [18:56<08:00,  4.25it/s] 70%|███████   | 4802/6844 [18:56<08:00,  4.25it/s] 70%|███████   | 4803/6844 [18:56<07:59,  4.25it/s] 70%|███████   | 4804/6844 [18:56<07:59,  4.25it/s] 70%|███████   | 4805/6844 [18:57<07:58,  4.26it/s] 70%|███████   | 4806/6844 [18:57<07:58,  4.26it/s] 70%|███████   | 4807/6844 [18:57<07:58,  4.26it/s] 70%|███████   | 4808/6844 [18:57<07:57,  4.26it/s] 70%|███████   | 4809/6844 [18:58<07:58,  4.25it/s] 70%|███████   | 4810/6844 [18:58<07:57,  4.26it/s] 70%|███████   | 4811/6844 [18:58<07:57,  4.26it/s] 70%|███████   | 4812/6844 [18:58<07:56,  4.26it/s] 70%|███████   | 4813/6844 [18:59<07:57,  4.25it/s] 70%|███████   | 4814/6844 [18:59<07:57,  4.25it/s] 70%|███████   | 4815/6844 [18:59<07:57,  4.25it/s] 70%|███████   | 4816/6844 [18:59<07:57,  4.24it/s] 70%|███████   | 4817/6844 [19:00<07:57,  4.25it/s] 70%|███████   | 4818/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4819/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4820/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4821/6844 [19:00<07:56,  4.25it/s] 70%|███████   | 4822/6844 [19:01<07:54,  4.26it/s] 70%|███████   | 4823/6844 [19:01<07:55,  4.25it/s] 70%|███████   | 4824/6844 [19:01<07:54,  4.25it/s] 70%|███████   | 4825/6844 [19:01<07:54,  4.25it/s]{'loss': 4.4036, 'grad_norm': 0.16737830638885498, 'learning_rate': 0.0014551699811368936, 'epoch': 0.14}
+                                                    70%|███████   | 4825/6844 [19:01<07:54,  4.25it/s] 71%|███████   | 4826/6844 [19:02<07:55,  4.25it/s] 71%|███████   | 4827/6844 [19:02<07:54,  4.25it/s] 71%|███████   | 4828/6844 [19:02<07:53,  4.26it/s] 71%|███████   | 4829/6844 [19:02<07:53,  4.26it/s] 71%|███████   | 4830/6844 [19:03<07:53,  4.25it/s] 71%|███████   | 4831/6844 [19:03<07:52,  4.26it/s] 71%|███████   | 4832/6844 [19:03<07:52,  4.26it/s] 71%|███████   | 4833/6844 [19:03<07:52,  4.26it/s] 71%|███████   | 4834/6844 [19:04<07:52,  4.26it/s] 71%|███████   | 4835/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4836/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4837/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4838/6844 [19:04<07:51,  4.26it/s] 71%|███████   | 4839/6844 [19:05<07:50,  4.26it/s] 71%|███████   | 4840/6844 [19:05<07:50,  4.26it/s] 71%|███████   | 4841/6844 [19:05<07:49,  4.26it/s] 71%|███████   | 4842/6844 [19:05<07:49,  4.26it/s] 71%|███████   | 4843/6844 [19:06<07:49,  4.26it/s] 71%|███████   | 4844/6844 [19:06<07:49,  4.26it/s] 71%|███████   | 4845/6844 [19:06<07:48,  4.26it/s] 71%|███████   | 4846/6844 [19:06<07:49,  4.26it/s] 71%|███████   | 4847/6844 [19:07<07:49,  4.25it/s] 71%|███████   | 4848/6844 [19:07<07:49,  4.25it/s] 71%|███████   | 4849/6844 [19:07<07:49,  4.25it/s] 71%|███████   | 4850/6844 [19:07<07:49,  4.25it/s]                                                   {'loss': 4.3989, 'grad_norm': 0.1536155790090561, 'learning_rate': 0.0014225024008203075, 'epoch': 0.14}
+ 71%|███████   | 4850/6844 [19:07<07:49,  4.25it/s] 71%|███████   | 4851/6844 [19:07<07:50,  4.24it/s] 71%|███████   | 4852/6844 [19:08<07:49,  4.24it/s] 71%|███████   | 4853/6844 [19:08<07:48,  4.25it/s] 71%|███████   | 4854/6844 [19:08<07:49,  4.24it/s] 71%|███████   | 4855/6844 [19:08<07:48,  4.25it/s] 71%|███████   | 4856/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4857/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4858/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4859/6844 [19:09<07:47,  4.25it/s] 71%|███████   | 4860/6844 [19:10<07:47,  4.25it/s] 71%|███████   | 4861/6844 [19:10<07:46,  4.25it/s] 71%|███████   | 4862/6844 [19:10<07:46,  4.25it/s] 71%|███████   | 4863/6844 [19:10<07:46,  4.25it/s] 71%|███████   | 4864/6844 [19:11<07:44,  4.26it/s] 71%|███████   | 4865/6844 [19:11<07:45,  4.25it/s] 71%|███████   | 4866/6844 [19:11<07:44,  4.26it/s] 71%|███████   | 4867/6844 [19:11<07:43,  4.26it/s] 71%|███████   | 4868/6844 [19:11<07:44,  4.26it/s] 71%|███████   | 4869/6844 [19:12<07:44,  4.26it/s] 71%|███████   | 4870/6844 [19:12<07:43,  4.26it/s] 71%|███████   | 4871/6844 [19:12<07:43,  4.25it/s] 71%|███████   | 4872/6844 [19:12<07:43,  4.26it/s] 71%|███████   | 4873/6844 [19:13<07:42,  4.26it/s] 71%|███████   | 4874/6844 [19:13<07:42,  4.26it/s] 71%|███████   | 4875/6844 [19:13<07:42,  4.25it/s]                                                   {'loss': 4.3859, 'grad_norm': 0.1424914002418518, 'learning_rate': 0.0013900913410619176, 'epoch': 0.14}
+ 71%|███████   | 4875/6844 [19:13<07:42,  4.25it/s] 71%|███████   | 4876/6844 [19:13<07:44,  4.24it/s] 71%|███████▏  | 4877/6844 [19:14<07:42,  4.25it/s] 71%|███████▏  | 4878/6844 [19:14<07:42,  4.25it/s] 71%|███████▏  | 4879/6844 [19:14<07:41,  4.25it/s] 71%|███████▏  | 4880/6844 [19:14<07:40,  4.26it/s] 71%|███████▏  | 4881/6844 [19:15<07:40,  4.26it/s] 71%|███████▏  | 4882/6844 [19:15<07:40,  4.26it/s] 71%|███████▏  | 4883/6844 [19:15<07:39,  4.26it/s] 71%|███████▏  | 4884/6844 [19:15<07:39,  4.27it/s] 71%|███████▏  | 4885/6844 [19:15<07:39,  4.27it/s] 71%|███████▏  | 4886/6844 [19:16<07:39,  4.26it/s] 71%|████��██▏  | 4887/6844 [19:16<07:39,  4.26it/s] 71%|███████▏  | 4888/6844 [19:16<07:38,  4.26it/s] 71%|███████▏  | 4889/6844 [19:16<07:39,  4.26it/s] 71%|███████▏  | 4890/6844 [19:17<07:39,  4.26it/s] 71%|███████▏  | 4891/6844 [19:17<07:38,  4.26it/s] 71%|███████▏  | 4892/6844 [19:17<07:38,  4.26it/s] 71%|███████▏  | 4893/6844 [19:17<07:59,  4.07it/s] 72%|███████▏  | 4894/6844 [19:18<08:11,  3.96it/s] 72%|███████▏  | 4895/6844 [19:18<08:01,  4.05it/s] 72%|███████▏  | 4896/6844 [19:18<07:54,  4.11it/s] 72%|███████▏  | 4897/6844 [19:18<07:48,  4.15it/s] 72%|███████▏  | 4898/6844 [19:19<07:45,  4.18it/s] 72%|███████▏  | 4899/6844 [19:19<07:42,  4.21it/s] 72%|███████▏  | 4900/6844 [19:19<07:40,  4.22it/s]{'loss': 4.3814, 'grad_norm': 0.1483680009841919, 'learning_rate': 0.0013579420722996285, 'epoch': 0.14}
+                                                    72%|███████▏  | 4900/6844 [19:19<07:40,  4.22it/s] 72%|███████▏  | 4901/6844 [19:19<07:40,  4.22it/s] 72%|███████▏  | 4902/6844 [19:20<07:39,  4.23it/s] 72%|███████▏  | 4903/6844 [19:20<07:38,  4.24it/s] 72%|███████▏  | 4904/6844 [19:20<07:37,  4.24it/s] 72%|███████▏  | 4905/6844 [19:20<07:37,  4.24it/s] 72%|███████▏  | 4906/6844 [19:20<07:36,  4.25it/s] 72%|███████▏  | 4907/6844 [19:21<07:36,  4.25it/s] 72%|███████▏  | 4908/6844 [19:21<07:34,  4.26it/s] 72%|███████▏  | 4909/6844 [19:21<07:34,  4.26it/s] 72%|███████▏  | 4910/6844 [19:21<07:34,  4.26it/s] 72%|███████▏  | 4911/6844 [19:22<07:33,  4.26it/s] 72%|███████▏  | 4912/6844 [19:22<07:33,  4.26it/s] 72%|███████▏  | 4913/6844 [19:22<07:33,  4.25it/s] 72%|███████▏  | 4914/6844 [19:22<07:33,  4.25it/s] 72%|███████▏  | 4915/6844 [19:23<07:33,  4.25it/s] 72%|███████▏  | 4916/6844 [19:23<07:33,  4.25it/s] 72%|███████▏  | 4917/6844 [19:23<07:33,  4.24it/s] 72%|███████▏  | 4918/6844 [19:23<07:33,  4.25it/s] 72%|███████▏  | 4919/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4920/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4921/6844 [19:24<07:32,  4.25it/s] 72%|███████▏  | 4922/6844 [19:24<07:31,  4.26it/s] 72%|███████▏  | 4923/6844 [19:24<07:31,  4.25it/s] 72%|███████▏  | 4924/6844 [19:25<07:31,  4.26it/s] 72%|███████▏  | 4925/6844 [19:25<07:31,  4.25it/s]{'loss': 4.3983, 'grad_norm': 0.1527438908815384, 'learning_rate': 0.0013260598224009018, 'epoch': 0.14}                                                   
+ 72%|███████▏  | 4925/6844 [19:25<07:31,  4.25it/s] 72%|███████▏  | 4926/6844 [19:25<07:32,  4.24it/s] 72%|███████▏  | 4927/6844 [19:25<07:31,  4.25it/s] 72%|███████▏  | 4928/6844 [19:26<07:30,  4.25it/s] 72%|███████▏  | 4929/6844 [19:26<07:29,  4.26it/s] 72%|███████▏  | 4930/6844 [19:26<07:29,  4.25it/s] 72%|███████▏  | 4931/6844 [19:26<07:29,  4.26it/s] 72%|███████▏  | 4932/6844 [19:27<07:29,  4.26it/s] 72%|███████▏  | 4933/6844 [19:27<07:28,  4.26it/s] 72%|███████▏  | 4934/6844 [19:27<07:28,  4.26it/s] 72%|███████▏  | 4935/6844 [19:27<07:27,  4.26it/s] 72%|███████▏  | 4936/6844 [19:28<07:28,  4.26it/s] 72%|███████▏  | 4937/6844 [19:28<07:27,  4.26it/s] 72%|███████▏  | 4938/6844 [19:28<07:27,  4.26it/s] 72%|███████▏  | 4939/6844 [19:29<10:04,  3.15it/s] 72%|███████▏  | 4940/6844 [19:29<09:16,  3.42it/s] 72%|███████▏  | 4941/6844 [19:29<08:53,  3.57it/s] 72%|███████▏  | 4942/6844 [19:29<08:27,  3.75it/s] 72%|███████▏  | 4943/6844 [19:29<08:08,  3.89it/s] 72%|███████▏  | 4944/6844 [19:30<07:55,  3.99it/s] 72%|███████▏  | 4945/6844 [19:30<07:45,  4.08it/s] 72%|███████▏  | 4946/6844 [19:30<07:41,  4.11it/s] 72%|███████▏  | 4947/6844 [19:30<07:35,  4.16it/s] 72%|███████▏  | 4948/6844 [19:31<07:32,  4.19it/s] 72%|███████▏  | 4949/6844 [19:31<07:29,  4.21it/s] 72%|███████▏  | 4950/6844 [19:31<07:27,  4.23it/s]{'loss': 4.3937, 'grad_norm': 0.14626656472682953, 'learning_rate': 0.00129444977581264, 'epoch': 0.14}
+                                                    72%|███████▏  | 4950/6844 [19:31<07:27,  4.23it/s] 72%|███████▏  | 4951/6844 [19:31<07:27,  4.23it/s] 72%|███████▏  | 4952/6844 [19:32<07:26,  4.24it/s] 72%|███████▏  | 4953/6844 [19:32<07:25,  4.25it/s] 72%|███████▏  | 4954/6844 [19:32<07:24,  4.25it/s] 72%|███████▏  | 4955/6844 [19:32<07:23,  4.26it/s] 72%|███████▏  | 4956/6844 [19:33<07:27,  4.22it/s] 72%|███████▏  | 4957/6844 [19:33<07:26,  4.23it/s] 72%|███████▏  | 4958/6844 [19:33<07:25,  4.24it/s] 72%|███████▏  | 4959/6844 [19:33<07:23,  4.25it/s] 72%|███████▏  | 4960/6844 [19:33<07:24,  4.24it/s] 72%|███████▏  | 4961/6844 [19:34<07:23,  4.24it/s] 73%|███████▎  | 4962/6844 [19:34<07:22,  4.25it/s] 73%|███████▎  | 4963/6844 [19:34<07:22,  4.25it/s] 73%|███████▎  | 4964/6844 [19:34<07:21,  4.26it/s] 73%|███████▎  | 4965/6844 [19:35<07:21,  4.26it/s] 73%|███████▎  | 4966/6844 [19:35<07:20,  4.26it/s] 73%|███████▎  | 4967/6844 [19:35<07:21,  4.25it/s] 73%|███████▎  | 4968/6844 [19:35<07:20,  4.26it/s] 73%|███████▎  | 4969/6844 [19:36<07:21,  4.25it/s] 73%|███████▎  | 4970/6844 [19:36<07:20,  4.25it/s] 73%|███████▎  | 4971/6844 [19:36<07:20,  4.25it/s] 73%|███████▎  | 4972/6844 [19:36<07:19,  4.26it/s] 73%|███████▎  | 4973/6844 [19:37<07:19,  4.25it/s] 73%|███████▎  | 4974/6844 [19:37<07:19,  4.25it/s] 73%|███████▎  | 4975/6844 [19:37<07:18,  4.26it/s]                                                   {'loss': 4.3926, 'grad_norm': 0.1520620882511139, 'learning_rate': 0.001263117072718128, 'epoch': 0.15}
+ 73%|███████▎  | 4975/6844 [19:37<07:18,  4.26it/s] 73%|███████▎  | 4976/6844 [19:37<07:20,  4.24it/s] 73%|███████▎  | 4977/6844 [19:37<07:19,  4.25it/s] 73%|███████▎  | 4978/6844 [19:38<07:19,  4.25it/s] 73%|███████▎  | 4979/6844 [19:38<07:19,  4.25it/s] 73%|███████▎  | 4980/6844 [19:38<07:18,  4.25it/s] 73%|███████▎  | 4981/6844 [19:38<07:19,  4.24it/s] 73%|███████▎  | 4982/6844 [19:39<07:19,  4.24it/s] 73%|███████▎  | 4983/6844 [19:39<07:18,  4.24it/s] 73%|███████▎  | 4984/6844 [19:39<07:18,  4.25it/s] 73%|███████▎  | 4985/6844 [19:39<07:17,  4.25it/s] 73%|███████▎  | 4986/6844 [19:40<07:17,  4.25it/s] 73%|███████▎  | 4987/6844 [19:40<07:16,  4.25it/s] 73%|███████▎  | 4988/6844 [19:40<07:17,  4.25it/s] 73%|███████▎  | 4989/6844 [19:40<07:16,  4.25it/s] 73%|███████▎  | 4990/6844 [19:41<07:16,  4.25it/s] 73%|███████▎  | 4991/6844 [19:41<07:16,  4.25it/s] 73%|███████▎  | 4992/6844 [19:41<07:16,  4.25it/s] 73%|███████▎  | 4993/6844 [19:41<07:15,  4.25it/s] 73%|███████▎  | 4994/6844 [19:41<07:14,  4.25it/s] 73%|███████▎  | 4995/6844 [19:42<07:15,  4.25it/s] 73%|███████▎  | 4996/6844 [19:42<07:14,  4.25it/s] 73%|███████▎  | 4997/6844 [19:42<07:14,  4.25it/s] 73%|███████▎  | 4998/6844 [19:42<07:14,  4.24it/s] 73%|███████▎  | 4999/6844 [19:43<07:14,  4.25it/s] 73%|███████▎  | 5000/6844 [19:43<07:14,  4.25it/s]{'loss': 4.3906, 'grad_norm': 0.15778391063213348, 'learning_rate': 0.0012320668082011837, 'epoch': 0.15}                                                   
+ 73%|███████▎  | 5000/6844 [19:43<07:14,  4.25it/s] 73%|███████▎  | 5001/6844 [19:43<07:15,  4.24it/s] 73%|███████▎  | 5002/6844 [19:43<07:14,  4.24it/s] 73%|███████▎  | 5003/6844 [19:44<07:13,  4.24it/s] 73%|███████▎  | 5004/6844 [19:44<07:13,  4.25it/s] 73%|███████▎  | 5005/6844 [19:44<07:12,  4.25it/s] 73%|███████▎  | 5006/6844 [19:44<07:12,  4.25it/s] 73%|███████▎  | 5007/6844 [19:45<07:11,  4.25it/s] 73%|███████▎  | 5008/6844 [19:45<07:11,  4.26it/s] 73%|███████▎  | 5009/6844 [19:45<07:10,  4.26it/s] 73%|███████▎  | 5010/6844 [19:45<07:09,  4.27it/s] 73%|███████▎  | 5011/6844 [19:45<07:09,  4.27it/s] 73%|███████▎  | 5012/6844 [19:46<07:10,  4.26it/s] 73%|███████▎  | 5013/6844 [19:46<07:09,  4.26it/s] 73%|███████▎  | 5014/6844 [19:46<07:09,  4.26it/s] 73%|███████▎  | 5015/6844 [19:46<07:10,  4.25it/s] 73%|███████▎  | 5016/6844 [19:47<07:09,  4.25it/s] 73%|███████▎  | 5017/6844 [19:47<07:08,  4.26it/s] 73%|███████▎  | 5018/6844 [19:47<07:08,  4.26it/s] 73%|███████▎  | 5019/6844 [19:47<07:09,  4.24it/s] 73%|███████▎  | 5020/6844 [19:48<07:24,  4.10it/s] 73%|██��████▎  | 5021/6844 [19:48<07:35,  4.00it/s] 73%|███████▎  | 5022/6844 [19:48<07:42,  3.94it/s] 73%|███████▎  | 5023/6844 [19:48<07:49,  3.87it/s] 73%|███████▎  | 5024/6844 [19:49<07:56,  3.82it/s] 73%|███████▎  | 5025/6844 [19:49<07:56,  3.82it/s]                                                   {'loss': 4.3845, 'grad_norm': 0.13740617036819458, 'learning_rate': 0.0012013040314176294, 'epoch': 0.15}
+ 73%|███████▎  | 5025/6844 [19:49<07:56,  3.82it/s] 73%|███████▎  | 5026/6844 [19:49<07:56,  3.82it/s] 73%|███████▎  | 5027/6844 [19:49<07:40,  3.94it/s] 73%|███████▎  | 5028/6844 [19:50<07:30,  4.03it/s] 73%|███████▎  | 5029/6844 [19:50<07:22,  4.10it/s] 73%|███████▎  | 5030/6844 [19:50<07:16,  4.15it/s] 74%|███████▎  | 5031/6844 [19:50<07:12,  4.19it/s] 74%|███████▎  | 5032/6844 [19:51<07:11,  4.20it/s] 74%|███████▎  | 5033/6844 [19:51<07:08,  4.22it/s] 74%|███████▎  | 5034/6844 [19:51<07:07,  4.23it/s] 74%|███████▎  | 5035/6844 [19:51<07:06,  4.24it/s] 74%|███████▎  | 5036/6844 [19:52<07:05,  4.25it/s] 74%|███████▎  | 5037/6844 [19:52<07:04,  4.26it/s] 74%|███████▎  | 5038/6844 [19:52<07:04,  4.26it/s] 74%|███████▎  | 5039/6844 [19:52<07:03,  4.26it/s] 74%|███████▎  | 5040/6844 [19:52<07:03,  4.26it/s] 74%|███████▎  | 5041/6844 [19:53<07:02,  4.26it/s] 74%|███████▎  | 5042/6844 [19:53<07:03,  4.26it/s] 74%|███████▎  | 5043/6844 [19:53<07:02,  4.26it/s] 74%|███████▎  | 5044/6844 [19:53<07:02,  4.26it/s] 74%|███████▎  | 5045/6844 [19:54<07:02,  4.26it/s] 74%|███████▎  | 5046/6844 [19:54<07:01,  4.26it/s] 74%|███████▎  | 5047/6844 [19:54<07:01,  4.26it/s] 74%|███████▍  | 5048/6844 [19:54<07:01,  4.26it/s] 74%|███████▍  | 5049/6844 [19:55<07:01,  4.25it/s] 74%|███████▍  | 5050/6844 [19:55<07:01,  4.26it/s]                                                   {'loss': 4.3777, 'grad_norm': 0.1557050496339798, 'learning_rate': 0.0011708337447742343, 'epoch': 0.15}
+ 74%|███████▍  | 5050/6844 [19:55<07:01,  4.26it/s] 74%|███████▍  | 5051/6844 [19:55<07:01,  4.25it/s] 74%|███████▍  | 5052/6844 [19:55<07:01,  4.25it/s] 74%|███████▍  | 5053/6844 [19:56<07:01,  4.25it/s] 74%|███████▍  | 5054/6844 [19:56<07:00,  4.26it/s] 74%|███████▍  | 5055/6844 [19:56<06:59,  4.26it/s] 74%|███████▍  | 5056/6844 [19:56<06:59,  4.26it/s] 74%|███████▍  | 5057/6844 [19:56<06:59,  4.26it/s] 74%|███████▍  | 5058/6844 [19:57<06:59,  4.26it/s] 74%|███████▍  | 5059/6844 [19:57<06:59,  4.26it/s] 74%|███████▍  | 5060/6844 [19:57<06:59,  4.26it/s] 74%|███████▍  | 5061/6844 [19:57<06:58,  4.26it/s] 74%|███████▍  | 5062/6844 [19:58<06:57,  4.27it/s] 74%|███████▍  | 5063/6844 [19:58<06:58,  4.26it/s] 74%|███████▍  | 5064/6844 [19:58<06:58,  4.26it/s] 74%|███████▍  | 5065/6844 [19:58<06:57,  4.26it/s] 74%|███████▍  | 5066/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5067/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5068/6844 [19:59<06:56,  4.26it/s] 74%|███████▍  | 5069/6844 [19:59<06:57,  4.26it/s] 74%|███████▍  | 5070/6844 [20:00<06:56,  4.26it/s] 74%|███████▍  | 5071/6844 [20:00<06:56,  4.26it/s] 74%|███████▍  | 5072/6844 [20:00<06:55,  4.26it/s] 74%|███████▍  | 5073/6844 [20:00<06:55,  4.26it/s] 74%|███████▍  | 5074/6844 [20:00<06:55,  4.26it/s] 74%|███████▍  | 5075/6844 [20:01<06:55,  4.26it/s]                                                   {'loss': 4.4064, 'grad_norm': 0.1414751261472702, 'learning_rate': 0.0011406609031152678, 'epoch': 0.15}
+ 74%|███████▍  | 5075/6844 [20:01<06:55,  4.26it/s] 74%|███████▍  | 5076/6844 [20:01<06:56,  4.24it/s] 74%|███████▍  | 5077/6844 [20:01<06:55,  4.25it/s] 74%|███████▍  | 5078/6844 [20:01<06:55,  4.25it/s] 74%|███████▍  | 5079/6844 [20:02<06:55,  4.25it/s] 74%|███████▍  | 5080/6844 [20:02<06:55,  4.25it/s] 74%|███████▍  | 5081/6844 [20:02<06:54,  4.26it/s] 74%|███████▍  | 5082/6844 [20:02<06:53,  4.26it/s] 74%|███████▍  | 5083/6844 [20:03<06:53,  4.26it/s] 74%|███████▍  | 5084/6844 [20:03<06:53,  4.25it/s] 74%|███████▍  | 5085/6844 [20:03<06:53,  4.25it/s] 74%|███████▍  | 5086/6844 [20:03<06:52,  4.26it/s] 74%|███████▍  | 5087/6844 [20:04<06:52,  4.26it/s] 74%|███████▍  | 5088/6844 [20:04<06:51,  4.26it/s] 74%|███████▍  | 5089/6844 [20:04<06:51,  4.26it/s] 74%|███████▍  | 5090/6844 [20:04<06:51,  4.26it/s] 74%|███████▍  | 5091/6844 [20:04<06:51,  4.26it/s] 74%|███████▍  | 5092/6844 [20:05<06:50,  4.26it/s] 74%|███████▍  | 5093/6844 [20:05<06:50,  4.26it/s] 74%|███████▍  | 5094/6844 [20:05<06:51,  4.26it/s] 74%|███████▍  | 5095/6844 [20:05<06:51,  4.25it/s] 74%|███████▍  | 5096/6844 [20:06<06:50,  4.25it/s] 74%|███████▍  | 5097/6844 [20:06<06:50,  4.26it/s] 74%|███████▍  | 5098/6844 [20:06<06:49,  4.26it/s] 75%|███████▍  | 5099/6844 [20:06<06:49,  4.27it/s] 75%|███████▍  | 5100/6844 [20:07<06:48,  4.27it/s]                                                   {'loss': 4.3754, 'grad_norm': 0.1461203396320343, 'learning_rate': 0.001110790412916778, 'epoch': 0.15}
+ 75%|███████▍  | 5100/6844 [20:07<06:48,  4.27it/s] 75%|███████▍  | 5101/6844 [20:07<06:50,  4.25it/s] 75%|███████▍  | 5102/6844 [20:07<06:49,  4.25it/s] 75%|███████▍  | 5103/6844 [20:07<06:48,  4.26it/s] 75%|███████▍  | 5104/6844 [20:08<06:48,  4.26it/s] 75%|███████▍  | 5105/6844 [20:08<06:49,  4.25it/s] 75%|███████▍  | 5106/6844 [20:08<06:48,  4.26it/s] 75%|███████▍  | 5107/6844 [20:08<06:47,  4.26it/s] 75%|███████▍  | 5108/6844 [20:08<06:47,  4.26it/s] 75%|███████▍  | 5109/6844 [20:09<06:47,  4.26it/s] 75%|███████▍  | 5110/6844 [20:09<06:47,  4.26it/s] 75%|███████▍  | 5111/6844 [20:09<06:46,  4.26it/s] 75%|███████▍  | 5112/6844 [20:09<06:47,  4.26it/s] 75%|███████▍  | 5113/6844 [20:10<06:46,  4.26it/s] 75%|███████▍  | 5114/6844 [20:10<06:46,  4.26it/s] 75%|███████▍  | 5115/6844 [20:10<06:46,  4.25it/s] 75%|███████▍  | 5116/6844 [20:10<06:46,  4.25it/s] 75%|███████▍  | 5117/6844 [20:11<06:46,  4.25it/s] 75%|███████▍  | 5118/6844 [20:11<06:45,  4.26it/s] 75%|███████▍  | 5119/6844 [20:11<06:44,  4.26it/s] 75%|███████▍  | 5120/6844 [20:11<06:45,  4.25it/s] 75%|███████▍  | 5121/6844 [20:12<06:45,  4.25it/s] 75%|███████▍  | 5122/6844 [20:12<06:45,  4.25it/s] 75%|███████▍  | 5123/6844 [20:12<06:44,  4.25it/s] 75%|███████▍  | 5124/6844 [20:12<06:44,  4.25it/s] 75%|███████▍  | 5125/6844 [20:12<06:44,  4.25it/s]{'loss': 4.3878, 'grad_norm': 0.157691091299057, 'learning_rate': 0.0010812271314887358, 'epoch': 0.15}
+                                                    75%|███████▍  | 5125/6844 [20:12<06:44,  4.25it/s] 75%|███████▍  | 5126/6844 [20:13<06:45,  4.23it/s] 75%|███████▍  | 5127/6844 [20:13<06:45,  4.24it/s] 75%|███████▍  | 5128/6844 [20:13<06:44,  4.24it/s] 75%|███████▍  | 5129/6844 [20:13<06:43,  4.25it/s] 75%|███████▍  | 5130/6844 [20:14<06:42,  4.25it/s] 75%|███████▍  | 5131/6844 [20:14<06:42,  4.26it/s] 75%|███████▍  | 5132/6844 [20:14<06:42,  4.25it/s] 75%|███████▌  | 5133/6844 [20:14<06:42,  4.25it/s] 75%|███████▌  | 5134/6844 [20:15<06:41,  4.25it/s] 75%|███████▌  | 5135/6844 [20:15<06:41,  4.26it/s] 75%|███████▌  | 5136/6844 [20:15<06:41,  4.26it/s] 75%|███████▌  | 5137/6844 [20:15<06:41,  4.26it/s] 75%|███████▌  | 5138/6844 [20:16<06:40,  4.26it/s] 75%|███████▌  | 5139/6844 [20:16<06:41,  4.25it/s] 75%|███████▌  | 5140/6844 [20:16<06:56,  4.09it/s] 75%|███████▌  | 5141/6844 [20:16<06:59,  4.06it/s] 75%|███████▌  | 5142/6844 [20:17<06:53,  4.12it/s] 75%|███████▌  | 5143/6844 [20:17<06:48,  4.16it/s] 75%|███████▌  | 5144/6844 [20:17<06:45,  4.19it/s] 75%|███████▌  | 5145/6844 [20:17<06:42,  4.22it/s] 75%|███████▌  | 5146/6844 [20:17<07:01,  4.03it/s] 75%|███████▌  | 5147/6844 [20:18<06:55,  4.08it/s] 75%|███████▌  | 5148/6844 [20:18<06:50,  4.13it/s] 75%|███████▌  | 5149/6844 [20:18<06:46,  4.17it/s] 75%|███████▌  | 5150/6844 [20:18<06:43,  4.20it/s]{'loss': 4.38, 'grad_norm': 0.1417813003063202, 'learning_rate': 0.0010519758661851806, 'epoch': 0.15}
+                                                    75%|███████▌  | 5150/6844 [20:18<06:43,  4.20it/s] 75%|███████▌  | 5151/6844 [20:19<06:42,  4.21it/s] 75%|███████▌  | 5152/6844 [20:19<06:40,  4.23it/s] 75%|███████▌  | 5153/6844 [20:19<06:39,  4.24it/s] 75%|███████▌  | 5154/6844 [20:19<06:38,  4.24it/s] 75%|███████▌  | 5155/6844 [20:20<06:37,  4.25it/s] 75%|███████▌  | 5156/6844 [20:20<06:37,  4.25it/s] 75%|███████▌  | 5157/6844 [20:20<06:36,  4.25it/s] 75%|███████▌  | 5158/6844 [20:20<06:35,  4.26it/s] 75%|███████▌  | 5159/6844 [20:21<06:35,  4.26it/s] 75%|███████▌  | 5160/6844 [20:21<06:36,  4.25it/s] 75%|███████▌  | 5161/6844 [20:21<06:35,  4.25it/s] 75%|███████▌  | 5162/6844 [20:21<06:34,  4.26it/s] 75%|███████▌  | 5163/6844 [20:21<06:35,  4.25it/s] 75%|███████▌  | 5164/6844 [20:22<06:34,  4.26it/s] 75%|███████▌  | 5165/6844 [20:22<06:33,  4.27it/s] 75%|███████▌  | 5166/6844 [20:22<06:33,  4.27it/s] 75%|███████▌  | 5167/6844 [20:22<06:33,  4.26it/s] 76%|███████▌  | 5168/6844 [20:23<06:33,  4.26it/s] 76%|███████▌  | 5169/6844 [20:23<06:32,  4.26it/s] 76%|███████▌  | 5170/6844 [20:23<06:32,  4.26it/s] 76%|███████▌  | 5171/6844 [20:23<06:32,  4.27it/s] 76%|███████▌  | 5172/6844 [20:24<06:32,  4.27it/s] 76%|███████▌  | 5173/6844 [20:24<06:32,  4.26it/s] 76%|███████▌  | 5174/6844 [20:24<06:32,  4.25it/s] 76%|███████▌  | 5175/6844 [20:24<06:31,  4.26it/s]                                                   {'loss': 4.3727, 'grad_norm': 0.15109629929065704, 'learning_rate': 0.0010230413736224812, 'epoch': 0.15}
+ 76%|███████▌  | 5175/6844 [20:24<06:31,  4.26it/s] 76%|███████▌  | 5176/6844 [20:25<06:32,  4.25it/s] 76%|███████▌  | 5177/6844 [20:25<06:32,  4.25it/s] 76%|███████▌  | 5178/6844 [20:25<06:31,  4.26it/s] 76%|███████▌  | 5179/6844 [20:25<06:30,  4.26it/s] 76%|███████▌  | 5180/6844 [20:25<06:30,  4.26it/s] 76%|███████▌  | 5181/6844 [20:26<06:30,  4.26it/s] 76%|███████▌  | 5182/6844 [20:26<06:29,  4.26it/s] 76%|███████▌  | 5183/6844 [20:26<06:29,  4.26it/s] 76%|███████▌  | 5184/6844 [20:26<06:30,  4.25it/s] 76%|███████▌  | 5185/6844 [20:27<06:30,  4.24it/s] 76%|███████▌  | 5186/6844 [20:27<06:29,  4.26it/s] 76%|███████▌  | 5187/6844 [20:27<06:29,  4.25it/s] 76%|███████▌  | 5188/6844 [20:27<06:28,  4.26it/s] 76%|███████▌  | 5189/6844 [20:28<06:28,  4.26it/s] 76%|███████▌  | 5190/6844 [20:28<06:29,  4.25it/s] 76%|███████▌  | 5191/6844 [20:28<06:28,  4.25it/s] 76%|███████▌  | 5192/6844 [20:28<06:27,  4.26it/s] 76%|███████▌  | 5193/6844 [20:29<06:27,  4.26it/s] 76%|███████▌  | 5194/6844 [20:29<06:27,  4.26it/s] 76%|███████▌  | 5195/6844 [20:29<06:27,  4.26it/s] 76%|███████▌  | 5196/6844 [20:29<06:26,  4.26it/s] 76%|███████▌  | 5197/6844 [20:29<06:26,  4.26it/s] 76%|███████▌  | 5198/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5199/6844 [20:30<06:26,  4.26it/s] 76%|███████▌  | 5200/6844 [20:30<06:25,  4.27it/s]{'loss': 4.3644, 'grad_norm': 0.156549870967865, 'learning_rate': 0.0009944283589058554, 'epoch': 0.15}
+                                                    76%|███████▌  | 5200/6844 [20:30<06:25,  4.27it/s] 76%|███████▌  | 5201/6844 [20:30<06:26,  4.25it/s] 76%|███████▌  | 5202/6844 [20:31<06:26,  4.25it/s] 76%|███████▌  | 5203/6844 [20:31<06:25,  4.26it/s] 76%|███████▌  | 5204/6844 [20:31<06:25,  4.26it/s] 76%|███████▌  | 5205/6844 [20:31<06:24,  4.26it/s] 76%|███████▌  | 5206/6844 [20:32<06:24,  4.26it/s] 76%|███████▌  | 5207/6844 [20:32<06:23,  4.26it/s] 76%|███████▌  | 5208/6844 [20:32<06:24,  4.26it/s] 76%|███████▌  | 5209/6844 [20:32<06:23,  4.26it/s] 76%|███████▌  | 5210/6844 [20:33<06:23,  4.26it/s] 76%|███████▌  | 5211/6844 [20:33<06:22,  4.26it/s] 76%|███████▌  | 5212/6844 [20:33<06:23,  4.26it/s] 76%|███████▌  | 5213/6844 [20:33<06:22,  4.26it/s] 76%|███████▌  | 5214/6844 [20:33<06:22,  4.26it/s] 76%|███████▌  | 5215/6844 [20:34<06:22,  4.26it/s] 76%|███████▌  | 5216/6844 [20:34<06:22,  4.26it/s] 76%|███████▌  | 5217/6844 [20:34<06:21,  4.27it/s] 76%|███████▌  | 5218/6844 [20:34<06:20,  4.27it/s] 76%|███████▋  | 5219/6844 [20:35<06:20,  4.27it/s] 76%|███████��  | 5220/6844 [20:35<06:20,  4.27it/s] 76%|███████▋  | 5221/6844 [20:35<06:20,  4.26it/s] 76%|███████▋  | 5222/6844 [20:35<06:20,  4.26it/s] 76%|███████▋  | 5223/6844 [20:36<06:20,  4.26it/s] 76%|███████▋  | 5224/6844 [20:36<06:19,  4.26it/s] 76%|███████▋  | 5225/6844 [20:36<06:19,  4.27it/s]{'loss': 4.3653, 'grad_norm': 0.14233645796775818, 'learning_rate': 0.0009661414748642591, 'epoch': 0.15}
+                                                    76%|███████▋  | 5225/6844 [20:36<06:19,  4.27it/s] 76%|███████▋  | 5226/6844 [20:36<06:19,  4.26it/s] 76%|███████▋  | 5227/6844 [20:37<06:19,  4.26it/s] 76%|███████▋  | 5228/6844 [20:37<06:19,  4.26it/s] 76%|███████▋  | 5229/6844 [20:37<06:18,  4.26it/s] 76%|███████▋  | 5230/6844 [20:37<06:18,  4.26it/s] 76%|███████▋  | 5231/6844 [20:37<06:18,  4.27it/s] 76%|███████▋  | 5232/6844 [20:38<06:18,  4.26it/s] 76%|███████▋  | 5233/6844 [20:38<06:17,  4.27it/s] 76%|███████▋  | 5234/6844 [20:38<06:17,  4.27it/s] 76%|███████▋  | 5235/6844 [20:38<06:16,  4.27it/s] 77%|███████▋  | 5236/6844 [20:39<06:16,  4.27it/s] 77%|███████▋  | 5237/6844 [20:39<06:16,  4.27it/s] 77%|███████▋  | 5238/6844 [20:39<06:16,  4.27it/s] 77%|███████▋  | 5239/6844 [20:39<06:16,  4.26it/s] 77%|███████▋  | 5240/6844 [20:40<06:16,  4.26it/s] 77%|███████▋  | 5241/6844 [20:40<06:16,  4.26it/s] 77%|███████▋  | 5242/6844 [20:40<06:15,  4.27it/s] 77%|███████▋  | 5243/6844 [20:40<06:15,  4.26it/s] 77%|███████▋  | 5244/6844 [20:40<06:15,  4.26it/s] 77%|███████▋  | 5245/6844 [20:41<06:14,  4.26it/s] 77%|███████▋  | 5246/6844 [20:41<06:15,  4.26it/s] 77%|███████▋  | 5247/6844 [20:41<06:15,  4.26it/s] 77%|███████▋  | 5248/6844 [20:41<06:14,  4.26it/s] 77%|███████▋  | 5249/6844 [20:42<06:14,  4.26it/s] 77%|███████▋  | 5250/6844 [20:42<06:14,  4.26it/s]{'loss': 4.3714, 'grad_norm': 0.14928635954856873, 'learning_rate': 0.0009381853212937774, 'epoch': 0.15}
+                                                    77%|███████▋  | 5250/6844 [20:42<06:14,  4.26it/s] 77%|███████▋  | 5251/6844 [20:42<06:14,  4.25it/s] 77%|███████▋  | 5252/6844 [20:42<06:14,  4.26it/s] 77%|███████▋  | 5253/6844 [20:43<06:14,  4.25it/s] 77%|███████▋  | 5254/6844 [20:43<06:13,  4.26it/s] 77%|███████▋  | 5255/6844 [20:43<06:12,  4.26it/s] 77%|███████▋  | 5256/6844 [20:43<06:12,  4.26it/s] 77%|███████▋  | 5257/6844 [20:44<06:12,  4.26it/s] 77%|███████▋  | 5258/6844 [20:44<06:11,  4.26it/s] 77%|███████▋  | 5259/6844 [20:44<06:11,  4.26it/s] 77%|███████▋  | 5260/6844 [20:44<06:11,  4.26it/s] 77%|███████▋  | 5261/6844 [20:44<06:10,  4.27it/s] 77%|███████▋  | 5262/6844 [20:45<06:11,  4.26it/s] 77%|███████▋  | 5263/6844 [20:45<06:11,  4.26it/s] 77%|███████▋  | 5264/6844 [20:45<06:10,  4.26it/s] 77%|███████▋  | 5265/6844 [20:45<06:10,  4.26it/s] 77%|███████▋  | 5266/6844 [20:46<06:10,  4.26it/s] 77%|███████▋  | 5267/6844 [20:46<06:10,  4.26it/s] 77%|███████▋  | 5268/6844 [20:46<06:10,  4.26it/s] 77%|███████▋  | 5269/6844 [20:46<06:09,  4.26it/s] 77%|███████▋  | 5270/6844 [20:47<06:08,  4.27it/s] 77%|███████▋  | 5271/6844 [20:47<06:09,  4.26it/s] 77%|███████▋  | 5272/6844 [20:47<06:09,  4.26it/s] 77%|███████▋  | 5273/6844 [20:47<06:09,  4.25it/s] 77%|███████▋  | 5274/6844 [20:48<06:23,  4.09it/s] 77%|███████▋  | 5275/6844 [20:48<06:23,  4.10it/s]                                                   {'loss': 4.3648, 'grad_norm': 0.14495843648910522, 'learning_rate': 0.0009105644442096467, 'epoch': 0.15}
+ 77%|███████▋  | 5275/6844 [20:48<06:23,  4.10it/s] 77%|███████▋  | 5276/6844 [20:48<06:19,  4.14it/s] 77%|███████▋  | 5277/6844 [20:48<06:15,  4.17it/s] 77%|███████▋  | 5278/6844 [20:49<06:12,  4.20it/s] 77%|███████▋  | 5279/6844 [20:49<06:10,  4.22it/s] 77%|███████▋  | 5280/6844 [20:49<06:09,  4.23it/s] 77%|███████▋  | 5281/6844 [20:49<06:08,  4.24it/s] 77%|███████▋  | 5282/6844 [20:49<06:07,  4.25it/s] 77%|███████▋  | 5283/6844 [20:50<06:06,  4.25it/s] 77%|███████▋  | 5284/6844 [20:50<06:06,  4.25it/s] 77%|███████▋  | 5285/6844 [20:50<06:06,  4.25it/s] 77%|███████▋  | 5286/6844 [20:50<06:05,  4.26it/s] 77%|███████▋  | 5287/6844 [20:51<06:05,  4.26it/s] 77%|███████▋  | 5288/6844 [20:51<06:05,  4.26it/s] 77%|███████▋  | 5289/6844 [20:51<06:05,  4.26it/s] 77%|███████▋  | 5290/6844 [20:51<06:04,  4.26it/s] 77%|███████▋  | 5291/6844 [20:52<06:04,  4.26it/s] 77%|███████▋  | 5292/6844 [20:52<06:03,  4.26it/s] 77%|███████▋  | 5293/6844 [20:52<06:03,  4.26it/s] 77%|███████▋  | 5294/6844 [20:52<06:03,  4.27it/s] 77%|███████▋  | 5295/6844 [20:53<06:03,  4.26it/s] 77%|███████▋  | 5296/6844 [20:53<06:03,  4.26it/s] 77%|███████▋  | 5297/6844 [20:53<06:02,  4.26it/s] 77%|███████▋  | 5298/6844 [20:53<06:02,  4.27it/s] 77%|███████▋  | 5299/6844 [20:53<06:02,  4.27it/s] 77%|███████▋  | 5300/6844 [20:54<06:02,  4.26it/s]{'loss': 4.3663, 'grad_norm': 0.1541566699743271, 'learning_rate': 0.000883283335107011, 'epoch': 0.15}
+                                                    77%|███████▋  | 5300/6844 [20:54<06:02,  4.26it/s] 77%|███████▋  | 5301/6844 [20:54<06:02,  4.25it/s] 77%|███████▋  | 5302/6844 [20:54<06:02,  4.26it/s] 77%|███████▋  | 5303/6844 [20:54<06:01,  4.26it/s] 77%|███████▋  | 5304/6844 [20:55<06:01,  4.26it/s] 78%|███████▊  | 5305/6844 [20:55<06:00,  4.26it/s] 78%|███████▊  | 5306/6844 [20:55<06:00,  4.27it/s] 78%|███████▊  | 5307/6844 [20:55<06:00,  4.27it/s] 78%|███████▊  | 5308/6844 [20:56<06:01,  4.25it/s] 78%|███████▊  | 5309/6844 [20:56<06:00,  4.26it/s] 78%|███████▊  | 5310/6844 [20:56<05:59,  4.26it/s] 78%|███████▊  | 5311/6844 [20:56<05:59,  4.27it/s] 78%|███████▊  | 5312/6844 [20:56<05:59,  4.27it/s] 78%|███████▊  | 5313/6844 [20:57<05:59,  4.26it/s] 78%|███████▊  | 5314/6844 [20:57<05:59,  4.26it/s] 78%|███████▊  | 5315/6844 [20:57<05:58,  4.27it/s] 78%|███████▊  | 5316/6844 [20:57<05:58,  4.27it/s] 78%|███████▊  | 5317/6844 [20:58<05:58,  4.26it/s] 78%|███████▊  | 5318/6844 [20:58<05:58,  4.26it/s] 78%|███████▊  | 5319/6844 [20:58<05:57,  4.26it/s] 78%|███████▊  | 5320/6844 [20:58<05:57,  4.26it/s] 78%|███████▊  | 5321/6844 [20:59<05:57,  4.26it/s] 78%|███████▊  | 5322/6844 [20:59<05:57,  4.26it/s] 78%|███████▊  | 5323/6844 [20:59<05:56,  4.26it/s] 78%|███████▊  | 5324/6844 [20:59<05:56,  4.26it/s] 78%|███████▊  | 5325/6844 [21:00<05:57,  4.25it/s]{'loss': 4.3632, 'grad_norm': 0.14039072394371033, 'learning_rate': 0.0008563464302305529, 'epoch': 0.16}
+                                                    78%|███████▊  | 5325/6844 [21:00<05:57,  4.25it/s] 78%|███████▊  | 5326/6844 [21:00<05:57,  4.24it/s] 78%|███████▊  | 5327/6844 [21:00<05:57,  4.25it/s] 78%|███████▊  | 5328/6844 [21:00<05:56,  4.25it/s] 78%|███████▊  | 5329/6844 [21:00<05:56,  4.25it/s] 78%|███████▊  | 5330/6844 [21:01<05:55,  4.25it/s] 78%|███████▊  | 5331/6844 [21:01<05:55,  4.26it/s] 78%|███████▊  | 5332/6844 [21:01<05:54,  4.26it/s] 78%|███████▊  | 5333/6844 [21:01<05:54,  4.26it/s] 78%|███████▊  | 5334/6844 [21:02<05:54,  4.26it/s] 78%|███████▊  | 5335/6844 [21:02<05:54,  4.26it/s] 78%|███████▊  | 5336/6844 [21:02<05:54,  4.26it/s] 78%|███████▊  | 5337/6844 [21:02<05:54,  4.26it/s] 78%|███████▊  | 5338/6844 [21:03<05:52,  4.27it/s] 78%|███████▊  | 5339/6844 [21:03<05:53,  4.26it/s] 78%|███████▊  | 5340/6844 [21:03<05:53,  4.26it/s] 78%|███████▊  | 5341/6844 [21:03<05:53,  4.26it/s] 78%|███████▊  | 5342/6844 [21:04<05:52,  4.26it/s] 78%|███████▊  | 5343/6844 [21:04<05:52,  4.25it/s] 78%|███████▊  | 5344/6844 [21:04<05:52,  4.25it/s] 78%|███████▊  | 5345/6844 [21:04<05:52,  4.25it/s] 78%|███████▊  | 5346/6844 [21:04<05:52,  4.25it/s] 78%|███████▊  | 5347/6844 [21:05<05:52,  4.25it/s] 78%|███████▊  | 5348/6844 [21:05<05:51,  4.26it/s] 78%|███████▊  | 5349/6844 [21:05<05:51,  4.25it/s] 78%|███████▊  | 5350/6844 [21:05<05:51,  4.26it/s]                                                   {'loss': 4.3773, 'grad_norm': 0.1499035805463791, 'learning_rate': 0.0008297581098531033, 'epoch': 0.16}
+ 78%|███████▊  | 5350/6844 [21:05<05:51,  4.26it/s] 78%|███████▊  | 5351/6844 [21:06<05:52,  4.24it/s] 78%|███████▊  | 5352/6844 [21:06<05:51,  4.24it/s] 78%|███████▊  | 5353/6844 [21:06<05:51,  4.24it/s] 78%|███████▊  | 5354/6844 [21:06<05:51,  4.24it/s] 78%|███████▊  | 5355/6844 [21:07<05:50,  4.25it/s] 78%|███████▊  | 5356/6844 [21:07<05:49,  4.25it/s] 78%|███████▊  | 5357/6844 [21:07<05:49,  4.25it/s] 78%|███████▊  | 5358/6844 [21:07<05:48,  4.26it/s] 78%|███████▊  | 5359/6844 [21:08<05:47,  4.27it/s] 78%|███████▊  | 5360/6844 [21:08<05:48,  4.26it/s] 78%|███████▊  | 5361/6844 [21:08<05:47,  4.26it/s] 78%|███████▊  | 5362/6844 [21:08<05:47,  4.26it/s] 78%|███████▊  | 5363/6844 [21:08<05:47,  4.26it/s] 78%|███████▊  | 5364/6844 [21:09<05:47,  4.26it/s] 78%|███████▊  | 5365/6844 [21:09<05:47,  4.26it/s] 78%|███████▊  | 5366/6844 [21:09<05:47,  4.26it/s] 78%|███████▊  | 5367/6844 [21:09<05:46,  4.26it/s] 78%|███████▊  | 5368/6844 [21:10<05:45,  4.27it/s] 78%|███████▊  | 5369/6844 [21:10<05:45,  4.27it/s] 78%|███████▊  | 5370/6844 [21:10<05:46,  4.25it/s] 78%|███████▊  | 5371/6844 [21:10<05:45,  4.26it/s] 78%|███████▊  | 5372/6844 [21:11<05:45,  4.26it/s] 79%|███████▊  | 5373/6844 [21:11<05:45,  4.26it/s] 79%|███████▊  | 5374/6844 [21:11<05:45,  4.26it/s] 79%|███████▊  | 5375/6844 [21:11<05:44,  4.26it/s]                                                   {'loss': 4.3569, 'grad_norm': 0.16179339587688446, 'learning_rate': 0.0008035226975633562, 'epoch': 0.16}
+ 79%|███████▊  | 5375/6844 [21:11<05:44,  4.26it/s] 79%|███████▊  | 5376/6844 [21:12<05:45,  4.25it/s] 79%|███████▊  | 5377/6844 [21:12<05:45,  4.25it/s] 79%|███████▊  | 5378/6844 [21:12<05:44,  4.26it/s] 79%|███████▊  | 5379/6844 [21:12<05:43,  4.26it/s] 79%|███████▊  | 5380/6844 [21:12<05:43,  4.26it/s] 79%|███████▊  | 5381/6844 [21:13<05:43,  4.26it/s] 79%|███████▊  | 5382/6844 [21:13<05:43,  4.26it/s] 79%|███████▊  | 5383/6844 [21:13<05:43,  4.26it/s] 79%|███████▊  | 5384/6844 [21:13<05:43,  4.25it/s] 79%|███████▊  | 5385/6844 [21:14<05:43,  4.25it/s] 79%|███████▊  | 5386/6844 [21:14<05:42,  4.25it/s] 79%|███████▊  | 5387/6844 [21:14<05:42,  4.25it/s] 79%|███████▊  | 5388/6844 [21:14<05:42,  4.25it/s] 79%|███████▊  | 5389/6844 [21:15<05:41,  4.26it/s] 79%|███████▉  | 5390/6844 [21:15<05:41,  4.26it/s] 79%|███████▉  | 5391/6844 [21:15<05:41,  4.25it/s] 79%|███████▉  | 5392/6844 [21:15<05:41,  4.25it/s] 79%|███████▉  | 5393/6844 [21:16<05:41,  4.25it/s] 79%|███████▉  | 5394/6844 [21:16<05:40,  4.25it/s] 79%|███████▉  | 5395/6844 [21:16<05:40,  4.25it/s] 79%|███████▉  | 5396/6844 [21:16<05:40,  4.26it/s] 79%|███████▉  | 5397/6844 [21:16<05:40,  4.25it/s] 79%|███████▉  | 5398/6844 [21:17<05:39,  4.26it/s] 79%|███████▉  | 5399/6844 [21:17<05:39,  4.26it/s] 79%|███████▉  | 5400/6844 [21:17<05:39,  4.26it/s]                                                   {'loss': 4.3541, 'grad_norm': 0.1376262903213501, 'learning_rate': 0.000777644459562801, 'epoch': 0.16}
+ 79%|███████▉  | 5400/6844 [21:17<05:39,  4.26it/s] 79%|███████▉  | 5401/6844 [21:17<05:56,  4.05it/s] 79%|███████▉  | 5402/6844 [21:18<06:04,  3.95it/s] 79%|███████▉  | 5403/6844 [21:18<06:08,  3.91it/s] 79%|███████▉  | 5404/6844 [21:18<06:11,  3.88it/s] 79%|███████▉  | 5405/6844 [21:18<06:15,  3.83it/s] 79%|███████▉  | 5406/6844 [21:19<06:15,  3.83it/s] 79%|███████▉  | 5407/6844 [21:19<06:03,  3.95it/s] 79%|███████▉  | 5408/6844 [21:19<05:55,  4.04it/s] 79%|███████▉  | 5409/6844 [21:19<05:49,  4.11it/s] 79%|███████▉  | 5410/6844 [21:20<05:45,  4.15it/s] 79%|███████▉  | 5411/6844 [21:20<05:43,  4.17it/s] 79%|███████▉  | 5412/6844 [21:20<05:40,  4.20it/s] 79%|███████▉  | 5413/6844 [21:20<05:39,  4.22it/s] 79%|███████▉  | 5414/6844 [21:21<05:37,  4.23it/s] 79%|███████▉  | 5415/6844 [21:21<05:36,  4.24it/s] 79%|███████▉  | 5416/6844 [21:21<05:36,  4.25it/s] 79%|███████▉  | 5417/6844 [21:21<05:35,  4.25it/s] 79%|███████▉  | 5418/6844 [21:22<05:34,  4.26it/s] 79%|███████▉  | 5419/6844 [21:22<05:33,  4.27it/s] 79%|███████▉  | 5420/6844 [21:22<05:33,  4.27it/s] 79%|███████▉  | 5421/6844 [21:22<05:33,  4.27it/s] 79%|███████▉  | 5422/6844 [21:23<05:33,  4.27it/s] 79%|███████▉  | 5423/6844 [21:23<05:32,  4.27it/s] 79%|███████▉  | 5424/6844 [21:23<05:32,  4.27it/s] 79%|███████▉  | 5425/6844 [21:23<05:32,  4.27it/s]                                                   {'loss': 4.3539, 'grad_norm': 0.1625542789697647, 'learning_rate': 0.0007521276039719806, 'epoch': 0.16}
+ 79%|███████▉  | 5425/6844 [21:23<05:32,  4.27it/s] 79%|███████▉  | 5426/6844 [21:23<05:32,  4.26it/s] 79%|███████▉  | 5427/6844 [21:24<05:32,  4.26it/s] 79%|███████▉  | 5428/6844 [21:24<05:32,  4.26it/s] 79%|███████▉  | 5429/6844 [21:24<05:31,  4.26it/s] 79%|███████▉  | 5430/6844 [21:24<05:31,  4.27it/s] 79%|███████▉  | 5431/6844 [21:25<05:30,  4.27it/s] 79%|███████▉  | 5432/6844 [21:25<05:30,  4.27it/s] 79%|███████▉  | 5433/6844 [21:25<05:30,  4.27it/s] 79%|███████▉  | 5434/6844 [21:25<05:29,  4.27it/s] 79%|███████▉  | 5435/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5436/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5437/6844 [21:26<05:30,  4.26it/s] 79%|███████▉  | 5438/6844 [21:26<05:29,  4.26it/s] 79%|███████▉  | 5439/6844 [21:26<05:29,  4.26it/s] 79%|███████▉  | 5440/6844 [21:27<05:28,  4.27it/s] 80%|███████▉  | 5441/6844 [21:27<05:28,  4.27it/s] 80%|███████▉  | 5442/6844 [21:27<05:28,  4.27it/s] 80%|███████▉  | 5443/6844 [21:27<05:27,  4.27it/s] 80%|███████▉  | 5444/6844 [21:28<05:27,  4.27it/s] 80%|███████▉  | 5445/6844 [21:28<05:27,  4.27it/s] 80%|███████▉  | 5446/6844 [21:28<05:27,  4.27it/s] 80%|███████▉  | 5447/6844 [21:28<05:27,  4.27it/s] 80%|███████▉  | 5448/6844 [21:29<05:26,  4.27it/s] 80%|███████▉  | 5449/6844 [21:29<05:27,  4.26it/s] 80%|███████▉  | 5450/6844 [21:29<05:26,  4.27it/s]{'loss': 4.3549, 'grad_norm': 0.1587403118610382, 'learning_rate': 0.0007269762801462061, 'epoch': 0.16}
+                                                    80%|███████▉  | 5450/6844 [21:29<05:26,  4.27it/s] 80%|███████▉  | 5451/6844 [21:29<05:27,  4.25it/s] 80%|███████▉  | 5452/6844 [21:30<05:27,  4.25it/s] 80%|███████▉  | 5453/6844 [21:30<05:27,  4.25it/s] 80%|███████▉  | 5454/6844 [21:30<05:26,  4.26it/s] 80%|███████▉  | 5455/6844 [21:30<05:25,  4.26it/s] 80%|███████▉  | 5456/6844 [21:30<05:25,  4.27it/s] 80%|███████▉  | 5457/6844 [21:31<05:25,  4.27it/s] 80%|███████▉  | 5458/6844 [21:31<05:25,  4.26it/s] 80%|███████▉  | 5459/6844 [21:31<05:24,  4.27it/s] 80%|███████▉  | 5460/6844 [21:31<05:24,  4.27it/s] 80%|███████▉  | 5461/6844 [21:32<05:23,  4.27it/s] 80%|███████▉  | 5462/6844 [21:32<05:23,  4.27it/s] 80%|███████▉  | 5463/6844 [21:32<05:23,  4.27it/s] 80%|███████▉  | 5464/6844 [21:32<05:23,  4.26it/s] 80%|███████▉  | 5465/6844 [21:33<05:22,  4.27it/s] 80%|███████▉  | 5466/6844 [21:33<05:23,  4.26it/s] 80%|███████▉  | 5467/6844 [21:33<05:22,  4.26it/s] 80%|███████▉  | 5468/6844 [21:33<05:22,  4.26it/s] 80%|███████▉  | 5469/6844 [21:34<05:22,  4.27it/s] 80%|███████▉  | 5470/6844 [21:34<05:22,  4.27it/s] 80%|███████▉  | 5471/6844 [21:34<05:21,  4.27it/s] 80%|███████▉  | 5472/6844 [21:34<05:21,  4.26it/s] 80%|███████▉  | 5473/6844 [21:34<05:22,  4.25it/s] 80%|███████▉  | 5474/6844 [21:35<05:22,  4.25it/s] 80%|███████▉  | 5475/6844 [21:35<05:21,  4.26it/s]                                                   {'loss': 4.3541, 'grad_norm': 0.1462593823671341, 'learning_rate': 0.0007021945780008157, 'epoch': 0.16}
+ 80%|███████▉  | 5475/6844 [21:35<05:21,  4.26it/s] 80%|████████  | 5476/6844 [21:35<05:22,  4.25it/s] 80%|████████  | 5477/6844 [21:35<05:21,  4.25it/s] 80%|████████  | 5478/6844 [21:36<05:21,  4.25it/s] 80%|████████  | 5479/6844 [21:36<05:21,  4.25it/s] 80%|████████  | 5480/6844 [21:36<05:20,  4.25it/s] 80%|████████  | 5481/6844 [21:36<05:19,  4.26it/s] 80%|████████  | 5482/6844 [21:37<05:19,  4.27it/s] 80%|████████  | 5483/6844 [21:37<05:19,  4.26it/s] 80%|████████  | 5484/6844 [21:37<05:18,  4.27it/s] 80%|████████  | 5485/6844 [21:37<05:18,  4.27it/s] 80%|████████  | 5486/6844 [21:38<05:18,  4.27it/s] 80%|████████  | 5487/6844 [21:38<05:18,  4.26it/s] 80%|████████  | 5488/6844 [21:38<05:17,  4.27it/s] 80%|████████  | 5489/6844 [21:38<05:17,  4.27it/s] 80%|████████  | 5490/6844 [21:38<05:17,  4.26it/s] 80%|████████  | 5491/6844 [21:39<05:17,  4.26it/s] 80%|████████  | 5492/6844 [21:39<05:16,  4.27it/s] 80%|████████  | 5493/6844 [21:39<05:16,  4.27it/s] 80%|████████  | 5494/6844 [21:39<05:17,  4.26it/s] 80%|████████  | 5495/6844 [21:40<05:16,  4.27it/s] 80%|████████  | 5496/6844 [21:40<05:15,  4.27it/s] 80%|████████  | 5497/6844 [21:40<05:15,  4.27it/s] 80%|████████  | 5498/6844 [21:40<05:15,  4.26it/s] 80%|████████  | 5499/6844 [21:41<05:15,  4.26it/s] 80%|████████  | 5500/6844 [21:41<05:15,  4.26it/s]{'loss': 4.3488, 'grad_norm': 0.1447993814945221, 'learning_rate': 0.0006777865273461064, 'epoch': 0.16}
+                                                    80%|████████  | 5500/6844 [21:41<05:15,  4.26it/s] 80%|████████  | 5501/6844 [21:41<05:16,  4.24it/s] 80%|████████  | 5502/6844 [21:41<05:15,  4.25it/s] 80%|████████  | 5503/6844 [21:42<05:15,  4.25it/s] 80%|████████  | 5504/6844 [21:42<05:14,  4.26it/s] 80%|████████  | 5505/6844 [21:42<05:14,  4.26it/s] 80%|████████  | 5506/6844 [21:42<05:13,  4.27it/s] 80%|████████  | 5507/6844 [21:42<05:13,  4.27it/s] 80%|████████  | 5508/6844 [21:43<05:13,  4.26it/s] 80%|████████  | 5509/6844 [21:43<05:12,  4.27it/s] 81%|████████  | 5510/6844 [21:43<05:12,  4.27it/s] 81%|████████  | 5511/6844 [21:43<05:11,  4.27it/s] 81%|████████  | 5512/6844 [21:44<05:11,  4.27it/s] 81%|████████  | 5513/6844 [21:44<05:11,  4.27it/s] 81%|████████  | 5514/6844 [21:44<05:11,  4.27it/s] 81%|████████  | 5515/6844 [21:44<05:12,  4.26it/s] 81%|████████  | 5516/6844 [21:45<05:11,  4.26it/s] 81%|████████  | 5517/6844 [21:45<05:10,  4.27it/s] 81%|████████  | 5518/6844 [21:45<05:10,  4.27it/s] 81%|████████  | 5519/6844 [21:45<05:10,  4.27it/s] 81%|████████  | 5520/6844 [21:45<05:10,  4.27it/s] 81%|████████  | 5521/6844 [21:46<05:10,  4.26it/s] 81%|████████  | 5522/6844 [21:46<05:10,  4.26it/s] 81%|████████  | 5523/6844 [21:46<05:09,  4.26it/s] 81%|████████  | 5524/6844 [21:46<05:09,  4.26it/s] 81%|████████  | 5525/6844 [21:47<05:09,  4.27it/s]                                                   {'loss': 4.365, 'grad_norm': 0.17724503576755524, 'learning_rate': 0.0006537560972320342, 'epoch': 0.16}
+ 81%|████████  | 5525/6844 [21:47<05:09,  4.27it/s] 81%|████████  | 5526/6844 [21:47<05:10,  4.25it/s] 81%|████████  | 5527/6844 [21:47<05:09,  4.25it/s] 81%|████████  | 5528/6844 [21:47<05:10,  4.24it/s] 81%|████████  | 5529/6844 [21:48<05:24,  4.05it/s] 81%|████████  | 5530/6844 [21:48<05:19,  4.11it/s] 81%|████████  | 5531/6844 [21:48<05:15,  4.16it/s] 81%|████████  | 5532/6844 [21:48<05:13,  4.19it/s] 81%|████████  | 5533/6844 [21:49<05:11,  4.21it/s] 81%|████████  | 5534/6844 [21:49<05:09,  4.23it/s] 81%|████████  | 5535/6844 [21:49<05:08,  4.24it/s] 81%|████████  | 5536/6844 [21:49<05:07,  4.25it/s] 81%|████████  | 5537/6844 [21:50<05:06,  4.26it/s] 81%|████████  | 5538/6844 [21:50<05:07,  4.25it/s] 81%|████████  | 5539/6844 [21:50<05:07,  4.25it/s] 81%|████████  | 5540/6844 [21:50<05:06,  4.26it/s] 81%|████████  | 5541/6844 [21:50<05:05,  4.27it/s] 81%|████████  | 5542/6844 [21:51<05:05,  4.27it/s] 81%|████████  | 5543/6844 [21:51<05:05,  4.26it/s] 81%|████████  | 5544/6844 [21:51<05:04,  4.27it/s] 81%|████████  | 5545/6844 [21:51<05:04,  4.27it/s] 81%|████████  | 5546/6844 [21:52<05:04,  4.27it/s] 81%|████████  | 5547/6844 [21:52<05:03,  4.27it/s] 81%|████████  | 5548/6844 [21:52<05:03,  4.27it/s] 81%|████████  | 5549/6844 [21:52<05:03,  4.27it/s] 81%|████████  | 5550/6844 [21:53<05:03,  4.27it/s]                                                   {'loss': 4.3478, 'grad_norm': 0.15059234201908112, 'learning_rate': 0.0006301071953028011, 'epoch': 0.16}
+ 81%|���███████  | 5550/6844 [21:53<05:03,  4.27it/s] 81%|████████  | 5551/6844 [21:53<05:03,  4.26it/s] 81%|████████  | 5552/6844 [21:53<05:02,  4.26it/s] 81%|████████  | 5553/6844 [21:53<05:02,  4.26it/s] 81%|████████  | 5554/6844 [21:54<05:02,  4.27it/s] 81%|████████  | 5555/6844 [21:54<05:01,  4.27it/s] 81%|████████  | 5556/6844 [21:54<05:01,  4.27it/s] 81%|████████  | 5557/6844 [21:54<05:01,  4.27it/s] 81%|████████  | 5558/6844 [21:54<05:01,  4.27it/s] 81%|████████  | 5559/6844 [21:55<05:00,  4.27it/s] 81%|████████  | 5560/6844 [21:55<05:01,  4.26it/s] 81%|████████▏ | 5561/6844 [21:55<05:00,  4.26it/s] 81%|████████▏ | 5562/6844 [21:55<05:00,  4.26it/s] 81%|████████▏ | 5563/6844 [21:56<05:00,  4.26it/s] 81%|████████▏ | 5564/6844 [21:56<05:00,  4.27it/s] 81%|████████▏ | 5565/6844 [21:56<04:59,  4.27it/s] 81%|████████▏ | 5566/6844 [21:56<04:59,  4.27it/s] 81%|████████▏ | 5567/6844 [21:57<04:59,  4.27it/s] 81%|████████▏ | 5568/6844 [21:57<04:59,  4.27it/s] 81%|████████▏ | 5569/6844 [21:57<04:58,  4.27it/s] 81%|████████▏ | 5570/6844 [21:57<04:58,  4.27it/s] 81%|████████▏ | 5571/6844 [21:57<04:57,  4.27it/s] 81%|████████▏ | 5572/6844 [21:58<04:57,  4.27it/s] 81%|████████▏ | 5573/6844 [21:58<04:57,  4.27it/s] 81%|████████▏ | 5574/6844 [21:58<04:57,  4.26it/s] 81%|████████▏ | 5575/6844 [21:58<04:57,  4.26it/s]                                                   {'loss': 4.3428, 'grad_norm': 0.1415168046951294, 'learning_rate': 0.0006068436671614223, 'epoch': 0.16}
+ 81%|████████▏ | 5575/6844 [21:58<04:57,  4.26it/s] 81%|████████▏ | 5576/6844 [21:59<04:58,  4.25it/s] 81%|████████▏ | 5577/6844 [21:59<04:57,  4.25it/s] 82%|████████▏ | 5578/6844 [21:59<04:57,  4.25it/s] 82%|████████▏ | 5579/6844 [21:59<04:57,  4.26it/s] 82%|████████▏ | 5580/6844 [22:00<04:56,  4.26it/s] 82%|████████▏ | 5581/6844 [22:00<04:56,  4.25it/s] 82%|████████▏ | 5582/6844 [22:00<04:56,  4.26it/s] 82%|████████▏ | 5583/6844 [22:00<04:56,  4.26it/s] 82%|████████▏ | 5584/6844 [22:01<04:55,  4.26it/s] 82%|████████▏ | 5585/6844 [22:01<04:55,  4.26it/s] 82%|████████▏ | 5586/6844 [22:01<04:55,  4.26it/s] 82%|████████▏ | 5587/6844 [22:01<04:54,  4.27it/s] 82%|████████▏ | 5588/6844 [22:01<04:54,  4.26it/s] 82%|████████▏ | 5589/6844 [22:02<04:54,  4.27it/s] 82%|████████▏ | 5590/6844 [22:02<04:53,  4.27it/s] 82%|████████▏ | 5591/6844 [22:02<04:53,  4.26it/s] 82%|████████▏ | 5592/6844 [22:02<04:53,  4.26it/s] 82%|████████▏ | 5593/6844 [22:03<04:53,  4.26it/s] 82%|████████▏ | 5594/6844 [22:03<04:53,  4.26it/s] 82%|████████▏ | 5595/6844 [22:03<04:53,  4.26it/s] 82%|████████▏ | 5596/6844 [22:03<04:52,  4.26it/s] 82%|████████▏ | 5597/6844 [22:04<04:52,  4.27it/s] 82%|████████▏ | 5598/6844 [22:04<04:51,  4.27it/s] 82%|████████▏ | 5599/6844 [22:04<04:51,  4.27it/s] 82%|████████▏ | 5600/6844 [22:04<04:51,  4.27it/s]                                                   {'loss': 4.3543, 'grad_norm': 0.16143348813056946, 'learning_rate': 0.0005839692957443837, 'epoch': 0.16}
+ 82%|████████▏ | 5600/6844 [22:04<04:51,  4.27it/s] 82%|████████▏ | 5601/6844 [22:05<04:52,  4.25it/s] 82%|████████▏ | 5602/6844 [22:05<04:52,  4.25it/s] 82%|████████▏ | 5603/6844 [22:05<04:51,  4.25it/s] 82%|████████▏ | 5604/6844 [22:05<05:02,  4.11it/s] 82%|████████▏ | 5605/6844 [22:06<05:07,  4.03it/s] 82%|████████▏ | 5606/6844 [22:06<05:10,  3.98it/s] 82%|████████▏ | 5607/6844 [22:06<05:15,  3.93it/s] 82%|████████▏ | 5608/6844 [22:06<05:14,  3.93it/s] 82%|████████▏ | 5609/6844 [22:07<05:18,  3.88it/s] 82%|████████▏ | 5610/6844 [22:07<05:19,  3.87it/s] 82%|████████▏ | 5611/6844 [22:07<05:18,  3.87it/s] 82%|████████▏ | 5612/6844 [22:07<05:20,  3.84it/s] 82%|████████▏ | 5613/6844 [22:08<05:20,  3.85it/s] 82%|████████▏ | 5614/6844 [22:08<05:19,  3.85it/s] 82%|████████▏ | 5615/6844 [22:08<05:20,  3.83it/s] 82%|████████▏ | 5616/6844 [22:08<05:19,  3.85it/s] 82%|████████▏ | 5617/6844 [22:09<05:20,  3.82it/s] 82%|████████▏ | 5618/6844 [22:09<05:20,  3.83it/s] 82%|████████▏ | 5619/6844 [22:09<05:21,  3.81it/s] 82%|████████▏ | 5620/6844 [22:09<05:20,  3.82it/s] 82%|████████▏ | 5621/6844 [22:10<05:19,  3.83it/s] 82%|████████▏ | 5622/6844 [22:10<05:20,  3.82it/s] 82%|████████▏ | 5623/6844 [22:10<05:21,  3.80it/s] 82%|████████▏ | 5624/6844 [22:10<05:21,  3.80it/s] 82%|████████▏ | 5625/6844 [22:11<05:20,  3.80it/s]                                                   {'loss': 4.3498, 'grad_norm': 0.14837737381458282, 'learning_rate': 0.0005614878007064898, 'epoch': 0.16}
+ 82%|████████▏ | 5625/6844 [22:11<05:20,  3.80it/s] 82%|████████▏ | 5626/6844 [22:11<05:21,  3.79it/s] 82%|████████▏ | 5627/6844 [22:11<05:19,  3.81it/s] 82%|████████▏ | 5628/6844 [22:12<05:18,  3.82it/s] 82%|████████▏ | 5629/6844 [22:12<05:16,  3.83it/s] 82%|████████▏ | 5630/6844 [22:12<05:17,  3.82it/s] 82%|████████▏ | 5631/6844 [22:12<05:19,  3.80it/s] 82%|████████▏ | 5632/6844 [22:13<05:20,  3.78it/s] 82%|████████▏ | 5633/6844 [22:13<05:18,  3.81it/s] 82%|████████▏ | 5634/6844 [22:13<05:18,  3.80it/s] 82%|████████▏ | 5635/6844 [22:13<05:17,  3.81it/s] 82%|████████▏ | 5636/6844 [22:14<05:07,  3.93it/s] 82%|████████▏ | 5637/6844 [22:14<04:59,  4.02it/s] 82%|████████▏ | 5638/6844 [22:14<04:54,  4.09it/s] 82%|████████▏ | 5639/6844 [22:14<04:51,  4.14it/s] 82%|████████▏ | 5640/6844 [22:15<04:48,  4.17it/s] 82%|████████▏ | 5641/6844 [22:15<04:46,  4.20it/s] 82%|████████▏ | 5642/6844 [22:15<04:44,  4.22it/s] 82%|████████▏ | 5643/6844 [22:15<04:43,  4.23it/s] 82%|████████▏ | 5644/6844 [22:15<04:43,  4.24it/s] 82%|████████▏ | 5645/6844 [22:16<04:42,  4.25it/s] 82%|████████▏ | 5646/6844 [22:16<04:41,  4.26it/s] 83%|████████▎ | 5647/6844 [22:16<04:40,  4.26it/s] 83%|████████▎ | 5648/6844 [22:16<04:40,  4.26it/s] 83%|████████▎ | 5649/6844 [22:17<04:40,  4.26it/s] 83%|████████▎ | 5650/6844 [22:17<04:40,  4.26it/s]                                                   {'loss': 4.3457, 'grad_norm': 0.15452855825424194, 'learning_rate': 0.0005394028378160031, 'epoch': 0.17}
+ 83%|████████▎ | 5650/6844 [22:17<04:40,  4.26it/s] 83%|████████▎ | 5651/6844 [22:17<04:41,  4.24it/s] 83%|████████▎ | 5652/6844 [22:17<04:41,  4.24it/s] 83%|████████▎ | 5653/6844 [22:18<04:54,  4.05it/s] 83%|████████▎ | 5654/6844 [22:18<04:49,  4.11it/s] 83%|████████▎ | 5655/6844 [22:18<04:45,  4.16it/s] 83%|████████▎ | 5656/6844 [22:18<04:43,  4.19it/s] 83%|████████▎ | 5657/6844 [22:19<04:41,  4.21it/s] 83%|████████▎ | 5658/6844 [22:19<04:40,  4.23it/s] 83%|████████▎ | 5659/6844 [22:19<04:39,  4.24it/s] 83%|████████▎ | 5660/6844 [22:19<04:38,  4.24it/s] 83%|████████▎ | 5661/6844 [22:20<04:39,  4.24it/s] 83%|████████▎ | 5662/6844 [22:20<04:38,  4.24it/s] 83%|████████▎ | 5663/6844 [22:20<04:37,  4.26it/s] 83%|████████▎ | 5664/6844 [22:20<04:37,  4.26it/s] 83%|████████▎ | 5665/6844 [22:20<04:37,  4.25it/s] 83%|████████▎ | 5666/6844 [22:21<04:37,  4.25it/s] 83%|████████▎ | 5667/6844 [22:21<04:36,  4.25it/s] 83%|████████▎ | 5668/6844 [22:21<04:36,  4.25it/s] 83%|████████▎ | 5669/6844 [22:21<04:35,  4.26it/s] 83%|████████▎ | 5670/6844 [22:22<04:35,  4.26it/s] 83%|████████▎ | 5671/6844 [22:22<04:35,  4.26it/s] 83%|████████▎ | 5672/6844 [22:22<04:35,  4.26it/s] 83%|████████▎ | 5673/6844 [22:22<04:34,  4.26it/s] 83%|████████▎ | 5674/6844 [22:23<04:35,  4.25it/s] 83%|████████▎ | 5675/6844 [22:23<04:35,  4.25it/s]{'loss': 4.3431, 'grad_norm': 0.15243566036224365, 'learning_rate': 0.0005177179983601688, 'epoch': 0.17}
+                                                    83%|████████▎ | 5675/6844 [22:23<04:35,  4.25it/s] 83%|████████▎ | 5676/6844 [22:23<04:34,  4.25it/s] 83%|████████▎ | 5677/6844 [22:23<04:33,  4.26it/s] 83%|████████▎ | 5678/6844 [22:24<04:33,  4.26it/s] 83%|████████▎ | 5679/6844 [22:24<04:33,  4.27it/s] 83%|████��███▎ | 5680/6844 [22:24<04:32,  4.27it/s] 83%|████████▎ | 5681/6844 [22:24<04:32,  4.27it/s] 83%|████████▎ | 5682/6844 [22:24<04:33,  4.25it/s] 83%|████████▎ | 5683/6844 [22:25<04:32,  4.26it/s] 83%|████████▎ | 5684/6844 [22:25<04:32,  4.26it/s] 83%|████████▎ | 5685/6844 [22:25<04:31,  4.27it/s] 83%|████████▎ | 5686/6844 [22:25<04:31,  4.26it/s] 83%|████████▎ | 5687/6844 [22:26<04:31,  4.26it/s] 83%|████████▎ | 5688/6844 [22:26<04:31,  4.26it/s] 83%|████████▎ | 5689/6844 [22:26<04:31,  4.26it/s] 83%|████████▎ | 5690/6844 [22:26<04:30,  4.26it/s] 83%|████████▎ | 5691/6844 [22:27<04:30,  4.26it/s] 83%|████████▎ | 5692/6844 [22:27<04:30,  4.26it/s] 83%|████████▎ | 5693/6844 [22:27<04:30,  4.26it/s] 83%|████████▎ | 5694/6844 [22:27<04:30,  4.26it/s] 83%|████████▎ | 5695/6844 [22:28<04:30,  4.25it/s] 83%|████████▎ | 5696/6844 [22:28<04:29,  4.25it/s] 83%|████████▎ | 5697/6844 [22:28<04:29,  4.26it/s] 83%|████████▎ | 5698/6844 [22:28<04:28,  4.26it/s] 83%|████████▎ | 5699/6844 [22:28<04:28,  4.27it/s] 83%|████████▎ | 5700/6844 [22:29<04:28,  4.26it/s]{'loss': 4.3349, 'grad_norm': 0.13843221962451935, 'learning_rate': 0.00049643680856123, 'epoch': 0.17}                                                   
+ 83%|████████▎ | 5700/6844 [22:29<04:28,  4.26it/s] 83%|████████▎ | 5701/6844 [22:29<04:28,  4.25it/s] 83%|████████▎ | 5702/6844 [22:29<04:28,  4.25it/s] 83%|████████▎ | 5703/6844 [22:29<04:28,  4.25it/s] 83%|████████▎ | 5704/6844 [22:30<04:27,  4.26it/s] 83%|████████▎ | 5705/6844 [22:30<04:27,  4.26it/s] 83%|████████▎ | 5706/6844 [22:30<04:27,  4.26it/s] 83%|████████▎ | 5707/6844 [22:30<04:27,  4.26it/s] 83%|████████▎ | 5708/6844 [22:31<04:26,  4.26it/s] 83%|████████▎ | 5709/6844 [22:31<04:26,  4.26it/s] 83%|████████▎ | 5710/6844 [22:31<04:26,  4.26it/s] 83%|████████▎ | 5711/6844 [22:31<04:25,  4.26it/s] 83%|████████▎ | 5712/6844 [22:31<04:25,  4.27it/s] 83%|████████▎ | 5713/6844 [22:32<04:25,  4.27it/s] 83%|████████▎ | 5714/6844 [22:32<04:25,  4.26it/s] 84%|████████▎ | 5715/6844 [22:32<04:24,  4.26it/s] 84%|████████▎ | 5716/6844 [22:32<04:24,  4.27it/s] 84%|████████▎ | 5717/6844 [22:33<04:24,  4.27it/s] 84%|████████▎ | 5718/6844 [22:33<04:23,  4.27it/s] 84%|████████▎ | 5719/6844 [22:33<04:23,  4.27it/s] 84%|████████▎ | 5720/6844 [22:33<04:23,  4.27it/s] 84%|████████▎ | 5721/6844 [22:34<04:22,  4.27it/s] 84%|████████▎ | 5722/6844 [22:34<04:22,  4.27it/s] 84%|████████▎ | 5723/6844 [22:34<04:22,  4.27it/s] 84%|████████▎ | 5724/6844 [22:34<04:22,  4.27it/s] 84%|████████▎ | 5725/6844 [22:35<04:22,  4.27it/s]                                                   {'loss': 4.3327, 'grad_norm': 0.14737634360790253, 'learning_rate': 0.00047556272900301823, 'epoch': 0.17}
+ 84%|████████▎ | 5725/6844 [22:35<04:22,  4.27it/s] 84%|████████▎ | 5726/6844 [22:35<04:22,  4.26it/s] 84%|████████▎ | 5727/6844 [22:35<04:22,  4.26it/s] 84%|████████▎ | 5728/6844 [22:35<04:22,  4.26it/s] 84%|████████▎ | 5729/6844 [22:35<04:21,  4.26it/s] 84%|████████▎ | 5730/6844 [22:36<04:21,  4.26it/s] 84%|████████▎ | 5731/6844 [22:36<04:21,  4.26it/s] 84%|████████▍ | 5732/6844 [22:36<04:20,  4.26it/s] 84%|████████▍ | 5733/6844 [22:36<04:20,  4.27it/s] 84%|████████▍ | 5734/6844 [22:37<04:20,  4.27it/s] 84%|████████▍ | 5735/6844 [22:37<04:19,  4.27it/s] 84%|████████▍ | 5736/6844 [22:37<04:19,  4.27it/s] 84%|████████▍ | 5737/6844 [22:37<04:18,  4.27it/s] 84%|████████▍ | 5738/6844 [22:38<04:19,  4.27it/s] 84%|████████▍ | 5739/6844 [22:38<04:20,  4.25it/s] 84%|████████▍ | 5740/6844 [22:38<04:19,  4.25it/s] 84%|████████▍ | 5741/6844 [22:38<04:19,  4.25it/s] 84%|████████▍ | 5742/6844 [22:39<04:19,  4.25it/s] 84%|████████▍ | 5743/6844 [22:39<04:18,  4.26it/s] 84%|████████▍ | 5744/6844 [22:39<04:18,  4.26it/s] 84%|████████▍ | 5745/6844 [22:39<04:18,  4.26it/s] 84%|████████▍ | 5746/6844 [22:39<04:17,  4.26it/s] 84%|████████▍ | 5747/6844 [22:40<04:17,  4.27it/s] 84%|████████▍ | 5748/6844 [22:40<04:17,  4.26it/s] 84%|████████▍ | 5749/6844 [22:40<04:16,  4.26it/s] 84%|████████▍ | 5750/6844 [22:40<04:16,  4.26it/s]{'loss': 4.3565, 'grad_norm': 0.1491139680147171, 'learning_rate': 0.00045509915406822057, 'epoch': 0.17}                                                   
+ 84%|████████▍ | 5750/6844 [22:40<04:16,  4.26it/s] 84%|████████▍ | 5751/6844 [22:41<04:17,  4.25it/s] 84%|████████▍ | 5752/6844 [22:41<04:16,  4.25it/s] 84%|████████▍ | 5753/6844 [22:41<04:16,  4.26it/s] 84%|████████▍ | 5754/6844 [22:41<04:15,  4.26it/s] 84%|████████▍ | 5755/6844 [22:42<04:15,  4.26it/s] 84%|████████▍ | 5756/6844 [22:42<04:15,  4.26it/s] 84%|████████▍ | 5757/6844 [22:42<04:14,  4.26it/s] 84%|████████▍ | 5758/6844 [22:42<04:14,  4.27it/s] 84%|████████▍ | 5759/6844 [22:43<04:14,  4.27it/s] 84%|████████▍ | 5760/6844 [22:43<04:14,  4.27it/s] 84%|████████▍ | 5761/6844 [22:43<04:13,  4.27it/s] 84%|████████▍ | 5762/6844 [22:43<04:13,  4.26it/s] 84%|████████▍ | 5763/6844 [22:43<04:13,  4.27it/s] 84%|████████▍ | 5764/6844 [22:44<04:12,  4.27it/s] 84%|████████▍ | 5765/6844 [22:44<04:12,  4.27it/s] 84%|████████▍ | 5766/6844 [22:44<04:12,  4.27it/s] 84%|████████▍ | 5767/6844 [22:44<04:12,  4.26it/s] 84%|████████▍ | 5768/6844 [22:45<04:12,  4.27it/s] 84%|████████▍ | 5769/6844 [22:45<04:12,  4.26it/s] 84%|████████▍ | 5770/6844 [22:45<04:12,  4.25it/s] 84%|████████▍ | 5771/6844 [22:45<04:12,  4.25it/s] 84%|████████▍ | 5772/6844 [22:46<04:12,  4.25it/s] 84%|████████▍ | 5773/6844 [22:46<04:11,  4.25it/s] 84%|████████▍ | 5774/6844 [22:46<04:11,  4.25it/s] 84%|████████▍ | 5775/6844 [22:46<04:11,  4.25it/s]{'loss': 4.3347, 'grad_norm': 0.15043969452381134, 'learning_rate': 0.0004350494113864125, 'epoch': 0.17}
+                                                    84%|████████▍ | 5775/6844 [22:46<04:11,  4.25it/s] 84%|████████▍ | 5776/6844 [22:47<04:12,  4.23it/s] 84%|████████▍ | 5777/6844 [22:47<04:11,  4.24it/s] 84%|████████▍ | 5778/6844 [22:47<04:10,  4.25it/s] 84%|████████▍ | 5779/6844 [22:47<04:10,  4.25it/s] 84%|████████▍ | 5780/6844 [22:47<04:19,  4.10it/s] 84%|████████▍ | 5781/6844 [22:48<04:16,  4.14it/s] 84%|████████▍ | 5782/6844 [22:48<04:14,  4.17it/s] 84%|████████▍ | 5783/6844 [22:48<04:12,  4.20it/s] 85%|████████▍ | 5784/6844 [22:48<04:10,  4.22it/s] 85%|████████▍ | 5785/6844 [22:49<04:09,  4.24it/s] 85%|████████▍ | 5786/6844 [22:49<04:09,  4.24it/s] 85%|████████▍ | 5787/6844 [22:49<04:08,  4.25it/s] 85%|████████▍ | 5788/6844 [22:49<04:08,  4.25it/s] 85%|████████▍ | 5789/6844 [22:50<04:08,  4.25it/s] 85%|████████▍ | 5790/6844 [22:50<04:08,  4.25it/s] 85%|████████▍ | 5791/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5792/6844 [22:50<04:07,  4.25it/s] 85%|████████▍ | 5793/6844 [22:51<04:06,  4.26it/s] 85%|████████▍ | 5794/6844 [22:51<04:06,  4.26it/s] 85%|████████▍ | 5795/6844 [22:51<04:05,  4.26it/s] 85%|████████▍ | 5796/6844 [22:51<04:05,  4.26it/s] 85%|████████▍ | 5797/6844 [22:51<04:05,  4.27it/s] 85%|████████▍ | 5798/6844 [22:52<04:04,  4.27it/s] 85%|████████▍ | 5799/6844 [22:52<04:04,  4.27it/s] 85%|████████▍ | 5800/6844 [22:52<04:04,  4.26it/s]                                                   {'loss': 4.3402, 'grad_norm': 0.1454375833272934, 'learning_rate': 0.00041541676129294117, 'epoch': 0.17}
+ 85%|████████▍ | 5800/6844 [22:52<04:04,  4.26it/s] 85%|████████▍ | 5801/6844 [22:52<04:05,  4.25it/s] 85%|████████▍ | 5802/6844 [22:53<04:04,  4.25it/s] 85%|████████▍ | 5803/6844 [22:53<04:04,  4.26it/s] 85%|████████▍ | 5804/6844 [22:53<04:04,  4.26it/s] 85%|████████▍ | 5805/6844 [22:53<04:04,  4.26it/s] 85%|████████▍ | 5806/6844 [22:54<04:04,  4.25it/s] 85%|████████▍ | 5807/6844 [22:54<04:04,  4.25it/s] 85%|████████▍ | 5808/6844 [22:54<04:03,  4.25it/s] 85%|████████▍ | 5809/6844 [22:54<04:03,  4.26it/s] 85%|█��██████▍ | 5810/6844 [22:55<04:03,  4.25it/s] 85%|████████▍ | 5811/6844 [22:55<04:03,  4.25it/s] 85%|████████▍ | 5812/6844 [22:55<04:02,  4.26it/s] 85%|████████▍ | 5813/6844 [22:55<04:02,  4.26it/s] 85%|████████▍ | 5814/6844 [22:55<04:01,  4.26it/s] 85%|████████▍ | 5815/6844 [22:56<04:01,  4.26it/s] 85%|████████▍ | 5816/6844 [22:56<04:01,  4.25it/s] 85%|████████▍ | 5817/6844 [22:56<04:01,  4.25it/s] 85%|████████▌ | 5818/6844 [22:56<04:01,  4.25it/s] 85%|████████▌ | 5819/6844 [22:57<04:00,  4.26it/s] 85%|████████▌ | 5820/6844 [22:57<04:00,  4.26it/s] 85%|████████▌ | 5821/6844 [22:57<04:00,  4.25it/s] 85%|████████▌ | 5822/6844 [22:57<04:00,  4.26it/s] 85%|████████▌ | 5823/6844 [22:58<03:59,  4.26it/s] 85%|████████▌ | 5824/6844 [22:58<03:59,  4.26it/s] 85%|████████▌ | 5825/6844 [22:58<04:00,  4.25it/s]                                                   {'loss': 4.3393, 'grad_norm': 0.14566299319267273, 'learning_rate': 0.0003962043962987584, 'epoch': 0.17}
+ 85%|████████▌ | 5825/6844 [22:58<04:00,  4.25it/s] 85%|████████▌ | 5826/6844 [22:58<04:00,  4.24it/s] 85%|████████▌ | 5827/6844 [22:59<03:59,  4.25it/s] 85%|████████▌ | 5828/6844 [22:59<03:59,  4.25it/s] 85%|████████▌ | 5829/6844 [22:59<03:58,  4.25it/s] 85%|████████▌ | 5830/6844 [22:59<03:58,  4.25it/s] 85%|████████▌ | 5831/6844 [22:59<03:58,  4.26it/s] 85%|████████▌ | 5832/6844 [23:00<03:58,  4.25it/s] 85%|████████▌ | 5833/6844 [23:00<03:57,  4.26it/s] 85%|████████▌ | 5834/6844 [23:00<03:57,  4.25it/s] 85%|████████▌ | 5835/6844 [23:00<03:57,  4.26it/s] 85%|████████▌ | 5836/6844 [23:01<03:56,  4.26it/s] 85%|████████▌ | 5837/6844 [23:01<03:56,  4.26it/s] 85%|████████▌ | 5838/6844 [23:01<03:56,  4.26it/s] 85%|████████▌ | 5839/6844 [23:01<03:56,  4.26it/s] 85%|████████▌ | 5840/6844 [23:02<03:55,  4.26it/s] 85%|████████▌ | 5841/6844 [23:02<03:55,  4.26it/s] 85%|████████▌ | 5842/6844 [23:02<03:55,  4.26it/s] 85%|████████▌ | 5843/6844 [23:02<03:54,  4.26it/s] 85%|████████▌ | 5844/6844 [23:03<03:54,  4.26it/s] 85%|████████▌ | 5845/6844 [23:03<03:54,  4.26it/s] 85%|████████▌ | 5846/6844 [23:03<03:54,  4.26it/s] 85%|████████▌ | 5847/6844 [23:03<03:54,  4.26it/s] 85%|████████▌ | 5848/6844 [23:03<03:54,  4.25it/s] 85%|████████▌ | 5849/6844 [23:04<03:54,  4.25it/s] 85%|████████▌ | 5850/6844 [23:04<03:53,  4.25it/s]{'loss': 4.332, 'grad_norm': 0.1491285264492035, 'learning_rate': 0.000377415440571277, 'epoch': 0.17}                                                   
+ 85%|████████▌ | 5850/6844 [23:04<03:53,  4.25it/s] 85%|████████▌ | 5851/6844 [23:04<03:54,  4.24it/s] 86%|████████▌ | 5852/6844 [23:04<03:53,  4.25it/s] 86%|████████▌ | 5853/6844 [23:05<03:53,  4.24it/s] 86%|████████▌ | 5854/6844 [23:05<03:52,  4.25it/s] 86%|████████▌ | 5855/6844 [23:05<03:52,  4.25it/s] 86%|████████▌ | 5856/6844 [23:05<03:52,  4.25it/s] 86%|████████▌ | 5857/6844 [23:06<03:51,  4.26it/s] 86%|████████▌ | 5858/6844 [23:06<03:51,  4.26it/s] 86%|████████▌ | 5859/6844 [23:06<03:51,  4.26it/s] 86%|████████▌ | 5860/6844 [23:06<03:50,  4.26it/s] 86%|████████▌ | 5861/6844 [23:07<03:50,  4.26it/s] 86%|████████▌ | 5862/6844 [23:07<03:50,  4.26it/s] 86%|████████▌ | 5863/6844 [23:07<03:50,  4.26it/s] 86%|████████▌ | 5864/6844 [23:07<03:49,  4.27it/s] 86%|████████▌ | 5865/6844 [23:07<03:49,  4.27it/s] 86%|████████▌ | 5866/6844 [23:08<03:49,  4.26it/s] 86%|████████▌ | 5867/6844 [23:08<03:49,  4.26it/s] 86%|████████▌ | 5868/6844 [23:08<03:48,  4.26it/s] 86%|████████▌ | 5869/6844 [23:08<03:48,  4.27it/s] 86%|████████▌ | 5870/6844 [23:09<03:48,  4.26it/s] 86%|████████▌ | 5871/6844 [23:09<03:48,  4.26it/s] 86%|████████▌ | 5872/6844 [23:09<03:47,  4.26it/s] 86%|████████▌ | 5873/6844 [23:09<03:48,  4.26it/s] 86%|████████▌ | 5874/6844 [23:10<03:47,  4.26it/s] 86%|████████▌ | 5875/6844 [23:10<03:47,  4.25it/s]                                                   {'loss': 4.3372, 'grad_norm': 0.14778757095336914, 'learning_rate': 0.0003590529494263416, 'epoch': 0.17}
+ 86%|████████▌ | 5875/6844 [23:10<03:47,  4.25it/s] 86%|████████▌ | 5876/6844 [23:10<03:47,  4.25it/s] 86%|████████▌ | 5877/6844 [23:10<03:47,  4.25it/s] 86%|████████▌ | 5878/6844 [23:11<03:47,  4.25it/s] 86%|████████▌ | 5879/6844 [23:11<03:46,  4.25it/s] 86%|████████▌ | 5880/6844 [23:11<03:46,  4.25it/s] 86%|████████▌ | 5881/6844 [23:11<03:55,  4.09it/s] 86%|████████▌ | 5882/6844 [23:12<04:00,  4.00it/s] 86%|████████▌ | 5883/6844 [23:12<04:03,  3.95it/s] 86%|████████▌ | 5884/6844 [23:12<04:05,  3.91it/s] 86%|████████▌ | 5885/6844 [23:12<04:08,  3.86it/s] 86%|████████▌ | 5886/6844 [23:13<04:09,  3.84it/s] 86%|████████▌ | 5887/6844 [23:13<04:09,  3.84it/s] 86%|████████▌ | 5888/6844 [23:13<04:09,  3.83it/s] 86%|████████▌ | 5889/6844 [23:13<04:09,  3.83it/s] 86%|████████▌ | 5890/6844 [23:14<04:08,  3.84it/s] 86%|████████▌ | 5891/6844 [23:14<04:09,  3.82it/s] 86%|████████▌ | 5892/6844 [23:14<04:08,  3.83it/s] 86%|████████▌ | 5893/6844 [23:14<04:11,  3.77it/s] 86%|████████▌ | 5894/6844 [23:15<04:12,  3.76it/s] 86%|████████▌ | 5895/6844 [23:15<04:10,  3.79it/s] 86%|████████▌ | 5896/6844 [23:15<04:09,  3.80it/s] 86%|████████▌ | 5897/6844 [23:15<04:07,  3.83it/s] 86%|████████▌ | 5898/6844 [23:16<04:07,  3.83it/s] 86%|████████▌ | 5899/6844 [23:16<03:59,  3.95it/s] 86%|████████▌ | 5900/6844 [23:16<03:53,  4.04it/s]                                                   {'loss': 4.326, 'grad_norm': 0.14246846735477448, 'learning_rate': 0.00034111990883139954, 'epoch': 0.17}
+ 86%|████████▌ | 5900/6844 [23:16<03:53,  4.04it/s] 86%|████████▌ | 5901/6844 [23:16<03:50,  4.09it/s] 86%|████████▌ | 5902/6844 [23:17<03:47,  4.14it/s] 86%|████████▋ | 5903/6844 [23:17<03:45,  4.18it/s] 86%|████████▋ | 5904/6844 [23:17<03:43,  4.21it/s] 86%|████████▋ | 5905/6844 [23:17<03:42,  4.22it/s] 86%|████████▋ | 5906/6844 [23:18<03:44,  4.19it/s] 86%|████████▋ | 5907/6844 [23:18<03:42,  4.21it/s] 86%|████████▋ | 5908/6844 [23:18<03:41,  4.22it/s] 86%|████████▋ | 5909/6844 [23:18<03:40,  4.24it/s] 86%|████████▋ | 5910/6844 [23:19<03:40,  4.24it/s] 86%|████████▋ | 5911/6844 [23:19<03:39,  4.25it/s] 86%|████████▋ | 5912/6844 [23:19<03:39,  4.25it/s] 86%|████████▋ | 5913/6844 [23:19<03:38,  4.25it/s] 86%|████████▋ | 5914/6844 [23:19<03:38,  4.25it/s] 86%|████████▋ | 5915/6844 [23:20<03:38,  4.26it/s] 86%|████████▋ | 5916/6844 [23:20<03:37,  4.26it/s] 86%|████████▋ | 5917/6844 [23:20<03:37,  4.26it/s] 86%|████████▋ | 5918/6844 [23:20<03:37,  4.26it/s] 86%|████████▋ | 5919/6844 [23:21<03:36,  4.26it/s] 86%|████████▋ | 5920/6844 [23:21<03:37,  4.25it/s] 87%|████████▋ | 5921/6844 [23:21<03:36,  4.26it/s] 87%|████████▋ | 5922/6844 [23:21<03:36,  4.26it/s] 87%|████████▋ | 5923/6844 [23:22<03:35,  4.27it/s] 87%|████████▋ | 5924/6844 [23:22<03:36,  4.26it/s] 87%|████████▋ | 5925/6844 [23:22<03:35,  4.26it/s]                                                   {'loss': 4.3439, 'grad_norm': 0.14703989028930664, 'learning_rate': 0.0003236192349199432, 'epoch': 0.17}
+ 87%|████████▋ | 5925/6844 [23:22<03:35,  4.26it/s] 87%|████████▋ | 5926/6844 [23:22<03:36,  4.25it/s] 87%|████████▋ | 5927/6844 [23:23<03:36,  4.25it/s] 87%|████████▋ | 5928/6844 [23:23<03:35,  4.25it/s] 87%|████████▋ | 5929/6844 [23:23<03:35,  4.26it/s] 87%|████████▋ | 5930/6844 [23:23<03:34,  4.26it/s] 87%|████████▋ | 5931/6844 [23:23<03:34,  4.26it/s] 87%|████████▋ | 5932/6844 [23:24<03:33,  4.26it/s] 87%|████████▋ | 5933/6844 [23:24<03:33,  4.27it/s] 87%|████████▋ | 5934/6844 [23:24<03:33,  4.26it/s] 87%|████████▋ | 5935/6844 [23:24<03:33,  4.26it/s] 87%|████████▋ | 5936/6844 [23:25<03:33,  4.26it/s] 87%|████████▋ | 5937/6844 [23:25<03:33,  4.26it/s] 87%|████████▋ | 5938/6844 [23:25<03:33,  4.25it/s] 87%|████████▋ | 5939/6844 [23:25<03:33,  4.25it/s] 87%|████████▋ | 5940/6844 [23:26<03:32,  4.26it/s] 87%|████████▋ | 5941/6844 [23:26<03:32,  4.25it/s] 87%|████████▋ | 5942/6844 [23:26<03:31,  4.26it/s] 87%|████████▋ | 5943/6844 [23:26<03:31,  4.26it/s] 87%|████████▋ | 5944/6844 [23:27<03:31,  4.26it/s] 87%|████████▋ | 5945/6844 [23:27<03:31,  4.26it/s] 87%|████████▋ | 5946/6844 [23:27<03:30,  4.26it/s] 87%|████████▋ | 5947/6844 [23:27<03:30,  4.26it/s] 87%|████████▋ | 5948/6844 [23:27<03:30,  4.27it/s] 87%|████████▋ | 5949/6844 [23:28<03:29,  4.27it/s] 87%|████████▋ | 5950/6844 [23:28<03:29,  4.27it/s]{'loss': 4.3389, 'grad_norm': 0.15472787618637085, 'learning_rate': 0.0003065537735173118, 'epoch': 0.17}
+                                                    87%|████████▋ | 5950/6844 [23:28<03:29,  4.27it/s] 87%|████████▋ | 5951/6844 [23:28<03:29,  4.26it/s] 87%|████████▋ | 5952/6844 [23:28<03:29,  4.26it/s] 87%|████████▋ | 5953/6844 [23:29<03:28,  4.26it/s] 87%|████████▋ | 5954/6844 [23:29<03:28,  4.26it/s] 87%|████████▋ | 5955/6844 [23:29<03:28,  4.26it/s] 87%|████████▋ | 5956/6844 [23:29<03:28,  4.26it/s] 87%|████████▋ | 5957/6844 [23:30<03:28,  4.26it/s] 87%|████████▋ | 5958/6844 [23:30<03:27,  4.27it/s] 87%|████████▋ | 5959/6844 [23:30<03:27,  4.27it/s] 87%|████████▋ | 5960/6844 [23:30<03:26,  4.27it/s] 87%|████████▋ | 5961/6844 [23:31<03:27,  4.27it/s] 87%|████████▋ | 5962/6844 [23:31<03:26,  4.26it/s] 87%|████████▋ | 5963/6844 [23:31<03:26,  4.26it/s] 87%|████████▋ | 5964/6844 [23:31<03:26,  4.26it/s] 87%|████████▋ | 5965/6844 [23:31<03:26,  4.25it/s] 87%|████████▋ | 5966/6844 [23:32<03:26,  4.25it/s] 87%|████████▋ | 5967/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5968/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5969/6844 [23:32<03:25,  4.26it/s] 87%|████████▋ | 5970/6844 [23:33<03:25,  4.26it/s] 87%|████████▋ | 5971/6844 [23:33<03:24,  4.27it/s] 87%|████████▋ | 5972/6844 [23:33<03:24,  4.26it/s] 87%|████████▋ | 5973/6844 [23:33<03:24,  4.26it/s] 87%|████████▋ | 5974/6844 [23:34<03:24,  4.26it/s] 87%|████████▋ | 5975/6844 [23:34<03:24,  4.25it/s]                                                   {'loss': 4.3491, 'grad_norm': 0.15603461861610413, 'learning_rate': 0.00028992629967792584, 'epoch': 0.17}
+ 87%|████████▋ | 5975/6844 [23:34<03:24,  4.25it/s] 87%|████████▋ | 5976/6844 [23:34<03:24,  4.24it/s] 87%|████████▋ | 5977/6844 [23:34<03:24,  4.24it/s] 87%|████████▋ | 5978/6844 [23:35<03:23,  4.25it/s] 87%|████████▋ | 5979/6844 [23:35<03:23,  4.25it/s] 87%|████████▋ | 5980/6844 [23:35<03:22,  4.26it/s] 87%|████████▋ | 5981/6844 [23:35<03:22,  4.26it/s] 87%|████████▋ | 5982/6844 [23:35<03:22,  4.26it/s] 87%|████████▋ | 5983/6844 [23:36<03:22,  4.26it/s] 87%|████████▋ | 5984/6844 [23:36<03:21,  4.26it/s] 87%|████████▋ | 5985/6844 [23:36<03:21,  4.26it/s] 87%|████████▋ | 5986/6844 [23:36<03:21,  4.26it/s] 87%|████████▋ | 5987/6844 [23:37<03:21,  4.26it/s] 87%|████████▋ | 5988/6844 [23:37<03:20,  4.26it/s] 88%|████████▊ | 5989/6844 [23:37<03:20,  4.26it/s] 88%|████████▊ | 5990/6844 [23:37<03:20,  4.26it/s] 88%|████████▊ | 5991/6844 [23:38<03:19,  4.27it/s] 88%|████████▊ | 5992/6844 [23:38<03:19,  4.27it/s] 88%|████████▊ | 5993/6844 [23:38<03:19,  4.27it/s] 88%|████████▊ | 5994/6844 [23:38<03:19,  4.27it/s] 88%|████████▊ | 5995/6844 [23:38<03:18,  4.27it/s] 88%|████████▊ | 5996/6844 [23:39<03:18,  4.27it/s] 88%|████████▊ | 5997/6844 [23:39<03:18,  4.26it/s] 88%|████████▊ | 5998/6844 [23:39<03:18,  4.26it/s] 88%|████████▊ | 5999/6844 [23:39<03:18,  4.26it/s] 88%|████████▊ | 6000/6844 [23:40<03:18,  4.26it/s]                                                   {'loss': 4.3353, 'grad_norm': 0.14257393777370453, 'learning_rate': 0.00027373951723402726, 'epoch': 0.18}
+ 88%|████████▊ | 6000/6844 [23:40<03:18,  4.26it/s] 88%|████████▊ | 6001/6844 [23:40<03:18,  4.25it/s] 88%|████████▊ | 6002/6844 [23:40<03:17,  4.25it/s] 88%|█████���██▊ | 6003/6844 [23:40<03:17,  4.26it/s] 88%|████████▊ | 6004/6844 [23:41<03:17,  4.26it/s] 88%|████████▊ | 6005/6844 [23:41<03:16,  4.26it/s] 88%|████████▊ | 6006/6844 [23:41<03:16,  4.27it/s] 88%|████████▊ | 6007/6844 [23:41<03:16,  4.27it/s] 88%|████████▊ | 6008/6844 [23:42<03:15,  4.27it/s] 88%|████████▊ | 6009/6844 [23:42<03:15,  4.27it/s] 88%|████████▊ | 6010/6844 [23:42<03:15,  4.26it/s] 88%|████████▊ | 6011/6844 [23:42<03:16,  4.24it/s] 88%|████████▊ | 6012/6844 [23:42<03:15,  4.25it/s] 88%|████████▊ | 6013/6844 [23:43<03:14,  4.26it/s] 88%|████████▊ | 6014/6844 [23:43<03:15,  4.25it/s] 88%|████████▊ | 6015/6844 [23:43<03:14,  4.26it/s] 88%|████████▊ | 6016/6844 [23:43<03:14,  4.26it/s] 88%|████████▊ | 6017/6844 [23:44<03:13,  4.27it/s] 88%|████████▊ | 6018/6844 [23:44<03:13,  4.26it/s] 88%|████████▊ | 6019/6844 [23:44<03:13,  4.26it/s] 88%|████████▊ | 6020/6844 [23:44<03:13,  4.26it/s] 88%|████████▊ | 6021/6844 [23:45<03:13,  4.26it/s] 88%|████████▊ | 6022/6844 [23:45<03:12,  4.26it/s] 88%|████████▊ | 6023/6844 [23:45<03:12,  4.27it/s] 88%|████████▊ | 6024/6844 [23:45<03:12,  4.27it/s] 88%|████████▊ | 6025/6844 [23:46<03:12,  4.27it/s]{'loss': 4.3354, 'grad_norm': 0.15464286506175995, 'learning_rate': 0.00025799605835600403, 'epoch': 0.18}
+                                                    88%|████████▊ | 6025/6844 [23:46<03:12,  4.27it/s] 88%|████████▊ | 6026/6844 [23:46<03:12,  4.24it/s] 88%|████████▊ | 6027/6844 [23:46<03:12,  4.25it/s] 88%|████████▊ | 6028/6844 [23:46<03:11,  4.26it/s] 88%|████████▊ | 6029/6844 [23:46<03:11,  4.25it/s] 88%|████████▊ | 6030/6844 [23:47<03:11,  4.25it/s] 88%|████████▊ | 6031/6844 [23:47<03:11,  4.24it/s] 88%|████████▊ | 6032/6844 [23:47<03:11,  4.25it/s] 88%|████████▊ | 6033/6844 [23:47<03:20,  4.05it/s] 88%|████████▊ | 6034/6844 [23:48<03:22,  4.00it/s] 88%|████████▊ | 6035/6844 [23:48<03:18,  4.07it/s] 88%|████████▊ | 6036/6844 [23:48<03:15,  4.13it/s] 88%|████████▊ | 6037/6844 [23:48<03:13,  4.16it/s] 88%|████████▊ | 6038/6844 [23:49<03:12,  4.18it/s] 88%|████████▊ | 6039/6844 [23:49<03:11,  4.20it/s] 88%|████████▊ | 6040/6844 [23:49<03:10,  4.22it/s] 88%|████████▊ | 6041/6844 [23:49<03:09,  4.23it/s] 88%|████████▊ | 6042/6844 [23:50<03:09,  4.24it/s] 88%|████████▊ | 6043/6844 [23:50<03:08,  4.25it/s] 88%|████████▊ | 6044/6844 [23:50<03:07,  4.26it/s] 88%|████████▊ | 6045/6844 [23:50<03:07,  4.26it/s] 88%|████████▊ | 6046/6844 [23:51<03:07,  4.26it/s] 88%|████████▊ | 6047/6844 [23:51<03:06,  4.26it/s] 88%|████████▊ | 6048/6844 [23:51<03:06,  4.27it/s] 88%|████████▊ | 6049/6844 [23:51<03:06,  4.27it/s] 88%|████████▊ | 6050/6844 [23:51<03:06,  4.27it/s]{'loss': 4.3371, 'grad_norm': 0.1445055603981018, 'learning_rate': 0.00024269848312436683, 'epoch': 0.18}
+                                                    88%|████████▊ | 6050/6844 [23:51<03:06,  4.27it/s] 88%|████████▊ | 6051/6844 [23:52<03:06,  4.26it/s] 88%|████████▊ | 6052/6844 [23:52<03:06,  4.25it/s] 88%|████████▊ | 6053/6844 [23:52<03:05,  4.26it/s] 88%|████████▊ | 6054/6844 [23:52<03:05,  4.26it/s] 88%|████████▊ | 6055/6844 [23:53<03:05,  4.26it/s] 88%|████████▊ | 6056/6844 [23:53<03:04,  4.26it/s] 89%|████████▊ | 6057/6844 [23:53<03:04,  4.26it/s] 89%|████████▊ | 6058/6844 [23:53<03:04,  4.27it/s] 89%|████████▊ | 6059/6844 [23:54<03:04,  4.26it/s] 89%|████████▊ | 6060/6844 [23:54<03:03,  4.26it/s] 89%|████████▊ | 6061/6844 [23:54<03:03,  4.27it/s] 89%|████████▊ | 6062/6844 [23:54<03:03,  4.27it/s] 89%|████████▊ | 6063/6844 [23:55<03:02,  4.27it/s] 89%|████████▊ | 6064/6844 [23:55<03:02,  4.27it/s] 89%|████████▊ | 6065/6844 [23:55<03:02,  4.27it/s] 89%|████████▊ | 6066/6844 [23:55<03:02,  4.26it/s] 89%|████████▊ | 6067/6844 [23:55<03:02,  4.26it/s] 89%|████████▊ | 6068/6844 [23:56<03:01,  4.26it/s] 89%|████████▊ | 6069/6844 [23:56<03:01,  4.27it/s] 89%|████████▊ | 6070/6844 [23:56<03:01,  4.27it/s] 89%|████████▊ | 6071/6844 [23:56<03:00,  4.27it/s] 89%|████████▊ | 6072/6844 [23:57<03:01,  4.26it/s] 89%|████████▊ | 6073/6844 [23:57<03:00,  4.27it/s] 89%|████████▊ | 6074/6844 [23:57<03:00,  4.26it/s] 89%|████████▉ | 6075/6844 [23:57<03:00,  4.26it/s]                                                   {'loss': 4.3394, 'grad_norm': 0.14128653705120087, 'learning_rate': 0.00022784927911344912, 'epoch': 0.18}
+ 89%|████████▉ | 6075/6844 [23:57<03:00,  4.26it/s] 89%|████████▉ | 6076/6844 [23:58<03:01,  4.24it/s] 89%|████████▉ | 6077/6844 [23:58<03:00,  4.25it/s] 89%|████████▉ | 6078/6844 [23:58<03:00,  4.25it/s] 89%|████████▉ | 6079/6844 [23:58<02:59,  4.25it/s] 89%|████████▉ | 6080/6844 [23:59<02:59,  4.26it/s] 89%|████████▉ | 6081/6844 [23:59<02:59,  4.26it/s] 89%|████████▉ | 6082/6844 [23:59<02:58,  4.26it/s] 89%|████████▉ | 6083/6844 [23:59<02:58,  4.25it/s] 89%|████████▉ | 6084/6844 [23:59<02:58,  4.26it/s] 89%|████████▉ | 6085/6844 [24:00<02:58,  4.26it/s] 89%|████████▉ | 6086/6844 [24:00<02:58,  4.26it/s] 89%|████████▉ | 6087/6844 [24:00<02:57,  4.26it/s] 89%|████████▉ | 6088/6844 [24:00<02:57,  4.26it/s] 89%|████████▉ | 6089/6844 [24:01<02:57,  4.26it/s] 89%|████████▉ | 6090/6844 [24:01<02:57,  4.25it/s] 89%|████████▉ | 6091/6844 [24:01<02:56,  4.26it/s] 89%|████████▉ | 6092/6844 [24:01<02:56,  4.26it/s] 89%|████████▉ | 6093/6844 [24:02<02:56,  4.26it/s] 89%|████████▉ | 6094/6844 [24:02<02:55,  4.27it/s] 89%|████████▉ | 6095/6844 [24:02<02:55,  4.27it/s] 89%|████████▉ | 6096/6844 [24:02<02:55,  4.27it/s] 89%|████████▉ | 6097/6844 [24:02<02:55,  4.25it/s] 89%|████████▉ | 6098/6844 [24:03<02:55,  4.26it/s] 89%|████████▉ | 6099/6844 [24:03<02:55,  4.26it/s] 89%|████████▉ | 6100/6844 [24:03<02:54,  4.26it/s]{'loss': 4.3395, 'grad_norm': 0.1428845077753067, 'learning_rate': 0.00021345086098689358, 'epoch': 0.18}
+                                                    89%|████████▉ | 6100/6844 [24:03<02:54,  4.26it/s] 89%|████████▉ | 6101/6844 [24:03<02:54,  4.25it/s] 89%|████████▉ | 6102/6844 [24:04<02:54,  4.26it/s] 89%|████████▉ | 6103/6844 [24:04<02:53,  4.26it/s] 89%|████████▉ | 6104/6844 [24:04<02:53,  4.26it/s] 89%|████████▉ | 6105/6844 [24:04<02:53,  4.26it/s] 89%|████████▉ | 6106/6844 [24:05<02:53,  4.26it/s] 89%|████████▉ | 6107/6844 [24:05<02:52,  4.26it/s] 89%|████████▉ | 6108/6844 [24:05<02:52,  4.26it/s] 89%|████████▉ | 6109/6844 [24:05<02:52,  4.27it/s] 89%|████████▉ | 6110/6844 [24:06<02:51,  4.27it/s] 89%|████████▉ | 6111/6844 [24:06<02:51,  4.26it/s] 89%|████████▉ | 6112/6844 [24:06<02:51,  4.26it/s] 89%|████████▉ | 6113/6844 [24:06<02:51,  4.26it/s] 89%|████████▉ | 6114/6844 [24:06<02:51,  4.26it/s] 89%|████████▉ | 6115/6844 [24:07<02:51,  4.26it/s] 89%|████████▉ | 6116/6844 [24:07<02:50,  4.26it/s] 89%|████████▉ | 6117/6844 [24:07<02:50,  4.27it/s] 89%|████████▉ | 6118/6844 [24:07<02:50,  4.26it/s] 89%|████████▉ | 6119/6844 [24:08<02:49,  4.27it/s] 89%|████████▉ | 6120/6844 [24:08<02:49,  4.27it/s] 89%|████████▉ | 6121/6844 [24:08<02:49,  4.27it/s] 89%|████████▉ | 6122/6844 [24:08<02:49,  4.26it/s] 89%|████████▉ | 6123/6844 [24:09<02:48,  4.27it/s] 89%|████████▉ | 6124/6844 [24:09<02:49,  4.25it/s] 89%|████████▉ | 6125/6844 [24:09<02:49,  4.25it/s]                                                   {'loss': 4.3378, 'grad_norm': 0.14304181933403015, 'learning_rate': 0.00019950557010500327, 'epoch': 0.18}
+ 89%|████████▉ | 6125/6844 [24:09<02:49,  4.25it/s] 90%|████████▉ | 6126/6844 [24:09<02:49,  4.24it/s] 90%|████████▉ | 6127/6844 [24:10<02:48,  4.25it/s] 90%|████████▉ | 6128/6844 [24:10<02:48,  4.25it/s] 90%|████████▉ | 6129/6844 [24:10<02:47,  4.26it/s] 90%|████████▉ | 6130/6844 [24:10<02:47,  4.26it/s] 90%|████████▉ | 6131/6844 [24:10<02:47,  4.26it/s] 90%|████████▉ | 6132/6844 [24:11<02:46,  4.26it/s] 90%|████████▉ | 6133/6844 [24:11<02:46,  4.26it/s] 90%|████████▉ | 6134/6844 [24:11<02:46,  4.27it/s] 90%|████████▉ | 6135/6844 [24:11<02:46,  4.26it/s] 90%|████████▉ | 6136/6844 [24:12<02:46,  4.26it/s] 90%|████████▉ | 6137/6844 [24:12<02:45,  4.26it/s] 90%|████████▉ | 6138/6844 [24:12<02:45,  4.25it/s] 90%|████████▉ | 6139/6844 [24:12<02:45,  4.25it/s] 90%|████████▉ | 6140/6844 [24:13<02:45,  4.26it/s] 90%|████████▉ | 6141/6844 [24:13<02:45,  4.26it/s] 90%|████████▉ | 6142/6844 [24:13<02:44,  4.26it/s] 90%|████████▉ | 6143/6844 [24:13<02:44,  4.26it/s] 90%|████████▉ | 6144/6844 [24:14<02:44,  4.26it/s] 90%|████████▉ | 6145/6844 [24:14<02:43,  4.26it/s] 90%|████████▉ | 6146/6844 [24:14<02:43,  4.26it/s] 90%|████████▉ | 6147/6844 [24:14<02:43,  4.26it/s] 90%|████████▉ | 6148/6844 [24:14<02:43,  4.26it/s] 90%|████████▉ | 6149/6844 [24:15<02:43,  4.26it/s] 90%|████████▉ | 6150/6844 [24:15<02:42,  4.26it/s]                                                   {'loss': 4.3341, 'grad_norm': 0.14439749717712402, 'learning_rate': 0.0001860156741440029, 'epoch': 0.18}
+ 90%|████████▉ | 6150/6844 [24:15<02:42,  4.26it/s] 90%|████████▉ | 6151/6844 [24:15<02:43,  4.25it/s] 90%|████████▉ | 6152/6844 [24:15<02:42,  4.25it/s] 90%|████████▉ | 6153/6844 [24:16<02:42,  4.25it/s] 90%|████████▉ | 6154/6844 [24:16<02:42,  4.26it/s] 90%|████████▉ | 6155/6844 [24:16<02:41,  4.26it/s] 90%|████████▉ | 6156/6844 [24:16<02:41,  4.25it/s] 90%|████████▉ | 6157/6844 [24:17<02:41,  4.26it/s] 90%|████████▉ | 6158/6844 [24:17<02:40,  4.26it/s] 90%|████████▉ | 6159/6844 [24:17<02:40,  4.27it/s] 90%|█████████ | 6160/6844 [24:17<02:40,  4.26it/s] 90%|█████████ | 6161/6844 [24:18<02:47,  4.08it/s] 90%|█████████ | 6162/6844 [24:18<02:44,  4.14it/s] 90%|█████████ | 6163/6844 [24:18<02:43,  4.17it/s] 90%|█████████ | 6164/6844 [24:18<02:42,  4.19it/s] 90%|█████████ | 6165/6844 [24:18<02:41,  4.21it/s] 90%|█████████ | 6166/6844 [24:19<02:40,  4.23it/s] 90%|█████████ | 6167/6844 [24:19<02:39,  4.25it/s] 90%|█████████ | 6168/6844 [24:19<02:38,  4.26it/s] 90%|█████████ | 6169/6844 [24:19<02:38,  4.26it/s] 90%|█████████ | 6170/6844 [24:20<02:38,  4.25it/s] 90%|█████████ | 6171/6844 [24:20<02:38,  4.26it/s] 90%|█████████ | 6172/6844 [24:20<02:37,  4.26it/s] 90%|█████████ | 6173/6844 [24:20<02:37,  4.26it/s] 90%|█████████ | 6174/6844 [24:21<02:37,  4.26it/s] 90%|█████████ | 6175/6844 [24:21<02:37,  4.26it/s]{'loss': 4.331, 'grad_norm': 0.14344562590122223, 'learning_rate': 0.00017298336672728976, 'epoch': 0.18}                                                   
+ 90%|█████████ | 6175/6844 [24:21<02:37,  4.26it/s] 90%|█████████ | 6176/6844 [24:21<02:37,  4.25it/s] 90%|█████████ | 6177/6844 [24:21<02:37,  4.25it/s] 90%|█████████ | 6178/6844 [24:22<02:36,  4.26it/s] 90%|█████████ | 6179/6844 [24:22<02:36,  4.26it/s] 90%|█████████ | 6180/6844 [24:22<02:36,  4.25it/s] 90%|█████████ | 6181/6844 [24:22<02:35,  4.25it/s] 90%|█████████ | 6182/6844 [24:22<02:35,  4.26it/s] 90%|█████████ | 6183/6844 [24:23<02:35,  4.26it/s] 90%|█████████ | 6184/6844 [24:23<02:35,  4.26it/s] 90%|█████████ | 6185/6844 [24:23<02:34,  4.26it/s] 90%|█████████ | 6186/6844 [24:23<02:34,  4.26it/s] 90%|█████████ | 6187/6844 [24:24<02:34,  4.26it/s] 90%|█████████ | 6188/6844 [24:24<02:33,  4.27it/s] 90%|█████████ | 6189/6844 [24:24<02:33,  4.27it/s] 90%|█████████ | 6190/6844 [24:24<02:33,  4.27it/s] 90%|█████████ | 6191/6844 [24:25<02:33,  4.26it/s] 90%|█████████ | 6192/6844 [24:25<02:32,  4.27it/s] 90%|█████████ | 6193/6844 [24:25<02:32,  4.27it/s] 91%|█████████ | 6194/6844 [24:25<02:32,  4.27it/s] 91%|█████████ | 6195/6844 [24:26<02:32,  4.26it/s] 91%|█████████ | 6196/6844 [24:26<02:31,  4.26it/s] 91%|█████████ | 6197/6844 [24:26<02:31,  4.26it/s] 91%|█████████ | 6198/6844 [24:26<02:31,  4.25it/s] 91%|█████████ | 6199/6844 [24:26<02:31,  4.25it/s] 91%|█████████ | 6200/6844 [24:27<02:30,  4.27it/s]{'loss': 4.3288, 'grad_norm': 0.14499779045581818, 'learning_rate': 0.00016041076706872128, 'epoch': 0.18}
+                                                    91%|█████████ | 6200/6844 [24:27<02:30,  4.27it/s] 91%|█████████ | 6201/6844 [24:27<02:31,  4.26it/s] 91%|█████████ | 6202/6844 [24:27<02:30,  4.26it/s] 91%|█████████ | 6203/6844 [24:27<02:30,  4.26it/s] 91%|█████████ | 6204/6844 [24:28<02:30,  4.26it/s] 91%|█████████ | 6205/6844 [24:28<02:30,  4.26it/s] 91%|█████████ | 6206/6844 [24:28<02:30,  4.25it/s] 91%|█████████ | 6207/6844 [24:28<02:29,  4.26it/s] 91%|█████████ | 6208/6844 [24:29<02:29,  4.26it/s] 91%|█████████ | 6209/6844 [24:29<02:29,  4.25it/s] 91%|█████████ | 6210/6844 [24:29<02:29,  4.25it/s] 91%|█████████ | 6211/6844 [24:29<02:28,  4.25it/s] 91%|█████████ | 6212/6844 [24:30<02:28,  4.25it/s] 91%|█████████ | 6213/6844 [24:30<02:28,  4.26it/s] 91%|█████████ | 6214/6844 [24:30<02:28,  4.25it/s] 91%|█████████ | 6215/6844 [24:30<02:27,  4.26it/s] 91%|█████████ | 6216/6844 [24:30<02:27,  4.25it/s] 91%|█████████ | 6217/6844 [24:31<02:27,  4.26it/s] 91%|█████████ | 6218/6844 [24:31<02:26,  4.26it/s] 91%|█████████ | 6219/6844 [24:31<02:26,  4.26it/s] 91%|█████████ | 6220/6844 [24:31<02:26,  4.25it/s] 91%|█████████ | 6221/6844 [24:32<02:26,  4.26it/s] 91%|█████████ | 6222/6844 [24:32<02:25,  4.26it/s] 91%|█████████ | 6223/6844 [24:32<02:25,  4.27it/s] 91%|█████████ | 6224/6844 [24:32<02:25,  4.26it/s] 91%|█████████ | 6225/6844 [24:33<02:25,  4.27it/s]{'loss': 4.3361, 'grad_norm': 0.14809097349643707, 'learning_rate': 0.0001482999196280076, 'epoch': 0.18}
+                                                    91%|█████████ | 6225/6844 [24:33<02:25,  4.27it/s] 91%|█████████ | 6226/6844 [24:33<02:25,  4.25it/s] 91%|█████████ | 6227/6844 [24:33<02:25,  4.25it/s] 91%|█████████ | 6228/6844 [24:33<02:24,  4.25it/s] 91%|█████████ | 6229/6844 [24:34<02:24,  4.26it/s] 91%|█████████ | 6230/6844 [24:34<02:24,  4.26it/s] 91%|█████████ | 6231/6844 [24:34<02:23,  4.26it/s] 91%|█████████ | 6232/6844 [24:34<02:23,  4.26it/s] 91%|█████████ | 6233/6844 [24:34<02:24,  4.22it/s] 91%|█████████ | 6234/6844 [24:35<02:24,  4.23it/s] 91%|█████████ | 6235/6844 [24:35<02:23,  4.24it/s] 91%|█████████ | 6236/6844 [24:35<02:23,  4.24it/s] 91%|█████████ | 6237/6844 [24:35<02:23,  4.24it/s] 91%|█████████ | 6238/6844 [24:36<02:22,  4.25it/s] 91%|█████████ | 6239/6844 [24:36<02:22,  4.25it/s] 91%|█████████ | 6240/6844 [24:36<02:21,  4.26it/s] 91%|█████████ | 6241/6844 [24:36<02:21,  4.26it/s] 91%|█████████ | 6242/6844 [24:37<02:21,  4.26it/s] 91%|█████████ | 6243/6844 [24:37<02:21,  4.25it/s] 91%|█████████ | 6244/6844 [24:37<02:20,  4.26it/s] 91%|█████████ | 6245/6844 [24:37<02:20,  4.25it/s] 91%|█████████▏| 6246/6844 [24:38<02:20,  4.26it/s] 91%|█████████▏| 6247/6844 [24:38<02:20,  4.25it/s] 91%|█████████▏| 6248/6844 [24:38<02:20,  4.26it/s] 91%|█████████▏| 6249/6844 [24:38<02:19,  4.26it/s] 91%|█████████▏| 6250/6844 [24:38<02:19,  4.26it/s]                                                   {'loss': 4.3255, 'grad_norm': 0.14210361242294312, 'learning_rate': 0.00013665279377825235, 'epoch': 0.18}
+ 91%|█████████▏| 6250/6844 [24:38<02:19,  4.26it/s] 91%|█████████▏| 6251/6844 [24:39<02:19,  4.25it/s] 91%|█████████▏| 6252/6844 [24:39<02:19,  4.26it/s] 91%|█████████▏| 6253/6844 [24:39<02:18,  4.26it/s] 91%|█████████▏| 6254/6844 [24:39<02:18,  4.26it/s] 91%|█████████▏| 6255/6844 [24:40<02:18,  4.27it/s] 91%|█████████▏| 6256/6844 [24:40<02:17,  4.26it/s] 91%|█████████▏| 6257/6844 [24:40<02:17,  4.26it/s] 91%|█████████▏| 6258/6844 [24:40<02:17,  4.27it/s] 91%|█████████▏| 6259/6844 [24:41<02:17,  4.27it/s] 91%|█████████▏| 6260/6844 [24:41<02:16,  4.26it/s] 91%|█████████▏| 6261/6844 [24:41<02:16,  4.26it/s] 91%|█████████▏| 6262/6844 [24:41<02:16,  4.26it/s] 92%|█████████▏| 6263/6844 [24:42<02:16,  4.26it/s] 92%|█████████▏| 6264/6844 [24:42<02:16,  4.25it/s] 92%|█████████▏| 6265/6844 [24:42<02:16,  4.25it/s] 92%|█████████▏| 6266/6844 [24:42<02:15,  4.26it/s] 92%|█████████▏| 6267/6844 [24:42<02:15,  4.26it/s] 92%|█████████▏| 6268/6844 [24:43<02:15,  4.26it/s] 92%|█████████▏| 6269/6844 [24:43<02:14,  4.26it/s] 92%|█████████▏| 6270/6844 [24:43<02:14,  4.26it/s] 92%|█████████▏| 6271/6844 [24:43<02:14,  4.26it/s] 92%|█████████▏| 6272/6844 [24:44<02:14,  4.26it/s] 92%|█████████▏| 6273/6844 [24:44<02:13,  4.27it/s] 92%|█████████▏| 6274/6844 [24:44<02:13,  4.26it/s] 92%|█████████▏| 6275/6844 [24:44<02:13,  4.27it/s]                                                   {'loss': 4.3169, 'grad_norm': 0.14148463308811188, 'learning_rate': 0.00012547128348571436, 'epoch': 0.18}
+ 92%|█████████▏| 6275/6844 [24:44<02:13,  4.27it/s] 92%|█████████▏| 6276/6844 [24:45<02:13,  4.26it/s] 92%|█████████▏| 6277/6844 [24:45<02:13,  4.26it/s] 92%|█████████▏| 6278/6844 [24:45<02:12,  4.26it/s] 92%|█████████▏| 6279/6844 [24:45<02:12,  4.26it/s] 92%|█████████▏| 6280/6844 [24:46<02:12,  4.26it/s] 92%|█████████▏| 6281/6844 [24:46<02:12,  4.26it/s] 92%|█████████▏| 6282/6844 [24:46<02:11,  4.26it/s] 92%|█████████▏| 6283/6844 [24:46<02:11,  4.27it/s] 92%|█████████▏| 6284/6844 [24:46<02:11,  4.26it/s] 92%|█████████▏| 6285/6844 [24:47<02:11,  4.25it/s] 92%|█████████▏| 6286/6844 [24:47<02:11,  4.26it/s] 92%|█████████▏| 6287/6844 [24:47<02:10,  4.26it/s] 92%|█████████▏| 6288/6844 [24:47<02:17,  4.05it/s] 92%|█████████▏| 6289/6844 [24:48<02:20,  3.96it/s] 92%|█████████▏| 6290/6844 [24:48<02:22,  3.90it/s] 92%|█████████▏| 6291/6844 [24:48<02:22,  3.87it/s] 92%|█████████▏| 6292/6844 [24:48<02:24,  3.82it/s] 92%|█████████▏| 6293/6844 [24:49<02:24,  3.81it/s] 92%|█████████▏| 6294/6844 [24:49<02:21,  3.89it/s] 92%|█████████▏| 6295/6844 [24:49<02:17,  3.99it/s] 92%|█████████▏| 6296/6844 [24:49<02:14,  4.07it/s] 92%|█████████▏| 6297/6844 [24:50<02:12,  4.12it/s] 92%|█████████▏| 6298/6844 [24:50<02:11,  4.16it/s] 92%|█████████▏| 6299/6844 [24:50<02:10,  4.19it/s] 92%|█████████▏| 6300/6844 [24:50<02:09,  4.21it/s]                                                   {'loss': 4.3325, 'grad_norm': 0.14896872639656067, 'learning_rate': 0.00011475720700182101, 'epoch': 0.18}
+ 92%|█████████▏| 6300/6844 [24:50<02:09,  4.21it/s] 92%|█████████▏| 6301/6844 [24:51<02:08,  4.21it/s] 92%|█████████▏| 6302/6844 [24:51<02:08,  4.23it/s] 92%|█████████▏| 6303/6844 [24:51<02:07,  4.24it/s] 92%|█████████▏| 6304/6844 [24:51<02:07,  4.25it/s] 92%|█████████▏| 6305/6844 [24:52<02:07,  4.24it/s] 92%|█████████▏| 6306/6844 [24:52<02:06,  4.24it/s] 92%|█████████▏| 6307/6844 [24:52<02:06,  4.25it/s] 92%|█████████▏| 6308/6844 [24:52<02:05,  4.26it/s] 92%|█████████▏| 6309/6844 [24:53<02:05,  4.26it/s] 92%|█████████▏| 6310/6844 [24:53<02:05,  4.26it/s] 92%|█████████▏| 6311/6844 [24:53<02:05,  4.26it/s] 92%|█████████▏| 6312/6844 [24:53<02:04,  4.26it/s] 92%|█████████▏| 6313/6844 [24:53<02:04,  4.25it/s] 92%|█████████▏| 6314/6844 [24:54<02:04,  4.26it/s] 92%|█████████▏| 6315/6844 [24:54<02:04,  4.26it/s] 92%|█████████▏| 6316/6844 [24:54<02:03,  4.27it/s] 92%|█████████▏| 6317/6844 [24:54<02:03,  4.26it/s] 92%|█████████▏| 6318/6844 [24:55<02:03,  4.26it/s] 92%|█████████▏| 6319/6844 [24:55<02:03,  4.26it/s] 92%|█████████▏| 6320/6844 [24:55<02:03,  4.26it/s] 92%|█████████▏| 6321/6844 [24:55<02:02,  4.26it/s] 92%|█████████▏| 6322/6844 [24:56<02:02,  4.26it/s] 92%|█████████▏| 6323/6844 [24:56<02:02,  4.26it/s] 92%|█████████▏| 6324/6844 [24:56<02:01,  4.27it/s] 92%|█████████▏| 6325/6844 [24:56<02:01,  4.27it/s]{'loss': 4.3323, 'grad_norm': 0.14095428586006165, 'learning_rate': 0.00010451230656749955, 'epoch': 0.18}
+                                                    92%|█████████▏| 6325/6844 [24:56<02:01,  4.27it/s] 92%|█████████▏| 6326/6844 [24:57<02:01,  4.25it/s] 92%|█████████▏| 6327/6844 [24:57<02:01,  4.26it/s] 92%|█████████▏| 6328/6844 [24:57<02:01,  4.26it/s] 92%|█████████▏| 6329/6844 [24:57<02:00,  4.26it/s] 92%|█████████▏| 6330/6844 [24:57<02:00,  4.26it/s] 93%|█████████▎| 6331/6844 [24:58<02:00,  4.26it/s] 93%|█████████▎| 6332/6844 [24:58<02:00,  4.26it/s] 93%|█████████▎| 6333/6844 [24:58<01:59,  4.26it/s] 93%|█████████▎| 6334/6844 [24:58<01:59,  4.27it/s] 93%|█████████▎| 6335/6844 [24:59<01:59,  4.27it/s] 93%|█████████▎| 6336/6844 [24:59<01:59,  4.27it/s] 93%|█████████▎| 6337/6844 [24:59<01:58,  4.26it/s] 93%|█████████▎| 6338/6844 [24:59<01:58,  4.26it/s] 93%|█████████▎| 6339/6844 [25:00<01:58,  4.26it/s] 93%|█████████▎| 6340/6844 [25:00<01:58,  4.26it/s] 93%|█████████▎| 6341/6844 [25:00<01:58,  4.26it/s] 93%|█████████▎| 6342/6844 [25:00<01:57,  4.27it/s] 93%|█████████▎| 6343/6844 [25:01<01:57,  4.27it/s] 93%|█████████▎| 6344/6844 [25:01<01:57,  4.26it/s] 93%|█████████▎| 6345/6844 [25:01<01:56,  4.27it/s] 93%|█████████▎| 6346/6844 [25:01<01:56,  4.27it/s] 93%|█████████▎| 6347/6844 [25:01<01:56,  4.26it/s] 93%|█████████▎| 6348/6844 [25:02<01:56,  4.26it/s] 93%|█████████▎| 6349/6844 [25:02<01:56,  4.26it/s] 93%|█████████▎| 6350/6844 [25:02<01:55,  4.26it/s]                                                   {'loss': 4.3359, 'grad_norm': 0.15368197858333588, 'learning_rate': 9.473824812986786e-05, 'epoch': 0.19}
+ 93%|█████████▎| 6350/6844 [25:02<01:55,  4.26it/s] 93%|█████████▎| 6351/6844 [25:02<01:56,  4.25it/s] 93%|█████████▎| 6352/6844 [25:03<01:55,  4.25it/s] 93%|█████████▎| 6353/6844 [25:03<01:55,  4.26it/s] 93%|█████████▎| 6354/6844 [25:03<01:55,  4.26it/s] 93%|█████████▎| 6355/6844 [25:03<01:54,  4.26it/s] 93%|█████████▎| 6356/6844 [25:04<01:54,  4.26it/s] 93%|█████████▎| 6357/6844 [25:04<01:54,  4.25it/s] 93%|█████████▎| 6358/6844 [25:04<01:54,  4.26it/s] 93%|█████████▎| 6359/6844 [25:04<01:53,  4.26it/s] 93%|█████████▎| 6360/6844 [25:04<01:53,  4.26it/s] 93%|█████████▎| 6361/6844 [25:05<01:53,  4.26it/s] 93%|█████████▎| 6362/6844 [25:05<01:52,  4.27it/s] 93%|█████████▎| 6363/6844 [25:05<01:52,  4.27it/s] 93%|█████████▎| 6364/6844 [25:05<01:52,  4.27it/s] 93%|█████████▎| 6365/6844 [25:06<01:52,  4.27it/s] 93%|█████████▎| 6366/6844 [25:06<01:52,  4.27it/s] 93%|█████████▎| 6367/6844 [25:06<01:51,  4.26it/s] 93%|█████████▎| 6368/6844 [25:07<02:31,  3.15it/s] 93%|█████████▎| 6369/6844 [25:07<02:18,  3.42it/s] 93%|█████████▎| 6370/6844 [25:07<02:10,  3.63it/s] 93%|█████████▎| 6371/6844 [25:07<02:04,  3.79it/s] 93%|█████████▎| 6372/6844 [25:08<02:00,  3.92it/s] 93%|█████████▎| 6373/6844 [25:08<01:57,  4.02it/s] 93%|█████████▎| 6374/6844 [25:08<01:54,  4.09it/s] 93%|█████████▎| 6375/6844 [25:08<01:53,  4.14it/s]{'loss': 4.3275, 'grad_norm': 0.14185714721679688, 'learning_rate': 8.5436621071329e-05, 'epoch': 0.19}
+                                                    93%|█████████▎| 6375/6844 [25:08<01:53,  4.14it/s] 93%|█████████▎| 6376/6844 [25:09<01:52,  4.17it/s] 93%|█████████▎| 6377/6844 [25:09<01:51,  4.18it/s] 93%|█████████▎| 6378/6844 [25:09<01:50,  4.21it/s] 93%|█████████▎| 6379/6844 [25:09<01:50,  4.23it/s] 93%|█████████▎| 6380/6844 [25:09<01:49,  4.24it/s] 93%|█████████▎| 6381/6844 [25:10<01:49,  4.24it/s] 93%|█████████▎| 6382/6844 [25:10<01:48,  4.25it/s] 93%|█████████▎| 6383/6844 [25:10<01:48,  4.25it/s] 93%|█████████▎| 6384/6844 [25:10<01:48,  4.25it/s] 93%|█████████▎| 6385/6844 [25:11<01:47,  4.26it/s] 93%|█████████▎| 6386/6844 [25:11<01:47,  4.26it/s] 93%|█████████▎| 6387/6844 [25:11<01:47,  4.26it/s] 93%|█████████▎| 6388/6844 [25:11<01:47,  4.26it/s] 93%|█████████▎| 6389/6844 [25:12<01:46,  4.26it/s] 93%|█████████▎| 6390/6844 [25:12<01:46,  4.27it/s] 93%|█████████▎| 6391/6844 [25:12<01:46,  4.24it/s] 93%|█████████▎| 6392/6844 [25:12<01:46,  4.25it/s] 93%|█████████▎| 6393/6844 [25:13<01:45,  4.26it/s] 93%|█████████▎| 6394/6844 [25:13<01:45,  4.27it/s] 93%|█████████▎| 6395/6844 [25:13<01:45,  4.25it/s] 93%|█████████▎| 6396/6844 [25:13<01:45,  4.25it/s] 93%|█████████▎| 6397/6844 [25:13<01:44,  4.26it/s] 93%|█████████▎| 6398/6844 [25:14<01:44,  4.26it/s] 93%|█████████▎| 6399/6844 [25:14<01:44,  4.26it/s] 94%|█████████▎| 6400/6844 [25:14<01:44,  4.27it/s]                                                   {'loss': 4.3325, 'grad_norm': 0.1457364857196808, 'learning_rate': 7.660893795112078e-05, 'epoch': 0.19}
+ 94%|█████████▎| 6400/6844 [25:14<01:44,  4.27it/s] 94%|█████████▎| 6401/6844 [25:14<01:44,  4.26it/s] 94%|█████████▎| 6402/6844 [25:15<01:43,  4.25it/s] 94%|█████████▎| 6403/6844 [25:15<01:43,  4.26it/s] 94%|█████████▎| 6404/6844 [25:15<01:43,  4.25it/s] 94%|█████████▎| 6405/6844 [25:15<01:43,  4.25it/s] 94%|█████████▎| 6406/6844 [25:16<01:42,  4.25it/s] 94%|█████████▎| 6407/6844 [25:16<01:42,  4.25it/s] 94%|█████████▎| 6408/6844 [25:16<01:42,  4.26it/s] 94%|█████████▎| 6409/6844 [25:16<01:42,  4.26it/s] 94%|█████████▎| 6410/6844 [25:17<01:41,  4.26it/s] 94%|█████████▎| 6411/6844 [25:17<01:41,  4.26it/s] 94%|█████████▎| 6412/6844 [25:17<01:41,  4.26it/s] 94%|█████████▎| 6413/6844 [25:17<01:41,  4.27it/s] 94%|█████████▎| 6414/6844 [25:17<01:40,  4.26it/s] 94%|█████████▎| 6415/6844 [25:18<01:44,  4.10it/s] 94%|█████████▎| 6416/6844 [25:18<01:43,  4.14it/s] 94%|█████████▍| 6417/6844 [25:18<01:42,  4.18it/s] 94%|█████████▍| 6418/6844 [25:18<01:41,  4.20it/s] 94%|█████████▍| 6419/6844 [25:19<01:40,  4.22it/s] 94%|█████████▍| 6420/6844 [25:19<01:40,  4.23it/s] 94%|█████████▍| 6421/6844 [25:19<01:39,  4.24it/s] 94%|█████████▍| 6422/6844 [25:19<01:39,  4.24it/s] 94%|█████████▍| 6423/6844 [25:20<01:39,  4.25it/s] 94%|█████████▍| 6424/6844 [25:20<01:38,  4.26it/s] 94%|█████████▍| 6425/6844 [25:20<01:38,  4.26it/s]                                                   {'loss': 4.3386, 'grad_norm': 0.1427936851978302, 'learning_rate': 6.825663425935236e-05, 'epoch': 0.19}
+ 94%|█████████▍| 6425/6844 [25:20<01:38,  4.26it/s] 94%|█████████▍| 6426/6844 [25:20<01:38,  4.24it/s] 94%|█████████▍| 6427/6844 [25:21<01:38,  4.25it/s] 94%|█████████▍| 6428/6844 [25:21<01:37,  4.26it/s] 94%|█████████▍| 6429/6844 [25:21<01:37,  4.26it/s] 94%|█████████▍| 6430/6844 [25:21<01:37,  4.26it/s] 94%|█████████▍| 6431/6844 [25:21<01:36,  4.26it/s] 94%|█████████▍| 6432/6844 [25:22<01:36,  4.26it/s] 94%|█████████▍| 6433/6844 [25:22<01:36,  4.25it/s] 94%|█████████▍| 6434/6844 [25:22<01:36,  4.26it/s] 94%|█████████▍| 6435/6844 [25:22<01:36,  4.25it/s] 94%|█████████▍| 6436/6844 [25:23<01:35,  4.25it/s] 94%|█████████▍| 6437/6844 [25:23<01:35,  4.25it/s] 94%|█████████▍| 6438/6844 [25:23<01:35,  4.25it/s] 94%|█████████▍| 6439/6844 [25:23<01:35,  4.26it/s] 94%|█████████▍| 6440/6844 [25:24<01:34,  4.25it/s] 94%|█████████▍| 6441/6844 [25:24<01:34,  4.25it/s] 94%|█████████▍| 6442/6844 [25:24<01:34,  4.25it/s] 94%|█████████▍| 6443/6844 [25:24<01:34,  4.25it/s] 94%|█████████▍| 6444/6844 [25:25<01:33,  4.26it/s] 94%|█████████▍| 6445/6844 [25:25<01:33,  4.26it/s] 94%|█████████▍| 6446/6844 [25:25<01:33,  4.26it/s] 94%|█████████▍| 6447/6844 [25:25<01:33,  4.25it/s] 94%|█████████▍| 6448/6844 [25:25<01:33,  4.25it/s] 94%|█████████▍| 6449/6844 [25:26<01:32,  4.25it/s] 94%|█████████▍| 6450/6844 [25:26<01:32,  4.24it/s]                                                   {'loss': 4.3308, 'grad_norm': 0.14021815359592438, 'learning_rate': 6.0381068183577806e-05, 'epoch': 0.19}
+ 94%|█████████▍| 6450/6844 [25:26<01:32,  4.24it/s] 94%|█████████▍| 6451/6844 [25:26<01:32,  4.24it/s] 94%|█████████▍| 6452/6844 [25:26<01:32,  4.24it/s] 94%|█████████▍| 6453/6844 [25:27<01:32,  4.24it/s] 94%|█████████▍| 6454/6844 [25:27<01:31,  4.25it/s] 94%|█████████▍| 6455/6844 [25:27<01:31,  4.25it/s] 94%|█████████▍| 6456/6844 [25:27<01:31,  4.25it/s] 94%|█████████▍| 6457/6844 [25:28<01:31,  4.25it/s] 94%|█████████▍| 6458/6844 [25:28<01:30,  4.25it/s] 94%|█████████▍| 6459/6844 [25:28<01:30,  4.25it/s] 94%|█████████▍| 6460/6844 [25:28<01:30,  4.25it/s] 94%|█████████▍| 6461/6844 [25:29<01:30,  4.25it/s] 94%|█████████▍| 6462/6844 [25:29<01:29,  4.26it/s] 94%|█████████▍| 6463/6844 [25:29<01:29,  4.27it/s] 94%|█████████▍| 6464/6844 [25:29<01:29,  4.26it/s] 94%|█████████▍| 6465/6844 [25:29<01:29,  4.26it/s] 94%|█████████▍| 6466/6844 [25:30<01:28,  4.26it/s] 94%|█████████▍| 6467/6844 [25:30<01:28,  4.26it/s] 95%|█████████▍| 6468/6844 [25:30<01:28,  4.26it/s] 95%|█████████▍| 6469/6844 [25:30<01:28,  4.26it/s] 95%|█████████▍| 6470/6844 [25:31<01:27,  4.26it/s] 95%|█████████▍| 6471/6844 [25:31<01:27,  4.26it/s] 95%|█████████▍| 6472/6844 [25:31<01:27,  4.27it/s] 95%|█████████▍| 6473/6844 [25:31<01:27,  4.26it/s] 95%|█████████▍| 6474/6844 [25:32<01:26,  4.26it/s] 95%|█████████▍| 6475/6844 [25:32<01:26,  4.25it/s]                                                   {'loss': 4.3211, 'grad_norm': 0.13965916633605957, 'learning_rate': 5.298352038793652e-05, 'epoch': 0.19}
+ 95%|█████████▍| 6475/6844 [25:32<01:26,  4.25it/s] 95%|█████████▍| 6476/6844 [25:32<01:26,  4.24it/s] 95%|█████████▍| 6477/6844 [25:32<01:26,  4.24it/s] 95%|█████████▍| 6478/6844 [25:33<01:26,  4.24it/s] 95%|█████████▍| 6479/6844 [25:33<01:26,  4.24it/s] 95%|█████████▍| 6480/6844 [25:33<01:25,  4.25it/s] 95%|█████████▍| 6481/6844 [25:33<01:25,  4.25it/s] 95%|█████████▍| 6482/6844 [25:33<01:25,  4.25it/s] 95%|█████████▍| 6483/6844 [25:34<01:24,  4.25it/s] 95%|█████████▍| 6484/6844 [25:34<01:24,  4.25it/s] 95%|█████████▍| 6485/6844 [25:34<01:24,  4.25it/s] 95%|█████████▍| 6486/6844 [25:34<01:24,  4.26it/s] 95%|█████████▍| 6487/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6488/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6489/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6490/6844 [25:35<01:23,  4.26it/s] 95%|█████████▍| 6491/6844 [25:36<01:22,  4.26it/s] 95%|█████████▍| 6492/6844 [25:36<01:22,  4.26it/s] 95%|█████████▍| 6493/6844 [25:36<01:22,  4.26it/s] 95%|█████████▍| 6494/6844 [25:36<01:22,  4.26it/s] 95%|█████████▍| 6495/6844 [25:37<01:22,  4.26it/s] 95%|█████████▍| 6496/6844 [25:37<01:21,  4.26it/s] 95%|█████████▍| 6497/6844 [25:37<01:21,  4.26it/s] 95%|█████████▍| 6498/6844 [25:37<01:21,  4.26it/s] 95%|█████████▍| 6499/6844 [25:37<01:21,  4.25it/s] 95%|█████████▍| 6500/6844 [25:38<01:20,  4.25it/s]{'loss': 4.3319, 'grad_norm': 0.13981270790100098, 'learning_rate': 4.606519380490315e-05, 'epoch': 0.19}                                                   
+ 95%|█████████▍| 6500/6844 [25:38<01:20,  4.25it/s] 95%|█████████▍| 6501/6844 [25:38<01:20,  4.24it/s] 95%|█████████▌| 6502/6844 [25:38<01:20,  4.25it/s] 95%|█████████▌| 6503/6844 [25:38<01:20,  4.25it/s] 95%|█████████▌| 6504/6844 [25:39<01:19,  4.25it/s] 95%|█████████▌| 6505/6844 [25:39<01:19,  4.25it/s] 95%|█████████▌| 6506/6844 [25:39<01:19,  4.25it/s] 95%|█████████▌| 6507/6844 [25:39<01:19,  4.26it/s] 95%|█████████▌| 6508/6844 [25:40<01:18,  4.25it/s] 95%|█████████▌| 6509/6844 [25:40<01:18,  4.25it/s] 95%|█████████▌| 6510/6844 [25:40<01:18,  4.26it/s] 95%|█████████▌| 6511/6844 [25:40<01:18,  4.26it/s] 95%|█████████▌| 6512/6844 [25:41<01:17,  4.26it/s] 95%|█████████▌| 6513/6844 [25:41<01:17,  4.26it/s] 95%|█████████▌| 6514/6844 [25:41<01:17,  4.26it/s] 95%|█████████▌| 6515/6844 [25:41<01:17,  4.26it/s] 95%|█████████▌| 6516/6844 [25:41<01:17,  4.25it/s] 95%|█████████▌| 6517/6844 [25:42<01:16,  4.26it/s] 95%|█████████▌| 6518/6844 [25:42<01:16,  4.26it/s] 95%|█████████▌| 6519/6844 [25:42<01:16,  4.26it/s] 95%|█████████▌| 6520/6844 [25:42<01:16,  4.26it/s] 95%|█████████▌| 6521/6844 [25:43<01:15,  4.25it/s] 95%|█████████▌| 6522/6844 [25:43<01:15,  4.26it/s] 95%|█████████▌| 6523/6844 [25:43<01:15,  4.26it/s] 95%|█████████▌| 6524/6844 [25:43<01:15,  4.26it/s] 95%|█████████▌| 6525/6844 [25:44<01:14,  4.27it/s]                                                   {'loss': 4.3177, 'grad_norm': 0.13898330926895142, 'learning_rate': 3.9627213439674015e-05, 'epoch': 0.19}
+ 95%|█████████▌| 6525/6844 [25:44<01:14,  4.27it/s] 95%|█████████▌| 6526/6844 [25:44<01:14,  4.25it/s] 95%|█████████▌| 6527/6844 [25:44<01:14,  4.25it/s] 95%|█████████▌| 6528/6844 [25:44<01:14,  4.26it/s] 95%|█████████▌| 6529/6844 [25:45<01:14,  4.25it/s] 95%|█████████▌| 6530/6844 [25:45<01:13,  4.25it/s] 95%|█████████▌| 6531/6844 [25:45<01:13,  4.26it/s] 95%|█████████▌| 6532/6844 [25:45<01:13,  4.26it/s] 95%|█████████▌| 6533/6844 [25:45<01:12,  4.27it/s] 95%|█████████▌| 6534/6844 [25:46<01:12,  4.27it/s] 95%|█████████▌| 6535/6844 [25:46<01:12,  4.27it/s] 95%|█████████▌| 6536/6844 [25:46<01:12,  4.27it/s] 96%|█████████▌| 6537/6844 [25:46<01:12,  4.26it/s] 96%|█████████▌| 6538/6844 [25:47<01:11,  4.27it/s] 96%|█████████▌| 6539/6844 [25:47<01:11,  4.26it/s] 96%|█████████▌| 6540/6844 [25:47<01:11,  4.27it/s] 96%|█████████▌| 6541/6844 [25:47<01:12,  4.19it/s] 96%|█████████▌| 6542/6844 [25:48<01:15,  4.02it/s] 96%|█████████▌| 6543/6844 [25:48<01:14,  4.04it/s] 96%|█████████▌| 6544/6844 [25:48<01:13,  4.11it/s] 96%|█████████▌| 6545/6844 [25:48<01:12,  4.15it/s] 96%|█████████▌| 6546/6844 [25:49<01:11,  4.18it/s] 96%|█████████▌| 6547/6844 [25:49<01:10,  4.20it/s] 96%|█████████▌| 6548/6844 [25:49<01:10,  4.22it/s] 96%|█████████▌| 6549/6844 [25:49<01:09,  4.23it/s] 96%|█████████▌| 6550/6844 [25:49<01:09,  4.24it/s]{'loss': 4.3374, 'grad_norm': 0.14175301790237427, 'learning_rate': 3.367062618722883e-05, 'epoch': 0.19}
+                                                    96%|█████████▌| 6550/6844 [25:49<01:09,  4.24it/s] 96%|█████████▌| 6551/6844 [25:50<01:09,  4.22it/s] 96%|█████████▌| 6552/6844 [25:50<01:08,  4.24it/s] 96%|█████████▌| 6553/6844 [25:50<01:08,  4.25it/s] 96%|█████████▌| 6554/6844 [25:50<01:08,  4.24it/s] 96%|█████████▌| 6555/6844 [25:51<01:08,  4.24it/s] 96%|█████████▌| 6556/6844 [25:51<01:07,  4.25it/s] 96%|█████████▌| 6557/6844 [25:51<01:07,  4.25it/s] 96%|█████████▌| 6558/6844 [25:51<01:07,  4.25it/s] 96%|█████████▌| 6559/6844 [25:52<01:06,  4.26it/s] 96%|█████████▌| 6560/6844 [25:52<01:06,  4.26it/s] 96%|█████████▌| 6561/6844 [25:52<01:06,  4.26it/s] 96%|█████████▌| 6562/6844 [25:52<01:06,  4.26it/s] 96%|█████████▌| 6563/6844 [25:53<01:06,  4.26it/s] 96%|█████████▌| 6564/6844 [25:53<01:05,  4.26it/s] 96%|█████████▌| 6565/6844 [25:53<01:05,  4.26it/s] 96%|█████████▌| 6566/6844 [25:53<01:05,  4.26it/s] 96%|█████████▌| 6567/6844 [25:53<01:04,  4.27it/s] 96%|█████████▌| 6568/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6569/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6570/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6571/6844 [25:54<01:04,  4.26it/s] 96%|█████████▌| 6572/6844 [25:55<01:03,  4.27it/s] 96%|█████████▌| 6573/6844 [25:55<01:03,  4.27it/s] 96%|█████████▌| 6574/6844 [25:55<01:03,  4.27it/s] 96%|█████████▌| 6575/6844 [25:55<01:03,  4.25it/s]                                                   {'loss': 4.3198, 'grad_norm': 0.14416950941085815, 'learning_rate': 2.819640066209217e-05, 'epoch': 0.19}
+ 96%|█████████▌| 6575/6844 [25:55<01:03,  4.25it/s] 96%|��████████▌| 6576/6844 [25:56<01:03,  4.24it/s] 96%|█████████▌| 6577/6844 [25:56<01:02,  4.25it/s] 96%|█████████▌| 6578/6844 [25:56<01:02,  4.26it/s] 96%|█████████▌| 6579/6844 [25:56<01:02,  4.26it/s] 96%|█████████▌| 6580/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6581/6844 [25:57<01:01,  4.27it/s] 96%|█████████▌| 6582/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6583/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6584/6844 [25:57<01:01,  4.26it/s] 96%|█████████▌| 6585/6844 [25:58<01:00,  4.26it/s] 96%|█████████▌| 6586/6844 [25:58<01:00,  4.26it/s] 96%|█████████▌| 6587/6844 [25:58<01:00,  4.26it/s] 96%|█████████▋| 6588/6844 [25:58<01:00,  4.26it/s] 96%|█████████▋| 6589/6844 [25:59<00:59,  4.26it/s] 96%|█████████▋| 6590/6844 [25:59<00:59,  4.27it/s] 96%|█████████▋| 6591/6844 [25:59<00:59,  4.27it/s] 96%|█████████▋| 6592/6844 [25:59<00:59,  4.26it/s] 96%|█████████▋| 6593/6844 [26:00<00:58,  4.27it/s] 96%|█████████▋| 6594/6844 [26:00<00:58,  4.26it/s] 96%|█████████▋| 6595/6844 [26:00<00:58,  4.27it/s] 96%|█████████▋| 6596/6844 [26:00<00:58,  4.26it/s] 96%|█████████▋| 6597/6844 [26:01<00:57,  4.26it/s] 96%|█████████▋| 6598/6844 [26:01<00:57,  4.26it/s] 96%|█████████▋| 6599/6844 [26:01<00:57,  4.26it/s] 96%|█████████▋| 6600/6844 [26:01<00:57,  4.26it/s]                                                   {'loss': 4.3374, 'grad_norm': 0.14116771519184113, 'learning_rate': 2.320542704082451e-05, 'epoch': 0.19}
+ 96%|█████████▋| 6600/6844 [26:01<00:57,  4.26it/s] 96%|█████████▋| 6601/6844 [26:01<00:57,  4.26it/s] 96%|█████████▋| 6602/6844 [26:02<00:56,  4.26it/s] 96%|█████████▋| 6603/6844 [26:02<00:56,  4.25it/s] 96%|█████████▋| 6604/6844 [26:02<00:56,  4.25it/s] 97%|█████████▋| 6605/6844 [26:02<00:56,  4.26it/s] 97%|█████████▋| 6606/6844 [26:03<00:55,  4.26it/s] 97%|█████████▋| 6607/6844 [26:03<00:55,  4.27it/s] 97%|█████████▋| 6608/6844 [26:03<00:55,  4.27it/s] 97%|█████████▋| 6609/6844 [26:03<00:55,  4.27it/s] 97%|█████████▋| 6610/6844 [26:04<00:54,  4.27it/s] 97%|█████████▋| 6611/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6612/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6613/6844 [26:04<00:54,  4.26it/s] 97%|█████████▋| 6614/6844 [26:05<00:54,  4.26it/s] 97%|█████████▋| 6615/6844 [26:05<00:53,  4.26it/s] 97%|█████████▋| 6616/6844 [26:05<00:53,  4.26it/s] 97%|█████████▋| 6617/6844 [26:05<00:53,  4.26it/s] 97%|█████████▋| 6618/6844 [26:05<00:52,  4.27it/s] 97%|█████████▋| 6619/6844 [26:06<00:52,  4.27it/s] 97%|█████████▋| 6620/6844 [26:06<00:52,  4.26it/s] 97%|█████████▋| 6621/6844 [26:06<00:52,  4.26it/s] 97%|█████████▋| 6622/6844 [26:06<00:52,  4.26it/s] 97%|█████████▋| 6623/6844 [26:07<00:51,  4.26it/s] 97%|█████████▋| 6624/6844 [26:07<00:51,  4.26it/s] 97%|█████████▋| 6625/6844 [26:07<00:51,  4.26it/s]                                                   {'loss': 4.3189, 'grad_norm': 0.14900606870651245, 'learning_rate': 1.869851691726965e-05, 'epoch': 0.19}
+ 97%|█████████▋| 6625/6844 [26:07<00:51,  4.26it/s] 97%|█████████▋| 6626/6844 [26:07<00:51,  4.25it/s] 97%|█████████▋| 6627/6844 [26:08<00:51,  4.25it/s] 97%|█████████▋| 6628/6844 [26:08<00:50,  4.25it/s] 97%|█████████▋| 6629/6844 [26:08<00:50,  4.25it/s] 97%|█████████▋| 6630/6844 [26:08<00:50,  4.26it/s] 97%|█████████▋| 6631/6844 [26:09<00:49,  4.26it/s] 97%|█████████▋| 6632/6844 [26:09<00:49,  4.26it/s] 97%|█████████▋| 6633/6844 [26:09<00:49,  4.27it/s] 97%|█████████▋| 6634/6844 [26:09<00:49,  4.26it/s] 97%|█████████▋| 6635/6844 [26:09<00:49,  4.26it/s] 97%|█████████▋| 6636/6844 [26:10<00:48,  4.26it/s] 97%|█████████▋| 6637/6844 [26:10<00:48,  4.26it/s] 97%|█████████▋| 6638/6844 [26:10<00:48,  4.26it/s] 97%|█████████▋| 6639/6844 [26:10<00:48,  4.27it/s] 97%|█████████▋| 6640/6844 [26:11<00:47,  4.27it/s] 97%|█████████▋| 6641/6844 [26:11<00:47,  4.26it/s] 97%|█████████▋| 6642/6844 [26:11<00:47,  4.26it/s] 97%|█████████▋| 6643/6844 [26:11<00:47,  4.27it/s] 97%|█████████▋| 6644/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6645/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6646/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6647/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6648/6844 [26:12<00:46,  4.26it/s] 97%|█████████▋| 6649/6844 [26:13<00:45,  4.26it/s] 97%|█████████▋| 6650/6844 [26:13<00:45,  4.27it/s]                                                   {'loss': 4.3367, 'grad_norm': 0.14126594364643097, 'learning_rate': 1.4676403170577613e-05, 'epoch': 0.19}
+ 97%|█████████▋| 6650/6844 [26:13<00:45,  4.27it/s] 97%|█████████▋| 6651/6844 [26:13<00:45,  4.25it/s] 97%|█████████▋| 6652/6844 [26:13<00:45,  4.25it/s] 97%|█████████▋| 6653/6844 [26:14<00:44,  4.25it/s] 97%|█████████▋| 6654/6844 [26:14<00:44,  4.25it/s] 97%|█████████▋| 6655/6844 [26:14<00:44,  4.25it/s] 97%|█████████▋| 6656/6844 [26:14<00:44,  4.26it/s] 97%|█████████▋| 6657/6844 [26:15<00:43,  4.26it/s] 97%|█████████▋| 6658/6844 [26:15<00:43,  4.27it/s] 97%|█████████▋| 6659/6844 [26:15<00:43,  4.27it/s] 97%|█████████▋| 6660/6844 [26:15<00:43,  4.27it/s] 97%|█████████▋| 6661/6844 [26:16<00:42,  4.26it/s] 97%|█████████▋| 6662/6844 [26:16<00:42,  4.25it/s] 97%|█████████▋| 6663/6844 [26:16<00:42,  4.26it/s] 97%|█████████▋| 6664/6844 [26:16<00:42,  4.26it/s] 97%|█████████▋| 6665/6844 [26:16<00:41,  4.27it/s] 97%|█████████▋| 6666/6844 [26:17<00:41,  4.26it/s] 97%|█████████▋| 6667/6844 [26:17<00:41,  4.26it/s] 97%|█████████▋| 6668/6844 [26:17<00:41,  4.25it/s] 97%|█████████▋| 6669/6844 [26:17<00:41,  4.24it/s] 97%|█████████▋| 6670/6844 [26:18<00:42,  4.05it/s] 97%|█████████▋| 6671/6844 [26:18<00:42,  4.12it/s] 97%|█████████▋| 6672/6844 [26:18<00:41,  4.15it/s] 98%|█████████▊| 6673/6844 [26:18<00:40,  4.18it/s] 98%|█████████▊| 6674/6844 [26:19<00:40,  4.21it/s] 98%|█████████▊| 6675/6844 [26:19<00:40,  4.22it/s]                                                   {'loss': 4.3302, 'grad_norm': 0.14252199232578278, 'learning_rate': 1.113973984603167e-05, 'epoch': 0.2}
+ 98%|█████████▊| 6675/6844 [26:19<00:40,  4.22it/s] 98%|█████████▊| 6676/6844 [26:19<00:39,  4.22it/s] 98%|█████████▊| 6677/6844 [26:19<00:39,  4.23it/s] 98%|█████████▊| 6678/6844 [26:20<00:39,  4.24it/s] 98%|█████████▊| 6679/6844 [26:20<00:38,  4.23it/s] 98%|█████████▊| 6680/6844 [26:20<00:38,  4.24it/s] 98%|█████████▊| 6681/6844 [26:20<00:38,  4.25it/s] 98%|█████████▊| 6682/6844 [26:21<00:38,  4.25it/s] 98%|█████████▊| 6683/6844 [26:21<00:37,  4.25it/s] 98%|█████████▊| 6684/6844 [26:21<00:37,  4.25it/s] 98%|█████████▊| 6685/6844 [26:21<00:37,  4.26it/s] 98%|█████████▊| 6686/6844 [26:21<00:37,  4.25it/s] 98%|█████████▊| 6687/6844 [26:22<00:36,  4.25it/s] 98%|█████████▊| 6688/6844 [26:22<00:36,  4.25it/s] 98%|█████████▊| 6689/6844 [26:22<00:36,  4.25it/s] 98%|█████████▊| 6690/6844 [26:22<00:36,  4.25it/s] 98%|█████████▊| 6691/6844 [26:23<00:35,  4.26it/s] 98%|█████████▊| 6692/6844 [26:23<00:35,  4.26it/s] 98%|█████████▊| 6693/6844 [26:23<00:35,  4.26it/s] 98%|█████████▊| 6694/6844 [26:23<00:35,  4.26it/s] 98%|█████████▊| 6695/6844 [26:24<00:34,  4.26it/s] 98%|█████████▊| 6696/6844 [26:24<00:34,  4.26it/s] 98%|█████████▊| 6697/6844 [26:24<00:34,  4.26it/s] 98%|█████████▊| 6698/6844 [26:24<00:34,  4.26it/s] 98%|█████████▊| 6699/6844 [26:25<00:34,  4.26it/s] 98%|█████████▊| 6700/6844 [26:25<00:33,  4.26it/s]                                                   {'loss': 4.3311, 'grad_norm': 0.13695254921913147, 'learning_rate': 8.089102048690732e-06, 'epoch': 0.2}
+ 98%|█████████▊| 6700/6844 [26:25<00:33,  4.26it/s] 98%|█████████▊| 6701/6844 [26:25<00:33,  4.25it/s] 98%|███��█████▊| 6702/6844 [26:25<00:33,  4.25it/s] 98%|█████████▊| 6703/6844 [26:25<00:33,  4.25it/s] 98%|█████████▊| 6704/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6705/6844 [26:26<00:32,  4.26it/s] 98%|█████████▊| 6706/6844 [26:26<00:32,  4.26it/s] 98%|█████████▊| 6707/6844 [26:26<00:32,  4.25it/s] 98%|█████████▊| 6708/6844 [26:27<00:32,  4.24it/s] 98%|█████████▊| 6709/6844 [26:27<00:31,  4.25it/s] 98%|█████████▊| 6710/6844 [26:27<00:31,  4.25it/s] 98%|█████████▊| 6711/6844 [26:27<00:31,  4.26it/s] 98%|█████████▊| 6712/6844 [26:28<00:30,  4.26it/s] 98%|█████████▊| 6713/6844 [26:28<00:30,  4.26it/s] 98%|█████████▊| 6714/6844 [26:28<00:30,  4.26it/s] 98%|█████████▊| 6715/6844 [26:28<00:30,  4.26it/s] 98%|█████████▊| 6716/6844 [26:29<00:30,  4.26it/s] 98%|█████████▊| 6717/6844 [26:29<00:29,  4.25it/s] 98%|█████████▊| 6718/6844 [26:29<00:29,  4.26it/s] 98%|█████████▊| 6719/6844 [26:29<00:29,  4.26it/s] 98%|█████████▊| 6720/6844 [26:29<00:29,  4.26it/s] 98%|█████████▊| 6721/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6722/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6723/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6724/6844 [26:30<00:28,  4.25it/s] 98%|█████████▊| 6725/6844 [26:31<00:28,  4.25it/s]{'loss': 4.3375, 'grad_norm': 0.1414726972579956, 'learning_rate': 5.524985849871156e-06, 'epoch': 0.2}
+                                                    98%|█████████▊| 6725/6844 [26:31<00:28,  4.25it/s] 98%|█████████▊| 6726/6844 [26:31<00:27,  4.24it/s] 98%|█████████▊| 6727/6844 [26:31<00:27,  4.24it/s] 98%|█████████▊| 6728/6844 [26:31<00:27,  4.24it/s] 98%|█████████▊| 6729/6844 [26:32<00:27,  4.24it/s] 98%|█████████▊| 6730/6844 [26:32<00:26,  4.25it/s] 98%|█████████▊| 6731/6844 [26:32<00:26,  4.25it/s] 98%|█████████▊| 6732/6844 [26:32<00:26,  4.26it/s] 98%|█████████▊| 6733/6844 [26:33<00:26,  4.25it/s] 98%|█████████▊| 6734/6844 [26:33<00:25,  4.26it/s] 98%|█████████▊| 6735/6844 [26:33<00:25,  4.26it/s] 98%|█████████▊| 6736/6844 [26:33<00:25,  4.25it/s] 98%|█████████▊| 6737/6844 [26:33<00:25,  4.26it/s] 98%|█████████▊| 6738/6844 [26:34<00:24,  4.26it/s] 98%|█████████▊| 6739/6844 [26:34<00:24,  4.26it/s] 98%|█████████▊| 6740/6844 [26:34<00:24,  4.26it/s] 98%|█████████▊| 6741/6844 [26:34<00:24,  4.26it/s] 99%|█████████▊| 6742/6844 [26:35<00:23,  4.26it/s] 99%|█████████▊| 6743/6844 [26:35<00:23,  4.26it/s] 99%|█████████▊| 6744/6844 [26:35<00:23,  4.26it/s] 99%|█████████▊| 6745/6844 [26:35<00:23,  4.26it/s] 99%|█████████▊| 6746/6844 [26:36<00:23,  4.25it/s] 99%|█████████▊| 6747/6844 [26:36<00:22,  4.26it/s] 99%|█████████▊| 6748/6844 [26:36<00:22,  4.26it/s] 99%|█████████▊| 6749/6844 [26:36<00:22,  4.26it/s] 99%|█████████▊| 6750/6844 [26:37<00:22,  4.27it/s]{'loss': 4.3298, 'grad_norm': 0.140458345413208, 'learning_rate': 3.447808206479608e-06, 'epoch': 0.2}
+                                                    99%|█████████▊| 6750/6844 [26:37<00:22,  4.27it/s] 99%|█████████▊| 6751/6844 [26:37<00:21,  4.24it/s] 99%|█████████▊| 6752/6844 [26:37<00:21,  4.25it/s] 99%|█████████▊| 6753/6844 [26:37<00:21,  4.25it/s] 99%|█████████▊| 6754/6844 [26:37<00:21,  4.25it/s] 99%|█████████▊| 6755/6844 [26:38<00:20,  4.25it/s] 99%|█████████▊| 6756/6844 [26:38<00:20,  4.25it/s] 99%|█████████▊| 6757/6844 [26:38<00:20,  4.25it/s] 99%|█████████▊| 6758/6844 [26:38<00:20,  4.26it/s] 99%|█████████▉| 6759/6844 [26:39<00:19,  4.26it/s] 99%|█████████▉| 6760/6844 [26:39<00:19,  4.25it/s] 99%|█████████▉| 6761/6844 [26:39<00:19,  4.26it/s] 99%|█████████▉| 6762/6844 [26:39<00:19,  4.26it/s] 99%|█████████▉| 6763/6844 [26:40<00:19,  4.26it/s] 99%|█████████▉| 6764/6844 [26:40<00:18,  4.26it/s] 99%|█████████▉| 6765/6844 [26:40<00:18,  4.26it/s] 99%|█████████▉| 6766/6844 [26:40<00:18,  4.25it/s] 99%|█████████▉| 6767/6844 [26:41<00:18,  4.26it/s] 99%|█████████▉| 6768/6844 [26:41<00:17,  4.26it/s] 99%|█████████▉| 6769/6844 [26:41<00:17,  4.26it/s] 99%|█████████▉| 6770/6844 [26:41<00:17,  4.26it/s] 99%|█████████▉| 6771/6844 [26:41<00:17,  4.25it/s] 99%|█████████▉| 6772/6844 [26:42<00:16,  4.25it/s] 99%|█████████▉| 6773/6844 [26:42<00:17,  4.12it/s] 99%|█████████▉| 6774/6844 [26:42<00:16,  4.16it/s] 99%|█████████▉| 6775/6844 [26:42<00:16,  4.19it/s]                                                   {'loss': 4.337, 'grad_norm': 0.14443406462669373, 'learning_rate': 1.8579068932096376e-06, 'epoch': 0.2}
+ 99%|█████████▉| 6775/6844 [26:42<00:16,  4.19it/s] 99%|█████████▉| 6776/6844 [26:43<00:16,  4.20it/s] 99%|█████████▉| 6777/6844 [26:43<00:15,  4.22it/s] 99%|█████████▉| 6778/6844 [26:43<00:15,  4.23it/s] 99%|█████████▉| 6779/6844 [26:43<00:15,  4.24it/s] 99%|█████████▉| 6780/6844 [26:44<00:15,  4.24it/s] 99%|█████████▉| 6781/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6782/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6783/6844 [26:44<00:14,  4.25it/s] 99%|█████████▉| 6784/6844 [26:45<00:14,  4.26it/s] 99%|█████████▉| 6785/6844 [26:45<00:13,  4.26it/s] 99%|█████████▉| 6786/6844 [26:45<00:13,  4.26it/s] 99%|█████████▉| 6787/6844 [26:45<00:13,  4.26it/s] 99%|█████████▉| 6788/6844 [26:45<00:13,  4.26it/s] 99%|█████████▉| 6789/6844 [26:46<00:12,  4.26it/s] 99%|█████████▉| 6790/6844 [26:46<00:12,  4.25it/s] 99%|█████████▉| 6791/6844 [26:46<00:12,  4.25it/s] 99%|█████████▉| 6792/6844 [26:46<00:12,  4.25it/s] 99%|█████████▉| 6793/6844 [26:47<00:11,  4.25it/s] 99%|█████████▉| 6794/6844 [26:47<00:11,  4.26it/s] 99%|█████████▉| 6795/6844 [26:47<00:11,  4.26it/s] 99%|█████████▉| 6796/6844 [26:47<00:11,  4.25it/s] 99%|█████████▉| 6797/6844 [26:48<00:11,  4.06it/s] 99%|█████████▉| 6798/6844 [26:48<00:11,  4.12it/s] 99%|█████████▉| 6799/6844 [26:48<00:10,  4.16it/s] 99%|█████████▉| 6800/6844 [26:48<00:10,  4.18it/s]                                                   {'loss': 4.3334, 'grad_norm': 0.13928258419036865, 'learning_rate': 7.555404476162764e-07, 'epoch': 0.2}
+ 99%|█████████▉| 6800/6844 [26:48<00:10,  4.18it/s] 99%|█████████▉| 6801/6844 [26:49<00:10,  4.18it/s] 99%|█████████▉| 6802/6844 [26:49<00:09,  4.21it/s] 99%|█████████▉| 6803/6844 [26:49<00:09,  4.22it/s] 99%|█████████▉| 6804/6844 [26:49<00:09,  4.23it/s] 99%|█████████▉| 6805/6844 [26:50<00:09,  4.24it/s] 99%|█████████▉| 6806/6844 [26:50<00:08,  4.24it/s] 99%|█████████▉| 6807/6844 [26:50<00:08,  4.25it/s] 99%|█████████▉| 6808/6844 [26:50<00:08,  4.25it/s] 99%|█████████▉| 6809/6844 [26:50<00:08,  4.25it/s]100%|█████████▉| 6810/6844 [26:51<00:08,  4.25it/s]100%|█████████▉| 6811/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6812/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6813/6844 [26:51<00:07,  4.26it/s]100%|█████████▉| 6814/6844 [26:52<00:07,  4.26it/s]100%|█████████▉| 6815/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6816/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6817/6844 [26:52<00:06,  4.26it/s]100%|█████████▉| 6818/6844 [26:53<00:06,  4.26it/s]100%|█████████▉| 6819/6844 [26:53<00:05,  4.27it/s]100%|█████████▉| 6820/6844 [26:53<00:05,  4.27it/s]100%|█████████▉| 6821/6844 [26:53<00:05,  4.27it/s]100%|█████████▉| 6822/6844 [26:53<00:05,  4.26it/s]100%|█████████▉| 6823/6844 [26:54<00:04,  4.26it/s]100%|█████████▉| 6824/6844 [26:54<00:04,  4.26it/s]100%|█████████▉| 6825/6844 [26:54<00:04,  4.26it/s]{'loss': 4.3115, 'grad_norm': 0.13898158073425293, 'learning_rate': 1.4088812807466767e-07, 'epoch': 0.2}                                                   
+100%|█████████▉| 6825/6844 [26:54<00:04,  4.26it/s]100%|█████████▉| 6826/6844 [26:54<00:04,  4.12it/s]100%|█████████▉| 6827/6844 [26:55<00:04,  4.01it/s]100%|████████��▉| 6828/6844 [26:55<00:04,  3.94it/s]100%|█████████▉| 6829/6844 [26:55<00:03,  3.91it/s]100%|█████████▉| 6830/6844 [26:56<00:03,  3.87it/s]100%|█████████▉| 6831/6844 [26:56<00:03,  3.85it/s]100%|█████████▉| 6832/6844 [26:56<00:03,  3.83it/s]100%|█████████▉| 6833/6844 [26:56<00:02,  3.82it/s]100%|█████████▉| 6834/6844 [26:57<00:02,  3.82it/s]100%|█████████▉| 6835/6844 [26:57<00:02,  3.83it/s]100%|█████████▉| 6836/6844 [26:57<00:02,  3.84it/s]100%|█████████▉| 6837/6844 [26:57<00:01,  3.84it/s]100%|█████████▉| 6838/6844 [26:58<00:01,  3.83it/s]100%|█████████▉| 6839/6844 [26:58<00:01,  3.83it/s]100%|█████████▉| 6840/6844 [26:58<00:01,  3.82it/s]100%|█████████▉| 6841/6844 [26:58<00:00,  3.83it/s]100%|█████████▉| 6842/6844 [26:59<00:00,  3.79it/s]100%|█████████▉| 6843/6844 [26:59<00:00,  3.76it/s]100%|██████████| 6844/6844 [26:59<00:00,  3.78it/s]{'train_runtime': 1622.3356, 'train_samples_per_second': 1349.883, 'train_steps_per_second': 4.219, 'train_loss': 4.707035578600083, 'epoch': 0.2}                                                   
+100%|██████████| 6844/6844 [27:02<00:00,  3.78it/s]100%|██████████| 6844/6844 [27:02<00:00,  4.22it/s]